Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
компьютерное представление молекул_26.03.13.docx
Скачиваний:
2
Добавлен:
01.05.2025
Размер:
6.01 Mб
Скачать

Xyz координаты

XYZ формат точно устанавливает геометрию молекулы, давая число атомов в декартовых координатах, которые можно прочитать на первой линии, комментарии – на второй линии, а линии атомных координат находятся на последующих линиях. Этот формат используется в программах компьютерной химии для импорта и экспорта геометрии. Эти единицы выражаются в большинстве случаев в ангстремах.

Формат состоит из:

<number of atoms> comment line atom_symbol1 x-coord1 y-coord1 z-coord1 atom_symbol2 x-coord2 y-coord1 z-coord2 ... atom_symboln x-coordn y-coordn z-coordn

Некоторые варианты включают использование атомные числа вместо атомных символов или пропускание линии комментариев. Файлы, использующие XYZ формат, условно имеют .XYZ расширение.

Например, молекулу метана можно описать следующими декартовыми координатами (в ангстремах):

5

methane molecule (comment)

C 0.000000 0.000000 0.000000

H 0.000000 0.000000 1.089000

H 1.026719 0.000000 -0.363000

H -0.513360 -0.889165 -0.363000

H -0.513360 0.889165 -0.363000

Молекула этаналя также может быть описана в XYZ координатах, где помимо координат еще можно увидеть связи одних атомов с другими.

координата Х координата Y координата Z связь с атомом

Продолжающиеся таблицы (соединения)

Главный недостаток представления матриц для молекулярных граф состоит в том, что число значений увеличивается во второй степени с числом атомов в молекуле. Необходимо, чтобы было такое представление молекулярного графа, в котором число значений увеличивается только как линейная функция числа атомов в молекуле. Такое представление может быть получено путем перечисления в табличной форме только атомов и связей молекулярной структуры. В этом случае, индексы ряда и колонки значений матрицы можно использовать для идентификации значения. Необходимо различать каждый атом и каждую связь в молекуле. Это достигается при помощи перечисления атомов и связей, давая соединения между атомами. Такое представление называется продолжающейся таблицей (СТ).

Существует много способов представления продолжающейся таблицы. Первый способ состоит в произвольной маркировке каждого атома молекулы и расположении их в перечне атомов (рис. 2.20).

Перечень атомов

1

С

2

С

3

О

4

Н

5

Н

6

Н

7

Н


Перечень связей

1-ый атом

2-ой атом

Порядок связи

1

2

1

2

3

2

2

7

1

1

4

1

1

5

1

1

6

1

Рис. 2.20. Продолжающаяся таблица: структурная диаграмма этаналя с произвольно маркированными атомами определяется перечислением атомов и связей.

Тогда информация о связи находится во второй таблице с указанием атомов, которые соединяются связью. Кроме того, порядок связи соответствующего соединения записывается как целочисленный код (1=одинарная связь, 2= двойная связь и т.д.) и находится в третьей колонке.

Альтернативная продолжающаяся таблица в форме избыточной СТ показана на рис. 2.21.

атомный индекс

элемент

1-ый индекс атома

порядок связи

2-ой индекс атома

порядок связи

3-ий индекс атома

порядок связи

4-ый индекс атома

порядок связи

1

С

2

1

4

1

5

1

6

1

2

С

1

1

3

2

7

1

3

О

2

2

4

Н

1

1

5

Н

1

1

6

Н

1

1

7

Н

2

1

Рис. 2.21. Избыточная продолжающаяся таблица этаналя.

Из рисунка видно, что первые две колонки таблицы дают индекс атома и соответствующий символ элемента. Перечень связей интегрируется в табличную форму, в которой характеризуются атомы. Атом может быть связан с различными другими атомами: атом с индексом 1 связан с атомами 2, 4, 5 и 7. это можно записать в одну линию. Данный ряд содержит фокусированный атом в перечне атомов, за которым следует указание всех атомов, с которыми этот атом связан. Порядок связи обозначается 1 для одинарной связи, 2 – для двойной связи и т.д. В нашем примере, атом 1 (атом углерода) связан с углеродным атомом 2 через одинарную связь и с атомами водорода 4, 5 и 6 через одинарную связь (рис. 2.21).

Подобно представлению матриц продолжающаяся таблица также содержит избыточную информацию, которая может быть исключена. Помимо дубликатов, атомы водорода также можно пропустить в «стандартных» органических соединениях (рис. 2.22).

атомный индекс

элемент

1-ый индекс атома

порядок связи

2-ой индекс атома

порядок связи

1

С

2

1

2

С

3

2

3

О



атомный индекс

элемент

1-ый индекс атома

порядок связи

1

С

2

1

2

С

3

2

3

О



Рис. 2.22. Неизбыточная продолжающаяся таблица этаналя. Рассматриваются только неводородные атомы, связи с самыми низкими индексами вычисляются один раз.

Почти все химические информационные системы работают со своим собственным специальным типом продолжающихся таблиц. Они часто используют форматы, отличающие внутренние и внешние продолжающиеся таблицы. Во многих случаях внутренние продолжающиеся таблицы являются дублирующими, тем самым увеличивая скорость обработки данных. Внешние продолжающиеся таблицы обычно являются неизбыточными для сохранения пространства информации на диске. Хотя продолжающиеся таблицы можно представить разными способами, но в основе лежит перечень атомов и связей.

количество атомов количество связей координата Х координата Y координата Z

Кодирование структуры

Второй тип внешнего представления структур химических соединений и реакций между ними основан на непосредственном кодировании матрицы смежности молекулярного графа. Такие распространенные форматы как MOL, SDF и RDF, которые в настоящее время являются стандартными для обмена химической информацией, можно считать способами представления в виде текстового файла матрицы смежности молекулярного графа. Этой же цели служат и специфические форматы MOL2, HIN, PCM и др., предназначенные для работы с распространенными программами по молекулярному программированию.

Существует множество типов форматов файлов для хранения информации о химических структурах (табл. ). Тем не менее только некоторые из них широко принимаются в хемоинформационном обществе и используются в качестве стандартных форматов для обмена информацией о химических структурах и реакций.

Табл. Наиболее важные форматы файлов для обмена информацией о химической структуре

Формат файла

Суффикс

Комментарии

Поддержка

MDL

Molfile

*.mol

Мол-файл, наиболее широко используемый табличный формат

www.mdli.com

SDfile

*.sdf

Файл по данным о структуре, расширение MDL мол-файла, содержащий одно или несколько соединений

www.mdli.com

RDfile

*.rdf

Файл по данным о реакции, расширение MDL мол-файла, содержащий одну или набор из нескольких реакций

www.mdli.com

SMILES

*.smi

SMILES, наиболее широко используемый линейный код и формат файла

www.daylight.com

PDB file

*.pdb

Файл банка данных о белках, формат по информации о 3D структуре белков и полинуклеотидов

www.rcsb.org

CIF

*.cif

Формат файла по кристаллографической информации, для информации о 3D структуре органических молекул

www.iucr.org/iucr-top/cif

JCAMP

*.jdx

*.dx

*.cs

Совместный комитет по атомным и молекулярным физическим данным, формат по структурным и спектроскопическим данным

www.jcamp.org

CML

*.cml

Язык химической разметки, расширение XML со специализацией в химии

www.xml-cml.org

Наиболее широко используемыми являются два формата Mol-file и SDfile, которые были впервые описаны группой Dalby из компании MDL (Molecular Design Limited).

Мол-файл (Mol-file)

Мол-файл описывает одну молекулярную структуру, которая может содержать разделенные фрагменты.