
- •Оглавление
- •Введение
- •Представление информации в компьютере, единицы измерения информации
- •Информационно-поисковые языки
- •Представление молекул в компьютерном виде
- •Линейные нотации
- •Линейная нотация Висвессера - Wiswesser Line Notation (wln)
- •Правила wln
- •Алгоритм кодирования в wln
- •Алгоритм декодирования в wln
- •Representation of Organic Structure Description Arranged Linearly (rosdal)
- •Правила rosdal.
- •Smiles (Simplified Molecular Input Line Entry System)
- •Правила smiles.
- •Sln Sybyl Line Notation
- •Правила sln.
- •Табличные представления
- •Xyz координаты
- •1. Nsc7594 acetaldehyde
- •Xyz координаты
- •1. Nsc7594 acetaldehyde
- •Алгоритм Моргана
- •Cangen алгоритм (caNonically geNerated)
- •InChI - International Chemical Identifier
- •Правила InChI
- •InChIKey – ключ для поиска структуры
- •Iupac International Chemical Identifier (InChI) Program Version 1, Software version 1.01
- •InChI Software Version 1.02 – final, implemented for Standard InChI/ InChIKey, January 2009
- •Задачи для самостоятельной работы
- •Задание 2.
Xyz координаты
XYZ формат точно устанавливает геометрию молекулы, давая число атомов в декартовых координатах, которые можно прочитать на первой линии, комментарии – на второй линии, а линии атомных координат находятся на последующих линиях. Этот формат используется в программах компьютерной химии для импорта и экспорта геометрии. Эти единицы выражаются в большинстве случаев в ангстремах.
Формат состоит из:
<number of atoms> comment line atom_symbol1 x-coord1 y-coord1 z-coord1 atom_symbol2 x-coord2 y-coord1 z-coord2 ... atom_symboln x-coordn y-coordn z-coordn
Некоторые варианты включают использование атомные числа вместо атомных символов или пропускание линии комментариев. Файлы, использующие XYZ формат, условно имеют .XYZ расширение.
Например, молекулу метана можно описать следующими декартовыми координатами (в ангстремах):
5
methane molecule (comment)
C 0.000000 0.000000 0.000000
H 0.000000 0.000000 1.089000
H 1.026719 0.000000 -0.363000
H -0.513360 -0.889165 -0.363000
H -0.513360 0.889165 -0.363000
Молекула этаналя также может быть описана в XYZ координатах, где помимо координат еще можно увидеть связи одних атомов с другими.
координата Х координата Y координата Z связь с атомом
Продолжающиеся таблицы (соединения)
Главный недостаток представления матриц для молекулярных граф состоит в том, что число значений увеличивается во второй степени с числом атомов в молекуле. Необходимо, чтобы было такое представление молекулярного графа, в котором число значений увеличивается только как линейная функция числа атомов в молекуле. Такое представление может быть получено путем перечисления в табличной форме только атомов и связей молекулярной структуры. В этом случае, индексы ряда и колонки значений матрицы можно использовать для идентификации значения. Необходимо различать каждый атом и каждую связь в молекуле. Это достигается при помощи перечисления атомов и связей, давая соединения между атомами. Такое представление называется продолжающейся таблицей (СТ).
Существует много способов представления продолжающейся таблицы. Первый способ состоит в произвольной маркировке каждого атома молекулы и расположении их в перечне атомов (рис. 2.20).
Перечень атомов |
|
1 |
С |
2 |
С |
3 |
О |
4 |
Н |
5 |
Н |
6 |
Н |
7 |
Н |
Перечень связей |
||
1-ый атом |
2-ой атом |
Порядок связи |
1 |
2 |
1 |
2 |
3 |
2 |
2 |
7 |
1 |
1 |
4 |
1 |
1 |
5 |
1 |
1 |
6 |
1 |
Рис. 2.20. Продолжающаяся таблица: структурная диаграмма этаналя с произвольно маркированными атомами определяется перечислением атомов и связей.
Тогда информация о связи находится во второй таблице с указанием атомов, которые соединяются связью. Кроме того, порядок связи соответствующего соединения записывается как целочисленный код (1=одинарная связь, 2= двойная связь и т.д.) и находится в третьей колонке.
Альтернативная продолжающаяся таблица в форме избыточной СТ показана на рис. 2.21.
атомный индекс |
элемент |
1-ый индекс атома |
порядок связи |
2-ой индекс атома |
порядок связи |
3-ий индекс атома |
порядок связи |
4-ый индекс атома |
порядок связи |
1 |
С |
2 |
1 |
4 |
1 |
5 |
1 |
6 |
1 |
2 |
С |
1 |
1 |
3 |
2 |
7 |
1 |
|
|
3 |
О |
2 |
2 |
|
|
|
|
|
|
4 |
Н |
1 |
1 |
|
|
|
|
|
|
5 |
Н |
1 |
1 |
|
|
|
|
|
|
6 |
Н |
1 |
1 |
|
|
|
|
|
|
7 |
Н |
2 |
1 |
|
|
|
|
|
|
Рис. 2.21. Избыточная продолжающаяся таблица этаналя.
Из рисунка видно, что первые две колонки таблицы дают индекс атома и соответствующий символ элемента. Перечень связей интегрируется в табличную форму, в которой характеризуются атомы. Атом может быть связан с различными другими атомами: атом с индексом 1 связан с атомами 2, 4, 5 и 7. это можно записать в одну линию. Данный ряд содержит фокусированный атом в перечне атомов, за которым следует указание всех атомов, с которыми этот атом связан. Порядок связи обозначается 1 для одинарной связи, 2 – для двойной связи и т.д. В нашем примере, атом 1 (атом углерода) связан с углеродным атомом 2 через одинарную связь и с атомами водорода 4, 5 и 6 через одинарную связь (рис. 2.21).
Подобно представлению матриц продолжающаяся таблица также содержит избыточную информацию, которая может быть исключена. Помимо дубликатов, атомы водорода также можно пропустить в «стандартных» органических соединениях (рис. 2.22).
атомный индекс |
элемент |
1-ый индекс атома |
порядок связи |
2-ой индекс атома |
порядок связи |
1 |
С |
2 |
1 |
|
|
2 |
С |
|
|
3 |
2 |
3 |
О |
|
|
|
|
атомный индекс |
элемент |
1-ый индекс атома |
порядок связи |
1 |
С |
2 |
1 |
2 |
С |
3 |
2 |
3 |
О |
|
|
Рис. 2.22. Неизбыточная продолжающаяся таблица этаналя. Рассматриваются только неводородные атомы, связи с самыми низкими индексами вычисляются один раз.
Почти все химические информационные системы работают со своим собственным специальным типом продолжающихся таблиц. Они часто используют форматы, отличающие внутренние и внешние продолжающиеся таблицы. Во многих случаях внутренние продолжающиеся таблицы являются дублирующими, тем самым увеличивая скорость обработки данных. Внешние продолжающиеся таблицы обычно являются неизбыточными для сохранения пространства информации на диске. Хотя продолжающиеся таблицы можно представить разными способами, но в основе лежит перечень атомов и связей.
количество
атомов количество связей координата
Х координата Y
координата Z
Кодирование структуры
Второй тип внешнего представления структур химических соединений и реакций между ними основан на непосредственном кодировании матрицы смежности молекулярного графа. Такие распространенные форматы как MOL, SDF и RDF, которые в настоящее время являются стандартными для обмена химической информацией, можно считать способами представления в виде текстового файла матрицы смежности молекулярного графа. Этой же цели служат и специфические форматы MOL2, HIN, PCM и др., предназначенные для работы с распространенными программами по молекулярному программированию.
Существует множество типов форматов файлов для хранения информации о химических структурах (табл. ). Тем не менее только некоторые из них широко принимаются в хемоинформационном обществе и используются в качестве стандартных форматов для обмена информацией о химических структурах и реакций.
Табл. Наиболее важные форматы файлов для обмена информацией о химической структуре
Формат файла |
Суффикс |
Комментарии |
Поддержка |
MDL Molfile |
*.mol |
Мол-файл, наиболее широко используемый табличный формат |
www.mdli.com |
SDfile |
*.sdf |
Файл по данным о структуре, расширение MDL мол-файла, содержащий одно или несколько соединений |
www.mdli.com |
RDfile |
*.rdf |
Файл по данным о реакции, расширение MDL мол-файла, содержащий одну или набор из нескольких реакций |
www.mdli.com |
SMILES |
*.smi |
SMILES, наиболее широко используемый линейный код и формат файла |
www.daylight.com |
PDB file |
*.pdb |
Файл банка данных о белках, формат по информации о 3D структуре белков и полинуклеотидов |
www.rcsb.org |
CIF |
*.cif |
Формат файла по кристаллографической информации, для информации о 3D структуре органических молекул |
www.iucr.org/iucr-top/cif |
JCAMP |
*.jdx *.dx *.cs |
Совместный комитет по атомным и молекулярным физическим данным, формат по структурным и спектроскопическим данным |
www.jcamp.org |
CML |
*.cml |
Язык химической разметки, расширение XML со специализацией в химии |
www.xml-cml.org |
Наиболее широко используемыми являются два формата Mol-file и SDfile, которые были впервые описаны группой Dalby из компании MDL (Molecular Design Limited).
Мол-файл (Mol-file)
Мол-файл описывает одну молекулярную структуру, которая может содержать разделенные фрагменты.