- •Оглавление
- •Введение
- •Представление информации в компьютере, единицы измерения информации
- •Информационно-поисковые языки
- •Представление молекул в компьютерном виде
- •Линейные нотации
- •Линейная нотация Висвессера - Wiswesser Line Notation (wln)
- •Правила wln
- •Алгоритм кодирования в wln
- •Алгоритм декодирования в wln
- •Representation of Organic Structure Description Arranged Linearly (rosdal)
- •Правила rosdal.
- •Smiles (Simplified Molecular Input Line Entry System)
- •Правила smiles.
- •Sln Sybyl Line Notation
- •Правила sln.
- •Табличные представления
- •Xyz координаты
- •1. Nsc7594 acetaldehyde
- •Xyz координаты
- •1. Nsc7594 acetaldehyde
- •Алгоритм Моргана
- •Cangen алгоритм (caNonically geNerated)
- •InChI - International Chemical Identifier
- •Правила InChI
- •InChIKey – ключ для поиска структуры
- •Iupac International Chemical Identifier (InChI) Program Version 1, Software version 1.01
- •InChI Software Version 1.02 – final, implemented for Standard InChI/ InChIKey, January 2009
- •Задачи для самостоятельной работы
- •Задание 2.
Smiles (Simplified Molecular Input Line Entry System)
Данная кодировка была создана в 1986.
Правила smiles.
Все атомы пишутся символами.
Водороды не обозначается.
Ароматические атомы указываются маленькими буквами.
Одинарные связи не отмечаются, двойные обозначаются =, тройные #.
Для разветвления используются скобки.
Кольца нумеруются цифрами – цифра ставится у тех атомов, которые образуют кольцо.
C1CCCCC1
циклогексан
c1ccccc1
бензол
Цис- танс изомерия относительно двойной связи / или \ в зависимости от направления.
Стереоизомерия (энантиомеры) обозначают @ (влево от смотрящего) или @@ (вправо от смотрящего).
NC(C)(F)C(=O)O Без указания хиральности (рацемат)
N[C@](C)(F)C(=O)O Хиральное соединение
Атомы
Все неводородные атомы пишутся в квадратных скобках [Au] - слева от элемента записывают изотоп, справа количество водорода у элемента в соединении)
[S] |
сера |
[Au] |
золото |
Элементы, которые входят в состав органических веществ (B, C, N, O, P, S, F, Cl, Br, I), можно писать без квадратных скобок. Водороды к ним добавляются согласно валентности.
C |
метан |
(CH4) |
P |
фосфин |
(PH3) |
N |
аммиак |
(NH3) |
S |
сероводород |
(H2S) |
O |
вода |
(H2O) |
Cl |
хлороводород |
(HCl) |
Заряд у атома (+ или -) пишется в квадратных скобках.
[H+] |
Протон |
[Fe+2] |
Катион железа (II) |
[OH-] |
Гидроксид анион |
[Fe++] |
Катион железа (II) |
[OH3+] |
Гидроксоний катион |
[NH4+] |
Аммоний-катион |
Например, запись SMILES для воды будет выглядеть как O, для этанола — CCO. Гидроксильный анионзаписывается [OH-], а для иона железа (III) запись [Fe+++] можно заменить на [Fe+3].
Связи
Одинарная химическая связь может быть записана с использованием символа — между атомами, соединёнными связью, но на практике это не применяется, символ дефиса опускают. Обозначение ароматической связи двоеточие (:) обычно тоже опускают. Двойная связь обозначается с помощью знака равенства, например, двуокись углерода записывается в виде O=C=O. Тройная связь обозначается с помощью октоторпа (#), например, синильная кислота записывается как C#N.
CC |
Этан |
(CH3CH3) |
C=O |
формальдегид |
(CH2O) |
C=C |
Этилен |
(CH2=CH2) |
С#C |
Ацетилен |
(HC≡СH) |
O=C=O |
диоксид углерода |
(CO2) |
COC |
Диметиловый эфир |
(CH3OCH3) |
C#N |
синильная кислота |
(HCN) |
O=CO |
муравьиная кислота |
(HCOOH) |
CCO |
этанол |
(CH3CH2OH) |
[H][H] |
молекулярный водород |
(H2) |
Ионные связи отмечают как отдельные молекулы через точку
[Na+].[Cl-] Хлорид натрия (NaCl)
СС[O-].[Na+] Этилат натрия (C2H5ONa)
Разветвления
Боковые цепи отделяют от основной цепи скобками.
Боковые цепи молекулы заключаются в круглые скобки. Например, пропионовая кислота записывается как CCC(=O)O. Каноническая форма записи трифторметана выглядит как C(F)(F)F, однако такая запись неудобна для чтения из-за своей перегруженности скобками, поэтому ту же молекулу можно записать в неканонической форме как FC(F)F.
трифторметан
FC(F)F
ССN(CC)CC
СC(C)C(=O)O
С=CC(CCC)C(C(C)C)CCC
Запись циклических структур
Атомы,
находящиеся на концах «разорванной»
при построении основной линии связи,
обозначаются одним и тем же номером.
Например,
циклогексан
записывается
как С1ССССС1.
В зависимости от того, какую линию связей выбрать за основную, может существовать несколько вариантов записи SMILES-кода при этом они имеют равное право на свое существование. Так для 1-метил-3-бром-циклогексена-1:
а) CC1=CC(Br)CCC1
б) CC1=CC(CCC1)Br
Можно написать много различных кодов для одной и той же молекулы в зависимости от места «раскрытия» кольца. SMILES не дает указаний на предпочтения тому или иному месту «входа» в молекулу.
C1CCCCC1N2CCCCC2
Один атом может входить в состав одновременно нескольких циклов. Так для кубанов один и тот же атом углерода может попасть на «вход» сразу в нескольких циклах:
Для морфина код SMILES выглядит следующим образом:
Изомеры
в SMILES
Изотопы указываются в квадратных скобках.
[12C] |
Изотоп углерода-12 |
[13C] |
Изотоп углерода-13 |
[C] |
Углерод (без указания изотопного состава) |
[13CH4] |
13C-меченный метан |
Конфигурация относительно двойной связи записывается при помощи символов / и \. Например, F/C=C/F соответствует транс-дифторэтилену, а F/C=C\F или F\C=C/F соответствует цис-дифторэтилену.
|
F/C=C/F F\C=C\F E-дифторэтен |
|||||
|
F/C=C\F F\C=C/F Z-дифторэтен |
|||||
|
F/C=C/C=C/C
|
|||||
|
F/C=C/C=CC |
|||||
|
|
|||||
|
|
|||||
|
|
|||||
|
|
|||||
|
C[C@H]1CCCCO1 O1CCCC[C@@H]1C
|
