Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
компьютерное представление молекул_26.03.13.docx
Скачиваний:
5
Добавлен:
01.05.2025
Размер:
6.01 Mб
Скачать

Smiles (Simplified Molecular Input Line Entry System)

Данная кодировка была создана в 1986.

Правила smiles.

  1. Все атомы пишутся символами.

  2. Водороды не обозначается.

  3. Ароматические атомы указываются маленькими буквами.

  4. Одинарные связи не отмечаются, двойные обозначаются =, тройные #.

  5. Для разветвления используются скобки.

  6. Кольца нумеруются цифрами – цифра ставится у тех атомов, которые образуют кольцо.

    C1CCCCC1

    циклогексан

    c1ccccc1

    бензол

  7. Цис- танс изомерия относительно двойной связи / или \ в зависимости от направления.

  8. Стереоизомерия (энантиомеры) обозначают @ (влево от смотрящего) или @@ (вправо от смотрящего).

NC(C)(F)C(=O)O Без указания хиральности (рацемат)

N[C@](C)(F)C(=O)O Хиральное соединение

Атомы

Все неводородные атомы пишутся в квадратных скобках [Au] - слева от элемента записывают изотоп, справа количество водорода у элемента в соединении)

[S]

сера

[Au]

золото

Элементы, которые входят в состав органических веществ (B, C, N, O, P, S, F, Cl, Br, I), можно писать без квадратных скобок. Водороды к ним добавляются согласно валентности.

C

метан

(CH4)

P

фосфин

(PH3)

N

аммиак

(NH3)

S

сероводород

(H2S)

O

вода

(H2O)

Cl

хлороводород

(HCl)

Заряд у атома (+ или -) пишется в квадратных скобках.

[H+]

Протон

[Fe+2]

Катион железа (II)

[OH-]

Гидроксид анион

[Fe++]

Катион железа (II)

[OH3+]

Гидроксоний катион

[NH4+]

Аммоний-катион

Например, запись SMILES для воды будет выглядеть как O, для этанола — CCO. Гидроксильный анионзаписывается [OH-], а для иона железа (III) запись [Fe+++] можно заменить на [Fe+3].

Связи

Одинарная химическая связь может быть записана с использованием символа между атомами, соединёнными связью, но на практике это не применяется, символ дефиса опускают. Обозначение ароматической связи двоеточие (:) обычно тоже опускают. Двойная связь обозначается с помощью знака равенства, например, двуокись углерода записывается в виде O=C=O. Тройная связь обозначается с помощью октоторпа (#), например, синильная кислота записывается как C#N.

CC

Этан

(CH3CH3)

C=O

формальдегид

(CH2O)

C=C

Этилен

(CH2=CH2)

С#C

Ацетилен

(HC≡СH)

O=C=O

диоксид углерода

(CO2)

COC

Диметиловый эфир

(CH3OCH3)

C#N

синильная кислота

(HCN)

O=CO

муравьиная кислота

(HCOOH)

CCO

этанол

(CH3CH2OH)

[H][H]

молекулярный водород

(H2)

Ионные связи отмечают как отдельные молекулы через точку

[Na+].[Cl-] Хлорид натрия (NaCl)

СС[O-].[Na+] Этилат натрия (C2H5ONa)

Разветвления

Боковые цепи отделяют от основной цепи скобками.

Боковые цепи молекулы заключаются в круглые скобки. Например, пропионовая кислота записывается как CCC(=O)O. Каноническая форма записи трифторметана выглядит как C(F)(F)F, однако такая запись неудобна для чтения из-за своей перегруженности скобками, поэтому ту же молекулу можно записать в неканонической форме как FC(F)F.

трифторметан FC(F)F

ССN(CC)CC

СC(C)C(=O)O

С=CC(CCC)C(C(C)C)CCC

Запись циклических структур

Атомы, находящиеся на концах «разорванной» при построении основной линии связи, обозначаются одним и тем же номером. Например, циклогексан записывается как С1ССССС1.

В зависимости от того, какую линию связей выбрать за основную, может существовать несколько вариантов записи SMILES-кода при этом они имеют равное право на свое существование. Так для 1-метил-3-бром-циклогексена-1:

а) CC1=CC(Br)CCC1

б) CC1=CC(CCC1)Br

Можно написать много различных кодов для одной и той же молекулы в зависимости от места «раскрытия» кольца. SMILES не дает указаний на предпочтения тому или иному месту «входа» в молекулу.

C1CCCCC1N2CCCCC2

Один атом может входить в состав одновременно нескольких циклов. Так для кубанов один и тот же атом углерода может попасть на «вход» сразу в нескольких циклах:

Для морфина код SMILES выглядит следующим образом:

Изомеры в SMILES

Изотопы указываются в квадратных скобках.

[12C]

Изотоп углерода-12

[13C]

Изотоп углерода-13

[C]

Углерод (без указания изотопного состава)

[13CH4]

13C-меченный метан

Конфигурация относительно двойной связи записывается при помощи символов / и \. Например, F/C=C/F соответствует транс-дифторэтилену, а F/C=C\F или F\C=C/F соответствует цис-дифторэтилену.

F/C=C/F

F\C=C\F

E-дифторэтен

F/C=C\F

F\C=C/F

Z-дифторэтен

F/C=C/C=C/C

F/C=C/C=CC

NC(C)(F)C(=O)O

NC(F)(C)C(=O)O

N[C@](C)(F)C(=O)O

N[C@@](F)(C)C(=O)O

N[C@@]([H])(C)C(=O)O

N[C@@H](C)C(=O)O

N[C@H](C(=O)O)C

[H][C@](N)(C)C(=O)O

[C@H](N)(C)C(=O)O

N[C@]([H])(C)C(=O)O

N[C@H](C)C(=O)O

N[C@@H](C(=O)O)C

[H][C@@](N)(C)C(=O)O

[C@@H](N)(C)C(=O)O

C[C@H]1CCCCO1

O1CCCC[C@@H]1C