
- •Оглавление
- •Введение
- •Представление информации в компьютере, единицы измерения информации
- •Информационно-поисковые языки
- •Представление молекул в компьютерном виде
- •Линейные нотации
- •Линейная нотация Висвессера - Wiswesser Line Notation (wln)
- •Правила wln
- •Алгоритм кодирования в wln
- •Алгоритм декодирования в wln
- •Representation of Organic Structure Description Arranged Linearly (rosdal)
- •Правила rosdal.
- •Smiles (Simplified Molecular Input Line Entry System)
- •Правила smiles.
- •Sln Sybyl Line Notation
- •Правила sln.
- •Табличные представления
- •Xyz координаты
- •1. Nsc7594 acetaldehyde
- •Xyz координаты
- •1. Nsc7594 acetaldehyde
- •Алгоритм Моргана
- •Cangen алгоритм (caNonically geNerated)
- •InChI - International Chemical Identifier
- •Правила InChI
- •InChIKey – ключ для поиска структуры
- •Iupac International Chemical Identifier (InChI) Program Version 1, Software version 1.01
- •InChI Software Version 1.02 – final, implemented for Standard InChI/ InChIKey, January 2009
- •Задачи для самостоятельной работы
- •Задание 2.
Представление молекул в компьютерном виде
Существует два основных типа представления молекул в компьютерном виде: линейное и табличное представления.
В свою очередь линейное представление молекул включает в себя основных кодировок:
Номенклатура (тривиальная или ИЮПАК)
WLN
ROSDAL
SMILES
SLN
InChI
Табличные представления химических молекул также можно разделить на представления в виде:
графов, матриц
продолжающихся таблиц
Линейные нотации
Грамматики первых линейных химических нотаций представляли собой варианты адаптированных правил номенклатуры органических соединений (старшинство групп, выбор главной цепи, начало ее нумерации и т.п.).
Линейная нотация Висвессера - Wiswesser Line Notation (wln)
В 1948 году Вильгельмом Висвессером (W. Wiswesser) был получен патент на линейное представление молекул для компьютерного анализа.
Следует отметить, что линейная нотация Висвессера относится к однозначным языкам, они позволяют полностью воспроизводить структурную формулу соединения по ее линейной записи, в связи с чем они использовались, например, в информационно-поисковой системе CAS с 1953 г. [10].
В словаре нотации Висвессера буквенные обозначения присвоены всем химическим элементам (с учетом валентности их атомов и ближайшего окружения), а также основным типам связей, циклов и функциональных групп.
Для записи в WLN используют 40 символов :
буквы от “A” до “Z”,
числа от “0” до “9”,
а также символы “&”, “/”, “-” и пробел
Длина углеродной цепи кодируется числом, символ «&» разделяет коды цепей в точке их разветвления.
Примеры:
Структурная формула |
Запись в формате WLN |
Пояснения |
|
1V1 |
группа H3C- : 1 группа -СО- : V |
|
4 |
группа СH3CH2CH2CH3 - 4 |
|
ROR |
группа фенил - R кислородный мостик -О- - О |
|
3М3 |
группа СH3CH2CH2- - 3 группа -NH- - M |
Располагают группы по старшинству и алфавиту (бóльшая цифра и обратный алфавит).
Для соединение этилацетат можно записать по разному, в зависимости от того, с какого края молекулы начинать кодировать структуру:
Однако, правильная запись 2OV1, 2 больше, чем один и соответственно запись начинаем с цифры 2.
Для соединения EtOPr - 3O2, а не 2O3.
Для соединения H2NCH2CH2COOH (β-аланин,)- Z2VQ, а не QV2Z
Правила wln
Углерод обозначается числом, X, Y или С.
Неразветвленные алканы обозначается числом
Углерод, соединенный с тремя «тяжелыми» атомами, обозначается Y
Углерод, соединенный с четырьмя «тяжелыми» атомами, обозначается X
Символ С используется достаточно редко, только для углерода, не имеющего водородов и соединенного с двумя «тяжелыми» атомами, например, в аллене или нитриле (можно заменять числом).
2) Кислород обозначается O, Q, V или W
Кислород, соединенных с двумя тяжелыми атомами (в эфирах), обозначается О.
Гидрокси-группа (ОН) обозначается как Q
Карбонильная группа (С=О) обозначается V.
Два кислорода у одного атома обозначаются как W , например NO2 и SO2 NW, SW.
3) Азот обозначается K, M, N или Z
Азот, соединенный с тремя тяжелыми атомами, обозначается N (amiNe)
Буквой М обозначают группы –NH- или =NH (aMine)
Концевую аминогруппу (-NH2) обозначают Z (последняя буква в алфавите)
Четвертичный атом азота обозначают К.
4) Галогены обозначаются фтор как F, йод как I, хлор как G и бром как E
5) Сера обозначается как S, фосфор обозначается как P
6) Водород не обозначается, только в исключительных случаях как Н
Табл. 4. Обозначение функциональных групп в системе WLN.
Примеры: