Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Огурцов А. Н. Методы бииоинформационного анализа

..pdf
Скачиваний:
99
Добавлен:
14.09.2020
Размер:
2.23 Mб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ, МОЛОДЁЖИ И СПОРТА УКРАИНЫ

НАЦИОНАЛЬНЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ «Харьковский политехнический институт»

А. Н. Огурцов

МЕТОДЫ

БИОИНФОРМАЦИОННОГО

АНАЛИЗА

Учебное пособие по курсу «Биоинформатика и информационная биотехнология»

для студентов направления подготовки 051401 «Биотехнология», в том числе для иностранных студентов

Утверждено редакционно-издательским советом университета, протокол № 1 от 23.06.2011 г.

Харьков НТУ «ХПИ»

2011

ББК 28.071.3 О 39

УДК 577.3

Рецензенты:

В.А. Карачевцев, д-р физ.-мат. наук, зав. отд. молекулярной биофизики ФТИНТ им. Б.И. Веркина НАН Украины

В. В. Давыдов, д-р. мед. наук, проф., зав. лаб. возрастной эндокринологии

иобмена веществ ГП "Институт охраны здоровья детей

иподростков АМН Украины"

Навчальний посібник містить матеріали з основних питань другого розділу курсу «Біоіформатика та інформаційна біотехнологія» відповідно до програми підготовки студентів напряму «Біотехнологія».

Призначено для студентів спеціальностей біотехнологічного профілю всіх форм навчання.

Огурцов А. Н.

О 39 Методы биоинформационного анализа: учеб. пособие по курсу «Биоинформатика и информационная биотехнология» для студ. направл. подг. 051401 «Биотехнология», в т. ч. иностр. студ. / А. Н. Огурцов. – Харьков. : НТУ «ХПИ», 2011. – 114 с. – На рус. яз.

ISBN 978-966-593-931-3

Учебное пособие содержит материалы по основным вопросам второго раздела курса «Биоинформатика и информационная биотехнология» в соответствии с программой подготовки студентов направления «Биотехнология».

Предназначено для студентов специальностей биотехнологического профиля всех форм обучения.

Ил. 31. Табл. 10. Библиогр.: 26 назв.

ББК 28.071.3 УДК 577.3

ISBN 978-966-593-931-3

© А.Н. Огурцов, 2011

ВСТУПЛЕНИЕ

Предметом учебной дисциплины "Биоинформатика и информационная биотехнология" являются компьютерно-ориентированные методы решения информационных задач в области биотехнологии. Курс "Биоинформатика и информационная биотехнология" состоит из четырёх разделов: введение в биоинформатику, методы биоинформационного анализа, информационные принципы в биотехнологии, биоинформационные Интернет-ресурсы. Научную основу курса "Биоинформатика и информационная биотехнология" составляют молекулярная биофизика, молекулярная биология и генетика.

Методическими основами курса являются лекции, в которых излагаются основные положения каждого раздела, практические занятия и самостоятельная работа студентов, являющаяся основным способом усвоения материала в свободное от аудиторных занятий время.

Для самостоятельной работы выделяется больше половины общего объема времени, предназначенного для изучения данной дисциплины. Самостоятельная работа проводится по всем темам, входящим в дисциплину. В процессе самостоятельной работы студент учится самостоятельно приобретать знания, которые затем используются в ходе выполнения индивидуального задания, практических занятий, при подготовке к выполнению контрольных работ и к экзамену.

3

Настоящее пособие подготовлено на основе адаптированных работ [1–26], послуживших также источником иллюстраций, таким образом, чтобы максимально облегчить усвоение раздела "Методы биоинформационного анализа" курса "Биоинформатика и информационная биотехнология" студентам направления подготовки 051401 "Биотехнология". Перед работой с пособием следует внимательно изучить материал пособий [1–5], без которого невозможно понимание методов и алгоритмов, определяющих информационную составляющую биотехнологии.

1. АНАЛИЗ БИОЛОГИЧЕСКИХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

1.1. ВЫРАВНИВАНИЕ БИОЛОГИЧЕСКИХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Выравниванием (allignment) последовательностей азотистых осно-

ваний в нуклеиновых кислотах или аминокислот в полипептидных цепях белков называют определение взаимного соответствия остатков (нукле-

иновых оснований или аминокислотных остатков, соответственно) в этих двух или нескольких последовательностях, при котором сохраняется исходный порядок остатков в последовательностях.

Выравнивание последовательностей – это основной инструмент биоинформатики, его проводят с целью установления структурных, функциональных и эволюционных отношений между последовательностями.

Биологические макромолекулы являются результатом молекулярной эволюции. Поэтому если две такие биомакромолекулы имеют некоторого общего предка, а значит и последовательности мономеров в таких макромолекулах общую предковую последовательность, то они, как правило, обнаруживают подобие в сочетаниях мономеров, в структурах и в биологических функциях.

Например, если открыта новая последовательность с неизвестной функцией, но при этом в базах данных могут быть найдены подобные ей последовательности с ранее установленными структурами и функциями,

4

то результаты выравнивания (сравнения) этой новой последовательности с уже исследованными последовательностями могут стать основанием для предсказания функции или структуры этой новой последовательности.

Одна из целей выравнивания последовательностей состоит в том, чтобы определить степень подобия двух последовательностей и, если она достаточно высока, сделать правдоподобное заключение об их гомологич-

ности.

При передаче генетической информации от предыдущего поколения следующему она несколько изменяется во время процесса копирования. Изменения, которые происходят в процессе расхождения от общего предка, могут быть трёх типов: замены, вставки и удаления (выпадения).

Эти изменения могут накапливаться от поколения к поколению. Через несколько тысяч поколений в последовательностях может наблюдаться значительное число расхождений. Сравнение двух предположительно гомологичных последовательностей показывает степень их расхождения, то есть силу эволюционных изменений.

Выравнивание последовательностей – это процедура сравнения двух

(попарное выравнивание) или нескольких (множественное выравнивание)

последовательностей путём поиска рядов отдельных элементов или характерных комбинаций элементов последовательностей, которые расположены в выравниваемых последовательностях в одинаковом порядке.

При выравнивании двух последовательностей их помещают в две строки друг над другом, записывая их с помощью букв алфавита.

Идентичные или подобные "буквы" (элементы) этих строк (последовательностей) сдвигают в пределах строки (не меняя исходного порядка следования "знаков") таким образом, чтобы они выстраивались друг под другом в соответствующих столбцах.

Неидентичные, или различные знаки либо помещают в одни и те же столбцы как несовпадения, либо вставляют напротив них во второй последовательности пропуски.

Рассмотрим для примера две строки:

1) abcde

2) acdef

5

Разумное выравнивание выглядит так:

abcde- a-cdef

Для того чтобы найти оптимальное (или наилучшее) выравнивание необходимо определить критерий качества выравнивания. Так, для последовательностей нуклеотидов gctgaacg и ctataatc возможны следующие выравнивания:

1.

Неинформативное выравнивание

--------gctgaacg

 

 

ctataatc--------

2.

Выравнивание без пропусков

gctgaacg

 

 

ctataatc

3.

Выравнивание с пропусками

gctga-a--cg

 

 

--ct-ataatc

4.

Ещё одно выравнивание

gctg-aa-cg

 

 

-ctataatc-

Интуитивно кажется, что последнее выравнивание является лучшим, поскольку в нём получено максимальное число совпадений для нуклеотидов в двух последовательностях и использовано минимальное число вставок.

Чтобы решить, является ли оно лучшим из всех возможных, необходимо иметь способ систематической проверки всех возможных выравниваний, иметь количественный критерий ("вес" ("weihgt") или

счёт ("score")), по которому возможно сравнивать качество различных выравниваний и определить выравнивание с оптимальным весом (счётом).

При этом от того, какая именно система оценки выбрана для такого сравнения, может зависеть результат сравнения, и даже незначительные изменения в схеме оценки могут изменить рейтинг выравниваний, из-за чего лучшим станет другое выравнивание.

6

1.2. ТОЧЕЧНАЯ МАТРИЦА СХОДСТВА

Точечная матрица (dot plot) – это простейшее изображение, которое даёт представление о сходстве между двумя последовательностями.

Точечная матрица представляет собой таблицу или матрицу, в которой строки соответствуют элементам одной последовательности, а колонки – элементам другой последовательности. В простейшем варианте ячейки точечной матрицы оставляют пустыми, если сравниваемые элементы различны, и заполняются, если они совпадают. Совпадающие фрагменты последовательностей отображаются в виде диагоналей, идущих из верхнего левого угла в нижний правый.

Для примера построим точечную матрицу, показывающую совпадения между короткой строкой ПРОФЕССОРОГУРЦОВ и длинной

ПРОФЕССОРАЛЕКСАНДРНИКОЛАЕВИЧОГУРЦОВ (рисунок 1).

 

П Р О Ф Е С С О Р А Л Е К С А Н Д Р Н И К О Л А Е В И Ч О Г У Р Ц О В

П

П

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Р

 

Р

 

 

 

 

 

 

Р

 

 

 

 

 

 

 

 

Р

 

 

 

 

 

 

 

 

 

 

 

 

 

Р

 

 

 

О

 

 

О

 

 

 

 

О

 

 

 

 

 

 

 

 

 

 

 

 

 

О

 

 

 

 

 

 

О

 

 

 

 

О

 

Ф

 

 

 

Ф

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Е

 

 

 

 

Е

 

 

 

 

 

 

Е

 

 

 

 

 

 

 

 

 

 

 

 

Е

 

 

 

 

 

 

 

 

 

 

С

 

 

 

 

 

С

С

 

 

 

 

 

 

С

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

С

 

 

 

 

 

С

С

 

 

 

 

 

 

С

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

О

 

 

О

 

 

 

 

О

 

 

 

 

 

 

 

 

 

 

 

 

 

О

 

 

 

 

 

 

О

 

 

 

 

О

 

Р

 

Р

 

 

 

 

 

 

Р

 

 

 

 

 

 

 

 

Р

 

 

 

 

 

 

 

 

 

 

 

 

 

Р

 

 

 

О

 

 

О

 

 

 

 

О

 

 

 

 

 

 

 

 

 

 

 

 

 

О

 

 

 

 

 

 

О

 

 

 

 

О

 

Г

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Г

 

 

 

 

 

У

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

У

 

 

 

 

Р

 

Р

 

 

 

 

 

 

Р

 

 

 

 

 

 

 

 

Р

 

 

 

 

 

 

 

 

 

 

 

 

 

Р

 

 

 

Ц

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ц

 

 

О

 

 

О

 

 

 

 

О

 

 

 

 

 

 

 

 

 

 

 

 

 

О

 

 

 

 

 

 

О

 

 

 

 

О

 

В

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В

 

 

 

 

 

 

 

 

В

Рисунок 1 – Точечная матрица сходства двух строк

Буквы, соответствующие длинным совпадающим участкам выделены жирным шрифтом, а одиночные совпадения, не выделены жирным шрифтом. Очевидно, выравнивание в этом случае будет иметь вид

ПРОФЕССОРАЛЕКСАНДРНИКОЛАЕВИЧОГУРЦОВ

ПРОФЕССОР-------------------

ОГУРЦОВ

 

7

На рисунке 2 представлена точечная матрица, показывающая как глобальные, так и локальные совпадения повторяющейся последовательности АБРАКАДАБРАКАДАБРА с самой собой.

А Б Р А К А Д А Б Р А К А Д А Б Р А

А

А

 

 

А

 

А

 

А

 

 

А

 

А

 

А

 

 

А

Б

 

Б

 

 

 

 

 

 

Б

 

 

 

 

 

 

Б

 

 

Р

 

 

Р

 

 

 

 

 

 

Р

 

 

 

 

 

 

Р

 

А

А

 

 

А

 

А

 

А

 

 

А

 

А

 

А

 

 

А

К

 

 

 

 

К

 

 

 

 

 

 

К

 

 

 

 

 

 

А

А

 

 

А

 

А

 

А

 

 

А

 

А

 

А

 

 

А

Д

 

 

 

 

 

 

Д

 

 

 

 

 

 

Д

 

 

 

 

А

А

 

 

А

 

А

 

А

 

 

А

 

А

 

А

 

 

А

Б

 

Б

 

 

 

 

 

 

Б

 

 

 

 

 

 

Б

 

 

Р

 

 

Р

 

 

 

 

 

 

Р

 

 

 

 

 

 

Р

 

А

А

 

 

А

 

А

 

А

 

 

А

 

А

 

А

 

 

А

К

 

 

 

 

К

 

 

 

 

 

 

К

 

 

 

 

 

 

А

А

 

 

А

 

А

 

А

 

 

А

 

А

 

А

 

 

А

Д

 

 

 

 

 

 

Д

 

 

 

 

 

 

Д

 

 

 

 

А

А

 

 

А

 

А

 

А

 

 

А

 

А

 

А

 

 

А

Б

 

Б

 

 

 

 

 

 

Б

 

 

 

 

 

 

Б

 

 

Р

 

 

Р

 

 

 

 

 

 

Р

 

 

 

 

 

 

Р

 

А

А

 

 

А

 

А

 

А

 

 

А

 

А

 

А

 

 

А

Рисунок 2 – Точечная матрица совпадений в повторяющейся последователь-

ности

Вид точечной матрицы может наглядно показать наличие палиндромных последовательностей в анализируемой строке.

Так палиндромами являются сайты рестрикции в ДНК для рестрикционных ферментов (рисунок 3).

Рисунок 3 – Разрезание ДНК рестрикционным ферментом EcoRI

8

Иногда палиндромность ДНК-последовательности определяется тем, что с этим участком ДНК должен взаимодействовать димерный белок, одна субъединица которого взаимодействует с одним плечом палиндрома, а другая – с другим плечом на комплементарной цепи, как, например, в случае связи рецептора глюкокортикоидных гормонов с гормон-распознающим элементом (HRE) ДНК (рисунок 4).

Рисунок 4 – Палиндромный гормон-распознающий элемент (HRE) ДНК, связанный с димеризованными рецепторами стероидных гормонов

HRE является палиндромом, то есть участком ДНК, обе нуклеотидные нити которого одинаковы, если каждую из них читать в направлении 5′→3. Для нашего примера HRE имеет вид

5′-AGAACANNNTGTTCT-3′

3′-TCTTGTNNNACAAGA-5′

9

Каждая из нитей HRE содержит 6-ти нуклеотидную последовательность AGAACA, которая называется core recognition motif. Поскольку HRE содержит два таких мотива, то к HRE присоединяются два рецептора.

Две 6-ти нуклеотидные последовательности разделены тремя парами оснований (обозначены NNN на рисунке 4), которые нужны для того, чтобы обеспечить достаточно пространства для того, чтобы гомодимер рецепторов мог связаться с HRE. Эти три пары оснований могут быть любыми, поскольку они не влияют на прочность связывания с рецепторным комплексом.

На рисунке 5 показан характерный вид точечной матрицы палин-

дрома АРОЗАУПАЛАНАЛАПУАЗОРА.

А Р О З А У П А Л А Н А Л А П У А З О Р А

А

А

 

 

 

А

 

 

А

 

А

 

А

 

 

 

 

А

 

 

 

А

Р

 

Р

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Р

 

О

 

 

О

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

О

 

 

З

 

 

 

З

 

 

 

 

 

 

 

 

 

 

 

 

 

З

 

 

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

У

 

 

 

 

 

У

 

 

 

 

 

 

 

 

 

У

 

 

 

 

 

П

 

 

 

 

 

 

П

 

 

 

 

 

 

 

П

 

 

 

 

 

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

Л

 

 

 

 

 

 

 

 

Л

 

 

 

Л

 

 

 

 

 

 

 

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

Н

 

 

 

 

 

 

 

 

 

 

Н

 

 

 

 

 

 

 

 

 

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

Л

 

 

 

 

 

 

 

 

Л

 

 

 

Л

 

 

 

 

 

 

 

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

П

 

 

 

 

 

 

П

 

 

 

 

 

 

 

П

 

 

 

 

 

 

У

 

 

 

 

 

У

 

 

 

 

 

 

 

 

 

У

 

 

 

 

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

З

 

 

 

З

 

 

 

 

 

 

 

 

 

 

 

 

 

З

 

 

 

О

 

 

О

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

О

 

 

Р

 

Р

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Р

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

Рисунок 5 – Точечная матрица совпадений дляпалиндромной последовательности

10

Длинные участки ДНК или РНК, содержащие инвертированные повторы такого типа, могут формировать шпилечные структуры. Кроме того, некоторые подвижные элементы, выделенные из растений, содержат настоящие (неточные) палиндромные последовательности – инвертированные повторы некомплементарных последовательностей, расположенных на той же цепи. Ещё один пример палиндрома – фрагмент генома вируса Wheat Dwarf Virus, вызывающего остановку роста пшеницы: ttttcgtgagtgcggaggctttt.

Точечная матрица позволяет быстро проиллюстрировать родство между двумя последовательностями. Яркие признаки сходства четко проявляются. Например, точечная матрица, отображающая родство между генами митохондриальной АТФазы миноги Petromyzon marinis

(lamprey) и морской собаки Scyliorbinus canicula (dogfish), показывает, что сходство между этими последовательностями менее всего выражено вначале (рисунок 6).

Рисунок 6 – Точечная матрица совпадений для АТФазы-6 из миноги и морской

собаки

11

Иногда точечную матрицу строят в "традиционном" представлении,

Пример на рисунке 1 демонстрирует результат вставки строки

когда "начало координат" – точка начала последовательностей находится

АЛЕКСАНДРНИКОЛАЕВИЧ внутрь строки ПРОФЕССОРОГУРЦОВ, или,

не в левом верхнем, а в левом нижнем углу. Соответственно изменяется и

что то же самое, удаления подстроки АЛЕКСАНДРНИКОЛАЕВИЧ из строки

направление вертикальной оси (рисунок 7).

ПРОФЕССОРАЛЕКСАНДРНИКОЛАЕВИЧОГУРЦОВ. Оба действия приводят

 

к смещению диагональных совпадений от основной диагонали.

Рисунок 7 – Точечная матрица совпадений линейной хромосомы S. meliloti и кольцевой хромосомы A. tumefaciens

Рисунок 7 позволяет предположить, что у этих организмов был общий предок.

Еще один пример использования точечных матриц для сравнения нуклеотидных последовательностей в генах, кодирующих α и β субъединицы гемоглобина человека, представлен на рисунке 8. Главная диагональ рисунка демонстрирует значительное подобие последовательностей.

Часто участки сходства могут быть смещены, а это приводит к тому, что они появляются на параллельных диагоналях точечной матрицы совпадений. Такие смещения происходят в результате вставок (инсерций) или удалений (делеций).

12

Рисунок 8 – Точечная матрица совпадений генов, кодирующих α и β субъединицы гемоглобина человека

Для последовательностей нуклеотидов в генах, кодирующих α и β субъединицы гемоглобина человека, также заметны смещения диагональной линии, свидетельствующие о наличии вставок или удалений в гемоглобиновых генах.

На рисунке 9 показана точечная матрица совпадений белков РАХ-6 из мыши и eyless из плодовой мушки Drosophila melanogaster.

13

Рисунок 9 – Точечная матрица совпадений белков РАХ-6 из мыши (вертикальная ось) и eyless из плодовой мушки Drosophila melanogaster (горизонтальная ось)

На рисунке 9 явно проявляются три продолжительных участка сходства. Два из них находятся в начале последовательностей, а третий – в середине. Между двумя из трех участков в последовательности белка из мыши есть более длинный промежуточный участок, чем в последовательности белка из плодовой мушки.

14

Разделяют два типа выравнивания: глобальное и локальное. Глобальное выравнивание ищет подобие на всем протяжении

последовательностей.

Локальное выравнивание сосредоточивается лишь на отдельных областях подобия в некоторых частях последовательностей.

С точки зрения биолога поиск локального подобия может дать более значимые и точные результаты, чем оценка выравнивания по всей длине последовательностей. Это связано с тем, что функционально активные участки обычно расположены в пределах относительно коротких областей, которые остаются консервативными независимо от удалений или мутаций, происходящих в остальных частях последовательности.

Главное преимущество метода точечных матриц при поиске выравниваний последовательностей состоит в том, что он позволяет найти все возможные совпадения остатков между двумя последовательностями и предоставляет исследователю возможность выбора самых ценных из них. Затем могут быть определены последовательности хорошо выровненных областей – уже с помощью других методов выравнивания последовательностей (например, динамического программирования). Выравнивания, производимые этими программами, могут быть сопоставлены с выравниванием по точечной матрице; такое сличение покажет, совпадают ли самые длинные области и расположены ли вставки и удаления в наиболее подходящих местах.

Точность определения совпадающих областей может быть повышена за счёт отфильтровывания случайных совпадений, найденных в точечной матрице. Фильтрация выполняется с помощью скользящего окна, позволяющего сравнивать эти две последовательности одновременно.

Идентификацию выравниваний последовательностей с помощью метода точечных матриц можно проводить путём подсчёта точек на всех возможных диагоналях матрицы (чтобы определить статистически, какие диагонали дают больше всего совпадений) и последующего сравнения счётов этих совпадений с результатами произвольного сравнения последовательностей.

15

Анализ точечной матрицы – это, прежде всего, метод сравнения двух последовательностей с целью поиска возможного выравнивания элементов этих последовательностей. Кроме того, к этому методу обращаются для предсказания комплементарных участков в составе РНК, которые могут участвовать в формировании вторичной структуры РНК и при поиске прямых или обратных повторений в последовательностях белков и ДНК.

Так, например, могут быть обнаружены повторные области, распределённые по всей длине, как отдельных хромосом, так и всего набора хромосом.

Для примера, на рисунке 10 представлена точечная матрица сравне-

ния геномов Sorghum bicolor и Oryza Sativa.

Рисунок 10 – Точечная матрица совпадений геномов Sorghum bicolor и Oryza Sativa; Mb – мегабэйзы – миллионы пар оснований

Параллельно диагонали, идущей из левого верхнего угла в правый нижний, расположены прямые совпадения в одинаковых нитях ДНК

16

геномов. А параллельно диагонали, идущей из правого верхнего угла в левый нижний, расположены обратные повторения в комплементарных нитях ДНК (инверсные повторы между геномами).

Так, например, наблюдается как значительное прямое сходство между хромосомой 2 и хромосомой 4 S. bicolor, так и наличие инверсного участка. А для хромосомы 1 S. bicolor и хромосомы 3 O. sativa наблюдаются только два инверсных участка.

Таким образом, метод точечных матриц наглядно демонстрирует любые возможные выравнивания последовательностей в виде диагоналей матрицы. Анализ точечной матрицы может легко показать присутствие вставок или удалений, а также прямых и обратных повторений, которые гораздо труднее найти другими, пусть даже более автоматизированными методами.

1.3. ТОЧЕЧНЫЕ МАТРИЦЫ И ВЫРАВНИВАНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Точечная матрица не просто визуализирует сходство двух последовательностей, она вообще демонстрирует все возможные выравнивания и отображает их относительное качество.

Выравнивание не должно изменять "смысл" последовательностей, поэтому при выравнивании должна сохраняться последовательность символов в строке и не должно быть перестановок символов. Поэтому при построении выравнивания, начиная с верхнего левого угла точечной матрицы, разрешены только три типа шагов:

1)строго направо ();

2)строго вниз ();

3) по диагонали слева направо и сверху вниз ( ).

Любой путь по точечной матрице от левого верхнего угла к правому нижнему углу, построенный с помощью этих шагов, соответствует одному из возможных выравниваний.

17

Например, на рисунке 11 приведены три варианта выравнивания строк АЛЕКСАНДРНИКОЛАЕВИЧОГУРЦОВ и АЛЕКСАНДРОГУРЦОВ:

I)

АЛЕКСАНДРНИКОЛАЕВИЧОГУРЦОВ

А----

А-------

 

Л-Е----------

II)

 

 

 

АЛЕКСАНДРНИКОЛАЕВИЧОГУРЦОВ

АЛЕКСАНДР----------

 

ОГУРЦОВ

III)

 

 

 

АЛЕКСАНДРНИКОЛАЕВИЧОГУРЦОВ

АЛЕКСАНДР---

О-------

ГУРЦОВ

Рисунок 11 – Возможные варианты выравнивания

Любой путь по точечной матрице от верхнего левого угла к нижнему правому проходит последовательность ячеек, каждая из которых предсказывает пару позиций: одну из ряда и одну из столбца, которые совпадают с выравниванием; либо означают пробел в одной из последовательностей.

18

Путь не обязательно должен проходить лишь заполненные позиции. Тем не менее, чем больше заполненных позиций, на диагональном отрезке пути, тем больше совпадающих остатков в выравнивании.

Если направление движения между последующими ячейками диагональное, то две пары следующих друг за другом сравниваемых остатков оказываются в выравнивании без вставки между ними

(сопоставляются).

Если направление движения горизонтальное, то в последовательность, служащую указателем рядов, вставляется пропуск.

Если же направление движения вертикальное (вниз), то пропуск вставляется в последовательность, индексирующую столбцы.

Следует обратить внимание на то, что ни одно движение не может совершаться вверх или влево, так как это соответствовало бы сравнению нескольких остатков одной последовательности со всего лишь одним остатком другой. Математическая интерпретация изложенного выше способа выбора пути по точечной матрице основывается на представлении пути выравнивания в виде графа.

Граф определяется как совокупность множества вершин (или узлов) и множества связей между узлами, которые называются рёбра (или дуги).

Ориентированный граф (кратко орграф) – это (мульти) граф,

рёбрам которого присвоено направление.

Маршрутом в орграфе называют чередующуюся последовательность вершин и дуг (вершины могут повторяться). Длина маршрута – это количество дуг в нем.

Путь – это маршрут в орграфе без повторяющихся дуг; простой путь – без повторяющихся вершин. Если существует путь из одной вершины в другую, то вторая вершина достижима из первой.

Рассмотрим две последовательности длиной m и n . Выравниванием этих последовательностей будет ориентированный граф G с узлами (i, j) (0 i m, 0 j n ) решётки размером (m +1) ×(n +1) . Ребро графа от узла (i, j) к узлу (i, j) возможно только если 0 i′−i 1 и 0 j′− j 1.

На рисунке 12 представлен граф выравнивания для последова-

тельностей X = GTCCGTG и Y = ATACTGG.

19