Огурцов А.Н. Выравнивание белковых последовательностей. – Харьков. НТУ ХПИ, 2015. – 80 с
..pdfЗАДАЧА 6.34
Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином Xenopus laevis (Обыкновенная шпорцевая лягушка) (Sbjct)
Query |
LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD------LSHGSAQV |
||||||
|
++ +++ |
+K |
W +V A+ |
+ G |
L R F++FP+ K +F F |
GS Q+ |
|
Sbjct |
ITESERGVIKETWARVYANCEDVGVSILIRFFVNFPSAKQHFSQFKHMEDPLEMEGSVQL |
||||||
Query KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH |
|||||||
|
+ HG++V |
A+ + V ++ D |
+ |
LS + |
HA K +V+PV FK+L+ |
+L A |
|
Sbjct |
RKHGRRVMGAVNSVVENLGDPEKVTTVLSIVGKSHALKHKVEPVYFKILTGVMLEVFAEE |
||||||
Query |
LPAEFTPAVHASLDKFLASVSTVLTSKYR |
142 |
|
||||
|
+FTP V |
+K + + + + S Y+ |
|
|
|||
Sbjct |
YAKDFTPDVQLVWNKLRSLIYSHVQSAYK |
167 |
|
вычислить с помощью матрицы замены аминокислот PAM70 и аффинного штрафа за пропуски (g) d (g 1)e (при d 10 и e 3) счёт следующего фрагмента выравнивания
KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFK RKHGRRVMGAVNSVVENLGDPEKVTTVLSIVGKSHALKHKVEPVYFK
ЗАДАЧА 6.35
Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином Gallus gallus (Банкивский петух)
(Sbjct)
Query |
LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD------LSHGSAQV |
|||||
|
+S A+K |
++ |
W +V A+ |
+ G L R F++FP+ K YF F |
S Q+ |
|
Sbjct |
ISDAEKKVIQETWSRVYANCEDVGVSILIRFFVNFPSAKQYFSQFKHMDDTLEMERSLQL |
|||||
Query KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH |
||||||
|
+ H ++V |
A+ |
V ++DD + + L+ + |
HA K +V+PV FK L+ |
+L +A |
|
Sbjct |
RKHAQRVMGAINTVVENLDDPEKVSSVLALVGKAHALKHKVEPVYFKKLTGVMLEVIAEA |
|||||
Query |
LPAEFTPAVHASLDKFLASVSTVLTSKYR |
142 |
|
|||
|
+FTP |
H + |
K |
+ T +T+ Y+ |
|
|
Sbjct |
YGNDFTPEAHGAWTKMRTLIYTHVTAAYK |
167 |
|
вычислить с помощью матрицы замены аминокислот PAM120 и аффинного штрафа за пропуски (g) d (g 1)e (при d 10 и e 3) счёт следующего фрагмента выравнивания
KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNF RKHAQRVMGAINTVVENLDDPEKVSSVLALVGKAHALKHKVEPVYF
38
ЗАДАЧА 6.36
Для выравнивания альфа субъединицы гемоглобина человека
HBA_HUMAN (Query) с цитоглобином Xenopus (Silurana) tropicalis (Водная лягушка силураны) (Sbjct)
Query |
LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD------LSHGSAQV |
||||||
|
++ +++ |
+K |
W +V A+ |
+ G |
L R F++FP+ K +F F |
GS Q+ |
|
Sbjct |
ITESERGVIKETWARVYANCEDVGVSILIRFFVNFPSAKQHFSQFKHMEDPLEMEGSVQL |
||||||
Query KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH |
|||||||
|
+ H ++V |
A+ + V ++ D |
+ |
LS + |
HA K +VDPV FK+L+ +L |
+A |
|
Sbjct |
RKHARRVMGAVNSVVENLGDPEKITTVLSIVGKSHALKHKVDPVYFKILTGVMLEVIAEE |
||||||
Query |
LPAEFTPAVHASLDKFLASVSTVLTSKYR |
142 |
|
||||
|
+FTP V |
+ +K + + + + S Y+ |
|
|
|||
Sbjct |
YAKDFTPDVQLAWNKLRSHLYSHVLSAYK |
167 |
|
||||
вычислить с помощью матрицы замены аминокислот PAM250 и |
|||||||
аффинного штрафа за пропуски |
(g) d (g 1)e (при d 10 и |
e 3) |
счёт следующего фрагмента выравнивания
KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPV RKHARRVMGAVNSVVENLGDPEKITTVLSIVGKSHALKHKVDPV
ЗАДАЧА 6.37
Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином Oncorhynchus mykiss (Радужная форель) (Sbjct)
Query |
LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHG------SAQV |
|||
|
L +++ +K W KV + |
+ G L R+F++FP++K YF F |
SAQ+ |
|
Sbjct |
LCDSEREMIKDTWAKVYQNCDDVGVAILIRLFVNFPSSKQYFSQFQQVEDPGELERSAQL |
|||
Query KGHGKKVADALTNAVAHV---DDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH |
||||
|
+ H ++V +A+ |
V ++ |
D M + L + HA + V+PV FK+L |
+L L A |
Sbjct |
RKHSRRVMNAINTLVENLHDGDKMVSVLKLVGKAHALRHNVEPVYFKILCGVILEVLVAD |
|||
Query |
LPAEFTPAVHASLDKFLASV |
133 |
|
|
|
P TP V |
+ K L ++ |
|
|
Sbjct |
FPDYITPEVAVAWTKLLDAI |
158 |
|
вычислить с помощью матрицы замены аминокислот BLOSUM45 и аффинного штрафа за пропуски (g) d (g 1)e (при d 10 и e 3) счёт следующего фрагмента выравнивания
KGHGKKVADALTNAVAHV---DDMPNALSALSDLHAHKLRVDPVNF RKHSRRVMNAINTLVENLHDGDKMVSVLKLVGKAHALRHNVEPVYF
39
ЗАДАЧА 6.38
Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином-2 Oryzias latipes (Медака, рыбка семейства оризиевых) (Sbjct)
Query LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQV
|
LS A+ |
++ |
WG V + |
+ G |
L R F++FP+ K YF F D+ |
S+Q+ |
Sbjct |
LSDAEMEIIQHTWGHVYKNCEDVGVSVLIRFFVNFPSAKQYFSQFQDMQDPEEMEKSSQL |
|||||
Query |
KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH |
|||||
|
+ H ++V |
+A+ |
V ++ D |
+ |
+ L+ + HA K +V+P+ FK+ S |
+L L+ |
Sbjct |
RQHARRVMNAINTVVENLQDPEKVSSVLALVGKAHAVKHKVEPIYFKIXSGVMLSVLSED |
||
Query |
LPAEFTPAVHASLDKFLASVSTVLTSKY |
141 |
|
|
P FT V |
K +A+V +T Y |
|
Sbjct |
FPEFFTAEVQLVWTKLMAAVYWHVTGAY |
181 |
вычислить с помощью матрицы замены аминокислот BLOSUM50 и аффинного штрафа за пропуски (g) d (g 1)e (при d 10 и e 3) счёт следующего фрагмента выравнивания
WGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQ WGHVYKNCEDVGVSVLIRFFVNFPSAKQYFSQFQDMQDPEEMEKSSQ
ЗАДАЧА 6.39
Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином-1 Danio rerio (Данио рерио, аквариумная рыбка) (Sbjct)
Query |
LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS----- |
HGSAQV |
||||||
|
L+ |
D ++ W |
V A |
G |
L R F +FP+ K YF HF +L |
|
+AQ+ |
|
Sbjct |
LTEEDVCVIQDTWKPVYAERDNAGVAVLVRFFTNFPSAKQYFEHFRELQDPAEMQQNAQL |
|||||||
Query KGHGKKVADALTNAVAHV---DDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH |
||||||||
|
K HG++V +AL |
V ++ |
D + |
+ + HA + +VDPV FK+L+ |
+L |
L |
||
Sbjct |
KKHGQRVLNALNTLVENLRDADKLNTIFNQMGKSHALRHKVDPVYFKILAGVILEVLVEA |
|||||||
Query |
LPAEFTPA-VHASLDKFLASVSTVLTSKY |
141 |
|
|
||||
|
P |
F+PA V +S |
K + |
+ |
+ Y |
|
|
|
Sbjct |
FPQCFSPAEVQSSWSKLMGILYWQMNRVY |
164 |
|
|
||||
вычислить с помощью матрицы замены аминокислот BLOSUM62 и |
||||||||
аффинного штрафа за пропуски |
(g) d (g 1)e (при d 10 и |
e 3) |
счёт следующего фрагмента выравнивания
KGHGKKVADALTNAVAHV---DDMPNALSALSDLHAHKLRVDPV KKHGQRVLNALNTLVENLRDADKLNTIFNQMGKSHALRHKVDPV
40
7. ГЛОБАЛЬНОЕ ВЫРАВНИВАНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
Алгоритм глобального оптимального выравнивания двух последо-
вательностей, дающий максимальное количество баллов (максимальный вес (счёт, score)) основан на математическом методе, называемом динамическим программированием. Этот был впервые предложен Cолом Нидлманом и Кристианом Вуншем.
Алгоритм глобального выравнивания Нидлмена-Вунша методом динамического программирования заключается в построении на данном этапе оптимального выравнивания, используя полученные на предыдущих этапах оптимальные выравнивания начальных фрагментов исходных последовательностей.
Для двух выравниваемых последовательностей x и y с элементами xi ( 0 i n ) и y j ( 0 j m ) мы строим матрицу F .
Элемент F(i, j) этой матрицы содержит вес (счёт, score) наилучшего выравнивания начальных фрагментов x1 i (длиной i ) и y1 j
(длиной j ) последовательностей x и y , соответственно. Матрицу F мы строим рекурсивно. Начинаем с того, что присваиваем начальной точке нулевой вес F(0,0) 0 . Далее мы заполняем матрицу в порядке возрастания обоих индексов, то есть с верхнего левого угла к нижнему
правому. Если уже известны F(i 1, j 1) , |
F(i 1, j) |
и F(i, j 1) , то |
можно вычислить F(i, j) . |
|
|
Возможны три варианта получения веса F(i, j) |
в соответствии с |
тремя возможными вариантами выравнивания, представленными на рисунке 7.
Элемент xi одной последовательности может быть выровнен с элементом y j второй последовательности (рисунок 7(а)), и тогда к значению веса F(i 1, j 1) добавляем очки за выравнивание s(xi , y j )
(например, из матрицы BLOSUM)
F(i, j) F(i 1, j 1) s(xi , y j ) . 41
I G A |
xi |
A I G A xi |
G A xi - - |
L G V |
y j |
G V y j - - |
S L G V y j |
а |
|
|
|
б |
в |
|
|
Рисунок 7 – Три способа |
продолжения |
выравнивания до точки |
(i, j) : |
||||
а – элемент |
xi |
выровнен с |
y j ; |
б – элементу |
xi сопоставлен |
пропуск |
(gap); |
в – элементу y j сопоставлен пропуск |
|
|
|
|
|||
Если |
же |
элементу |
xi |
одной последовательности |
сопоставлен |
пропуск (gap) "–" во второй последовательности (рисунок 7(б)), то за это "начисляется" штраф d
F(i, j) F(i 1, j) d .
В случае, когда элементу y j сопоставлен пропуск в последова-
тельности x (рисунок 7(в)), также "начисляется" штраф
F(i, j) F(i, j 1) d .
Наибольший вес выравнивания двух фрагментов последовательнос-
тей x1 i (длиной i ) и y1 j |
(длиной |
j ) определяется как максимум этих |
|
трёх вариантов |
|
|
|
|
F (i 1, j 1) s(xi , y j ), |
|
|
|
|
1, j) d, |
|
F (i, j) max F (i |
(*) |
||
|
F (i, j 1) d. |
|
|
|
|
|
|
Такую рекурсивную процедуру повторяем, последовательно |
|||
увеличивая номер строки |
j (а |
внутри строки – |
последовательно |
увеличивая номер столбца i ), до тех пор, пока не будет заполнена вся матрица F(i, j) .
Рассмотрим "квадрат", состоящий из четырёх соседних ячеек матрицы (рисунок 8).
42
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
F(i 1, j 1) |
|
|
|
|
F(i, j 1) |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
s(xi , y |
|
|
|
|
|
|
|
|
d |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
F(i 1, j) |
|
|
|
|
F(i, j) |
|
||||||
|
|
|
|
||||||||||
|
|
|
|
|
|
||||||||
|
|
|
|
|
d |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Рисунок 8 – Три варианта получения веса F(i, j)
Каждое последующее значение F(i, j) в правом нижнем углу каждого такого "квадрата" из четырёх ячеек определяется из одной из оставшихся трёх ячеек (показано стрелками на рисунке 8).
При заполнении матрицы F одновременно с вычислением значений F(i, j) необходимо запоминать, по какому из трёх "путей" (из какой клетки на рисунке 8) было получено это конкретное значение F(i, j) . Такое запоминание впоследствии, после заполнения всей матрицы, нужно для восстановления "маршрута" выборов.
Прежде чем закончить описание алгоритма необходимо определить граничные условия – процедуру заполнения ячеек верхней строки ( j 0) и левой колонки (i 0) .
Поскольку вдоль верхней строки, где ( j 0) , получение значений F(i,0) при движении слева направо (горизонтальная стрелка на рисунке 8) соответствует вставкам пропусков в последовательность y , то устанавливаем
F(i,0) d .
Аналогично вдоль левой колонки с (i 0)
F(0, j) d .
43
Рассмотрим последовательность заполнения матрицы динамического программирования на примере глобального выравнивания двух последовательностей
x= HEAGAWGHEE y = PAWHEAE,
сиспользованием матрицы замен BLOSUM50 (таблица 6, п. 9) и значения величины штрафа d 8 .
Сначала, в соответствии с правилом заполнения верхней строки ( j 0) и левой колонки (i 0) , заполняем соответствующие ячейки
матрицы динамического программирования нарастающим штрафом (рисунок 9) и отмечаем стрелками "путь" заполнения соответствующей ячейки.
|
|
xi |
H |
E |
A |
G |
A |
W |
G |
H |
E |
E |
yj |
j |
|
|
|
|
|
|
|
|
|
|
|
|
׀׀ |
i=0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
0 |
0 –8 |
–16 –24 –32 –40 –48 –56 –64 –72 –80 |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
P |
1 |
–8 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
2 |
–16 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
W |
3 |
–24 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
H |
4 |
–32 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
E |
5 |
–40 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
6 |
–48 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
E |
7 |
–56 |
|
|
|
|
|
|
|
|
|
|
Рисунок 9 – Заполнение верхней строки и левой колонки матрицы
Затем начинаем заполнять строку c j 1. Для ячейки (1,1), то есть для пары аминокислот (H,P) вычисляем три возможные варианта, в соответствии с алгоритмом (*) (стр. 42) и отмечаем стрелкой-указателем, из какой ячейки была заполнена данная ячейка
44
F (0,0) s(H,P) |
0 ( 2) 2 |
||
|
8 |
|
16 . |
F (1,1) max F (0,1) |
max 8 8 |
||
|
8 |
|
16 |
F (1,0) |
8 8 |
Для ячейки (1,1) максимальным будет значение (–2) при переходе из ячейки (0,0), поэтому отмечаем стрелкой () переход из ячейки (0,0) в ячейку (1,1) (рисунок 10).
|
|
xi |
H |
|
E |
A |
G |
A |
W |
G |
H |
E |
E |
yj |
j |
|
|
|
|
|
|
|
|
|
|
|
|
|
׀׀ |
i=0 |
1 |
|
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
0 |
0 –8 |
–16 –24 –32 –40 –48 –56 –64 –72 –80 |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
P |
1 |
–8 |
–2 |
|
–9 –17 –25 –33 –41 –49 –57 –65 –73 |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
2 |
–16 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
W |
3 |
–24 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
H |
4 |
–32 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
E |
5 |
–40 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
6 |
–48 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
E |
7 |
–56 |
|
|
|
|
|
|
|
|
|
|
|
|
|
Рисунок 10 – Заполнение строки c j = 1 |
|
|
|
|
|
|
|||||
|
|
Продолжаем заполнять строку c |
j 1. Для ячейки (2,1) |
или (Е,Р) |
матрицы динамического программирования вычисляем три возможные варианта, в соответствии с алгоритмом (*) (стр. 42)
F (1,0) s(E,P) |
8 ( 1) 9 |
|
|
F (2,1) max F (1,1) 8 |
max 2 8 10 |
|
|
F (2,0) 8 |
16 8 24 |
и отмечаем соответствующий переход стрелкой () (рисунок 52).
45
Для ячейки (3,1) или (А,Р) матрицы |
|
||
F (2,0) s(A,P) |
16 ( 1) 17 |
||
|
8 |
|
17 |
F (3,1) max F (2,1) |
max 9 8 |
||
|
8 |
|
|
F (3,0) |
24 8 32 |
имеется два одинаковых максимума (–17), соответственно отмечаем два варианта перехода к ячейке (3,1) из ячеек (2,0) и (2,1) (рисунок 10).
Далее для оставшихся ячеек строки j 1:
F (3,0) s(G,P) F (4,1) max F (3,1) 8
F (4,0) 8
F (4,0) s(A,P) F (5,1) max F (4,1) 8
F (5,0) 8
F (5,0) s(W,P) F (6,1) max F (5,1) 8
F (6,0) 8
F (6,0) s(G,P) F (7,1) max F (6,1) 8
F (7,0) 8
F (7,0) s(H,P) F (8,1) max F (7,1) 8
F (8,0) 8
F (8,0) s(E,P) F (9,1) max F (8,1) 8
F (9,0) 8
24 ( 2) 26max 17 8 25
32 8 40
32 ( 1) 33max 25 8 33
40 8 48
40 ( 4) 44max 33 8 41
48 8 56
48 ( 2) 50max 41 8 49
56 8 64
56 ( 2) 58max 49 8 57
64 8 72
64 ( 1) 65max 57 8 65
72 8 80
46
|
|
|
|
|
|
F (9,0) s(E,P) |
72 ( 1) 73 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
F (10,1) max F (9,1) 8 |
max 65 8 73 . |
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
8 88 |
|
|
|
|
|
|
|
|
|
F (10,0) 8 |
|
80 |
|
|
||||
|
|
Аналогично, заполняем оставшиеся ячейки матрицы (рисунок 11). |
||||||||||||
|
|
xi |
H |
|
E |
A |
G |
A |
W |
|
G |
H |
E |
E |
yj |
j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
׀׀ |
i=0 |
1 |
|
2 |
3 |
4 |
5 |
6 |
|
7 |
8 |
9 |
10 |
|
0 |
0 –8 |
–16 –24 –32 |
–40 –48 –56 |
–64 –72 |
–80 |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
P |
1 |
–8 |
–2 |
|
–9 –17 –25 |
–33 –41 –49 |
–57 –65 |
–73 |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
2 |
–16 |
–10 |
|
–3 |
–4 –12 |
–20 –28 –36 |
–44 –52 |
–60 |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
W |
3 |
–24 |
–18 |
|
–11 |
–6 |
–7 |
–15 |
–5 |
–13 |
–21 –29 |
–37 |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
H |
4 |
–32 |
–14 |
|
–18 |
–13 |
–8 |
–9 |
–13 |
|
–7 |
–3 –11 |
–19 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
E |
5 |
–40 |
–22 |
|
–8 |
–16 |
–16 |
–9 |
–12 |
|
–15 |
–7 |
3 |
–5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
6 |
–48 |
–30 |
|
–16 |
–3 |
–11 |
–11 |
–12 |
|
–12 |
–15 |
–5 |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|||
E |
7 |
–56 |
–38 |
|
–24 –11 –6 |
–12 |
–14 |
|
–15 –12 –9 |
1 |
||||
|
|
Рисунок 11 – Заполнение матрицы динамического программирования |
|
|||||||||||
|
|
Значение правой нижней ячейки матрицы F(n,m) по определению |
является наилучшим весом выравнивания двух последовательностей x1 i и y1 j . Для построения самогó выравнивания необходимо восстановить последовательность выборов, которая и привела от начальной точки (0,0) к финальной точке (n, m) .
Процедура восстановления выборов называется процедурой обратного прохода (traceback procedure). Она осуществляется построением выравнивания с конца, от правой нижней ячейки матрицы с координатами (n, m) , следуя тем указателям шагов, которые были получены при построении матрицы.
На рисунке 12 стрелками показаны указатели для обратного прохода.
47
|
|
xi |
H |
E |
A |
G |
A |
W |
G |
H |
E |
E |
yj |
j |
|
|
|
|
|
|
|
|
|
|
|
|
׀׀ i=0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
|
0 |
0 |
–8 |
–16 |
–24 |
–32 |
–40 |
–48 |
–56 |
–64 |
–72 |
–80 |
|
|
|
|
|
|
|
|
|
|
|
|
|
P 1 –8 |
–2 |
–9 –17 –25 |
–33 |
–41 |
–49 |
–57 |
–65 |
–73 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
2 |
–16 |
–10 |
–3 |
–4 |
–12 |
–20 |
–28 |
–36 |
–44 |
–52 |
–60 |
|
|
|
|
|
|
|
|
|
|
|
|
|
W 3 –24 |
–18 |
–11 |
–6 |
–7 |
–15 |
–5 –13 |
–21 |
–29 |
–37 |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
H 4 –32 |
–14 |
–18 |
–13 |
–8 |
–9 |
–13 |
–7 |
–3 |
–11 |
–19 |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
E 5 –40 |
–22 |
–8 |
–16 |
–16 |
–9 |
–12 |
–15 |
–7 |
3 |
–5 |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
6 |
–48 |
–30 |
–16 |
–3 |
–11 |
–11 |
–12 |
–12 |
–15 |
–5 |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
E |
7 |
–56 |
–38 |
–24 |
–11 |
–6 |
–12 |
–14 |
–15 |
–12 |
–9 |
1 |
|
|
Рисунок 12 – Три возможные пути обратного прохода |
|
|
|
|
На каждом шаге процедуры обратного прохода мы движемся от текущей ячейки (i, j) "обратно" к одной из ячеек (i 1, j 1) , (i 1, j) , (i, j 1) из которых и было вычислено значение веса F(i, j) .
При этом мы строим граф обратного прохода и, одновременно, записываем выравниваемые строки, добавляя слева к текущему выравниванию пару символов:
|
|
xi |
|
– если вес был получен из ячейки (i 1, j 1) |
||||||||
|
y j |
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
|
(диагональная стрелка); |
|
|
|
||||||||
|
|
xi |
|
|
– |
если |
вес |
был |
получен |
из |
ячейки |
(i 1, j) |
|
|
|
||||||||||
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(горизонтальная стрелка); |
|
|
|
||||||||
|
|
|
|
– |
если |
вес |
был |
получен |
из |
ячейки |
(i, j 1) |
|
|
|
|||||||||||
|
y j |
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
(вертикальная стрелка).
В конце выравнивания мы достигаем левого верхнего угла матрицы (0,0) .
48
Для нашего примера оказываются возможными три варианта выравнивания с одинаковым весом 1:
x : HEAGAWGHE-E
(I) |
y : --P-AW-HEAE, |
|
|
||
(II) |
x : HEAGAWGHE-E |
|
y : -P--AW-HEAE, |
||
|
||
(III) |
x : HEAGAWGHE-E |
|
y : -PA--W-HEAE. |
||
|
Первое выравнивание (I) строится следующим образом. Значение ("1") в ячейке (10,7) в правом нижнем углу матрицы получено в результате перехода по диагональной стрелке (), поэтому мы сопоставляем два символа последовательностей x: E (i = 10) и y: E (j = 7)
x : |
E |
(**) |
y : |
E. |
|
Затем, в соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12), переходим к ячейке (i = 9, j = 6). Значение ("–5") в ячейке (9,6) получено в результате перехода по вертикальной стрелке () из ячейки (9,5) матрицы, поэтому мы вставляем пропуск в последовательность x напротив элемента A (j = 6) из последовательности y и добавляем эту пару символов слева к паре (**)
x : |
-E |
y : |
AE. |
Далее, в соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12), переходим к ячейке (9,5). Значение ("3") в ячейке (9,5) получено в результате перехода по диагональной стрелке из ячейки (8,4) матрицы, поэтому мы сопоставляем два символа последовательностей x: E (i = 9) и y: E (j = 5) и добавляем эту пару символов слева к выравниванию
49
x : |
E-E |
y : |
EAE. |
Далее, в соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12), переходим к ячейке (8,4), значение которой ("–3") получено в результате перехода по диагональной стрелке из ячейки (7,3) матрицы, поэтому мы сопоставляем два символа последовательностей x: H (i = 8) и y: H (j = 4) и добавляем эту пару символов слева к выравниванию
x : |
HE-E |
y : |
HEAE. |
Значение ("–13") в ячейке (7,3) получено в результате перехода по горизонтальной стрелке () из ячейки (6,3) матрицы, поэтому мы вставляем пропуск в последовательность y напротив элемента G (i = 7) из последовательности x и добавляем эту пару символов слева к выравниванию
x : |
GHE-E |
y : |
-HEAE. |
Далее, значение ("–5") в ячейке (6,3) получено в результате перехода по диагональной стрелке () из ячейки (5,2), поэтому мы сопоставляем два символа последовательностей x: W (i = 6) и y: W (j = 3) и добавляем эту пару символов слева к выравниванию
x : |
WGHE-E |
y : |
W-HEAE. |
Значение ("–20") в ячейке (5,2) было получено двумя способами:
(1)в результате перехода по горизонтальной стрелке () из ячейки (4,2) и
(2)в результате перехода по диагональной стрелке () из ячейки (4,1). В соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12) мы выбираем диагональный переход из ячейки (4,1),
сопоставляем два символа последовательностей x: A (i = 5) и y: A (j = 2) и добавляем эту пару символов слева к выравниванию
x : |
AWGHE-E |
y : |
AW-HEAE. |
Далее, в соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12), переходим к ячейке (4,1), значение которой ("–25") получено в результате перехода по горизонтальной стрелке () из ячейки (3,1) матрицы. Поэтому мы вставляем пропуск в последовательность y напротив элемента G (i = 4) из последовательности x и добавляем эту пару символов слева к выравниванию
x : |
GAWGHE-E |
y : |
-AW-HEAE. |
Значение в ячейке (3,1) ("–17") также было получено двумя способами: (1) в результате перехода по горизонтальной стрелке () из ячейки (2,1) и (2) в результате перехода по диагональной стрелке () из ячейки (2,0). В соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12) мы выбираем диагональный переход из ячейки (2,0) матрицы, сопоставляем два символа последовательностей x: A (i = 3) и y: P (j = 1) и добавляем эту пару символов слева к выравниванию
x : |
AGAWGHE-E |
y : |
P-AW-HEAE. |
Последние два перехода: в ячейку (2,0) из ячейки (1,0) и в ячейку (1,0) из ячейки (0,0) – были сделаны по горизонтальным стрелкам, поэтому мы вставляем два последовательных пропуска в последовательность y напротив элементов E (i = 2) и H (i = 1) из последовательности x, добавляем эти пары символов слева и завершаем выравнивание
x : HEAGAWGHE-E y : --P-AW-HEAE.
50 |
51 |
Счёт этого выравнивания:
S1 d d s( A, P) d s( A, A) s(W ,W ) d
s(H , H ) s(E, E) d s(E, E)
8 8 1 8 5 15 8 10 6 8 6 1,
как и должно быть согласно алгоритму Нидлмена-Вунша, равен значению правой нижней ячейки матрицы глобального выравнивания (рисунок 12).
Варианты (II) и (III) выравнивания строятся аналогичным образом. Счёт выравниваниий (II) и (III)
S2 8 1 8 8 5 15 8 10 6 8 6 1,
S3 8 1 5 8 8 15 8 10 6 8 6 1.
Существование нескольких оптимальных выравниваний с одинаковым весом (счётом) проявляется в виде "развилок" в графе обратного прохода в матрице динамического программирования. Развилка появляется в том случае, если процедура обратного прохода, восстанавливающая оптимальный путь, достигает в матрице динамического программирования ячейки (i, j) , оптимальное значение которой F(i, j) было получено из более чем одной "родительской" ячейки. Это и порождает различные пути через матрицу динамического программирования и, следовательно, различные оптимальные выравнивания.
Основное достоинство метода динамического программирования состоит в том, что он гарантирует глобальный оптимум: наилучший результат выравнивания при заданном наборе параметров – матрице замещений и штрафных значениях для пропусков – без каких-либо приближений.
Основной недостаток метода состоит в том, что многие выравнивания двух данных последовательностей могут привести к оптимальному числу баллов, при этом совершенно не обязательно, что хотя бы одно из них имеет отношение к биологически корректному выравниванию (имеет биологический смысл). Например, при сравнении последовательностей - и -цепей гемоглобина цыпленка В. Фитч и
52
Т. Смит нашли 17 выравниваний, каждое давало одинаковое оптимальное число баллов, из которых корректным, (используя дополнительную информацию о пространственной структуре белков) оказалось только одно. И вообще, оказалось, что для этой задачи существует 1317 выравниваний, которые дают число баллов в пределах 5% от оптимума.
Есть ещё один недостаток – время, требуемое для выравнивания двух последовательностей длиной п и т пропорционально размеру редактируемой матрицы, то есть, пропорционально произведению m n . Вычислительную сложность алгоритма обозначают O( f ) . Поскольку обычно п и т одного порядка, про алгоритм говорят, что он требует
O n2 времени (или памяти). В области анализа биологических после-
довательностей обычными компьютерами (а не суперкомпьютерами)
алгоритмы O n2 дают удовлетворительные результаты, а вот алгоритмы
O n3 возможно применять только для очень коротких последователь-
ностей.
Таким образом, метод динамического программирования будет слишком медленным при поиске соответствия для пробной последовательности в полной базе данных последовательностей, и ещё меньше он подходит для выравниваний "все-против-всех". Проблема поиска в базе данных – это на самом деле проблема поиска соответствия интересующей нас последовательности с очень длинной последовательностью, длина которой равна всей базе данных.
Сравнивая глобальное выравнивание, которое ищет подобие на всем протяжении последовательностей, и локальное выравнивание, которое сосредоточивается лишь на отдельных областях подобия в некоторых частях последовательностей, следует отметить, что с точки зрения биолога поиск локального подобия может дать более значимые и точные результаты, чем оценка выравнивания по всей длине последовательностей.
Это связано с тем, что функционально активные участки обычно расположены в пределах относительно коротких областей, которые
53
остаются консервативными независимо от удалений или мутаций, происходящих в остальных частях последовательности.
Сегодня мы находимся на начальном этапе использования генетической информации о живой материи, однако развитие всё более эффективных методов расшифровки биологических текстов и разработка методов биоинформатики позволяет надеяться на серьёзный прогресс в понимании строения, механизмов функционирования и регуляции живых систем. В результате становится возможным изучение и понимание всё более сложных биологических систем, появляется возможность их системного исследования, установления эволюционных связей в живой природе, создания новых лекарственных препаратов, методов лечения и новых биотехнологий.
8. ЗАДАЧИ НА ПОСТРОЕНИЕ ГЛОБАЛЬНОГО ВЫРАВНИВАНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
ЗАДАЧА 8.1
Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с бэта-2 субъединицей гемоглобина Rattus norvegicus (Серая крыса) (Sbjct)
Query |
LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSA----- |
QV |
||
|
L+ A+K V |
WGKV +A |
GAEAL R+ + +P T+ YF F DLS SA |
QV |
Sbjct LTDAEKATVSGLWGKV--NADNVGAEALGRLLVVYPWTQRYFSKFGDLSSASAIMGNPQV |
||||
Query |
KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA |
|||
|
K HGKKV +A |
+ + H+D++ |
+ LS+LH KL VDP NF+LL + +++ L |
HL |
Sbjct |
KAHGKKVINAFNDGLKHLDNLKGTFAHLSELHCDKLHVDPENFRLLGNMIVIVLGHHLGK |
Query EFTPAVHASLDKFLASVSTVLTSKY 141
EFTP A+ K +A V++ L KY
Sbjct EFTPCAQAAFQKVVAGVASALAHKY 146
используя матрицу замен аминокислот PAM30 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)
WGKVGAHAGE
WGKVNADN
ЗАДАЧА 8.2
Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с бэта-субъединицей гемоглобина Papio anubis (Павиан догеровский, Анубис) (Sbjct)
Query |
LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH----- |
GSAQV |
||||
|
L+P +K V A WGKV |
+ |
E G EAL R+ + +P T+ +F F DLS |
G+ +V |
||
Sbjct LTPEEKNAVTALWGKV--NVDEVGGEALGRLLVVYPWTQRFFDSFGDLSSPAAVMGNPKV |
||||||
Query |
KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA |
|||||
|
K HGKKV |
A ++ + H+D++ |
|
+ LS+LH KL VDP NFKLL + L+ |
LA H |
|
Sbjct |
KAHGKKVLGAFSDGLNHLDNLKGTFAQLSELHCDKLHVDPENFKLLGNVLVCVLAHHFGK |
|||||
Query |
EFTPAVHASLDKFLASVSTVLTSKY |
141 |
|
|||
|
EFTP V A+ |
K +A V+ |
L |
KY |
|
|
Sbjct |
EFTPQVQAAYQKVVAGVANALAHKY |
146 |
|
используя матрицу замен аминокислот PAM70 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)
GKVGAHAGEY
GKVNVDEV
ЗАДАЧА 8.3
Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с бэта-субъединицей гемоглобина major chain Rattus norvegicus (Серая крыса) (Sbjct)
Query |
LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH----- |
GSAQV |
||||
|
L+ A+K |
V |
WGKV + |
E GAE+L + + +P T+ YF F DLS |
G+ QV |
|
Sbjct LTDAEKATVNGLWGKV--NPVEIGAESLASLLIVYPWTQRYFSKFGDLSSVSAIMGNPQV |
||||||
Query |
KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA |
|||||
|
K HG+KV +A |
+ + H+D++ |
|
++LS+LH KL VDP NF+LL + +++ + |
HL |
|
Sbjct |
KAHGEKVINAFDDGLKHLDNLKGTFASLSELHCDKLHVDPENFRLLGNMIVIMMGHHLGK |
|||||
Query |
EFTPAVHASLDKFLASVSTVLTSKY |
141 |
|
|||
|
EFTP+ |
A+ |
K +A V++ L |
KY |
|
|
Sbjct |
EFTPSAQAAFQKVVAGVASALAHKY |
146 |
|
используя матрицу замен аминокислот PAM120 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)
AWGKVGAHAG
LWGKVNPV
54 |
55 |
ЗАДАЧА 8.4
Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с гемоглобином эпсилон Bos taurus (Дикий бык)
(Sbjct)
Query |
LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSA----- |
QV |
||||
|
+ +K |
+ |
WGKV |
E G EAL R+ + +P T+ +F F +LS SA |
+V |
|
Sbjct FTAEEKAAITGLWGKVNVE--EAGGEALGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKV |
||||||
Query |
KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA |
|||||
|
K HGKKV |
+ |
A+ ++D++ |
A + LS+LH KL VDP NF+LL + +++ LA H |
|
|
Sbjct |
KAHGKKVLTSFGEAIKNLDNLKGAFAKLSELHCDKLHVDPENFRLLGNVIVIILATHFGR |
|||||
Query |
EFTPAVHASLDKFLASVSTVLTSKY |
141 |
|
|||
|
EFTP V A+ |
K ++ V+T L |
KY |
|
|
|
Sbjct |
EFTPDVQAAWQKLVSGVATALAHKY |
146 |
|
используя матрицу замен аминокислот PAM250 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)
VGAHAGEYGA
VNVEEAGG
ЗАДАЧА 8.5
Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с субъединицей бэта гемоглобина Ovis aries (Домашняя овца) (Sbjct)
Query |
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQ |
||
|
+L+ +K V WGKV |
E GAEAL R+ + +P T+ +F HF DLS |
+A+ |
Sbjct |
MLTAEEKAAVTGFWGKV--KVDEVGAEALGRLLVVYPWTQRFFEHFGDLSSADAVMNNAK |
Query VKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLP VK HGKKV D+ +N V H+DD+ + LS+LH KL VDP NF+LL + L+V LA H
Sbjct VKAHGKKVLDSFSNGVQHLDDLKGTFAQLSELHCDKLHVDPENFRLLGNVLVVVLARHHG
Query AEFTPAVHASLDKFLASVSTVLTSKY 141
+EFTP + A K +A V+ L +Y
Sbjct SEFTPVLQAEFQKVVAGVANALAHRY 144
используя матрицу замен аминокислот BLOSUM45 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)
GKVGAHAGEY
GKVKVDEV
56
ЗАДАЧА 8.6
Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с субъединицей бэта-1 гемоглобина Mus musculus (Мышь домовая) (Sbjct)
Query LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQV
|
L+ A+K |
V |
WGKV +A E G EAL R+ + +P T+ YF F DLS |
G+A+V |
|
Sbjct LTDAEKAAVSGLWGKV--NADEVGGEALGRLLVVYPWTQRYFDSFGDLSSASAIMGNAKV |
|||||
Query |
KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA |
||||
|
K HGKKV |
A |
+ + H+D + |
++LS+LH KL VDP NF+LL + +++ L |
HL |
Sbjct |
KAHGKKVITAFNDGLNHLDSLKGTFASLSELHCDKLHVDPENFRLLGNMIVIVLGHHLGK |
Query EFTPAVHASLDKFLASVSTVLTSKY 141
+FTPA A+ K +A V+ L KY
Sbjct DFTPAAQAAFQKVVAGVAAALAHKY 146
используя матрицу замен аминокислот BLOSUM50 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)
AWGKVGAHAG
LWGKVNAD
ЗАДАЧА 8.7
Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с субъединицей бэта гемоглобина Gallus gallus (Банкивский петух) (Sbjct)
Query DKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQVKGHG
|
+K |
+ |
WGKV + E GAEAL R+ + +P T+ +F F +LS |
G+ |
V+ HG |
|
Sbjct EKQLITGLWGKV--NVAECGAEALARLLIVYPWTQRFFASFGNLSSPTAILGNPMVRAHG |
||||||
Query |
KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP |
|||||
|
KKV |
+ |
+AV ++D++ N |
S LS+LH KL VDP NF+LL |
L++ LAAH |
+FTP |
Sbjct |
KKVLTSFGDAVKNLDNIKNTFSQLSELHCDKLHVDPENFRLLGDILIIVLAAHFSKDFTP |
|||||
Query |
AVHASLDKFLASVSTVLTSKY |
141 |
|
|
||
|
|
A+ K + V+ L KY |
|
|
|
|
Sbjct |
ECQAAWQKLVRVVAHALARKY |
146 |
|
|
используя матрицу замен аминокислот BLOSUM62 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)
GKVGAHAGEY
GKVNVAEC
57