Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Огурцов А.Н. Выравнивание белковых последовательностей. – Харьков. НТУ ХПИ, 2015. – 80 с

..pdf
Скачиваний:
62
Добавлен:
14.09.2020
Размер:
2.58 Mб
Скачать

ЗАДАЧА 6.34

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином Xenopus laevis (Обыкновенная шпорцевая лягушка) (Sbjct)

Query

LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD------LSHGSAQV

 

++ +++

+K

W +V A+

+ G

L R F++FP+ K +F F

GS Q+

Sbjct

ITESERGVIKETWARVYANCEDVGVSILIRFFVNFPSAKQHFSQFKHMEDPLEMEGSVQL

Query KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH

 

+ HG++V

A+ + V ++ D

+

LS +

HA K +V+PV FK+L+

+L A

Sbjct

RKHGRRVMGAVNSVVENLGDPEKVTTVLSIVGKSHALKHKVEPVYFKILTGVMLEVFAEE

Query

LPAEFTPAVHASLDKFLASVSTVLTSKYR

142

 

 

+FTP V

+K + + + + S Y+

 

 

Sbjct

YAKDFTPDVQLVWNKLRSLIYSHVQSAYK

167

 

вычислить с помощью матрицы замены аминокислот PAM70 и аффинного штрафа за пропуски (g) d (g 1)e (при d 10 и e 3) счёт следующего фрагмента выравнивания

KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFK RKHGRRVMGAVNSVVENLGDPEKVTTVLSIVGKSHALKHKVEPVYFK

ЗАДАЧА 6.35

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином Gallus gallus (Банкивский петух)

(Sbjct)

Query

LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD------LSHGSAQV

 

+S A+K

++

W +V A+

+ G L R F++FP+ K YF F

S Q+

Sbjct

ISDAEKKVIQETWSRVYANCEDVGVSILIRFFVNFPSAKQYFSQFKHMDDTLEMERSLQL

Query KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH

 

+ H ++V

A+

V ++DD + + L+ +

HA K +V+PV FK L+

+L +A

Sbjct

RKHAQRVMGAINTVVENLDDPEKVSSVLALVGKAHALKHKVEPVYFKKLTGVMLEVIAEA

Query

LPAEFTPAVHASLDKFLASVSTVLTSKYR

142

 

 

+FTP

H +

K

+ T +T+ Y+

 

 

Sbjct

YGNDFTPEAHGAWTKMRTLIYTHVTAAYK

167

 

вычислить с помощью матрицы замены аминокислот PAM120 и аффинного штрафа за пропуски (g) d (g 1)e (при d 10 и e 3) счёт следующего фрагмента выравнивания

KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNF RKHAQRVMGAINTVVENLDDPEKVSSVLALVGKAHALKHKVEPVYF

38

ЗАДАЧА 6.36

Для выравнивания альфа субъединицы гемоглобина человека

HBA_HUMAN (Query) с цитоглобином Xenopus (Silurana) tropicalis (Водная лягушка силураны) (Sbjct)

Query

LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD------LSHGSAQV

 

++ +++

+K

W +V A+

+ G

L R F++FP+ K +F F

GS Q+

Sbjct

ITESERGVIKETWARVYANCEDVGVSILIRFFVNFPSAKQHFSQFKHMEDPLEMEGSVQL

Query KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH

 

+ H ++V

A+ + V ++ D

+

LS +

HA K +VDPV FK+L+ +L

+A

Sbjct

RKHARRVMGAVNSVVENLGDPEKITTVLSIVGKSHALKHKVDPVYFKILTGVMLEVIAEE

Query

LPAEFTPAVHASLDKFLASVSTVLTSKYR

142

 

 

+FTP V

+ +K + + + + S Y+

 

 

Sbjct

YAKDFTPDVQLAWNKLRSHLYSHVLSAYK

167

 

вычислить с помощью матрицы замены аминокислот PAM250 и

аффинного штрафа за пропуски

(g) d (g 1)e (при d 10 и

e 3)

счёт следующего фрагмента выравнивания

KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPV RKHARRVMGAVNSVVENLGDPEKITTVLSIVGKSHALKHKVDPV

ЗАДАЧА 6.37

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином Oncorhynchus mykiss (Радужная форель) (Sbjct)

Query

LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHG------SAQV

 

L +++ +K W KV +

+ G L R+F++FP++K YF F

SAQ+

Sbjct

LCDSEREMIKDTWAKVYQNCDDVGVAILIRLFVNFPSSKQYFSQFQQVEDPGELERSAQL

Query KGHGKKVADALTNAVAHV---DDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH

 

+ H ++V +A+

V ++

D M + L + HA + V+PV FK+L

+L L A

Sbjct

RKHSRRVMNAINTLVENLHDGDKMVSVLKLVGKAHALRHNVEPVYFKILCGVILEVLVAD

Query

LPAEFTPAVHASLDKFLASV

133

 

 

P TP V

+ K L ++

 

 

Sbjct

FPDYITPEVAVAWTKLLDAI

158

 

вычислить с помощью матрицы замены аминокислот BLOSUM45 и аффинного штрафа за пропуски (g) d (g 1)e (при d 10 и e 3) счёт следующего фрагмента выравнивания

KGHGKKVADALTNAVAHV---DDMPNALSALSDLHAHKLRVDPVNF RKHSRRVMNAINTLVENLHDGDKMVSVLKLVGKAHALRHNVEPVYF

39

ЗАДАЧА 6.38

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином-2 Oryzias latipes (Медака, рыбка семейства оризиевых) (Sbjct)

Query LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQV

 

LS A+

++

WG V +

+ G

L R F++FP+ K YF F D+

S+Q+

Sbjct

LSDAEMEIIQHTWGHVYKNCEDVGVSVLIRFFVNFPSAKQYFSQFQDMQDPEEMEKSSQL

Query

KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH

 

+ H ++V

+A+

V ++ D

+

+ L+ + HA K +V+P+ FK+ S

+L L+

Sbjct

RQHARRVMNAINTVVENLQDPEKVSSVLALVGKAHAVKHKVEPIYFKIXSGVMLSVLSED

Query

LPAEFTPAVHASLDKFLASVSTVLTSKY

141

 

P FT V

K +A+V +T Y

 

Sbjct

FPEFFTAEVQLVWTKLMAAVYWHVTGAY

181

вычислить с помощью матрицы замены аминокислот BLOSUM50 и аффинного штрафа за пропуски (g) d (g 1)e (при d 10 и e 3) счёт следующего фрагмента выравнивания

WGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQ WGHVYKNCEDVGVSVLIRFFVNFPSAKQYFSQFQDMQDPEEMEKSSQ

ЗАДАЧА 6.39

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином-1 Danio rerio (Данио рерио, аквариумная рыбка) (Sbjct)

Query

LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----

HGSAQV

 

L+

D ++ W

V A

G

L R F +FP+ K YF HF +L

 

+AQ+

Sbjct

LTEEDVCVIQDTWKPVYAERDNAGVAVLVRFFTNFPSAKQYFEHFRELQDPAEMQQNAQL

Query KGHGKKVADALTNAVAHV---DDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH

 

K HG++V +AL

V ++

D +

+ + HA + +VDPV FK+L+

+L

L

Sbjct

KKHGQRVLNALNTLVENLRDADKLNTIFNQMGKSHALRHKVDPVYFKILAGVILEVLVEA

Query

LPAEFTPA-VHASLDKFLASVSTVLTSKY

141

 

 

 

P

F+PA V +S

K +

+

+ Y

 

 

 

Sbjct

FPQCFSPAEVQSSWSKLMGILYWQMNRVY

164

 

 

вычислить с помощью матрицы замены аминокислот BLOSUM62 и

аффинного штрафа за пропуски

(g) d (g 1)e (при d 10 и

e 3)

счёт следующего фрагмента выравнивания

KGHGKKVADALTNAVAHV---DDMPNALSALSDLHAHKLRVDPV KKHGQRVLNALNTLVENLRDADKLNTIFNQMGKSHALRHKVDPV

40

7. ГЛОБАЛЬНОЕ ВЫРАВНИВАНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Алгоритм глобального оптимального выравнивания двух последо-

вательностей, дающий максимальное количество баллов (максимальный вес (счёт, score)) основан на математическом методе, называемом динамическим программированием. Этот был впервые предложен Cолом Нидлманом и Кристианом Вуншем.

Алгоритм глобального выравнивания Нидлмена-Вунша методом динамического программирования заключается в построении на данном этапе оптимального выравнивания, используя полученные на предыдущих этапах оптимальные выравнивания начальных фрагментов исходных последовательностей.

Для двух выравниваемых последовательностей x и y с элементами xi ( 0 i n ) и y j ( 0 j m ) мы строим матрицу F .

Элемент F(i, j) этой матрицы содержит вес (счёт, score) наилучшего выравнивания начальных фрагментов x1 i (длиной i ) и y1 j

(длиной j ) последовательностей x и y , соответственно. Матрицу F мы строим рекурсивно. Начинаем с того, что присваиваем начальной точке нулевой вес F(0,0) 0 . Далее мы заполняем матрицу в порядке возрастания обоих индексов, то есть с верхнего левого угла к нижнему

правому. Если уже известны F(i 1, j 1) ,

F(i 1, j)

и F(i, j 1) , то

можно вычислить F(i, j) .

 

 

Возможны три варианта получения веса F(i, j)

в соответствии с

тремя возможными вариантами выравнивания, представленными на рисунке 7.

Элемент xi одной последовательности может быть выровнен с элементом y j второй последовательности (рисунок 7(а)), и тогда к значению веса F(i 1, j 1) добавляем очки за выравнивание s(xi , y j )

(например, из матрицы BLOSUM)

F(i, j) F(i 1, j 1) s(xi , y j ) . 41

I G A

xi

A I G A xi

G A xi - -

L G V

y j

G V y j - -

S L G V y j

а

 

 

 

б

в

 

 

Рисунок 7 – Три способа

продолжения

выравнивания до точки

(i, j) :

а – элемент

xi

выровнен с

y j ;

б – элементу

xi сопоставлен

пропуск

(gap);

в – элементу y j сопоставлен пропуск

 

 

 

 

Если

же

элементу

xi

одной последовательности

сопоставлен

пропуск (gap) "–" во второй последовательности (рисунок 7(б)), то за это "начисляется" штраф d

F(i, j) F(i 1, j) d .

В случае, когда элементу y j сопоставлен пропуск в последова-

тельности x (рисунок 7(в)), также "начисляется" штраф

F(i, j) F(i, j 1) d .

Наибольший вес выравнивания двух фрагментов последовательнос-

тей x1 i (длиной i ) и y1 j

(длиной

j ) определяется как максимум этих

трёх вариантов

 

 

 

 

F (i 1, j 1) s(xi , y j ),

 

 

 

1, j) d,

 

F (i, j) max F (i

(*)

 

F (i, j 1) d.

 

 

 

 

 

Такую рекурсивную процедуру повторяем, последовательно

увеличивая номер строки

j

внутри строки –

последовательно

увеличивая номер столбца i ), до тех пор, пока не будет заполнена вся матрица F(i, j) .

Рассмотрим "квадрат", состоящий из четырёх соседних ячеек матрицы (рисунок 8).

42

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

F(i 1, j 1)

 

 

 

 

F(i, j 1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s(xi , y

 

 

 

 

 

 

 

 

d

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

F(i 1, j)

 

 

 

 

F(i, j)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

d

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рисунок 8 – Три варианта получения веса F(i, j)

Каждое последующее значение F(i, j) в правом нижнем углу каждого такого "квадрата" из четырёх ячеек определяется из одной из оставшихся трёх ячеек (показано стрелками на рисунке 8).

При заполнении матрицы F одновременно с вычислением значений F(i, j) необходимо запоминать, по какому из трёх "путей" (из какой клетки на рисунке 8) было получено это конкретное значение F(i, j) . Такое запоминание впоследствии, после заполнения всей матрицы, нужно для восстановления "маршрута" выборов.

Прежде чем закончить описание алгоритма необходимо определить граничные условия – процедуру заполнения ячеек верхней строки ( j 0) и левой колонки (i 0) .

Поскольку вдоль верхней строки, где ( j 0) , получение значений F(i,0) при движении слева направо (горизонтальная стрелка на рисунке 8) соответствует вставкам пропусков в последовательность y , то устанавливаем

F(i,0) d .

Аналогично вдоль левой колонки с (i 0)

F(0, j) d .

43

Рассмотрим последовательность заполнения матрицы динамического программирования на примере глобального выравнивания двух последовательностей

x= HEAGAWGHEE y = PAWHEAE,

сиспользованием матрицы замен BLOSUM50 (таблица 6, п. 9) и значения величины штрафа d 8 .

Сначала, в соответствии с правилом заполнения верхней строки ( j 0) и левой колонки (i 0) , заполняем соответствующие ячейки

матрицы динамического программирования нарастающим штрафом (рисунок 9) и отмечаем стрелками "путь" заполнения соответствующей ячейки.

 

 

xi

H

E

A

G

A

W

G

H

E

E

yj

j

 

 

 

 

 

 

 

 

 

 

 

 

׀׀

i=0

1

2

3

4

5

6

7

8

9

10

 

0

0 –8

–16 –24 –32 –40 –48 –56 –64 –72 –80

 

 

 

 

 

 

 

 

 

 

 

 

P

1

–8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A

2

–16

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

W

3

–24

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H

4

–32

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

E

5

–40

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A

6

–48

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

E

7

–56

 

 

 

 

 

 

 

 

 

 

Рисунок 9 – Заполнение верхней строки и левой колонки матрицы

Затем начинаем заполнять строку c j 1. Для ячейки (1,1), то есть для пары аминокислот (H,P) вычисляем три возможные варианта, в соответствии с алгоритмом (*) (стр. 42) и отмечаем стрелкой-указателем, из какой ячейки была заполнена данная ячейка

44

F (0,0) s(H,P)

0 ( 2) 2

 

8

 

16 .

F (1,1) max F (0,1)

max 8 8

 

8

 

16

F (1,0)

8 8

Для ячейки (1,1) максимальным будет значение (–2) при переходе из ячейки (0,0), поэтому отмечаем стрелкой () переход из ячейки (0,0) в ячейку (1,1) (рисунок 10).

 

 

xi

H

 

E

A

G

A

W

G

H

E

E

yj

j

 

 

 

 

 

 

 

 

 

 

 

 

 

׀׀

i=0

1

 

2

3

4

5

6

7

8

9

10

 

0

0 –8

–16 –24 –32 –40 –48 –56 –64 –72 –80

 

 

 

 

 

 

 

P

1

–8

–2

 

–9 –17 –25 –33 –41 –49 –57 –65 –73

 

 

 

 

 

 

 

 

 

 

 

 

 

A

2

–16

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

W

3

–24

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H

4

–32

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

E

5

–40

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A

6

–48

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

E

7

–56

 

 

 

 

 

 

 

 

 

 

 

 

 

Рисунок 10 – Заполнение строки c j = 1

 

 

 

 

 

 

 

 

Продолжаем заполнять строку c

j 1. Для ячейки (2,1)

или (Е,Р)

матрицы динамического программирования вычисляем три возможные варианта, в соответствии с алгоритмом (*) (стр. 42)

F (1,0) s(E,P)

8 ( 1) 9

 

 

F (2,1) max F (1,1) 8

max 2 8 10

 

 

F (2,0) 8

16 8 24

и отмечаем соответствующий переход стрелкой () (рисунок 52).

45

Для ячейки (3,1) или (А,Р) матрицы

 

F (2,0) s(A,P)

16 ( 1) 17

 

8

 

17

F (3,1) max F (2,1)

max 9 8

 

8

 

 

F (3,0)

24 8 32

имеется два одинаковых максимума (–17), соответственно отмечаем два варианта перехода к ячейке (3,1) из ячеек (2,0) и (2,1) (рисунок 10).

Далее для оставшихся ячеек строки j 1:

F (3,0) s(G,P) F (4,1) max F (3,1) 8

F (4,0) 8

F (4,0) s(A,P) F (5,1) max F (4,1) 8

F (5,0) 8

F (5,0) s(W,P) F (6,1) max F (5,1) 8

F (6,0) 8

F (6,0) s(G,P) F (7,1) max F (6,1) 8

F (7,0) 8

F (7,0) s(H,P) F (8,1) max F (7,1) 8

F (8,0) 8

F (8,0) s(E,P) F (9,1) max F (8,1) 8

F (9,0) 8

24 ( 2) 26max 17 8 25

32 8 40

32 ( 1) 33max 25 8 33

40 8 48

40 ( 4) 44max 33 8 41

48 8 56

48 ( 2) 50max 41 8 49

56 8 64

56 ( 2) 58max 49 8 57

64 8 72

64 ( 1) 65max 57 8 65

72 8 80

46

 

 

 

 

 

 

F (9,0) s(E,P)

72 ( 1) 73

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

F (10,1) max F (9,1) 8

max 65 8 73 .

 

 

 

 

 

 

 

 

 

 

 

 

8 88

 

 

 

 

 

 

 

 

F (10,0) 8

 

80

 

 

 

 

Аналогично, заполняем оставшиеся ячейки матрицы (рисунок 11).

 

 

xi

H

 

E

A

G

A

W

 

G

H

E

E

yj

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

׀׀

i=0

1

 

2

3

4

5

6

 

7

8

9

10

 

0

0 –8

–16 –24 –32

–40 –48 –56

–64 –72

–80

 

 

 

 

 

 

 

 

P

1

–8

–2

 

–9 –17 –25

–33 –41 –49

–57 –65

–73

 

 

 

 

 

 

 

 

 

 

 

A

2

–16

–10

 

–3

–4 –12

–20 –28 –36

–44 –52

–60

 

 

 

 

 

 

 

 

W

3

–24

–18

 

–11

–6

–7

–15

–5

–13

–21 –29

–37

 

 

 

 

 

 

H

4

–32

–14

 

–18

–13

–8

–9

–13

 

–7

–3 –11

–19

 

 

 

 

 

 

 

 

E

5

–40

–22

 

–8

–16

–16

–9

–12

 

–15

–7

3

–5

 

 

 

 

 

A

6

–48

–30

 

–16

–3

–11

–11

–12

 

–12

–15

–5

2

 

 

  

 

 

E

7

–56

–38

 

–24 –11 –6

–12

–14

 

–15 –12 –9

1

 

 

Рисунок 11 – Заполнение матрицы динамического программирования

 

 

 

Значение правой нижней ячейки матрицы F(n,m) по определению

является наилучшим весом выравнивания двух последовательностей x1 i и y1 j . Для построения самогó выравнивания необходимо восстановить последовательность выборов, которая и привела от начальной точки (0,0) к финальной точке (n, m) .

Процедура восстановления выборов называется процедурой обратного прохода (traceback procedure). Она осуществляется построением выравнивания с конца, от правой нижней ячейки матрицы с координатами (n, m) , следуя тем указателям шагов, которые были получены при построении матрицы.

На рисунке 12 стрелками показаны указатели для обратного прохода.

47

 

 

xi

H

E

A

G

A

W

G

H

E

E

yj

j

 

 

 

 

 

 

 

 

 

 

 

 

׀׀ i=0

1

2

3

4

5

6

7

8

9

10

 

0

0

–8

–16

–24

–32

–40

–48

–56

–64

–72

–80

 

 

 

 

 

 

 

 

 

 

 

P 1 –8

–2

–9 –17 –25

–33

–41

–49

–57

–65

–73

 

 

 

 

 

 

 

 

 

 

 

A

2

–16

–10

–3

–4

–12

–20

–28

–36

–44

–52

–60

 

 

 

 

 

 

 

 

 

 

 

 

W 3 –24

–18

–11

–6

–7

–15

–5 –13

–21

–29

–37

 

 

 

 

 

 

 

 

 

 

 

 

H 4 –32

–14

–18

–13

–8

–9

–13

–7

–3

–11

–19

 

 

 

 

 

 

 

 

 

 

 

 

E 5 –40

–22

–8

–16

–16

–9

–12

–15

–7

3

–5

 

 

 

 

 

 

 

 

 

 

 

 

A

6

–48

–30

–16

–3

–11

–11

–12

–12

–15

–5

2

 

 

 

 

 

 

 

 

 

 

 

 

E

7

–56

–38

–24

–11

–6

–12

–14

–15

–12

–9

1

 

 

Рисунок 12 – Три возможные пути обратного прохода

 

 

 

 

На каждом шаге процедуры обратного прохода мы движемся от текущей ячейки (i, j) "обратно" к одной из ячеек (i 1, j 1) , (i 1, j) , (i, j 1) из которых и было вычислено значение веса F(i, j) .

При этом мы строим граф обратного прохода и, одновременно, записываем выравниваемые строки, добавляя слева к текущему выравниванию пару символов:

 

 

xi

 

– если вес был получен из ячейки (i 1, j 1)

 

y j

 

 

 

 

 

 

 

 

 

 

 

 

 

(диагональная стрелка);

 

 

 

 

 

xi

 

 

если

вес

был

получен

из

ячейки

(i 1, j)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(горизонтальная стрелка);

 

 

 

 

 

 

 

если

вес

был

получен

из

ячейки

(i, j 1)

 

 

 

y j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(вертикальная стрелка).

В конце выравнивания мы достигаем левого верхнего угла матрицы (0,0) .

48

Для нашего примера оказываются возможными три варианта выравнивания с одинаковым весом 1:

x : HEAGAWGHE-E

(I)

y : --P-AW-HEAE,

 

(II)

x : HEAGAWGHE-E

y : -P--AW-HEAE,

 

(III)

x : HEAGAWGHE-E

y : -PA--W-HEAE.

 

Первое выравнивание (I) строится следующим образом. Значение ("1") в ячейке (10,7) в правом нижнем углу матрицы получено в результате перехода по диагональной стрелке (), поэтому мы сопоставляем два символа последовательностей x: E (i = 10) и y: E (j = 7)

x :

E

(**)

y :

E.

 

Затем, в соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12), переходим к ячейке (i = 9, j = 6). Значение ("–5") в ячейке (9,6) получено в результате перехода по вертикальной стрелке () из ячейки (9,5) матрицы, поэтому мы вставляем пропуск в последовательность x напротив элемента A (j = 6) из последовательности y и добавляем эту пару символов слева к паре (**)

x :

-E

y :

AE.

Далее, в соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12), переходим к ячейке (9,5). Значение ("3") в ячейке (9,5) получено в результате перехода по диагональной стрелке из ячейки (8,4) матрицы, поэтому мы сопоставляем два символа последовательностей x: E (i = 9) и y: E (j = 5) и добавляем эту пару символов слева к выравниванию

49

x :

E-E

y :

EAE.

Далее, в соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12), переходим к ячейке (8,4), значение которой ("–3") получено в результате перехода по диагональной стрелке из ячейки (7,3) матрицы, поэтому мы сопоставляем два символа последовательностей x: H (i = 8) и y: H (j = 4) и добавляем эту пару символов слева к выравниванию

x :

HE-E

y :

HEAE.

Значение ("–13") в ячейке (7,3) получено в результате перехода по горизонтальной стрелке () из ячейки (6,3) матрицы, поэтому мы вставляем пропуск в последовательность y напротив элемента G (i = 7) из последовательности x и добавляем эту пару символов слева к выравниванию

x :

GHE-E

y :

-HEAE.

Далее, значение ("–5") в ячейке (6,3) получено в результате перехода по диагональной стрелке () из ячейки (5,2), поэтому мы сопоставляем два символа последовательностей x: W (i = 6) и y: W (j = 3) и добавляем эту пару символов слева к выравниванию

x :

WGHE-E

y :

W-HEAE.

Значение ("–20") в ячейке (5,2) было получено двумя способами:

(1)в результате перехода по горизонтальной стрелке () из ячейки (4,2) и

(2)в результате перехода по диагональной стрелке () из ячейки (4,1). В соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12) мы выбираем диагональный переход из ячейки (4,1),

сопоставляем два символа последовательностей x: A (i = 5) и y: A (j = 2) и добавляем эту пару символов слева к выравниванию

x :

AWGHE-E

y :

AW-HEAE.

Далее, в соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12), переходим к ячейке (4,1), значение которой ("–25") получено в результате перехода по горизонтальной стрелке () из ячейки (3,1) матрицы. Поэтому мы вставляем пропуск в последовательность y напротив элемента G (i = 4) из последовательности x и добавляем эту пару символов слева к выравниванию

x :

GAWGHE-E

y :

-AW-HEAE.

Значение в ячейке (3,1) ("–17") также было получено двумя способами: (1) в результате перехода по горизонтальной стрелке () из ячейки (2,1) и (2) в результате перехода по диагональной стрелке () из ячейки (2,0). В соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12) мы выбираем диагональный переход из ячейки (2,0) матрицы, сопоставляем два символа последовательностей x: A (i = 3) и y: P (j = 1) и добавляем эту пару символов слева к выравниванию

x :

AGAWGHE-E

y :

P-AW-HEAE.

Последние два перехода: в ячейку (2,0) из ячейки (1,0) и в ячейку (1,0) из ячейки (0,0) – были сделаны по горизонтальным стрелкам, поэтому мы вставляем два последовательных пропуска в последовательность y напротив элементов E (i = 2) и H (i = 1) из последовательности x, добавляем эти пары символов слева и завершаем выравнивание

x : HEAGAWGHE-E y : --P-AW-HEAE.

50

51

Счёт этого выравнивания:

S1 d d s( A, P) d s( A, A) s(W ,W ) d

s(H , H ) s(E, E) d s(E, E)

8 8 1 8 5 15 8 10 6 8 6 1,

как и должно быть согласно алгоритму Нидлмена-Вунша, равен значению правой нижней ячейки матрицы глобального выравнивания (рисунок 12).

Варианты (II) и (III) выравнивания строятся аналогичным образом. Счёт выравниваниий (II) и (III)

S2 8 1 8 8 5 15 8 10 6 8 6 1,

S3 8 1 5 8 8 15 8 10 6 8 6 1.

Существование нескольких оптимальных выравниваний с одинаковым весом (счётом) проявляется в виде "развилок" в графе обратного прохода в матрице динамического программирования. Развилка появляется в том случае, если процедура обратного прохода, восстанавливающая оптимальный путь, достигает в матрице динамического программирования ячейки (i, j) , оптимальное значение которой F(i, j) было получено из более чем одной "родительской" ячейки. Это и порождает различные пути через матрицу динамического программирования и, следовательно, различные оптимальные выравнивания.

Основное достоинство метода динамического программирования состоит в том, что он гарантирует глобальный оптимум: наилучший результат выравнивания при заданном наборе параметров – матрице замещений и штрафных значениях для пропусков – без каких-либо приближений.

Основной недостаток метода состоит в том, что многие выравнивания двух данных последовательностей могут привести к оптимальному числу баллов, при этом совершенно не обязательно, что хотя бы одно из них имеет отношение к биологически корректному выравниванию (имеет биологический смысл). Например, при сравнении последовательностей - и -цепей гемоглобина цыпленка В. Фитч и

52

Т. Смит нашли 17 выравниваний, каждое давало одинаковое оптимальное число баллов, из которых корректным, (используя дополнительную информацию о пространственной структуре белков) оказалось только одно. И вообще, оказалось, что для этой задачи существует 1317 выравниваний, которые дают число баллов в пределах 5% от оптимума.

Есть ещё один недостаток – время, требуемое для выравнивания двух последовательностей длиной п и т пропорционально размеру редактируемой матрицы, то есть, пропорционально произведению m n . Вычислительную сложность алгоритма обозначают O( f ) . Поскольку обычно п и т одного порядка, про алгоритм говорят, что он требует

O n2 времени (или памяти). В области анализа биологических после-

довательностей обычными компьютерами (а не суперкомпьютерами)

алгоритмы O n2 дают удовлетворительные результаты, а вот алгоритмы

O n3 возможно применять только для очень коротких последователь-

ностей.

Таким образом, метод динамического программирования будет слишком медленным при поиске соответствия для пробной последовательности в полной базе данных последовательностей, и ещё меньше он подходит для выравниваний "все-против-всех". Проблема поиска в базе данных – это на самом деле проблема поиска соответствия интересующей нас последовательности с очень длинной последовательностью, длина которой равна всей базе данных.

Сравнивая глобальное выравнивание, которое ищет подобие на всем протяжении последовательностей, и локальное выравнивание, которое сосредоточивается лишь на отдельных областях подобия в некоторых частях последовательностей, следует отметить, что с точки зрения биолога поиск локального подобия может дать более значимые и точные результаты, чем оценка выравнивания по всей длине последовательностей.

Это связано с тем, что функционально активные участки обычно расположены в пределах относительно коротких областей, которые

53

остаются консервативными независимо от удалений или мутаций, происходящих в остальных частях последовательности.

Сегодня мы находимся на начальном этапе использования генетической информации о живой материи, однако развитие всё более эффективных методов расшифровки биологических текстов и разработка методов биоинформатики позволяет надеяться на серьёзный прогресс в понимании строения, механизмов функционирования и регуляции живых систем. В результате становится возможным изучение и понимание всё более сложных биологических систем, появляется возможность их системного исследования, установления эволюционных связей в живой природе, создания новых лекарственных препаратов, методов лечения и новых биотехнологий.

8. ЗАДАЧИ НА ПОСТРОЕНИЕ ГЛОБАЛЬНОГО ВЫРАВНИВАНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

ЗАДАЧА 8.1

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с бэта-2 субъединицей гемоглобина Rattus norvegicus (Серая крыса) (Sbjct)

Query

LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSA-----

QV

 

L+ A+K V

WGKV +A

GAEAL R+ + +P T+ YF F DLS SA

QV

Sbjct LTDAEKATVSGLWGKV--NADNVGAEALGRLLVVYPWTQRYFSKFGDLSSASAIMGNPQV

Query

KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA

 

K HGKKV +A

+ + H+D++

+ LS+LH KL VDP NF+LL + +++ L

HL

Sbjct

KAHGKKVINAFNDGLKHLDNLKGTFAHLSELHCDKLHVDPENFRLLGNMIVIVLGHHLGK

Query EFTPAVHASLDKFLASVSTVLTSKY 141

EFTP A+ K +A V++ L KY

Sbjct EFTPCAQAAFQKVVAGVASALAHKY 146

используя матрицу замен аминокислот PAM30 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

WGKVGAHAGE

WGKVNADN

ЗАДАЧА 8.2

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с бэта-субъединицей гемоглобина Papio anubis (Павиан догеровский, Анубис) (Sbjct)

Query

LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----

GSAQV

 

L+P +K V A WGKV

+

E G EAL R+ + +P T+ +F F DLS

G+ +V

Sbjct LTPEEKNAVTALWGKV--NVDEVGGEALGRLLVVYPWTQRFFDSFGDLSSPAAVMGNPKV

Query

KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA

 

K HGKKV

A ++ + H+D++

 

+ LS+LH KL VDP NFKLL + L+

LA H

Sbjct

KAHGKKVLGAFSDGLNHLDNLKGTFAQLSELHCDKLHVDPENFKLLGNVLVCVLAHHFGK

Query

EFTPAVHASLDKFLASVSTVLTSKY

141

 

 

EFTP V A+

K +A V+

L

KY

 

 

Sbjct

EFTPQVQAAYQKVVAGVANALAHKY

146

 

используя матрицу замен аминокислот PAM70 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

GKVGAHAGEY

GKVNVDEV

ЗАДАЧА 8.3

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с бэта-субъединицей гемоглобина major chain Rattus norvegicus (Серая крыса) (Sbjct)

Query

LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----

GSAQV

 

L+ A+K

V

WGKV +

E GAE+L + + +P T+ YF F DLS

G+ QV

Sbjct LTDAEKATVNGLWGKV--NPVEIGAESLASLLIVYPWTQRYFSKFGDLSSVSAIMGNPQV

Query

KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA

 

K HG+KV +A

+ + H+D++

 

++LS+LH KL VDP NF+LL + +++ +

HL

Sbjct

KAHGEKVINAFDDGLKHLDNLKGTFASLSELHCDKLHVDPENFRLLGNMIVIMMGHHLGK

Query

EFTPAVHASLDKFLASVSTVLTSKY

141

 

 

EFTP+

A+

K +A V++ L

KY

 

 

Sbjct

EFTPSAQAAFQKVVAGVASALAHKY

146

 

используя матрицу замен аминокислот PAM120 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

AWGKVGAHAG

LWGKVNPV

54

55

ЗАДАЧА 8.4

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с гемоглобином эпсилон Bos taurus (Дикий бык)

(Sbjct)

Query

LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSA-----

QV

 

+ +K

+

WGKV

E G EAL R+ + +P T+ +F F +LS SA

+V

Sbjct FTAEEKAAITGLWGKVNVE--EAGGEALGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKV

Query

KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA

 

K HGKKV

+

A+ ++D++

A + LS+LH KL VDP NF+LL + +++ LA H

 

Sbjct

KAHGKKVLTSFGEAIKNLDNLKGAFAKLSELHCDKLHVDPENFRLLGNVIVIILATHFGR

Query

EFTPAVHASLDKFLASVSTVLTSKY

141

 

 

EFTP V A+

K ++ V+T L

KY

 

 

Sbjct

EFTPDVQAAWQKLVSGVATALAHKY

146

 

используя матрицу замен аминокислот PAM250 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

VGAHAGEYGA

VNVEEAGG

ЗАДАЧА 8.5

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с субъединицей бэта гемоглобина Ovis aries (Домашняя овца) (Sbjct)

Query

VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQ

 

+L+ +K V WGKV

E GAEAL R+ + +P T+ +F HF DLS

+A+

Sbjct

MLTAEEKAAVTGFWGKV--KVDEVGAEALGRLLVVYPWTQRFFEHFGDLSSADAVMNNAK

Query VKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLP VK HGKKV D+ +N V H+DD+ + LS+LH KL VDP NF+LL + L+V LA H

Sbjct VKAHGKKVLDSFSNGVQHLDDLKGTFAQLSELHCDKLHVDPENFRLLGNVLVVVLARHHG

Query AEFTPAVHASLDKFLASVSTVLTSKY 141

+EFTP + A K +A V+ L +Y

Sbjct SEFTPVLQAEFQKVVAGVANALAHRY 144

используя матрицу замен аминокислот BLOSUM45 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

GKVGAHAGEY

GKVKVDEV

56

ЗАДАЧА 8.6

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с субъединицей бэта-1 гемоглобина Mus musculus (Мышь домовая) (Sbjct)

Query LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQV

 

L+ A+K

V

WGKV +A E G EAL R+ + +P T+ YF F DLS

G+A+V

Sbjct LTDAEKAAVSGLWGKV--NADEVGGEALGRLLVVYPWTQRYFDSFGDLSSASAIMGNAKV

Query

KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA

 

K HGKKV

A

+ + H+D +

++LS+LH KL VDP NF+LL + +++ L

HL

Sbjct

KAHGKKVITAFNDGLNHLDSLKGTFASLSELHCDKLHVDPENFRLLGNMIVIVLGHHLGK

Query EFTPAVHASLDKFLASVSTVLTSKY 141

+FTPA A+ K +A V+ L KY

Sbjct DFTPAAQAAFQKVVAGVAAALAHKY 146

используя матрицу замен аминокислот BLOSUM50 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

AWGKVGAHAG

LWGKVNAD

ЗАДАЧА 8.7

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с субъединицей бэта гемоглобина Gallus gallus (Банкивский петух) (Sbjct)

Query DKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQVKGHG

 

+K

+

WGKV + E GAEAL R+ + +P T+ +F F +LS

G+

V+ HG

Sbjct EKQLITGLWGKV--NVAECGAEALARLLIVYPWTQRFFASFGNLSSPTAILGNPMVRAHG

Query

KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP

 

KKV

+

+AV ++D++ N

S LS+LH KL VDP NF+LL

L++ LAAH

+FTP

Sbjct

KKVLTSFGDAVKNLDNIKNTFSQLSELHCDKLHVDPENFRLLGDILIIVLAAHFSKDFTP

Query

AVHASLDKFLASVSTVLTSKY

141

 

 

 

 

A+ K + V+ L KY

 

 

 

Sbjct

ECQAAWQKLVRVVAHALARKY

146

 

 

используя матрицу замен аминокислот BLOSUM62 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

GKVGAHAGEY

GKVNVAEC

57