Добавил:

Nemo_Nemorino Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Днепропетровский национальный университет им. Олеся Гончара

Предмет:

Биоинформатика

Файл:

Огурцов А.Н. Выравнивание белковых последовательностей. – Харьков. НТУ ХПИ, 2015. – 80 с

..pdf

Скачиваний:

Добавлен:

14.09.2020

Размер:

2.58 Mб

Скачать

☆

<<< < Предыдущая 1 23 / 53 4 5 > Следующая >>>

ЗАДАЧА 6.34

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином Xenopus laevis (Обыкновенная шпорцевая лягушка) (Sbjct)

Query	LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD------LSHGSAQV
	++ +++	+K	W +V A+	+ G	L R F++FP+ K +F F		GS Q+
Sbjct	ITESERGVIKETWARVYANCEDVGVSILIRFFVNFPSAKQHFSQFKHMEDPLEMEGSVQL
Query KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH
	+ HG++V	A+ + V ++ D		+	LS +	HA K +V+PV FK+L+	+L A
Sbjct	RKHGRRVMGAVNSVVENLGDPEKVTTVLSIVGKSHALKHKVEPVYFKILTGVMLEVFAEE
Query	LPAEFTPAVHASLDKFLASVSTVLTSKYR					142
	+FTP V		+K + + + + S Y+
Sbjct	YAKDFTPDVQLVWNKLRSLIYSHVQSAYK					167

вычислить с помощью матрицы замены аминокислот PAM70 и аффинного штрафа за пропуски (g) d (g 1)e (при d 10 и e 3) счёт следующего фрагмента выравнивания

KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFK RKHGRRVMGAVNSVVENLGDPEKVTTVLSIVGKSHALKHKVEPVYFK

ЗАДАЧА 6.35

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином Gallus gallus (Банкивский петух)

(Sbjct)

Query	LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD------LSHGSAQV
	+S A+K	++	W +V A+	+ G L R F++FP+ K YF F		S Q+
Sbjct	ISDAEKKVIQETWSRVYANCEDVGVSILIRFFVNFPSAKQYFSQFKHMDDTLEMERSLQL
Query KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH
	+ H ++V	A+	V ++DD + + L+ +		HA K +V+PV FK L+	+L +A
Sbjct	RKHAQRVMGAINTVVENLDDPEKVSSVLALVGKAHALKHKVEPVYFKKLTGVMLEVIAEA
Query	LPAEFTPAVHASLDKFLASVSTVLTSKYR				142
	+FTP	H +	K	+ T +T+ Y+
Sbjct	YGNDFTPEAHGAWTKMRTLIYTHVTAAYK				167

вычислить с помощью матрицы замены аминокислот PAM120 и аффинного штрафа за пропуски (g) d (g 1)e (при d 10 и e 3) счёт следующего фрагмента выравнивания

KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNF RKHAQRVMGAINTVVENLDDPEKVSSVLALVGKAHALKHKVEPVYF

ЗАДАЧА 6.36

Для выравнивания альфа субъединицы гемоглобина человека

HBA_HUMAN (Query) с цитоглобином Xenopus (Silurana) tropicalis (Водная лягушка силураны) (Sbjct)

Query	LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD------LSHGSAQV
	++ +++	+K	W +V A+	+ G	L R F++FP+ K +F F		GS Q+
Sbjct	ITESERGVIKETWARVYANCEDVGVSILIRFFVNFPSAKQHFSQFKHMEDPLEMEGSVQL
Query KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH
	+ H ++V	A+ + V ++ D		+	LS +	HA K +VDPV FK+L+ +L	+A
Sbjct	RKHARRVMGAVNSVVENLGDPEKITTVLSIVGKSHALKHKVDPVYFKILTGVMLEVIAEE
Query	LPAEFTPAVHASLDKFLASVSTVLTSKYR					142
	+FTP V		+ +K + + + + S Y+
Sbjct	YAKDFTPDVQLAWNKLRSHLYSHVLSAYK					167
вычислить с помощью матрицы замены аминокислот PAM250 и
аффинного штрафа за пропуски					(g) d (g 1)e (при d 10 и		e 3)

счёт следующего фрагмента выравнивания

KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPV RKHARRVMGAVNSVVENLGDPEKITTVLSIVGKSHALKHKVDPV

ЗАДАЧА 6.37

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином Oncorhynchus mykiss (Радужная форель) (Sbjct)

Query	LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHG------SAQV
	L +++ +K W KV +		+ G L R+F++FP++K YF F	SAQ+
Sbjct	LCDSEREMIKDTWAKVYQNCDDVGVAILIRLFVNFPSSKQYFSQFQQVEDPGELERSAQL
Query KGHGKKVADALTNAVAHV---DDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH
	+ H ++V +A+	V ++	D M + L + HA + V+PV FK+L	+L L A
Sbjct	RKHSRRVMNAINTLVENLHDGDKMVSVLKLVGKAHALRHNVEPVYFKILCGVILEVLVAD
Query	LPAEFTPAVHASLDKFLASV		133
	P TP V	+ K L ++
Sbjct	FPDYITPEVAVAWTKLLDAI		158

вычислить с помощью матрицы замены аминокислот BLOSUM45 и аффинного штрафа за пропуски (g) d (g 1)e (при d 10 и e 3) счёт следующего фрагмента выравнивания

KGHGKKVADALTNAVAHV---DDMPNALSALSDLHAHKLRVDPVNF RKHSRRVMNAINTLVENLHDGDKMVSVLKLVGKAHALRHNVEPVYF

ЗАДАЧА 6.38

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином-2 Oryzias latipes (Медака, рыбка семейства оризиевых) (Sbjct)

Query LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQV

	LS A+	++	WG V +	+ G	L R F++FP+ K YF F D+	S+Q+
Sbjct	LSDAEMEIIQHTWGHVYKNCEDVGVSVLIRFFVNFPSAKQYFSQFQDMQDPEEMEKSSQL
Query	KGHGKKVADALTNAVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH
	+ H ++V	+A+	V ++ D	+	+ L+ + HA K +V+P+ FK+ S	+L L+

Sbjct	RQHARRVMNAINTVVENLQDPEKVSSVLALVGKAHAVKHKVEPIYFKIXSGVMLSVLSED
Query	LPAEFTPAVHASLDKFLASVSTVLTSKY		141
	P FT V	K +A+V +T Y
Sbjct	FPEFFTAEVQLVWTKLMAAVYWHVTGAY		181

вычислить с помощью матрицы замены аминокислот BLOSUM50 и аффинного штрафа за пропуски (g) d (g 1)e (при d 10 и e 3) счёт следующего фрагмента выравнивания

WGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQ WGHVYKNCEDVGVSVLIRFFVNFPSAKQYFSQFQDMQDPEEMEKSSQ

ЗАДАЧА 6.39

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с цитоглобином-1 Danio rerio (Данио рерио, аквариумная рыбка) (Sbjct)

Query	LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----						HGSAQV
	L+	D ++ W	V A	G	L R F +FP+ K YF HF +L			+AQ+
Sbjct	LTEEDVCVIQDTWKPVYAERDNAGVAVLVRFFTNFPSAKQYFEHFRELQDPAEMQQNAQL
Query KGHGKKVADALTNAVAHV---DDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH
	K HG++V +AL		V ++	D +	+ + HA + +VDPV FK+L+		+L	L
Sbjct	KKHGQRVLNALNTLVENLRDADKLNTIFNQMGKSHALRHKVDPVYFKILAGVILEVLVEA
Query	LPAEFTPA-VHASLDKFLASVSTVLTSKY					141
	P	F+PA V +S	K +	+	+ Y
Sbjct	FPQCFSPAEVQSSWSKLMGILYWQMNRVY					164
вычислить с помощью матрицы замены аминокислот BLOSUM62 и
аффинного штрафа за пропуски					(g) d (g 1)e (при d 10 и			e 3)

счёт следующего фрагмента выравнивания

KGHGKKVADALTNAVAHV---DDMPNALSALSDLHAHKLRVDPV KKHGQRVLNALNTLVENLRDADKLNTIFNQMGKSHALRHKVDPV

7. ГЛОБАЛЬНОЕ ВЫРАВНИВАНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Алгоритм глобального оптимального выравнивания двух последо-

вательностей, дающий максимальное количество баллов (максимальный вес (счёт, score)) основан на математическом методе, называемом динамическим программированием. Этот был впервые предложен Cолом Нидлманом и Кристианом Вуншем.

Алгоритм глобального выравнивания Нидлмена-Вунша методом динамического программирования заключается в построении на данном этапе оптимального выравнивания, используя полученные на предыдущих этапах оптимальные выравнивания начальных фрагментов исходных последовательностей.

Для двух выравниваемых последовательностей x и y с элементами xi ( 0 i n ) и y j ( 0 j m ) мы строим матрицу F .

Элемент F(i, j) этой матрицы содержит вес (счёт, score) наилучшего выравнивания начальных фрагментов x1 i (длиной i ) и y1 j

(длиной j ) последовательностей x и y , соответственно. Матрицу F мы строим рекурсивно. Начинаем с того, что присваиваем начальной точке нулевой вес F(0,0) 0 . Далее мы заполняем матрицу в порядке возрастания обоих индексов, то есть с верхнего левого угла к нижнему

правому. Если уже известны F(i 1, j 1) ,	F(i 1, j)	и F(i, j 1) , то
можно вычислить F(i, j) .
Возможны три варианта получения веса F(i, j)		в соответствии с

тремя возможными вариантами выравнивания, представленными на рисунке 7.

Элемент xi одной последовательности может быть выровнен с элементом y j второй последовательности (рисунок 7(а)), и тогда к значению веса F(i 1, j 1) добавляем очки за выравнивание s(xi , y j )

(например, из матрицы BLOSUM)

F(i, j) F(i 1, j 1) s(xi , y j ) . 41

I G A	xi	A I G A xi	G A xi - -
L G V	y j	G V y j - -	S L G V y j

а				б	в
Рисунок 7 – Три способа				продолжения	выравнивания до точки		(i, j) :
а – элемент	xi	выровнен с	y j ;	б – элементу	xi сопоставлен	пропуск	(gap);
в – элементу y j сопоставлен пропуск
Если	же	элементу	xi	одной последовательности		сопоставлен

пропуск (gap) "–" во второй последовательности (рисунок 7(б)), то за это "начисляется" штраф d

F(i, j) F(i 1, j) d .

В случае, когда элементу y j сопоставлен пропуск в последова-

тельности x (рисунок 7(в)), также "начисляется" штраф

F(i, j) F(i, j 1) d .

Наибольший вес выравнивания двух фрагментов последовательнос-

тей x1 i (длиной i ) и y1 j	(длиной	j ) определяется как максимум этих
трёх вариантов
	F (i 1, j 1) s(xi , y j ),
		1, j) d,
F (i, j) max F (i		1, j) d,	(*)
	F (i, j 1) d.

Такую рекурсивную процедуру повторяем, последовательно
увеличивая номер строки	j (а	внутри строки –	последовательно

увеличивая номер столбца i ), до тех пор, пока не будет заполнена вся матрица F(i, j) .

Рассмотрим "квадрат", состоящий из четырёх соседних ячеек матрицы (рисунок 8).

F(i 1, j 1)

F(i, j 1)

s(xi , y

F(i 1, j)

F(i, j)

Рисунок 8 – Три варианта получения веса F(i, j)

Каждое последующее значение F(i, j) в правом нижнем углу каждого такого "квадрата" из четырёх ячеек определяется из одной из оставшихся трёх ячеек (показано стрелками на рисунке 8).

При заполнении матрицы F одновременно с вычислением значений F(i, j) необходимо запоминать, по какому из трёх "путей" (из какой клетки на рисунке 8) было получено это конкретное значение F(i, j) . Такое запоминание впоследствии, после заполнения всей матрицы, нужно для восстановления "маршрута" выборов.

Прежде чем закончить описание алгоритма необходимо определить граничные условия – процедуру заполнения ячеек верхней строки ( j 0) и левой колонки (i 0) .

Поскольку вдоль верхней строки, где ( j 0) , получение значений F(i,0) при движении слева направо (горизонтальная стрелка на рисунке 8) соответствует вставкам пропусков в последовательность y , то устанавливаем

F(i,0) d .

Аналогично вдоль левой колонки с (i 0)

F(0, j) d .

Рассмотрим последовательность заполнения матрицы динамического программирования на примере глобального выравнивания двух последовательностей

x= HEAGAWGHEE y = PAWHEAE,

сиспользованием матрицы замен BLOSUM50 (таблица 6, п. 9) и значения величины штрафа d 8 .

Сначала, в соответствии с правилом заполнения верхней строки ( j 0) и левой колонки (i 0) , заполняем соответствующие ячейки

матрицы динамического программирования нарастающим штрафом (рисунок 9) и отмечаем стрелками "путь" заполнения соответствующей ячейки.

׀׀

i=0

0  –8

 –16  –24  –32  –40  –48  –56  –64  –72  –80



–8



–16



–24



–32



–40



–48



–56

Рисунок 9 – Заполнение верхней строки и левой колонки матрицы

Затем начинаем заполнять строку c j 1. Для ячейки (1,1), то есть для пары аминокислот (H,P) вычисляем три возможные варианта, в соответствии с алгоритмом (*) (стр. 42) и отмечаем стрелкой-указателем, из какой ячейки была заполнена данная ячейка

F (0,0) s(H,P)		0 ( 2) 2
	8		16 .
F (1,1) max F (0,1)		max 8 8
	8		16
F (1,0)		8 8

Для ячейки (1,1) максимальным будет значение (–2) при переходе из ячейки (0,0), поэтому отмечаем стрелкой () переход из ячейки (0,0) в ячейку (1,1) (рисунок 10).

׀׀

i=0

0  –8

 –16  –24  –32  –40  –48  –56  –64  –72  –80





–8

–2

–9  –17  –25  –33  –41  –49  –57  –65  –73



–16



–24



–32



–40



–48



–56

Рисунок 10 – Заполнение строки c j = 1

Продолжаем заполнять строку c

j 1. Для ячейки (2,1)

или (Е,Р)

матрицы динамического программирования вычисляем три возможные варианта, в соответствии с алгоритмом (*) (стр. 42)

F (1,0) s(E,P)	8 ( 1) 9

F (2,1) max F (1,1) 8	max 2 8 10

F (2,0) 8	16 8 24

и отмечаем соответствующий переход стрелкой () (рисунок 52).

Для ячейки (3,1) или (А,Р) матрицы
F (2,0) s(A,P)		16 ( 1) 17
	8		17
F (3,1) max F (2,1)		max 9 8
	8
F (3,0)		24 8 32

имеется два одинаковых максимума (–17), соответственно отмечаем два варианта перехода к ячейке (3,1) из ячеек (2,0) и (2,1) (рисунок 10).

Далее для оставшихся ячеек строки j 1:

F (3,0) s(G,P) F (4,1) max F (3,1) 8

F (4,0) 8

F (4,0) s(A,P) F (5,1) max F (4,1) 8

F (5,0) 8

F (5,0) s(W,P) F (6,1) max F (5,1) 8

F (6,0) 8

F (6,0) s(G,P) F (7,1) max F (6,1) 8

F (7,0) 8

F (7,0) s(H,P) F (8,1) max F (7,1) 8

F (8,0) 8

F (8,0) s(E,P) F (9,1) max F (8,1) 8

F (9,0) 8

24 ( 2) 26max 17 8 25

32 8 40

32 ( 1) 33max 25 8 33

40 8 48

40 ( 4) 44max 33 8 41

48 8 56

48 ( 2) 50max 41 8 49

56 8 64

56 ( 2) 58max 49 8 57

64 8 72

64 ( 1) 65max 57 8 65

72 8 80

F (9,0) s(E,P)

72 ( 1) 73

F (10,1) max F (9,1) 8

max 65 8 73 .

8 88

F (10,0) 8

Аналогично, заполняем оставшиеся ячейки матрицы (рисунок 11).

׀׀

i=0

0  –8

 –16  –24  –32

 –40  –48  –56

 –64  –72

 –80





–8

–2

–9  –17  –25

 –33  –41  –49

 –57  –65

 –73



 



–16

–10

–3

–4  –12

 –20  –28  –36

 –44  –52

 –60





–24

–18

–11

–6

–7

 –15

–5

 –13

 –21  –29

 –37









–32

–14

–18

–13

–8

–9

–13

–7

–3  –11

 –19



 

 



 



–40

–22

–8

 –16

–16

–9

–12

–15

–7

 –5









–48

–30

–16

–3

 –11

–11

–12

–15

–5



  

 



–56

–38

–24 –11 –6

–12

–14

–15 –12 –9

Рисунок 11 – Заполнение матрицы динамического программирования

Значение правой нижней ячейки матрицы F(n,m) по определению

является наилучшим весом выравнивания двух последовательностей x1 i и y1 j . Для построения самогó выравнивания необходимо восстановить последовательность выборов, которая и привела от начальной точки (0,0) к финальной точке (n, m) .

Процедура восстановления выборов называется процедурой обратного прохода (traceback procedure). Она осуществляется построением выравнивания с конца, от правой нижней ячейки матрицы с координатами (n, m) , следуя тем указателям шагов, которые были получены при построении матрицы.

На рисунке 12 стрелками показаны указатели для обратного прохода.

׀׀ i=0

 –8

 –16

–24

–32

–40

–48

–56

–64

–72

–80



P 1 –8

–2

–9  –17  –25

–33

–41

–49

–57

–65

–73



–16

–10

–3

–4

 –12

 –20

–28

–36

–44

–52

–60



W 3 –24

–18

–11

–6

–7

–15

–5  –13

–21

–29

–37



H 4 –32

–14

–18

–13

–8

–9

–13

–7

–3

–11

–19



E 5 –40

–22

–8

–16

–9

–12

–15

–7

–5



–48

–30

–16

–3

–11

–12

–15

–5



–56

–38

–24

–11

–6

–12

–14

–15

–12

–9

Рисунок 12 – Три возможные пути обратного прохода

На каждом шаге процедуры обратного прохода мы движемся от текущей ячейки (i, j) "обратно" к одной из ячеек (i 1, j 1) , (i 1, j) , (i, j 1) из которых и было вычислено значение веса F(i, j) .

При этом мы строим граф обратного прохода и, одновременно, записываем выравниваемые строки, добавляя слева к текущему выравниванию пару символов:

– если вес был получен из ячейки (i 1, j 1)

y j

(диагональная стрелка);

–

если

вес

был

получен

из

ячейки

(i 1, j)

(горизонтальная стрелка);

–

если

вес

был

получен

из

ячейки

(i, j 1)

y j

(вертикальная стрелка).

В конце выравнивания мы достигаем левого верхнего угла матрицы (0,0) .

Для нашего примера оказываются возможными три варианта выравнивания с одинаковым весом 1:

x : HEAGAWGHE-E

	(I)	y : --P-AW-HEAE,
		y : --P-AW-HEAE,
	(II)	x : HEAGAWGHE-E
	(II)	y : -P--AW-HEAE,
		y : -P--AW-HEAE,
	(III)	x : HEAGAWGHE-E
	(III)	y : -PA--W-HEAE.
		y : -PA--W-HEAE.

Первое выравнивание (I) строится следующим образом. Значение ("1") в ячейке (10,7) в правом нижнем углу матрицы получено в результате перехода по диагональной стрелке (), поэтому мы сопоставляем два символа последовательностей x: E (i = 10) и y: E (j = 7)

x :	E	(**)
y :	E.

Затем, в соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12), переходим к ячейке (i = 9, j = 6). Значение ("–5") в ячейке (9,6) получено в результате перехода по вертикальной стрелке () из ячейки (9,5) матрицы, поэтому мы вставляем пропуск в последовательность x напротив элемента A (j = 6) из последовательности y и добавляем эту пару символов слева к паре (**)

x :	-E
y :	AE.

Далее, в соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12), переходим к ячейке (9,5). Значение ("3") в ячейке (9,5) получено в результате перехода по диагональной стрелке из ячейки (8,4) матрицы, поэтому мы сопоставляем два символа последовательностей x: E (i = 9) и y: E (j = 5) и добавляем эту пару символов слева к выравниванию

x :	E-E
y :	EAE.

Далее, в соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12), переходим к ячейке (8,4), значение которой ("–3") получено в результате перехода по диагональной стрелке из ячейки (7,3) матрицы, поэтому мы сопоставляем два символа последовательностей x: H (i = 8) и y: H (j = 4) и добавляем эту пару символов слева к выравниванию

x :	HE-E
y :	HEAE.

Значение ("–13") в ячейке (7,3) получено в результате перехода по горизонтальной стрелке () из ячейки (6,3) матрицы, поэтому мы вставляем пропуск в последовательность y напротив элемента G (i = 7) из последовательности x и добавляем эту пару символов слева к выравниванию

x :	GHE-E
y :	-HEAE.

Далее, значение ("–5") в ячейке (6,3) получено в результате перехода по диагональной стрелке () из ячейки (5,2), поэтому мы сопоставляем два символа последовательностей x: W (i = 6) и y: W (j = 3) и добавляем эту пару символов слева к выравниванию

x :	WGHE-E
y :	W-HEAE.

Значение ("–20") в ячейке (5,2) было получено двумя способами:

(1)в результате перехода по горизонтальной стрелке () из ячейки (4,2) и

(2)в результате перехода по диагональной стрелке () из ячейки (4,1). В соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12) мы выбираем диагональный переход из ячейки (4,1),

сопоставляем два символа последовательностей x: A (i = 5) и y: A (j = 2) и добавляем эту пару символов слева к выравниванию

x :	AWGHE-E
y :	AW-HEAE.

Далее, в соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12), переходим к ячейке (4,1), значение которой ("–25") получено в результате перехода по горизонтальной стрелке () из ячейки (3,1) матрицы. Поэтому мы вставляем пропуск в последовательность y напротив элемента G (i = 4) из последовательности x и добавляем эту пару символов слева к выравниванию

x :	GAWGHE-E
y :	-AW-HEAE.

Значение в ячейке (3,1) ("–17") также было получено двумя способами: (1) в результате перехода по горизонтальной стрелке () из ячейки (2,1) и (2) в результате перехода по диагональной стрелке () из ячейки (2,0). В соответствии с выбранным обратным проходом (сплошная стрелка на рисунке 12) мы выбираем диагональный переход из ячейки (2,0) матрицы, сопоставляем два символа последовательностей x: A (i = 3) и y: P (j = 1) и добавляем эту пару символов слева к выравниванию

x :	AGAWGHE-E
y :	P-AW-HEAE.

Последние два перехода: в ячейку (2,0) из ячейки (1,0) и в ячейку (1,0) из ячейки (0,0) – были сделаны по горизонтальным стрелкам, поэтому мы вставляем два последовательных пропуска в последовательность y напротив элементов E (i = 2) и H (i = 1) из последовательности x, добавляем эти пары символов слева и завершаем выравнивание

x : HEAGAWGHE-E y : --P-AW-HEAE.

Счёт этого выравнивания:

S1 d d s( A, P) d s( A, A) s(W ,W ) d

s(H , H ) s(E, E) d s(E, E)

8 8 1 8 5 15 8 10 6 8 6 1,

как и должно быть согласно алгоритму Нидлмена-Вунша, равен значению правой нижней ячейки матрицы глобального выравнивания (рисунок 12).

Варианты (II) и (III) выравнивания строятся аналогичным образом. Счёт выравниваниий (II) и (III)

S2 8 1 8 8 5 15 8 10 6 8 6 1,

S3 8 1 5 8 8 15 8 10 6 8 6 1.

Существование нескольких оптимальных выравниваний с одинаковым весом (счётом) проявляется в виде "развилок" в графе обратного прохода в матрице динамического программирования. Развилка появляется в том случае, если процедура обратного прохода, восстанавливающая оптимальный путь, достигает в матрице динамического программирования ячейки (i, j) , оптимальное значение которой F(i, j) было получено из более чем одной "родительской" ячейки. Это и порождает различные пути через матрицу динамического программирования и, следовательно, различные оптимальные выравнивания.

Основное достоинство метода динамического программирования состоит в том, что он гарантирует глобальный оптимум: наилучший результат выравнивания при заданном наборе параметров – матрице замещений и штрафных значениях для пропусков – без каких-либо приближений.

Основной недостаток метода состоит в том, что многие выравнивания двух данных последовательностей могут привести к оптимальному числу баллов, при этом совершенно не обязательно, что хотя бы одно из них имеет отношение к биологически корректному выравниванию (имеет биологический смысл). Например, при сравнении последовательностей - и -цепей гемоглобина цыпленка В. Фитч и

Т. Смит нашли 17 выравниваний, каждое давало одинаковое оптимальное число баллов, из которых корректным, (используя дополнительную информацию о пространственной структуре белков) оказалось только одно. И вообще, оказалось, что для этой задачи существует 1317 выравниваний, которые дают число баллов в пределах 5% от оптимума.

Есть ещё один недостаток – время, требуемое для выравнивания двух последовательностей длиной п и т пропорционально размеру редактируемой матрицы, то есть, пропорционально произведению m n . Вычислительную сложность алгоритма обозначают O( f ) . Поскольку обычно п и т одного порядка, про алгоритм говорят, что он требует

O n2 времени (или памяти). В области анализа биологических после-

довательностей обычными компьютерами (а не суперкомпьютерами)

алгоритмы O n2 дают удовлетворительные результаты, а вот алгоритмы

O n3 возможно применять только для очень коротких последователь-

ностей.

Таким образом, метод динамического программирования будет слишком медленным при поиске соответствия для пробной последовательности в полной базе данных последовательностей, и ещё меньше он подходит для выравниваний "все-против-всех". Проблема поиска в базе данных – это на самом деле проблема поиска соответствия интересующей нас последовательности с очень длинной последовательностью, длина которой равна всей базе данных.

Сравнивая глобальное выравнивание, которое ищет подобие на всем протяжении последовательностей, и локальное выравнивание, которое сосредоточивается лишь на отдельных областях подобия в некоторых частях последовательностей, следует отметить, что с точки зрения биолога поиск локального подобия может дать более значимые и точные результаты, чем оценка выравнивания по всей длине последовательностей.

Это связано с тем, что функционально активные участки обычно расположены в пределах относительно коротких областей, которые

остаются консервативными независимо от удалений или мутаций, происходящих в остальных частях последовательности.

Сегодня мы находимся на начальном этапе использования генетической информации о живой материи, однако развитие всё более эффективных методов расшифровки биологических текстов и разработка методов биоинформатики позволяет надеяться на серьёзный прогресс в понимании строения, механизмов функционирования и регуляции живых систем. В результате становится возможным изучение и понимание всё более сложных биологических систем, появляется возможность их системного исследования, установления эволюционных связей в живой природе, создания новых лекарственных препаратов, методов лечения и новых биотехнологий.

8. ЗАДАЧИ НА ПОСТРОЕНИЕ ГЛОБАЛЬНОГО ВЫРАВНИВАНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

ЗАДАЧА 8.1

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с бэта-2 субъединицей гемоглобина Rattus norvegicus (Серая крыса) (Sbjct)

Query	LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSA-----			QV
	L+ A+K V	WGKV +A	GAEAL R+ + +P T+ YF F DLS SA	QV
Sbjct LTDAEKATVSGLWGKV--NADNVGAEALGRLLVVYPWTQRYFSKFGDLSSASAIMGNPQV
Query	KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA
	K HGKKV +A	+ + H+D++	+ LS+LH KL VDP NF+LL + +++ L	HL
Sbjct	KAHGKKVINAFNDGLKHLDNLKGTFAHLSELHCDKLHVDPENFRLLGNMIVIVLGHHLGK

Query EFTPAVHASLDKFLASVSTVLTSKY 141

EFTP A+ K +A V++ L KY

Sbjct EFTPCAQAAFQKVVAGVASALAHKY 146

используя матрицу замен аминокислот PAM30 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

WGKVGAHAGE

WGKVNADN

ЗАДАЧА 8.2

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с бэта-субъединицей гемоглобина Papio anubis (Павиан догеровский, Анубис) (Sbjct)

Query	LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----					GSAQV
	L+P +K V A WGKV		+	E G EAL R+ + +P T+ +F F DLS		G+ +V
Sbjct LTPEEKNAVTALWGKV--NVDEVGGEALGRLLVVYPWTQRFFDSFGDLSSPAAVMGNPKV
Query	KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA
	K HGKKV	A ++ + H+D++			+ LS+LH KL VDP NFKLL + L+	LA H
Sbjct	KAHGKKVLGAFSDGLNHLDNLKGTFAQLSELHCDKLHVDPENFKLLGNVLVCVLAHHFGK
Query	EFTPAVHASLDKFLASVSTVLTSKY				141
	EFTP V A+	K +A V+	L	KY
Sbjct	EFTPQVQAAYQKVVAGVANALAHKY				146

используя матрицу замен аминокислот PAM70 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

GKVGAHAGEY

GKVNVDEV

ЗАДАЧА 8.3

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с бэта-субъединицей гемоглобина major chain Rattus norvegicus (Серая крыса) (Sbjct)

Query	LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----					GSAQV
	L+ A+K	V	WGKV +	E GAE+L + + +P T+ YF F DLS		G+ QV
Sbjct LTDAEKATVNGLWGKV--NPVEIGAESLASLLIVYPWTQRYFSKFGDLSSVSAIMGNPQV
Query	KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA
	K HG+KV +A		+ + H+D++		++LS+LH KL VDP NF+LL + +++ +	HL
Sbjct	KAHGEKVINAFDDGLKHLDNLKGTFASLSELHCDKLHVDPENFRLLGNMIVIMMGHHLGK
Query	EFTPAVHASLDKFLASVSTVLTSKY				141
	EFTP+	A+	K +A V++ L	KY
Sbjct	EFTPSAQAAFQKVVAGVASALAHKY				146

используя матрицу замен аминокислот PAM120 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

AWGKVGAHAG

LWGKVNPV

ЗАДАЧА 8.4

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с гемоглобином эпсилон Bos taurus (Дикий бык)

(Sbjct)

Query	LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSA-----					QV
	+ +K	+	WGKV	E G EAL R+ + +P T+ +F F +LS SA		+V
Sbjct FTAEEKAAITGLWGKVNVE--EAGGEALGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKV
Query	KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA
	K HGKKV	+	A+ ++D++	A + LS+LH KL VDP NF+LL + +++ LA H
Sbjct	KAHGKKVLTSFGEAIKNLDNLKGAFAKLSELHCDKLHVDPENFRLLGNVIVIILATHFGR
Query	EFTPAVHASLDKFLASVSTVLTSKY				141
	EFTP V A+		K ++ V+T L	KY
Sbjct	EFTPDVQAAWQKLVSGVATALAHKY				146

используя матрицу замен аминокислот PAM250 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

VGAHAGEYGA

VNVEEAGG

ЗАДАЧА 8.5

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с субъединицей бэта гемоглобина Ovis aries (Домашняя овца) (Sbjct)

Query	VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQ
	+L+ +K V WGKV	E GAEAL R+ + +P T+ +F HF DLS	+A+
Sbjct	MLTAEEKAAVTGFWGKV--KVDEVGAEALGRLLVVYPWTQRFFEHFGDLSSADAVMNNAK

Query VKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLP VK HGKKV D+ +N V H+DD+ + LS+LH KL VDP NF+LL + L+V LA H

Sbjct VKAHGKKVLDSFSNGVQHLDDLKGTFAQLSELHCDKLHVDPENFRLLGNVLVVVLARHHG

Query AEFTPAVHASLDKFLASVSTVLTSKY 141

+EFTP + A K +A V+ L +Y

Sbjct SEFTPVLQAEFQKVVAGVANALAHRY 144

используя матрицу замен аминокислот BLOSUM45 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

GKVGAHAGEY

GKVKVDEV

ЗАДАЧА 8.6

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с субъединицей бэта-1 гемоглобина Mus musculus (Мышь домовая) (Sbjct)

Query LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQV

	L+ A+K	V	WGKV +A E G EAL R+ + +P T+ YF F DLS		G+A+V
Sbjct LTDAEKAAVSGLWGKV--NADEVGGEALGRLLVVYPWTQRYFDSFGDLSSASAIMGNAKV
Query	KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA
	K HGKKV	A	+ + H+D +	++LS+LH KL VDP NF+LL + +++ L	HL
Sbjct	KAHGKKVITAFNDGLNHLDSLKGTFASLSELHCDKLHVDPENFRLLGNMIVIVLGHHLGK

Query EFTPAVHASLDKFLASVSTVLTSKY 141

+FTPA A+ K +A V+ L KY

Sbjct DFTPAAQAAFQKVVAGVAAALAHKY 146

используя матрицу замен аминокислот BLOSUM50 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

AWGKVGAHAG

LWGKVNAD

ЗАДАЧА 8.7

Для выравнивания альфа субъединицы гемоглобина человека HBA_HUMAN (Query) с субъединицей бэта гемоглобина Gallus gallus (Банкивский петух) (Sbjct)

Query DKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQVKGHG

	+K	+	WGKV + E GAEAL R+ + +P T+ +F F +LS		G+	V+ HG
Sbjct EKQLITGLWGKV--NVAECGAEALARLLIVYPWTQRFFASFGNLSSPTAILGNPMVRAHG
Query	KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP
	KKV	+	+AV ++D++ N	S LS+LH KL VDP NF+LL	L++ LAAH	+FTP
Sbjct	KKVLTSFGDAVKNLDNIKNTFSQLSELHCDKLHVDPENFRLLGDILIIVLAAHFSKDFTP
Query	AVHASLDKFLASVSTVLTSKY			141
		A+ K + V+ L KY
Sbjct	ECQAAWQKLVRVVAHALARKY			146

используя матрицу замен аминокислот BLOSUM62 и фиксированный штраф за пропуски d 8 , методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт)

GKVGAHAGEY

GKVNVAEC

<<< < Предыдущая 1 23 / 53 4 5 > Следующая >>>

Соседние файлы в предмете Биоинформатика

#
14.09.20204.43 Mб255Огурцов А. Н. Введение в биоинформатику.pdf
#
14.09.20202.23 Mб100Огурцов А. Н. Методы бииоинформационного анализа..pdf
#
14.09.20202.58 Mб62Огурцов А.Н. Выравнивание белковых последовательностей. – Харьков. НТУ ХПИ, 2015. – 80 с..pdf
#
14.09.202016.07 Mб274Огурцов А.Н. Основы биоинформатики. – Харьков. НТУ ХПИ, 2013. – 400 с..pdf
#
16.09.202046.01 Mб18Павлов А.Н., Ермолаев Ю.М. Биоинформатика
#
14.09.20202.93 Mб125Потапов В.В. Решение задач биоинформатики при помощи веб - и интернет-сервисов.pdf
#
16.09.202060.84 Mб115Феранчук С.И. Биоинформатика. Обсуждение задач, подходов и методов.pdf