Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Биохимия / Биоорганическая_химия_Кнорре_Д_Г_,_Годовикова_Т_С_,_Мызина_С_Д_

.pdf
Скачиваний:
4
Добавлен:
23.03.2024
Размер:
20.35 Mб
Скачать

450

Глава 19. Антибиотики

N О — СН,

Уо

С Н ,0

Под действием восстановителей (например, сульфидной группы белковой молекулы) молекула антибиотика 1 присоединяет нуклеофильную группу по С]2, что вызывает перегруппировку связей в цикле и раскрытие оксирана с образованием промежуточного интермедиата 2, который затем подвергает­ ся циклоароматизации с образованием бирадикала 3. Далее бирадикал отры­ вает водород от атома С5’ дезоксирибозы. Образующийся радикал дезоксирибозы присоединяет молекулу кислорода, вызывая последующие превраще­ ния, приводящие к разрыву ДНК.

§ 19.5. Антибиотики —ингибиторы репликации и транскрипции

451

О '

0 ,Р 0

V 0

 

 

I

+

 

 

V 0

 

о

 

 

 

н г - г н

 

 

'° з Р °

 

 

и

 

 

 

° / ° ъ

 

о р о ;

в

^ о

^

 

ч

 

О.РО-СН

"03Р0 + ОРО3

 

 

;

/

/

Ендииновые антибиотики нового поколения, например аналог неокарциностатина антибиотик N1999А2, являются сильнейшими ингибиторами роста опухолевых клеток и бактерий, цитотоксические свойства их превосходят неокарциностатин в несколько раз. Молекула антибиотика N1999A2 содер­ жит девятичленное ендииновое кольцо, но, в отличие от неокарциностатина,

внем отсутствуют как пептид, так и остаток сахара.

ОМе

Все антибиотики этой группы также претерпевают циклоароматизацию и образование бирадикала под действием восстановителей. В основном эти антибиотики связываются с ДНК в малой бороздке с очень высокой селек­ тивностью, предпочитая последовательности ТССТ, ТССС, ТССА, АССТ, TCCG, GCCT, СТСТ, ТСТС. В последние годы идет активный поиск новых антибиотиков, содержащих ендииновые структуры, в связи с их способно­ стью разрушать раковые клетки, подавлять размножение различных микро­ организмов.

Глава 20. Биоинформатика

Биоорганическая химия имеет дело с огромным количеством информа­ ции. Так, первичная структура ДНК в геноме человека представлена пример­ но тремя миллиардами пар нуклеотидов. В напечатанном виде даже запись такой последовательности нуклеотидов заняла бы большое число томов. А манипулировать вручную такими данными для решения каких-либо задач биоорганической химии просто было бы немыслимо. Все это стало практиче­ ски возможным после появления современных компьютеров и системы Ин­ тернет. В этой главе рассматриваются некоторые задачи, решаемые методами биоинформатики на основе первичных структур нуклеиновых кислот и белков.

Основным источником информации по нуклеотидным последовательно­ стям ДНК и РНК и аминокислотным последовательностям в белках являются соответствующие банки данных. Для нуклеиновых кислот адреса этих банков данных в Интернете приведены в § 3.5, а для белков - в § 8.3. Существует три основных банка данных: GenBank, банк данных нуклеотидных последова­ тельностей EMBL и японский банк данных нуклеотидных последовательно­ стей DDBJ (табл. 22). Они разрабатываются в рамках проекта Международ­ ного сотрудничества нуклеотидных баз данных (INSDC). Принципы хране­ ния и аннотации информации в этих банках данных сходные.

Таблица 22

Нуклеотидные банки данных и их основные интернет-ресурсы

Банк данных

Интернет-ресурсы

Ссылка

GenBank

Официальный сайт:

 

http://www.ncbi.nlm. nih.gov/Genbank/

 

 

Сайт подачи информации:

 

 

http://www.ncbi.nlm.nih.gov/Banklt/

 

База данных

Официальный сайт:

[2]

нуклеотидных

http://www.ebi. ас. uk/етЫ/

 

последователь­

Сайт подачи информации:

 

ностей EMBL

http://www.ebi. ас. uk/embl/Submission/index, html

 

DDBJ

Официальный сайт:

[3]

 

http://www. ddbj. nig. ac.jp/

 

 

Сайт подачи информации:

 

 

http://sakura. ddbj.nig.ac.jp/

 

Они содержат наборы записей - по одной записи на каждую нуклеотид­ ную последовательность. Кроме самой последовательности, запись содержит дополнительную информацию (аннотацию). Как правило, это описание по-

§ 20.1. Представление последовательностей в компьютерном формате 453

следовательности, название организма, ссылки на литературу, список авторов секвенирования, информация, связанная с описанием функции ДНК/РНК. В данном пособии мы будем опираться на базу данных GenBank.

Пополнение информации GenBank осуществляется в основном за счет проектов секвенирования геномов, а также информации, переданной науч­ ными группами, осуществляющими секвенирование ДНК. Банки данных по­ зволяют подавать информацию о вновь секвенированных последовательно­ стях в электронном виде. Для согласованности представления информации о нуклеотидных последовательностях в банках данных разработана общая система описания их особенностей и система обмена информацией. В резуль­ тате такого согласования последовательность нуклеотидов будет иметь еди­ нообразное аннотирование, в каком бы банке данных она ни находилась. Подробнее об общих принципах хранения и распространения информации в банках данных нуклеотидных последовательностей можно прочитать в рабо-

те [4] (см. в конце главы) и на сайте http://www.ebi.ac.uk/embl/Documentation/ INSD_policies.html.

Рассмотрим особенности представления информации по нуклеотидным последовательностям на примере банка данных GenBank. Эта база данных разрабатывается и поддерживается Национальным центром биотехнологиче­ ской информации (NCBI) Национального института здоровья (NIH), США [1] и является открытой для свободного доступа. По состоянию на декабрь 2009 года в базе содержалось около 108 миллионов последовательностей, а их об­ щая длина составила порядка 106 миллиардов нуклеотидов. Каждая запись в GenBank содержит нуклеотидную последовательность и ее аннотацию. Анно­ тация последовательностей включает научное название последовательности, название организма, библиографические ссылки, таблицу особенностей, ко­ торые идентифицируют кодирующие районы и прочие участки, имеющие биологическую значимость (единицы транскрипции, сайты мутаций, моди­ фикаций, повторы и т. п.). Для кодирующей части приводится соответствую­ щая ей аминокислотная последовательность. База данных GenBank обновля­ ется каждые два месяца. В ходе обновления добавляются новые записи, а также модифицируется и уточняется содержание уже существующих запи­ сей.

§ 20.1. Представление последовательностей в компьютерном формате

Последовательность нуклеотидов ДНК на компьютере может быть пред­ ставлена в виде строки, составленной из символов 4-буквенного алфавита, кодирующего типы нуклеотидов (A,T,G,C). Аналогично, последовательность аминокислот в белке можно представить в виде символов аминокислот 20буквенного алфавита, соответствующего набору канонических аминокислот. Для хранения и ввода в программы анализа одним из наиболее часто исполь­ зуемых компьютерных форматов представления последовательностей явля­

§ 20.2. Сравнение последовательностей макромолекул

455

§ 20.2. Сравнение последовательностей макромолекул

Сравнение последовательностей генов и белков является важным для ус­ тановления их взаимного родства, общности структуры или функций. Необ­ ходимым шагом при этом является выравнивание. Это процедура совмеще­ ния позиций двух последовательностей, причем выровненные участки после­ довательности должны иметь биологическое сходство (общность происхож­ дения, функции, структуры и т. п.). На рис. 127 представлены выровненные последовательности аминокислот для белка ТВР (см. гл. 8). Последователь­ ности разбиты на несколько строк. Слева от последовательности приведены названия организмов, справа - длина. Столбцы выравнивания, в которых на­ ходятся одинаковые типы аминокислот, помечены звездочкой. Столбцы, в которых встречаются аминокислоты, имеющие высокое сходство боковых радикалов по физико-химическим свойствам, помечены двоеточием. Столб­ цы, в которых встречаются аминокислоты, сходные в меньшей степени, по­ мечены точкой.

Drosophila

MDQMLSPNFSIPSIGTPLHQMEADQQIVANPVYHPPAVSQPDSLMPAPGSSSVQHQQQQQ

60

Human

MDQNNSLPPYAQGLASPQGAITCPGIPIFSPMMPYGTGLT-PQPIQNTNSLSILEEQQRQQ

59

 

* * * *

*

* . I

 

* ; ; ^ * * ; * *

 

Drosophila

QSDASGGSGLFGHEPSLPLAHKQMQSYQPSASYQQQQQQQQLQSQAPGGGGSTPQSMMQP 120

Human

QQ-------- QQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQAVAAAAVQQSTSQQA 110

 

 

*. *

******** *ш**

*t

 

Drosophila

QTPQSMMAHMMPMSERSVGGSGAGGGGDALSNIHQTMGPSTPHTPATPGSADPGIVPQLQ 180

Human

TQGTSGQAPQLFHSQTLTTAPLPG--- TTPLYPSРНТРМГГРITPATPASESSGIVPQLQ 166

 

* *

*•

'

e* * **-*****ш*

m*******

Drosophila

N1VSTVNLСCKLDLKKIALHARNAEYNPKRFAAVIMRIREPRTTALIFSSGKMVCTGAKS 240

Human

N1VSTVNLGCKLDLKTIALRARNAEYNPKRFAAVIMRIREPRTTALIFSSGKHVCTGAKS 226

 

* * * * * * * * * * * * * * t ж * * . * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *

Drosophila

EDDSRLAARKYARIIQKLGFPAKFLDFKIQNHVGSCDVKFPIRLEGLVLTHCNFSSYEPE 300

Human

EEQSRLAARKYARWQKL GFPAKFLDFKIQNHVGSCDVKFPIRLEGLVLTHQQFSSYEPE 286

 

*;-**********j;************************************

********

Drosophila

LFPGLIYRMVRPRIVLLIFVSGKWLTGAKVRQEIYDAFDKIFPILKKFKKQS 353

Human

LFPGLIYRHIKPRIVLLIFVSGKWLTGAKVRAEIYEAFENIYPILKGFRKTT 339

 

**********j********************* ***•**•;*j**** *•*

 

Рис. 127. Сравнение последовательностей, кодирующих TATA-box-связывающие белки человека иDrosophila melanogaster

Так, при сравнении двух последовательностей, кодирующих ТАТА-Ьох- связывающие белки (ТВР) у человека и Drosophila melanogaster (см. рис. 127), эти белки можно условно разбить на два домена. N-концевая часть белка (по­ зиции последовательности у человека 1-161) вариабельна, содержит много замен и делеций/вставок, обозначенных символом В этой части белка

456

Глава 20. Биоинформатика

у человека расположен полиглутаминовый домен (позиции 55-95), практиче­ ски отсутствующий у белка дрозофилы. С-концевая часть двух белков кон­ сервативна, содержит много позиций, аминокислоты в которых идентичны (помечены звездочками). Этот домен консервативен у самых различных ор­ ганизмов - от архей до высших эукариот. Функция этого домена заключается во взаимодействии с ДНК в районе ТАТА-box. Чтобы дать представление о заменах, во втором консервативном домене на рис. 128 приведены строки последовательностей, в которых прямоугольниками обведены замены, не влияющие на функцию боковых остатков - Val —» lie, Arg-»Leu, Asp->Glu, Phe-»Tyr, Ser—>Thr. Существенно реже наблюдаются функционально неэкви­ валентные замены, обведенные овалом.

D r o s o p h i l a

L F P G L I Y R M V R P R I V L L I F V S G K W L T G A K V R / S \ E I Y D A F D

К I

F

H u m a n

L F P G L I Y R M I К P R I V L L I F V S G K W L T G A K V R y A / 'EIY

E A F E

N I Y

 

* * * * * * * * * 1 1 * * * * * * * * * * * * * * * * * * * * *

* * *

J. 1 *

_L

p i l k /k ^jF к K / 3 \ s

p i l k Vg J'f R

* w

T

* * * *

*

 

Рис. 128. Строки последовательностей, в которых обведены замены

При сравнении нескольких последовательностей информация может быть существенно больше, поскольку можно изучать не только вариабельность или консервативность позиций, но также и наборы аминокислот, которые в них наблюдаются. На основании этой информации можно оценивать функ­ циональную важность позиций белка и даже предсказывать его структуру.

В настоящее время для выполнения процедуры выравнивания последова­ тельностей разработано много программ, которые используют алгоритмы различной степени сложности. Одной из наиболее популярных является про­ грамма CLUSTALW, которую можно установить на персональном компью­ тере или воспользоваться ею через Интернет. Интернет-версия программы располагается на сервере Европейского института биоинформатики

(http://www.ebi.ac.uk/clustalw/index.html). На вход этой программы подается набор из последовательностей гомологичных белков в формате FASTA. Опи­ сание алгоритма и программы CLUSTALW можно найти в работе [1]. При­ мер множественного выравнивания белков ТВР из разных организмов, полу­ ченных при помощи программы CLUSTALW, приведен на рис. 129, на кото­ ром аминокислоты представлены различными цветами: красным цветом - малые и гидрофобные аминокислоты, включая триптофан (А, V, F, Р, М, I, L, W); синим - отрицательно заряженные (D, Е); розовым - положительно заря­ женные (R, Н, К); зеленым - полярные незаряженные (S, Т, Y, С, N, G, Q).

§ 20.2. Сравнение последовательностей макромолекул

457

Human C hicken H ouse Snake Prog

F is h Shark

H osq u ito P r o t is t

Human C hicken House Snake Frog

F is h Shark

H osq u ito P r o t is t

Hunan

Chicken House Snake Frog

F ish Shark

H o sq u ito P r o t is t

Human Chi ck en House Snake Frog

F is h Shark

H osq u ito P r o t is t

Human C hicken H ouse Snake Frog

F is h Shark

H osq u ito P r o t is t

Human C hicken House Snake Frog

F is h Shark

H o sq u ito P r o t is t

- a&C - BHSbPPYbQSaASPQG&ETP SEPIFSMffiPTGlffl. SPQPI&ISKbL^LEEaC&S

S8

- HBQ - HSSLPPYbQSLASPQOAKTPSXPIFй'Ш ОYGTSLTPQPV&STUSLSILEEOOPCi

S8

■«Wi - MMSbPP'SbO.SIiASP ЗОШТРSEPIFSPHHPYGTSS,IPSPIQSTiJSLSTL-EEQQP.SL

S8

- ЫЭ £ - EMa PP1AQSiASP OSbESP GEPIF SPHHP'.'■■'■TGL ГР SPASSTUSL SIL E E C m '-i

58

- K&O - IIKSIPPF -CGLASP £GSL XPAIiSIF SP -2ГРYG2GL W OPVOTISSL ^L£2'Q£?P. Q

56

- HSC - 1©SLPPFA?aASP OGaHTP -SLPI? SPBHP'£GTSL IP QPVOb'313SLSLL££Q ® U

S8

- fl& £ S№GIi?Pt&$GL SSPP ££HTP ?3.PHFSPHHP'rGYGL IPOPIQS SW3ISLLEHOC*.'.

S9

S SLIKSfiRirSItACSKLAС—CTVy *

ШКЗ&.РSSPLKHLL SS&PSQS, $ rSI G---------------

 

SO

hss©>xl sslp&pp s?p ssfisa s t за.арьшга.ирSK ^3ffiK II3fc8:b‘I I Б--------

 

S3

jq

 

UU

 

 

 

 

rSQQi V „CTSG3A 118

QQO'OC' ----------------------------------------------------------------------

 

 

 

 

 

AA\?3SV.ЗДО&TQ&TS5Q? 81

40QgQQ(№G&&O-------------------------------------------

 

ДОЛШАаОДС :'£ЧДРT y S U W

 

9S

----------------------------------------------------------------------------

 

 

 

 

 

 

3SVSuQflm fJ-SGS?

 

75

U3№ 5 --------------------------------------------------------------------------

 

 

 

 

 

AAS-ifcO&&!?<.•<•&%" 79

SQGaA -------------------------------------------------------------------------

 

 

 

 

 

OSSTTSOL S?V -3718 3QP

 

81

 

 

 

 

 

ее

e

 

 

 

P OLFE?— $?L TT&PLP GT IPL s? SPETPKtPI JPATPASE?;:- GlVP OL Q m V t r W S L L-i

 

 

P ^ F HS — OILTTAPLPWEPLYP SPHTPHTPI IPAIPASSSS&IffP QLOHIVSWBL С-Г

 

 

P OLFHf— £TLTTAPLP GTTPLYPSPHTPHtPI 1ГРАТРА iESSSIVP QL QSTPSTFHL *"'■

 

 

P QLFKS — QTL TXAPLP i;t TPL'fPSPHTPHTPI TPATPA^SS.SGF/P QL фВДГ&СТЯЬ«■

 

 

PQLFHP — OIL VTAPLP'^TP LTPSPHTP2I“TPI 7PATPASSSSGIVP r*L QI-KVs-tWTJLC'J

 

 

PqgLYK £ - 1WSYTT&LP GSTPL

T IPL TPH7PI ~PATPASSS.-STOPQL QKTV/rlTKL^

 

 

P QLFHS —

t T TTLP«ЛT о.Ф/Р SPHTPE^PI 2PATPAS3S: kO T OL ОЯЛТУТШ. r:.

 

 

-----------------

QTtfE£PP OsASIЩ 51 ?VP

SP J2AI«--------------------

 

 

StfLVaWOTATtfSB'S*.

 

 

-----------------------

 

HSIISItf&I. fI&K2S------------------------------------

 

 

1 TP21 QHEIASPHL « ’■

 

 

 

ее

o e

е е

o e e o

 

 

 

 

 

KL2>LKrLbLPAftSb£?8PKSFiAVIHbI?.EPaT2S.LIF

••ЧЖШ?Г тSSX^BBaSRLAS.P

 

 

>0, i>LKTIALEAEitf.S?25PKRFiiVIH3ftIRSP й? m IFSS £KHtfCTSbKOT O.SPJ.AAKK

 

 

KLSLET^I^PjaSY^ERFiAFIHIilSS'IlT^ALIFS^GKmrrtGaKSZEaSIibAASii

 

 

FvLI/LK"IALIiAPJ-Ц.EYKPKPJAAOTHS AEP3i5^IFS3Q®7tTSaKS23aSbLAAPK

 

 

KLS>LETIALPAIlZSlZ7HPKPJAAVIH'P.. KEPItTXaLIF32^ЮГГТЙ£1^30£Ы^АРК

 

 

KLDLKTIALbAEjaEYOTKSFAAVIHjaiREPET'Zai.IF£•: aaTOl'TaaK^ESOSRLAAEE

 

 

KL5L1 - : TIALЙА'ЯКЬ Ef3?PK?;FAivTEHPIP.21'й t TALIF

■:GKHV J' YG£E3E2CiSELAi$Ir

 

 

BLBLK7IHF£TfaJSZ7&P SRFBSWVH£IS2>PacTALVFH - ( З Ш ~ T S a K im Q Q k H L G L 3 F

 

 

ELI^LaHIAISbR3a.£,?KPiacra.15?,VHPJ.P^PKCIGLLFSu* С ? \Ш ~ T£k?JL2KDAEL {.:(ЖЕ

 

 

e

e

e

 

 

 

 

e

 

 

^ffiJOTSKLGPP -&EFL3&FEI OJaJVCSds-PtCFPIIU.- 2GLVL Г C«OF

' K ’EL?P GLIY5‘JS

29S

2«JOT<№:aFP -OTLDFKI Q?i®?Cr-::2>5KFPIiaBG(.VI,

’ ‘«Sf. .

::'TSI'ELFP iSLI '£T:2J

2S8

YAP.W Q&ILd¥P -AEFL-BFEIОЛШ? •.ri-rDVKFPI&L SGLVL

..QC^Si-YSPSLFPGLI'^Jd

272

aRWCjKLGPP-AKFL&FKIQMHyCSCMTKFPIia. GLVL ТНЗQF S3Y3PELFPGL1 4911

256

aAPW^LGFP -AKFLBFICE0ИИ7Г- CI«?EFPISI-£5I»VL TSj-j OF.v:/TSPEbFPGLI^SE

2S2

SLPWCELQF? -AKFLDFICI OSiHPPffCIWKFPIBlEGLVLIHOO? SSOTPELFP «Я.1ТЙЕ 2S8

зГАЮТ QKL GFP -AKFL&FKI UгДГ/i -c CWiO?PI P.L EGLVI *H0-2?F-'''fEPELFPGLIVB25

2S8

FVSIICffILGFI>-VKFLI>FKVQjgLVATAI>L?JPI5I; EtttECFslGiSFS^’rEPELFPCblTSB

210

HAKH.QKSGFPKWKF TKFKHSSriA lAI>GCF?IPJi,SSLLVI>2S!j>F;:?rr£I,ZLFPGLVTVV. 203

e e e

e

 

 

 

 

 

 

 

IKF --------

SIVLLIFVSCKWL TSSinri^SI'rS&F SHIYPILbGFPK s

 

 

IICP --------

PJVLLIFV SCEPVLT i^KVPASI V3&FSHIYPIШ SFPJCT *

 

 

IKI ---------

RIVLLIFVS'OSCPVL'

 

-v S k lS S L & U K S F P Z -.

 

 

IKI ---------

&IVLLIFV^SKWL

G&.V7JP.- Ш T:'Sh i ИП *iPILK SFPIk

 

 

J.KJ ---------

IlIVLLIFVSC CWL

SAKVPA.Ш. TSh.F22S TPI LK '?*

 

 

 

IKI ---------

SIVLLIFV^GOTL 'GiiiWT1>SU43iF2E!:-»ILKeF?KT-

 

 

IKP --------

PjCVLLIFVSGCWL '

 

'f.'Sk.JSm: ‘ff ILilGFI?S »

 

 

VKP -------

liWLLIFVHCKIVF Т £ £ £ 8 № .Ш Ш '& Ь S?:XYPU, :,.5?j

 

 

 

HP5>IISP SCaVLLLFV SQCSTIVV

 

СЕ СЭР?DSZE'iP vT

 

 

 

 

Рис. 129. Множественное выравнивание последовательностей белков ТВР для девяти организмов, полученное при помощи программы CLUSTALW. Темными кружками над столбцами выравнивания показаны позиции, аминокислотные остатки которых взаимодействуют с молекулой ДНК у человека

Из рис. 129 хорошо видно разделение последовательности на консерва­ тивный С-терминальный и вариабельный N-терминальный участки. Для С-

458

Глава 20. Биоинформатика

терминального домена характерна высокая степень консервативности пози­ ций выравнивания и повышенная частота встречаемости заряженных амино­ кислот (D, Е, К, R, Н). Этот домен (~ 180 аминокислотных остатков) содер­ жит два повторенных участка длиной около 77 аминокислот, формирующих седлообразную структуру, способную связываться с малой бороздкой ДНК в районе ТАТА-Ьох [2]. Остатки, формирующие в ТВР человека взаимодей­ ствия с ДНК, показаны на рисунке кружочками над его последовательностью. Как видно из выравнивания, большинство из этих позиций консервативны.

N-терминальные домены белков ТВР содержат преимущественно поляр­ ные незаряженные аминокислоты (выделенные зеленым цветом). Эти участки последовательностей наиболее вариабельны; например, у комара и протистов отсутствуют достаточно большие их фрагменты. Хорошо заметен полиглутаминовый тракт, характерный для последовательности человека. Интересно, что мутации, приводящие к увеличению числа повторенных глутаминов у человека, связаны с возникновением ряда «полиглутаминовых» нейродегенеративных заболеваний, таких как спиноцеребральная атаксия [3].

§20.3. Алгоритм BLAST быстрого поиска локального сходства

Внекоторых случаях необходимо вместо полного выравнивания последо­ вательностей по всей длине определить, существуют ли в паре последова­ тельностей участки хорошего сходства. Например, в случае, когда секвениро-

вана новая последовательность ДНК, возникает вопрос, существуют ли

вбанках данных сходные последовательности. Для решения подобных задач разработана программа BLAST. Она использует модификацию алгоритма парного выравнивания. Программа не строит глобального выравнивания двух последовательностей, а только находит в них участки высокого локального сходства. Программа позволяет проводить поиск гомологичных нуклеотид­ ных последовательностей в банке данных размером в несколько десятков миллиардов нуклеотидов за считанные секунды. Сайт программы: http://www.ncbi.nlm.nih.gov/BLAST/. Алгоритмы программы BLAST описаны

вработе [4].

§20.4. Поиск мотивов и функциональных сайтов

вбазе данных PROSITE

Активные сайты белка - короткие участки полипептидных последова­ тельностей, которые выполняют в белках важные функции - связывание с лигандами (ионами металлов, ДНК, пептидами), формирование определен­ ной пространственной структуры и т. п. Наборы аминокислот, характерные для последовательностей функционального сайта, называют мотивами. Опи­

§ 20.4. Поиск мотивов и функциональных сайтов в базе данных PROSITE 459

сать мотивы для коротких гомологичных последовательностей можно при помощи паттернов (от англ. pattern - узор). Предположим, имеется набор по­ следовательностей ДНК-связывающих доменов «цинковый палец» С2Н2 [5] из нескольких гомологичных белков. Их выравнивание представлено ниже. Слева приведены идентификаторы последовательностей белков. Справа - последовательности их доменов С2Н2. Под выравниванием приведена нуме­ рация позиций и строка консенсуса - набора аминокислот, общих для всех последовательностей.

NP_446085.1 .CPAEGCDRRFSRSDELTRH-IRIH NP_446085.1 :C-RICMRNFSRSDHLTTH-IRTH АА084551.1 :CPVESCDRRFSRSDELTRH-IRIH ABH07425.1 :CPVETCDRRFSRSDELTRH-IRIH XP_524650.2 :C--ETCGKRFTRQEHLRSHALSVH XP_001232215.1 :CT-E-CGKSFIRRDHLLKH-WRVH XP_001626222.1 :CDVHNCNRRFARNEELTRHKRIH

ED034122.1: :C-KVCRKAFGRKDHLSKHE-KTH :1.......10........20...25

Консенсус

:CXXXXCXXXFXRXXXLXXHXXXXH

Для формирования паттерна прежде всего необходимо обратить внимание на консервативные позиции, характерные для гомологичных последователь­ ностей (они выделены в выравнивании серым фоном, а в строке «Консенсус» - жирным шрифтом). В домене типа «цинковый палец» консервативные цистеины (С) и гистидины (Н) образуют связи с заряженным ионом цинка, а кон­ сервативные остатки фенилаланина (F) и лейцина (L) входят в гидрофобное ядро домена. Консервативный аргинин (R) вступает в контакт с ДНК. Остат­ ки между двумя цистеинами образуют короткую петлю (длина этой петли может варьировать от 2 до 5, как видно из выравнивания) [5]. В итоге пат­ терн, описывающий домены С2Н2, можно записать как

[Паттерн1: X(2)-C-X(2,4,5)-C-X(3)-F-X-R-X(3)-L-X(2)-H-X(3,4)-H !

Здесь дефисом разделяется описание набора позиций (или одной пози­ ции), буквами обозначены типы аминокислот, допустимые в этих позициях. Если тип аминокислоты в позиции неважен, то он обозначается символом X. В скобках указано число идущих подряд одинаковых остатков. Мотив может быть представлен не только набором консервативных аминокислот. Напри­ мер, следует обратить внимание на позицию 17 выравнивания. В этой пози­ ции наблюдаются только отрицательно заряженные аминокислоты (D - аспа­