
450 |
Глава 19. Антибиотики |
N О — СН,
Уо
С Н ,0
Под действием восстановителей (например, сульфидной группы белковой молекулы) молекула антибиотика 1 присоединяет нуклеофильную группу по С]2, что вызывает перегруппировку связей в цикле и раскрытие оксирана с образованием промежуточного интермедиата 2, который затем подвергает ся циклоароматизации с образованием бирадикала 3. Далее бирадикал отры вает водород от атома С5’ дезоксирибозы. Образующийся радикал дезоксирибозы присоединяет молекулу кислорода, вызывая последующие превраще ния, приводящие к разрыву ДНК.
§ 19.5. Антибиотики —ингибиторы репликации и транскрипции |
451 |
О ' |
0 ,Р 0 |
V 0 |
|
|
I |
+ |
|
|
|
V 0 |
|
о |
|
|
|
н г - г н |
|
|
|
'° з Р ° |
|
|
и |
|
|
|
° / ° ъ |
|
|
о р о ; |
в |
^ о |
^ |
|
ч |
|
О.РО-СН |
"03Р0 + ОРО3 |
|
|
|
; |
/ |
/ |
Ендииновые антибиотики нового поколения, например аналог неокарциностатина антибиотик N1999А2, являются сильнейшими ингибиторами роста опухолевых клеток и бактерий, цитотоксические свойства их превосходят неокарциностатин в несколько раз. Молекула антибиотика N1999A2 содер жит девятичленное ендииновое кольцо, но, в отличие от неокарциностатина,
внем отсутствуют как пептид, так и остаток сахара.
ОМе
Все антибиотики этой группы также претерпевают циклоароматизацию и образование бирадикала под действием восстановителей. В основном эти антибиотики связываются с ДНК в малой бороздке с очень высокой селек тивностью, предпочитая последовательности ТССТ, ТССС, ТССА, АССТ, TCCG, GCCT, СТСТ, ТСТС. В последние годы идет активный поиск новых антибиотиков, содержащих ендииновые структуры, в связи с их способно стью разрушать раковые клетки, подавлять размножение различных микро организмов.
§ 20.1. Представление последовательностей в компьютерном формате 453
следовательности, название организма, ссылки на литературу, список авторов секвенирования, информация, связанная с описанием функции ДНК/РНК. В данном пособии мы будем опираться на базу данных GenBank.
Пополнение информации GenBank осуществляется в основном за счет проектов секвенирования геномов, а также информации, переданной науч ными группами, осуществляющими секвенирование ДНК. Банки данных по зволяют подавать информацию о вновь секвенированных последовательно стях в электронном виде. Для согласованности представления информации о нуклеотидных последовательностях в банках данных разработана общая система описания их особенностей и система обмена информацией. В резуль тате такого согласования последовательность нуклеотидов будет иметь еди нообразное аннотирование, в каком бы банке данных она ни находилась. Подробнее об общих принципах хранения и распространения информации в банках данных нуклеотидных последовательностей можно прочитать в рабо-
те [4] (см. в конце главы) и на сайте http://www.ebi.ac.uk/embl/Documentation/ INSD_policies.html.
Рассмотрим особенности представления информации по нуклеотидным последовательностям на примере банка данных GenBank. Эта база данных разрабатывается и поддерживается Национальным центром биотехнологиче ской информации (NCBI) Национального института здоровья (NIH), США [1] и является открытой для свободного доступа. По состоянию на декабрь 2009 года в базе содержалось около 108 миллионов последовательностей, а их об щая длина составила порядка 106 миллиардов нуклеотидов. Каждая запись в GenBank содержит нуклеотидную последовательность и ее аннотацию. Анно тация последовательностей включает научное название последовательности, название организма, библиографические ссылки, таблицу особенностей, ко торые идентифицируют кодирующие районы и прочие участки, имеющие биологическую значимость (единицы транскрипции, сайты мутаций, моди фикаций, повторы и т. п.). Для кодирующей части приводится соответствую щая ей аминокислотная последовательность. База данных GenBank обновля ется каждые два месяца. В ходе обновления добавляются новые записи, а также модифицируется и уточняется содержание уже существующих запи сей.
§ 20.1. Представление последовательностей в компьютерном формате
Последовательность нуклеотидов ДНК на компьютере может быть пред ставлена в виде строки, составленной из символов 4-буквенного алфавита, кодирующего типы нуклеотидов (A,T,G,C). Аналогично, последовательность аминокислот в белке можно представить в виде символов аминокислот 20буквенного алфавита, соответствующего набору канонических аминокислот. Для хранения и ввода в программы анализа одним из наиболее часто исполь зуемых компьютерных форматов представления последовательностей явля

§ 20.2. Сравнение последовательностей макромолекул |
455 |
§ 20.2. Сравнение последовательностей макромолекул
Сравнение последовательностей генов и белков является важным для ус тановления их взаимного родства, общности структуры или функций. Необ ходимым шагом при этом является выравнивание. Это процедура совмеще ния позиций двух последовательностей, причем выровненные участки после довательности должны иметь биологическое сходство (общность происхож дения, функции, структуры и т. п.). На рис. 127 представлены выровненные последовательности аминокислот для белка ТВР (см. гл. 8). Последователь ности разбиты на несколько строк. Слева от последовательности приведены названия организмов, справа - длина. Столбцы выравнивания, в которых на ходятся одинаковые типы аминокислот, помечены звездочкой. Столбцы, в которых встречаются аминокислоты, имеющие высокое сходство боковых радикалов по физико-химическим свойствам, помечены двоеточием. Столб цы, в которых встречаются аминокислоты, сходные в меньшей степени, по мечены точкой.
Drosophila |
MDQMLSPNFSIPSIGTPLHQMEADQQIVANPVYHPPAVSQPDSLMPAPGSSSVQHQQQQQ |
60 |
||||
Human |
MDQNNSLPPYAQGLASPQGAITCPGIPIFSPMMPYGTGLT-PQPIQNTNSLSILEEQQRQQ |
59 |
||||
|
* * * * |
* |
* . I |
|
* ; ; ^ * * ; * * |
|
Drosophila |
QSDASGGSGLFGHEPSLPLAHKQMQSYQPSASYQQQQQQQQLQSQAPGGGGSTPQSMMQP 120 |
|||||
Human |
QQ-------- QQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQAVAAAAVQQSTSQQA 110 |
|||||
|
*ш |
|
*. * |
******** *ш** |
*t |
|
Drosophila |
QTPQSMMAHMMPMSERSVGGSGAGGGGDALSNIHQTMGPSTPHTPATPGSADPGIVPQLQ 180 |
||||
Human |
TQGTSGQAPQLFHSQTLTTAPLPG--- TTPLYPSРНТРМГГРITPATPASESSGIVPQLQ 166 |
||||
|
* * |
*• |
' |
e* * **-*****ш* |
m******* |
Drosophila |
N1VSTVNLСCKLDLKKIALHARNAEYNPKRFAAVIMRIREPRTTALIFSSGKMVCTGAKS 240 |
||||
Human |
N1VSTVNLGCKLDLKTIALRARNAEYNPKRFAAVIMRIREPRTTALIFSSGKHVCTGAKS 226 |
||||
|
* * * * * * * * * * * * * * t ж * * . * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * |
||||
Drosophila |
EDDSRLAARKYARIIQKLGFPAKFLDFKIQNHVGSCDVKFPIRLEGLVLTHCNFSSYEPE 300 |
||||
Human |
EEQSRLAARKYARWQKL GFPAKFLDFKIQNHVGSCDVKFPIRLEGLVLTHQQFSSYEPE 286 |
||||
|
*;-**********j;************************************ |
******** |
|||
Drosophila |
LFPGLIYRMVRPRIVLLIFVSGKWLTGAKVRQEIYDAFDKIFPILKKFKKQS 353 |
||||
Human |
LFPGLIYRHIKPRIVLLIFVSGKWLTGAKVRAEIYEAFENIYPILKGFRKTT 339 |
||||
|
**********j********************* ***•**•;*j**** *•* |
|
Рис. 127. Сравнение последовательностей, кодирующих TATA-box-связывающие белки человека иDrosophila melanogaster
Так, при сравнении двух последовательностей, кодирующих ТАТА-Ьох- связывающие белки (ТВР) у человека и Drosophila melanogaster (см. рис. 127), эти белки можно условно разбить на два домена. N-концевая часть белка (по зиции последовательности у человека 1-161) вариабельна, содержит много замен и делеций/вставок, обозначенных символом В этой части белка
458 |
Глава 20. Биоинформатика |
терминального домена характерна высокая степень консервативности пози ций выравнивания и повышенная частота встречаемости заряженных амино кислот (D, Е, К, R, Н). Этот домен (~ 180 аминокислотных остатков) содер жит два повторенных участка длиной около 77 аминокислот, формирующих седлообразную структуру, способную связываться с малой бороздкой ДНК в районе ТАТА-Ьох [2]. Остатки, формирующие в ТВР человека взаимодей ствия с ДНК, показаны на рисунке кружочками над его последовательностью. Как видно из выравнивания, большинство из этих позиций консервативны.
N-терминальные домены белков ТВР содержат преимущественно поляр ные незаряженные аминокислоты (выделенные зеленым цветом). Эти участки последовательностей наиболее вариабельны; например, у комара и протистов отсутствуют достаточно большие их фрагменты. Хорошо заметен полиглутаминовый тракт, характерный для последовательности человека. Интересно, что мутации, приводящие к увеличению числа повторенных глутаминов у человека, связаны с возникновением ряда «полиглутаминовых» нейродегенеративных заболеваний, таких как спиноцеребральная атаксия [3].
§20.3. Алгоритм BLAST быстрого поиска локального сходства
Внекоторых случаях необходимо вместо полного выравнивания последо вательностей по всей длине определить, существуют ли в паре последова тельностей участки хорошего сходства. Например, в случае, когда секвениро-
вана новая последовательность ДНК, возникает вопрос, существуют ли
вбанках данных сходные последовательности. Для решения подобных задач разработана программа BLAST. Она использует модификацию алгоритма парного выравнивания. Программа не строит глобального выравнивания двух последовательностей, а только находит в них участки высокого локального сходства. Программа позволяет проводить поиск гомологичных нуклеотид ных последовательностей в банке данных размером в несколько десятков миллиардов нуклеотидов за считанные секунды. Сайт программы: http://www.ncbi.nlm.nih.gov/BLAST/. Алгоритмы программы BLAST описаны
вработе [4].
§20.4. Поиск мотивов и функциональных сайтов
вбазе данных PROSITE
Активные сайты белка - короткие участки полипептидных последова тельностей, которые выполняют в белках важные функции - связывание с лигандами (ионами металлов, ДНК, пептидами), формирование определен ной пространственной структуры и т. п. Наборы аминокислот, характерные для последовательностей функционального сайта, называют мотивами. Опи
§ 20.4. Поиск мотивов и функциональных сайтов в базе данных PROSITE 459
сать мотивы для коротких гомологичных последовательностей можно при помощи паттернов (от англ. pattern - узор). Предположим, имеется набор по следовательностей ДНК-связывающих доменов «цинковый палец» С2Н2 [5] из нескольких гомологичных белков. Их выравнивание представлено ниже. Слева приведены идентификаторы последовательностей белков. Справа - последовательности их доменов С2Н2. Под выравниванием приведена нуме рация позиций и строка консенсуса - набора аминокислот, общих для всех последовательностей.
NP_446085.1 .CPAEGCDRRFSRSDELTRH-IRIH NP_446085.1 :C-RICMRNFSRSDHLTTH-IRTH АА084551.1 :CPVESCDRRFSRSDELTRH-IRIH ABH07425.1 :CPVETCDRRFSRSDELTRH-IRIH XP_524650.2 :C--ETCGKRFTRQEHLRSHALSVH XP_001232215.1 :CT-E-CGKSFIRRDHLLKH-WRVH XP_001626222.1 :CDVHNCNRRFARNEELTRHKRIH
ED034122.1: :C-KVCRKAFGRKDHLSKHE-KTH :1.......10........20...25
Консенсус
:CXXXXCXXXFXRXXXLXXHXXXXH
Для формирования паттерна прежде всего необходимо обратить внимание на консервативные позиции, характерные для гомологичных последователь ностей (они выделены в выравнивании серым фоном, а в строке «Консенсус» - жирным шрифтом). В домене типа «цинковый палец» консервативные цистеины (С) и гистидины (Н) образуют связи с заряженным ионом цинка, а кон сервативные остатки фенилаланина (F) и лейцина (L) входят в гидрофобное ядро домена. Консервативный аргинин (R) вступает в контакт с ДНК. Остат ки между двумя цистеинами образуют короткую петлю (длина этой петли может варьировать от 2 до 5, как видно из выравнивания) [5]. В итоге пат терн, описывающий домены С2Н2, можно записать как
[Паттерн1: X(2)-C-X(2,4,5)-C-X(3)-F-X-R-X(3)-L-X(2)-H-X(3,4)-H !
Здесь дефисом разделяется описание набора позиций (или одной пози ции), буквами обозначены типы аминокислот, допустимые в этих позициях. Если тип аминокислоты в позиции неважен, то он обозначается символом X. В скобках указано число идущих подряд одинаковых остатков. Мотив может быть представлен не только набором консервативных аминокислот. Напри мер, следует обратить внимание на позицию 17 выравнивания. В этой пози ции наблюдаются только отрицательно заряженные аминокислоты (D - аспа