Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции: геномика и протеомика.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
565.76 Кб
Скачать

2. Структуры репликации, выявление orf, интроны и интеины

Полные нуклеотидные последовательности разных видов дают возможность определять структуры генома, связанные с процессами репликации, транскрипции, трансляции, регуляции и т. п. Репликация бактериальной хромосомы начинается в точке ori С и продолжается в обоих направлениях до участка терминации репликации ter С. У большинства видов участки ori С и ter С делят кольцевую хромосому на две почти равные реплихоры.

Область начала репликации во многих бактериальных геномах имеет консервативную структуру. Не идентифицирован участок ori С в геноме Н. pylori, в котором нумерация нуклеотидной последовательности начата с повтора (AGTGATT)26, содержащего кодоны терминации трансляции во всех рамках в любую сторону. В геноме В. burgdorferii положение области начала репликации определено ровно посередине линейной хромосомы в локусе гена dna А.

Направление транскрипции большинства генов бактерий с высокой скоростью роста совпадает с направлением репликации. В геноме В. subtilis такое совпадение показано у 75 % предсказанных генов, у В. burgdorferii — у 66 % генов транскрибируется от центра к концам молекулы. Асимметрия распределения кодирующих участков просматривается в геноме архебактерий Methanococcus jannaschii. Структура области инициации репликации ДНК архебактерий неизвестна. Отсутствие асимметрии пар GC в их геномах может указывать на наличие множественных участков инициации репликации.

Часть хромосомы возле ori С более консервативна по сравнению с участком терминации. Степень дивергенции генов Е. coli и Salmonella thypnimurium возрастает по мере удаления от локуса ori С. Частота спонтанных рекомбинаций (выщепление из хромосомы профага лямбда) в локусе ter С возрастает в десятки тысяч раз. Также сравнение геномов видов хламидий Chl. trachomatis и Chl. pneumonia показало, что район ter С содержит намного больше перестроек, чем остальной геном. Ведущая и ведомая нити ДНК отличается не только преимущественным присутствием в ведущей нити нуклеотида G но и по частоте встречаемости некоторых олигомеров (коротких, по 6-10 нуклеотидов, сегментов одноцепочечной ДНК). Например, в ведущей нити ДНК Е. coli более часто встречаются так называемый Chi-сайт (октамер GCTGGTGG).

В настоящее время возникла довольно интересная ситуация, когда для большого числа генов известна последовательность нуклеотидов, но о функции этих генов или ничего неизвестно, или известно очень мало. Крупнейшей базой данных аминокислотных последовательностей является SWISSPROT, существующая с 1986 г. Банки нуклеотидных последовательностей ДНК и аминокислотных последовательных белков, снабженные соответствующими компьютерными программами, обеспечивают возможность сравнивать расшифрованные последовательности генов и их белковых продуктов с уже известными, что позволяет предсказывать функции анализируемых белков. Установленную нуклеотидную последовательность генома при помощи компьютерных программ транслируют в шести рамках считывания и таким способом выявляют открытые рамки считывания ОРС (англ. Open reading frame, ORF). Средний размер ORF в геномах прокариот соответствует примерно 300 аминокислотных последовательностей (а. о.).

Следующим шагом в анализе геномов является сопоставление состава по функциям. При этом идентифицируют компоненты, обшие для всех организмов, общие для данной группы видов и уникальные, специфичные только для данного организма. Так, среди 4288 ORF Е. coli, аннотированных в геноме, ранее были описаны 1853, а функции части остальных были установлены на основе сходства первичных структур с известными генами других видов. Однако функции 40 % ORF остаются неидентифицированными даже у такого хорошо изученного представителя прокариот, как Е. coli. Такая же доля неизвестных функций и у других видов: у Н. influenzae 42 %, у Т. pallidum 45 %. У архебактерни P. horikoshii неизвестны функции 1655 ORF. из них 453 имеют сходство с последовательностями в базах данных, а 1202 (более 50 %) — уникальны, что указывает на эволюционную дистанцию между этим видом и другими, гены которых секвенированы. Необходимо отметить, что несмотря на более чем столетний период изучения клетки и ее метаболизма, биохимикам и молекулярным биологам до сих пор не известны функции почти половины клеточных белков.

Приняв в качестве модельного объекта Е. coli, ряд авторов предложили классифицировать белки кодирующие их гены по трем функциональным группам: энергообмен, информация и коммуникация (внутри- и внеклеточная). В группе коммуникации количество белков увеличивается по мере повышения уровня организации. Такая функциональная классификация генов и белков даeт возможность сравнивать между собой геномы различных видов и их метаболических путей.

В генах архебактeрий и эубактерий, в частности, в генах тРНК, обнаружены интроны — последовательности, автокаталитически вырезающиеся при созревании мРНК, которые считали типичными для эукариот. У прокариот обнаружены также интeины — участки, кодирующие самосплайсирующиеся полипептидные цепи. Впервые самосплайсируемый белок обнаружен у пекарских дрожжей S. cerеvisiae. Так был открыт новый механизм процессинга, в котором участвует пострансляционное вырезание внутреннего пептида, с последующим лигированием концевых пептидов. Позднее было показано, что такой сплайсинг белка проходит автокаталитически. По аналогии с интронами, такие автокаталитически вырезаемые участки белка и кодирующие их участки ДНК названы интеинами, а остающиеся сплайсируемые фрагменты по аналогии с экзонамиэкстеинами.

Подобно некоторым интронам (интроны группы I), которые кодируют эндонуклеазы, последовательности, кодирующие интеины, являются мобильными генетическими элементами. Предполагают, что они и интроны группы I возникли сходным образом: путем инвазии гена фермента эндонуклеазы в последовательности ДНК, кодирующие маленькие элементы белкового или нуклеинового сплайсинга. В настоящее время описано несколько десятков интеинов, кодируемых генами архебактерий, эубактерий и эукариот. Открытие интеинов добавляет еще один уровень сложности в проблему перевода полной последовательности нуклеотидов генома в полный набор белков, кодируемых этим геномом. Для понимания всех совокупностей связей последовательностей нуклеотидов с аминокислотными последовательностями белков необходимо проводить сопоставление информации о полной структуре ДНК вида со структурой всех его РНК (международная исследовательская программа Scripton) и всех его белков (программа Proteom).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]