
Лекция_2_БИ_М_2014
.pdf
Биоинформатика включает в себя:
§базы данных, в которых хранится биологическая информация (банки данных)
§набор инструментов для анализа тех данных, которые лежат в таких базах
§правильное применение компьютерных методов для правильного решения биологических задач

Базы данных
биологической
информации
•Архивные
•Курируемые
•Интегрированные
•Локальные

Архивные базы данных, это большая свалка, куда любой может поместить все, что захочет. К таким базам относятся:
§GeneBank & EMBL – здесь хранятся первичные последовательности
§PDB – пространственные структуры белков,
§и многое другое.
Курьезный пример: в архивной базе данных указано, что в геноме археи (архебактерии) есть ген, кодирующий белок главного комплекса гистосовместимости.
Это является полной чепухой!!!

Курируемые базы данных, за достоверность которых отвечает хозяева базы данных. Информацию из архивных баз данных отбирают эксперты, проверяя достоверность информации – что записано в этих последовательностях, какие есть экспериментальные основания для того, чтобы считать, что эти последовательности выполняют ту или иную функцию.
К базам данных такого типа относятся:
§SwissProt – наиболее качественная база данных, содержащая аминокислотные последовательности белков
§KEGG – информация о метаболизме
§FlyBase – информация о Drosophila
§COG – информация об ортологичных генах прокариот
§KOG - информация об ортологичных генах эукариот
§TAIL – информация о Arabidopsis thaliana

Интегрированные базы данных, в которых вся информация (курируемая, не курируемая) свалена в кучу, и введя имя гена, можно найти всю связанную с ним информацию – в каких организмах встречается, в каком месте генома локализован, какие функции выполняет и т.д.
§NCBI Entrez – доступ к информации о нуклеотидных и аминокислотных последовательностях и структурах
§Ecocyc – все о E. coli – гены, белки, метаболизм и пр.

Локальные базы данных
§DIGAP – база данных аннотированных геномов фитопатогенов
§PlnTFDB – база данных о транскрипционных факторах растений
§PRGdb – база данных для анализа генов устойчивости у растений
§SALAD – база данных для анализа мотивов белков растений и установления их функций
§SolEST – база данных для изучения транскрипции генов картофеля
§И др.

Полные базы данных
Большие базы данных ДНК, РНК и белков.
Примеры: GenBank, EMBL, swissprot.
Имеется обмен информацией между базами

NCBI (National center for biotechnology information)
PubMed OMIM
Books
NCBI
Structure
Exp’profiles
Nucleotides
Domains |
Proteins |
Taxonomy Genomes

3D Domains
База данных, которая содержит структурные домены белков, которые идентифицированы в настоящее время и можно по сходству аминокислотных последовательностей получить 3D структуры исследуемого белка

BooksHelf
В базе представлены полнотекстовые варианты книг, в том числе и с описанием современных методов исследования (протоколы)