
Конкин. Биоинформатика (2015)
.pdf
NCBI genomes
Более 1000 бактериальных геномов



Kyoto Encyclopedia of Genes and
Genomes
•Метаболизм в 90 диаграммах
•Для всех организмов

SRS (Sequence Retrieval System).
•Установлена на множестве серверов.
•Имеет связи со многими базами данных.
•Предоставляет множество инструментов и служб для анализа.
•Позволяет сохранить результаты работы и анализа и продолжить работу локально.
1.Выбор базы данных
2.Заполнение формы запроса
3.Просмотр результатов

Swiss-PDBViewer
Просмотр 3D структуры белка:

Браузеры генома
Браузер генома — некая одномерная карта, которая отображает нуклеотидную последовательность (хромосому или отдельный ген) с сопутствующей информацией. Информация обычно структурируется в блоки, называемые треками.

Масштабирование геномных браузеров
Самая длинная хромосома содержит около 250 миллионов пар оснований, то есть масштаб должен меняться примерно в миллион раз.
В самом детальном масштабе можно увидеть отдельные нуклеотиды, как на прямой, так и на обратной спирали ДНК:
О нуклеотидном составе можно судить по специальному треку GC content:
На самом дальнем масштабе становится виден кариотип хромосомы:

Basic Local Alignment Search Tool
Поиск подобных белков или нуклеиновых кислот, для которых известна первичная структура (последовательность) или ее фрагмент.
Особенности:
•Эвристический алгоритм позволяет существенно сократить время поиска
•Основная идея - хэширование
•Локальное выравнивание. Главная задача – поиск похожих последовательностей в базах данных.
•Имеются погрешности
Программа |
Запрос |
Тип БД |
Сравнивает |
Blastn |
ДНК |
ДНК |
ДНК |
Blastp |
белок |
белок |
белки |
Blastx |
ДНК |
белок |
белки |
Tblastn |
белок |
ДНК |
белки |
Tblastx |
ДНК |
ДНК |
белки |

Алгоритм BLAST
1.Идем по запросу и формируем подслова
2.С помощью хэш-таблицы находим в банке подходящие последовательности
3.Строим для них выравнивание
4.Оцениваем статистическую значимость:
e-value – это ожидаемое число событий, может быть больше единицы. Если e-value маленькое, то совпадение значимое, и оно несет большую биологическую информацию. p-value – это вероятность встречи такого соответствия.