- •1 Введение
- •Подготовка рабочего места
- •2 Базы данных для биоинформатика: инструмент и результат
- •2.1 GenBank — база данных биологических последовательностей
- •2.2 Protein Data Bank - банк данных трехмерных структур белков и нуклеиновых кислот
- •2.3 PubMed — база публикаций по медицине и биологии
- •2.4 Контрольные вопросы
- •3 Программы и форматы
- •3.1 UCSF Chimera и формат PDB
- •3.2 Редактор JalView и FASTA - формат
- •3.3 Контрольные вопросы
- •4.2 Выравнивание последовательностей в MAFFT
- •4.4 Облачные вычисления — дорога в будущее
- •4.5 Контрольные вопросы
- •5 Учебная работа по моделированию пространственной структуры биологического объекта
- •5.1 Задание
- •5.1.1 Извлечение знаний (Data mining)
- •5.2 Анализ вирусного белка NS3
- •5.2.1 Скрининг по гомологии
- •5.2.2 Скрининг с кластеризацией
- •5.2.3 Построение филогенетического древа
- •5.2.4 Конструирование трехмерной структуры вирусного белка NS3
- •5.2.5 Система поиска научных статей в базе данных Медлайн
- •5.2.6 Исследование функциональных доменов вирусного белка NS3
- •5.3 Необходимое послесловие к моделированию
- •6 Список рекомендованной литературы
Рисунок 4: PubMed - пример запроса
получим список статей, в названиях или аннотациях которых упоминаются указанные ключевые слова, в данном случае NS2B NS3 протеаза вируса Денге.
Очень полезной особенностью базы является возможность не просто поиска, а выборки статей, связанных цитатами с данной. Для использования этой возможности нужно щелкнуть по найденной статье из списка, на странице с аннотацией будет представлен и список всех статей, ссылающихся на данную статью по вирусу Денге.
2.4Контрольные вопросы
1.Назовите две причины для создания биологических баз данных
2.Какая биологическая база данных появилась первой и почему?
3.Что такое идентификатор записи в базе данных?
4.По каким критериям возможен поиск в базе данных?
5.Как наполняется база данных первичных белковых последовательностей?
6.В результате каких исследований получаются данные для базы пространственных структур биологических объектов?
7.Что такое индекс цитирования?
8.Назовите три крупнейших базы с биологической информацией
3 Программы и форматы
3.1UCSF Chimera и формат PDB
Программный пакет UCSF Chimera — популярное средство для визуализации и анализа пространственных структур белковых молекул, разработанное в Калифорнийском университете СанФранциско. Программа распространяется бесплатно и доступна для всех распространенных операционных систем — от Windows до Linux. Мы будем использовать UCSF Chimera для визуализации полученных
12
моделей и определения соответствия между участком трехмерной модели и участком последовательности.
Для инсталляции пакета нужно скачать инсталляционные файлы по адресу http://www.cgl.ucsf.edu/chimera/download.html
При написании пособия использовалась UCSF Chimera версии 1.5.3 для Linux. Если вы установите другую, более свежую версию, возможны некоторые различия в интерфейсе пользователя, но основные возможности программы, которые мы будем использовать, от версии к версии существенно не меняются.
Итак, установим программу и запустим её. Теперь выберем в меню File/Fetch_by_ID (Файл - получить по идентификационному номеру). В открывшемся окне перечислены разные базы данных белковых структур. Выберем PDB и напечатаем уже знакомый нам код 2fom, а потом нажмем Fetch (получить).
Рисунок 5: Загрузка из базы данных по идентификатору в программе UCSF Chimera
Программа обратится по Интернету к базе данных PDB и скачает оттуда модель с идентификатором 2fom, а потом выведет модель на экран. Теперь можно посмотреть эту модель со всех сторон. Её можно поворачивать с помощью левой кнопки мыши, увеличивать и уменьшать масштаб изображения зажав правую кнопку мыши. На изображении ясно видны вторичные структуры белка — альфаспирали (спирали) и бета-листы (стрелки).
13
Также на модели видны пунктирные участки и не ни с чем не связанные «висящие в пространстве» структуры. Это признак низкого качества модели, в ней не все атомы правильно прочитаны при кристаллографическом исследовании
Теперь посмотрим, какой последовательности аминокислот соответствует эта модель. Выберем из меню пункты Tools/Sequence/Sequence. Видим, что в нашей модели две цепи. Откроем окна с соответствующими последовательностями. Выделим последовательность в открывшемся окне — на трехмерной модели
Рисунок 6: UCSF Chimera - соотвествие последовательности и трехмерной модели
тоже появится выделение соответствующего последовательности участка. Теперь его можно раскрасить — выберем из меню Actions/Color свой любимый цвет и выделенный участок модели закрасится этим цветом.
14
Задание: Раскрасьте на этой модели все альфа-спирали в красный цвет, а бета-листы - в зеленый.
Программный пакет UCSF Chimera, это гораздо больше чем просто интересный редактор для просмотра пространственных моделей. Чтоб полностью описать его возмжности, нужен отдельный большой учебник. Получить представление о некоторых интересных применениях пакета можно просмотрев видео руководства по адресу http://www.cgl.ucsf.edu/chimera/videodoc/videodoc.html (eng).
Подробные руководства и документация доступны по адресу http://www.cgl.ucsf.edu/chimera/tutorials/eman2011/index.html (eng, впоследствии, если ссылки будут изменены при дальнейшем развитии программы, их всегда можно найти на главной странице проекта http://www.cgl.ucsf.edu/chimera/
Итак, мы видим пространственную структуру и последовательность модели, загруженные из Интернета. Возникает вопрос — как сохранить информацию об этой модели? Так же, как и в очень многих программах, через выбор из меню File (Файл). UCSF Chimera может сохранять изображение с экрана (например, для вставки в статью или руководство) или сохранить всю модель в форматах PDB или MOL2. Выберем File/Save PDB, укажем папку и имя файла для сохранения.
Потом найдем этот файл в файловом менеджере и откроем его в текстовом редакторе notebook (Блокнот) или Kwrite.
Видим, что наша трехмерная модель это просто текстовый файл специального вида, что традиционно для биоинформатики, все форматы файлов в которой могут быть просмотрены как с помощью специализированных программ, так и с помощью простого текстового редактора.
В начале файла есть общая информация о модели, прокрутим её вниз и дойдем до информационных полей ATOM
ATOM |
1 |
N |
GLY A |
43 |
15.790 |
10.898 |
22.016 |
1.00 |
10.18 |
N |
ATOM |
2 |
CA |
GLY A |
43 |
15.226 |
9.598 |
22.436 |
1.00 |
8.05 |
C |
ATOM |
3 |
C |
GLY A |
43 |
16.346 |
8.666 |
22.835 |
1.00 |
6.18 |
C |
ATOM |
4 |
O |
GLY A |
43 |
17.442 |
9.129 |
23.131 |
1.00 |
4.49 |
O |
ATOM |
5 |
N |
SER A |
44 |
16.086 |
7.375 |
22.720 |
1.00 |
7.36 |
N |
ATOM |
6 |
CA |
SER A |
44 |
17.013 |
6.330 |
23.102 |
1.00 |
7.25 |
C |
ATOM |
7 |
C |
SER A |
44 |
17.433 |
5.547 |
21.868 |
1.00 |
8.33 |
C |
ATOM |
8 |
O |
SER A |
44 |
16.611 |
5.320 |
20.974 |
1.00 |
8.25 |
O |
ATOM |
9 |
CB |
SER A |
44 |
16.337 |
5.382 |
24.057 |
1.00 |
8.28 |
C |
ATOM |
10 |
OG |
SER A |
44 |
17.122 |
4.222 |
24.244 |
1.00 |
7.86 |
O |
ATOM |
11 |
N |
HIS A |
45 |
18.699 |
5.134 |
21.809 |
1.00 |
7.62 |
N |
ATOM |
12 |
CA |
HIS A |
45 |
19.151 |
4.243 |
20.731 |
1.00 |
7.07 |
C |
ATOM |
13 |
C |
HIS A |
45 |
19.060 |
2.770 |
21.104 |
1.00 |
9.24 |
C |
15
