Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Потапов В.В. Решение задач биоинформатики при помощи веб - и интернет-сервисов.pdf
Скачиваний:
170
Добавлен:
14.09.2020
Размер:
2.93 Mб
Скачать

Рисунок 4: PubMed - пример запроса

получим список статей, в названиях или аннотациях которых упоминаются указанные ключевые слова, в данном случае NS2B NS3 протеаза вируса Денге.

Очень полезной особенностью базы является возможность не просто поиска, а выборки статей, связанных цитатами с данной. Для использования этой возможности нужно щелкнуть по найденной статье из списка, на странице с аннотацией будет представлен и список всех статей, ссылающихся на данную статью по вирусу Денге.

2.4Контрольные вопросы

1.Назовите две причины для создания биологических баз данных

2.Какая биологическая база данных появилась первой и почему?

3.Что такое идентификатор записи в базе данных?

4.По каким критериям возможен поиск в базе данных?

5.Как наполняется база данных первичных белковых последовательностей?

6.В результате каких исследований получаются данные для базы пространственных структур биологических объектов?

7.Что такое индекс цитирования?

8.Назовите три крупнейших базы с биологической информацией

3 Программы и форматы

3.1UCSF Chimera и формат PDB

Программный пакет UCSF Chimera — популярное средство для визуализации и анализа пространственных структур белковых молекул, разработанное в Калифорнийском университете СанФранциско. Программа распространяется бесплатно и доступна для всех распространенных операционных систем — от Windows до Linux. Мы будем использовать UCSF Chimera для визуализации полученных

12

моделей и определения соответствия между участком трехмерной модели и участком последовательности.

Для инсталляции пакета нужно скачать инсталляционные файлы по адресу http://www.cgl.ucsf.edu/chimera/download.html

При написании пособия использовалась UCSF Chimera версии 1.5.3 для Linux. Если вы установите другую, более свежую версию, возможны некоторые различия в интерфейсе пользователя, но основные возможности программы, которые мы будем использовать, от версии к версии существенно не меняются.

Итак, установим программу и запустим её. Теперь выберем в меню File/Fetch_by_ID (Файл - получить по идентификационному номеру). В открывшемся окне перечислены разные базы данных белковых структур. Выберем PDB и напечатаем уже знакомый нам код 2fom, а потом нажмем Fetch (получить).

Рисунок 5: Загрузка из базы данных по идентификатору в программе UCSF Chimera

Программа обратится по Интернету к базе данных PDB и скачает оттуда модель с идентификатором 2fom, а потом выведет модель на экран. Теперь можно посмотреть эту модель со всех сторон. Её можно поворачивать с помощью левой кнопки мыши, увеличивать и уменьшать масштаб изображения зажав правую кнопку мыши. На изображении ясно видны вторичные структуры белка — альфаспирали (спирали) и бета-листы (стрелки).

13

Также на модели видны пунктирные участки и не ни с чем не связанные «висящие в пространстве» структуры. Это признак низкого качества модели, в ней не все атомы правильно прочитаны при кристаллографическом исследовании

Теперь посмотрим, какой последовательности аминокислот соответствует эта модель. Выберем из меню пункты Tools/Sequence/Sequence. Видим, что в нашей модели две цепи. Откроем окна с соответствующими последовательностями. Выделим последовательность в открывшемся окне — на трехмерной модели

Рисунок 6: UCSF Chimera - соотвествие последовательности и трехмерной модели

тоже появится выделение соответствующего последовательности участка. Теперь его можно раскрасить — выберем из меню Actions/Color свой любимый цвет и выделенный участок модели закрасится этим цветом.

14

Задание: Раскрасьте на этой модели все альфа-спирали в красный цвет, а бета-листы - в зеленый.

Программный пакет UCSF Chimera, это гораздо больше чем просто интересный редактор для просмотра пространственных моделей. Чтоб полностью описать его возмжности, нужен отдельный большой учебник. Получить представление о некоторых интересных применениях пакета можно просмотрев видео руководства по адресу http://www.cgl.ucsf.edu/chimera/videodoc/videodoc.html (eng).

Подробные руководства и документация доступны по адресу http://www.cgl.ucsf.edu/chimera/tutorials/eman2011/index.html (eng, впоследствии, если ссылки будут изменены при дальнейшем развитии программы, их всегда можно найти на главной странице проекта http://www.cgl.ucsf.edu/chimera/

Итак, мы видим пространственную структуру и последовательность модели, загруженные из Интернета. Возникает вопрос — как сохранить информацию об этой модели? Так же, как и в очень многих программах, через выбор из меню File (Файл). UCSF Chimera может сохранять изображение с экрана (например, для вставки в статью или руководство) или сохранить всю модель в форматах PDB или MOL2. Выберем File/Save PDB, укажем папку и имя файла для сохранения.

Потом найдем этот файл в файловом менеджере и откроем его в текстовом редакторе notebook (Блокнот) или Kwrite.

Видим, что наша трехмерная модель это просто текстовый файл специального вида, что традиционно для биоинформатики, все форматы файлов в которой могут быть просмотрены как с помощью специализированных программ, так и с помощью простого текстового редактора.

В начале файла есть общая информация о модели, прокрутим её вниз и дойдем до информационных полей ATOM

ATOM

1

N

GLY A

43

15.790

10.898

22.016

1.00

10.18

N

ATOM

2

CA

GLY A

43

15.226

9.598

22.436

1.00

8.05

C

ATOM

3

C

GLY A

43

16.346

8.666

22.835

1.00

6.18

C

ATOM

4

O

GLY A

43

17.442

9.129

23.131

1.00

4.49

O

ATOM

5

N

SER A

44

16.086

7.375

22.720

1.00

7.36

N

ATOM

6

CA

SER A

44

17.013

6.330

23.102

1.00

7.25

C

ATOM

7

C

SER A

44

17.433

5.547

21.868

1.00

8.33

C

ATOM

8

O

SER A

44

16.611

5.320

20.974

1.00

8.25

O

ATOM

9

CB

SER A

44

16.337

5.382

24.057

1.00

8.28

C

ATOM

10

OG

SER A

44

17.122

4.222

24.244

1.00

7.86

O

ATOM

11

N

HIS A

45

18.699

5.134

21.809

1.00

7.62

N

ATOM

12

CA

HIS A

45

19.151

4.243

20.731

1.00

7.07

C

ATOM

13

C

HIS A

45

19.060

2.770

21.104

1.00

9.24

C

15