
- •1 Введение
- •Подготовка рабочего места
- •2 Базы данных для биоинформатика: инструмент и результат
- •2.1 GenBank — база данных биологических последовательностей
- •2.2 Protein Data Bank - банк данных трехмерных структур белков и нуклеиновых кислот
- •2.3 PubMed — база публикаций по медицине и биологии
- •2.4 Контрольные вопросы
- •3 Программы и форматы
- •3.1 UCSF Chimera и формат PDB
- •3.2 Редактор JalView и FASTA - формат
- •3.3 Контрольные вопросы
- •4.2 Выравнивание последовательностей в MAFFT
- •4.4 Облачные вычисления — дорога в будущее
- •4.5 Контрольные вопросы
- •5 Учебная работа по моделированию пространственной структуры биологического объекта
- •5.1 Задание
- •5.1.1 Извлечение знаний (Data mining)
- •5.2 Анализ вирусного белка NS3
- •5.2.1 Скрининг по гомологии
- •5.2.2 Скрининг с кластеризацией
- •5.2.3 Построение филогенетического древа
- •5.2.4 Конструирование трехмерной структуры вирусного белка NS3
- •5.2.5 Система поиска научных статей в базе данных Медлайн
- •5.2.6 Исследование функциональных доменов вирусного белка NS3
- •5.3 Необходимое послесловие к моделированию
- •6 Список рекомендованной литературы

Можно перейти по ссылке, указанной в предыдущей главе, а можно просто набрать в поисковой строке google «NCBI», первой ссылкой будет искомая. Выберем на этом ресурсе BLAST (Basic Local Alignment Search Tool, средство для поиска локального выравнивания). Т. к. наша последовательность аминокислотная, а не нуклеотидная— выбираем поиск по белковой базе, protein blast и копируем в его поле ввода нашу последовательность, а потом нажимаем на кнопку BLAST. После нескольких секунд поиска, база данных выдаст нам результат — наша последовательность больше всего похожа на последовательность 2FOM Chain A, Dengue Virus Ns2bNS3 PROTEASE.
Щелкнув по ссылке, мы можем просмотреть более подробную информацию.
Вопрос: Что в приведенной информации является идентификатором записи базы данных?
2.2Protein Data Bank - банк данных трехмерных структур белков и нуклеиновых кислот
Protein Data Bank был основан еще в 1971 году Уолтером Гамильтоном в национальной лаборатории Брукхавена он наполняется данными о пространственной структуре белков и нуклеиновых кислот, полученными с помощью рентгеновской кристаллографии или ЯМР — спектроскопии, его также легко найти в google по названию.
Откроем сайт www.pdb.org и попробуем отыскать там информацию о нашей последовательности, ведь если она есть — значит для этой последовательности есть трехмерная структура! Введем идентификатор в строке поиска и получим полную информацию.
Наша последовательность принадлежит протеазе NS2b/NS3 вируса Денге, модель которой опубликованна в 2006 году. В базе указана даже ссылка на статью в PubMed с описанием получения этой модели. Существует также возможность покрутить трехмерную структуру модели прямо в браузере (щелкните View in JMOL), подобрать модели, похожие по аминокислотной последовательности или по структуре и многое, многое другое.
10

Рисунок 3: Protein Data Bank - суммарная информация о найденной модели
Но если бы мы не знали бы идентификатор нашей модели, но знали её сущность? Эта задача тоже легко решается.
Задание: Пользуясь результатом, выданным нам в поиске по GenBank найдите в Protein Data Bank информацию о других трехмерных моделях нашей протеазы.
2.3PubMed — база публикаций по медицине и биологии
Пришла пора познакомиться с PubMed — библиографической базе данных, которая предоставляет доступ к публикациям по медицине и биологии. Наиболее интересна нам будет одна из ее частей — MedLine, содержащая научные статьи. PubMed принадлежит уже упоминавшемуся здесь NCBI и интегрирована с другими его базами, например с GenBank. Открыть начальную страницу портала PubMed можно по адресу http://www.ncbi.nlm.nih.gov/pubmed/
Загрузив в PubMed наш любимый запрос
11