- •1 Введение
- •Подготовка рабочего места
- •2 Базы данных для биоинформатика: инструмент и результат
- •2.1 GenBank — база данных биологических последовательностей
- •2.2 Protein Data Bank - банк данных трехмерных структур белков и нуклеиновых кислот
- •2.3 PubMed — база публикаций по медицине и биологии
- •2.4 Контрольные вопросы
- •3 Программы и форматы
- •3.1 UCSF Chimera и формат PDB
- •3.2 Редактор JalView и FASTA - формат
- •3.3 Контрольные вопросы
- •4.2 Выравнивание последовательностей в MAFFT
- •4.4 Облачные вычисления — дорога в будущее
- •4.5 Контрольные вопросы
- •5 Учебная работа по моделированию пространственной структуры биологического объекта
- •5.1 Задание
- •5.1.1 Извлечение знаний (Data mining)
- •5.2 Анализ вирусного белка NS3
- •5.2.1 Скрининг по гомологии
- •5.2.2 Скрининг с кластеризацией
- •5.2.3 Построение филогенетического древа
- •5.2.4 Конструирование трехмерной структуры вирусного белка NS3
- •5.2.5 Система поиска научных статей в базе данных Медлайн
- •5.2.6 Исследование функциональных доменов вирусного белка NS3
- •5.3 Необходимое послесловие к моделированию
- •6 Список рекомендованной литературы
5Учебная работа по моделированию пространственной структуры биологического объекта
5.1Задание
Используя идентификационный номер (accession number) AAF82240.2 определить биологическую последовательность и произвести молекулярно-биологическое исследование, в результате которого будет создана пространственная структура белка.
5.1.1 Извлечение знаний (Data mining)
Добыча данных, так дословно переводится с английского устоявшееся выражение Data mining. Действительно извлечь нужную информацию из огромных быстро изменяющихся баз данных о биологических объектах — задача непростая и творческая.
В этом задании нам необходимо отыскать неизвестную биологическую последовательность и узнать как можно больше данных, качественно характеризующих исследуемый биологический объект:
На первом шаге работы необходимо зайти в международную базу данных ncbi genbank, по ссылке http://www.ncbi.nlm.nih.gov/, в поле ввода ввести AAF82240.2 выбрать базу данных нуклеотидных последовательностей и щелкнуть по Search (поиск).
Рисунок 12: NCBI GenBank - поиск по идентификатору нуклеотидной последовательности
Теперь можно увидеть всю доступную информацию о искомой последовательности, ее идентификационный номер (то есть ваш запрос AAF82240.2), название последовательности (DEFINITION) — полипротеин вируса клещевого энцефалита (polyprotein [Tick-borne
encephalitis |
virus]), далее следует дополнительная информация о |
семействе |
Flaviviridae и роде Flavivirus и т. д. Ниже приведена |
информация об авторах, а в разделе источник (source) указаны данные
26
о длине последовательности полипротеина - 1..3414 аминокислотных позиций, о названии организма (organism) - вирус клещевого энцефалита (Tick-borne encephalitis virus), и о названии штамма (strain) - Васильченко (Vasilchenko).
Рисунок 13: GenBank - информация о последовательности
Далее дана ссылка на последовательность всего полипротеина и в поле мат. пептид (mat_peptide) обозначены границы индивидуальных белков, входящих в состав искомого вирусного полипротеина.
Внизу страницы приведен оригинал (ORIGIN) искомой последовательности с указанием аминокислотных позиций, для удобства счета последовательность разбита на участки по 10 символов.
Далее следует выбрать мат. пептид, который локализован в полипротеине с 1490 по 2110 позицию, называемый неструктурный белок 3 (product="nonstructural protein 3") с именем (name) - NS3.
Выберите мат. пептид NS3 и перейдите по ссылке. После этого на открывшейся странице выберете ссылку на последовательность NS3 в формате FASTA и на открывшейся странице скопируйте текст последовательности в текстовый файл.
27
