- •1 Введение
- •Подготовка рабочего места
- •2 Базы данных для биоинформатика: инструмент и результат
- •2.1 GenBank — база данных биологических последовательностей
- •2.2 Protein Data Bank - банк данных трехмерных структур белков и нуклеиновых кислот
- •2.3 PubMed — база публикаций по медицине и биологии
- •2.4 Контрольные вопросы
- •3 Программы и форматы
- •3.1 UCSF Chimera и формат PDB
- •3.2 Редактор JalView и FASTA - формат
- •3.3 Контрольные вопросы
- •4.2 Выравнивание последовательностей в MAFFT
- •4.4 Облачные вычисления — дорога в будущее
- •4.5 Контрольные вопросы
- •5 Учебная работа по моделированию пространственной структуры биологического объекта
- •5.1 Задание
- •5.1.1 Извлечение знаний (Data mining)
- •5.2 Анализ вирусного белка NS3
- •5.2.1 Скрининг по гомологии
- •5.2.2 Скрининг с кластеризацией
- •5.2.3 Построение филогенетического древа
- •5.2.4 Конструирование трехмерной структуры вирусного белка NS3
- •5.2.5 Система поиска научных статей в базе данных Медлайн
- •5.2.6 Исследование функциональных доменов вирусного белка NS3
- •5.3 Необходимое послесловие к моделированию
- •6 Список рекомендованной литературы
Такие приложения называются веб-сервисами. Самые известные вебсервисы это, конечно, поисковики, например google или yandex, также известны почтовые сервисы типа gmail или mail.ru. Общий принцип различия интернет- и вебсервисов прост: если вы работаете с чем-то интернетным через браузер, заходя на странички www — это вебсервис, а если вы работаете в программе, а она уже в свою очередь както общается с Интернетом — это интернет-сервис.
Зачем мы останавливаемся на этом вопросе так подробно? Затем, что сегодняшние средства для решения задач биоинформатики, которые начинались с маленьких разрозненных программ, решающих какую-то одну задачу, развиваются по двум этим направлениям. Либо отдельные программы, совершенствуясь в процессе «эволюции» «обрастают» всяческими средствами для работ с интернет-базами и сервисами (как те же UCSF Chimera, JalView, можно добавить сюда и новосибирскую разработку - Ugene), либо разрозненные утилиты собираются где-то на интернет-сервере и делается веб-интерфейс для работы с ними через браузер. Так сделаны, например, российско — белорусский сервис http://bri-shur.com или французкий http://mobyle.pasteur.fr
Оба подхода имеют свои плюсы и минусы. Интернет-сервисы требуют установки на компьютер и постоянного обновления программ, зато у них гораздо более развиты средства визуализации. Веб-сервисы доступны с любого компьютера, где есть браузер, но полноценная работа, например с пространственными моделями в графическом виде
вбиологических веб-сервисах пока не реализована.
4.2Выравнивание последовательностей в MAFFT
Одна из наиболее часто встречающихся в биоинформатике задач — задача выравнивания биологических последовательностей.
Выравнивание последовательностей — взаимное размещение последовательностей ДНК, РНК, и белков для того, чтобы увидеть места схожести, которые могут быть следствием функциональных, структурных или эволюционных взаимосвязей между этими последовательностями.
Различают два вида выравнивания: парное, когда выравниваются две последовательности и множественное, когда этих последовательностей несколько.
20
Попарное выравнивание используется для нахождения совпадающих участков двух последовательностей.
Различают глобальное и локальное выравнивание. Глобальное выравнивание применяется к «похожим» последовательностям приблизительно одинаковой длины и наглядно показывает разницу между этими последовательностями.
Локальное выравнивание применяется преимущественно для отличающихся друг от друга последовательностей, которые предположительно могут содержат одинаковые участки или же когда нужно узнать, содержится ли в большой последовательности малая.
Следующий пример демонстрирует различие между результатами глобального и локального выравнивания для одинаковых исходных данных:
Глобальное
SQ1: FTFTALILLAVAV
SQ2: F—TAL-LLA-AV
Локальное
SQ1: FTFTALILL-AVAV
SQ2: --FTAL-LLAAV--
Попробуем теперь сами сделать парное глобальное выравнивание в веб-сервисе MAFFT — популярной программе для выравнивания аминокислотных и нуклеотидных последовательностей.
Создадим в текстовом редакторе файл FASTA, содержащий две последовательности - ACF33495.1 (белок NS2B вируса клещевого энцефалита штамма Primorye) и AAQ91606.1, тот же белок родственного ему вируса омской геморрагической лихорадки.
Последовательности нужно получить из базы NCBI по идентификатору, затем загрузить в FASTA-формате по ссылке и последовательно записать в один текстовый файл.
Загрузим веб-интерфейс программы по адресу http://mafft.cbrc.jp/alignment/server/
Укажем наш файл с двумя последовательностями и щелкнем на submit Получим выровненные последовательности в формате clustal
gi|37499096|gb| MAGKAILKGKGGGPPRRVSKETAKKTRQRMVQMPNGLVLKRIMEILWHAMVGTARSPLLK gi|194136518|gb MAGKAILKGKGGGPPRRVSKETAKKTRQSRVRMPNGLVLMRMMGILWHAVAGTARSPVLK
**************************** *:******* *:* *****:.******:**
gi|37499096|gb| SFWKVVPLKQAMAALRKIKKAVSTLMIGLQKRGKRRSTTDWIGWLLAVMLFSITLAATVR gi|194136518|gb SFWNSVPLRQATAALRKIKKAVSTLMVGLQRRGKRRSAVNWTGWLLVVVL-GVTLAATVR
***: ***:** **************:***:******:.:* ****.*:* .:*******
gi|37499096|gb| KEGDGATVIRAEGKDAATQVRVENGTCVILATDMGTWCEDSLSYECVTIDQGEEPVDVDC
21
gi|194136518|gb KERDGTTVIRAEGKDAATQVRVENGTCVILATDMGSWCDDSLTYECVTIDQGEEPVDVDC
** **:*****************************:**:***:*****************
gi|37499096|gb| FCRNVDQVYLEYGRCGKQEGTRSRRSVLIPSHAQKDLTGRGQRWLEGDTIRSHLTRVEGW gi|194136518|gb FCRNVDGVYLEYGRCGKQEGSRTRRSVLIPSHAQGDLTGRGHKWLEGDSLRTHLTRVEGW
****** *************:*:*********** ******::*****::*:********
gi|37499096|gb| VWKNKLFTLAVVAIVWMTVESMATRVVIVSALLCLAPAYASRCTHLENRDFVTGTQGTTR gi|194136518|gb VWKNKVLTLAVIAVVWLTVESVVTRVVVVVVLLCLAPVYASRCTHLENRDFVTGTQGTTR
*****::****:*:**:****:.****:* .******.**********************
Знаком «*» обозначены совпадения последовательностей, знаками «:»
и«.» - разные степени эволюционного сходства
4.3GeneBee и Bri-shur: сделано у нас
До сих пор почти все сервисы и базы данных, упоминаемые в пособии, были сделаны не нашими соотечественниками. Но это не значит, что биоинформатики работают только за рубежом. Группа Genebee создана в 80-х годах Л. И. Бродским как коммерческое предприятие, предоставляющее программы для анализа биологических последовательностей и сотрудничающее с основными биологическими институтами бывшего СССР. Один из самых интересных алгоритмов, разработанных этой группой, это свой алгоритм множественного выравнивания. Загрузим его веб-интерфейс по адресу http://www.genebee.msu.su/services/malign_reduced.html
и скопируем туда содержимое нашего FASTA-файла с двумя последовательностями, а потом щелкнем на «Отправить запрос».
Рисунок 10: GeneBee - веб-сервис для множественного выравнивания с оригинальными алгоритмами
Получим одно общее глобальное выравнивание и несколько локальных, в зависимости от поставленной задачи можно выбрать одно из них.
На основе алгоритмов genebee, свободно распространяемых биоинформатических утилит и собственных разработок коллектив под руководством С. И. Феранчука в 2010 году запустил проект bri-shur (http://www.bri-shur.com)
Его основные возможности:
Скрининг по гомологии по заданной аминокислотной последовательности
Скрининг по регулярным выражениям
Множественное выравнивание
Филогенетический анализ
Гомологичное моделирование
Предсказание вторичной структуры и поверхностных участков белка
Структурное выравнивание
Предсказание протонированных сайтов гистидина в заданной структуре
Оценка энергии сворачивания для заданной структуры
Также реализован собственный алгоритм поиска по базе данных MedLine, где для удобства навигации по биологической литературе
Рисунок 11: Bri-shur - отечественный сервер для решения задач 23 биоинформатики
