Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Потапов В.В. Решение задач биоинформатики при помощи веб - и интернет-сервисов.pdf
Скачиваний:
170
Добавлен:
14.09.2020
Размер:
2.93 Mб
Скачать

Такие приложения называются веб-сервисами. Самые известные вебсервисы это, конечно, поисковики, например google или yandex, также известны почтовые сервисы типа gmail или mail.ru. Общий принцип различия интернет- и вебсервисов прост: если вы работаете с чем-то интернетным через браузер, заходя на странички www — это вебсервис, а если вы работаете в программе, а она уже в свою очередь както общается с Интернетом — это интернет-сервис.

Зачем мы останавливаемся на этом вопросе так подробно? Затем, что сегодняшние средства для решения задач биоинформатики, которые начинались с маленьких разрозненных программ, решающих какую-то одну задачу, развиваются по двум этим направлениям. Либо отдельные программы, совершенствуясь в процессе «эволюции» «обрастают» всяческими средствами для работ с интернет-базами и сервисами (как те же UCSF Chimera, JalView, можно добавить сюда и новосибирскую разработку - Ugene), либо разрозненные утилиты собираются где-то на интернет-сервере и делается веб-интерфейс для работы с ними через браузер. Так сделаны, например, российско — белорусский сервис http://bri-shur.com или французкий http://mobyle.pasteur.fr

Оба подхода имеют свои плюсы и минусы. Интернет-сервисы требуют установки на компьютер и постоянного обновления программ, зато у них гораздо более развиты средства визуализации. Веб-сервисы доступны с любого компьютера, где есть браузер, но полноценная работа, например с пространственными моделями в графическом виде

вбиологических веб-сервисах пока не реализована.

4.2Выравнивание последовательностей в MAFFT

Одна из наиболее часто встречающихся в биоинформатике задач — задача выравнивания биологических последовательностей.

Выравнивание последовательностей — взаимное размещение последовательностей ДНК, РНК, и белков для того, чтобы увидеть места схожести, которые могут быть следствием функциональных, структурных или эволюционных взаимосвязей между этими последовательностями.

Различают два вида выравнивания: парное, когда выравниваются две последовательности и множественное, когда этих последовательностей несколько.

20

Попарное выравнивание используется для нахождения совпадающих участков двух последовательностей.

Различают глобальное и локальное выравнивание. Глобальное выравнивание применяется к «похожим» последовательностям приблизительно одинаковой длины и наглядно показывает разницу между этими последовательностями.

Локальное выравнивание применяется преимущественно для отличающихся друг от друга последовательностей, которые предположительно могут содержат одинаковые участки или же когда нужно узнать, содержится ли в большой последовательности малая.

Следующий пример демонстрирует различие между результатами глобального и локального выравнивания для одинаковых исходных данных:

Глобальное

SQ1: FTFTALILLAVAV

SQ2: F—TAL-LLA-AV

Локальное

SQ1: FTFTALILL-AVAV

SQ2: --FTAL-LLAAV--

Попробуем теперь сами сделать парное глобальное выравнивание в веб-сервисе MAFFT — популярной программе для выравнивания аминокислотных и нуклеотидных последовательностей.

Создадим в текстовом редакторе файл FASTA, содержащий две последовательности - ACF33495.1 (белок NS2B вируса клещевого энцефалита штамма Primorye) и AAQ91606.1, тот же белок родственного ему вируса омской геморрагической лихорадки.

Последовательности нужно получить из базы NCBI по идентификатору, затем загрузить в FASTA-формате по ссылке и последовательно записать в один текстовый файл.

Загрузим веб-интерфейс программы по адресу http://mafft.cbrc.jp/alignment/server/

Укажем наш файл с двумя последовательностями и щелкнем на submit Получим выровненные последовательности в формате clustal

gi|37499096|gb| MAGKAILKGKGGGPPRRVSKETAKKTRQRMVQMPNGLVLKRIMEILWHAMVGTARSPLLK gi|194136518|gb MAGKAILKGKGGGPPRRVSKETAKKTRQSRVRMPNGLVLMRMMGILWHAVAGTARSPVLK

**************************** *:******* *:* *****:.******:**

gi|37499096|gb| SFWKVVPLKQAMAALRKIKKAVSTLMIGLQKRGKRRSTTDWIGWLLAVMLFSITLAATVR gi|194136518|gb SFWNSVPLRQATAALRKIKKAVSTLMVGLQRRGKRRSAVNWTGWLLVVVL-GVTLAATVR

***: ***:** **************:***:******:.:* ****.*:* .:*******

gi|37499096|gb| KEGDGATVIRAEGKDAATQVRVENGTCVILATDMGTWCEDSLSYECVTIDQGEEPVDVDC

21

gi|194136518|gb KERDGTTVIRAEGKDAATQVRVENGTCVILATDMGSWCDDSLTYECVTIDQGEEPVDVDC

** **:*****************************:**:***:*****************

gi|37499096|gb| FCRNVDQVYLEYGRCGKQEGTRSRRSVLIPSHAQKDLTGRGQRWLEGDTIRSHLTRVEGW gi|194136518|gb FCRNVDGVYLEYGRCGKQEGSRTRRSVLIPSHAQGDLTGRGHKWLEGDSLRTHLTRVEGW

****** *************:*:*********** ******::*****::*:********

gi|37499096|gb| VWKNKLFTLAVVAIVWMTVESMATRVVIVSALLCLAPAYASRCTHLENRDFVTGTQGTTR gi|194136518|gb VWKNKVLTLAVIAVVWLTVESVVTRVVVVVVLLCLAPVYASRCTHLENRDFVTGTQGTTR

*****::****:*:**:****:.****:* .******.**********************

Знаком «*» обозначены совпадения последовательностей, знаками «:»

и«.» - разные степени эволюционного сходства

4.3GeneBee и Bri-shur: сделано у нас

До сих пор почти все сервисы и базы данных, упоминаемые в пособии, были сделаны не нашими соотечественниками. Но это не значит, что биоинформатики работают только за рубежом. Группа Genebee создана в 80-х годах Л. И. Бродским как коммерческое предприятие, предоставляющее программы для анализа биологических последовательностей и сотрудничающее с основными биологическими институтами бывшего СССР. Один из самых интересных алгоритмов, разработанных этой группой, это свой алгоритм множественного выравнивания. Загрузим его веб-интерфейс по адресу http://www.genebee.msu.su/services/malign_reduced.html

и скопируем туда содержимое нашего FASTA-файла с двумя последовательностями, а потом щелкнем на «Отправить запрос».

Рисунок 10: GeneBee - веб-сервис для множественного выравнивания с оригинальными алгоритмами

Получим одно общее глобальное выравнивание и несколько локальных, в зависимости от поставленной задачи можно выбрать одно из них.

На основе алгоритмов genebee, свободно распространяемых биоинформатических утилит и собственных разработок коллектив под руководством С. И. Феранчука в 2010 году запустил проект bri-shur (http://www.bri-shur.com)

Его основные возможности:

Скрининг по гомологии по заданной аминокислотной последовательности

Скрининг по регулярным выражениям

Множественное выравнивание

Филогенетический анализ

Гомологичное моделирование

Предсказание вторичной структуры и поверхностных участков белка

Структурное выравнивание

Предсказание протонированных сайтов гистидина в заданной структуре

Оценка энергии сворачивания для заданной структуры

Также реализован собственный алгоритм поиска по базе данных MedLine, где для удобства навигации по биологической литературе

Рисунок 11: Bri-shur - отечественный сервер для решения задач 23 биоинформатики