Лекция_5_БИ_М_2014
.pdf
Множественное выравнивание последовательностей.
1.Убеждаемся что все последовательности гомологичны
2.Устанавливаем пенальти на открытие и закрытие ГЭПА
(gap creation and extension penalties) необходимы для оптимизации выравнивания
3.Концентрируем филогенетический анализ на участках выравнивания, представленных у всех исследуемых таксонов (удаляем неполные столбцы).
4.Многие эксперты советуют удалять все колонки содержащие гэпы (даже если гэп только у одного таксона)
5.(проверить шаг 1)
Обратите внимание, что в предидущем примере четыре RBP рыбьи, а все остальные – позвоночных (имеют менее долгую «эволюционную историю»)
Самое главное – хорошее выравнивание!
üМаксимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниванию
üБлоки, содержащие много гэпов, плохо выровненные N- и C- концы можно просто вырезать.
Скобочная формула (Newick format)
5.2 7.5
|
5.5 |
7.7 |
6.3 |
|
|
|
|||
|
|
|
||
3.2 |
|
|
6.1 |
|
C |
|
E |
B |
|
8.0 |
A |
|||
|
|
|||
|
|
|
D
(((C,D),E)),(A,B)); только топология
(((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5);
длины ветвей
Часть 1
•Введение.
•Скорости замен и время дивергенции.
–Гипотеза молекулярных часов.
–Теория нейтральной эволюции.
•Филогенетические деревья.
•Построение и анализ Филогенетических деревьев.
–выбор последовательностей
–множественное выравнивание,
–выбор и применение модели замен
–построение дерева
–Анализ дерева
Tree-building models.
Простейший способ измерить дистанции между последовательностями – это выровнять пары последовательностей и посчитать количество отличающихся нуклеотидов. Степень дивергенции,
посчитанная таким образом называется расстояние Хомминга (Hamming distance).
Для выравнивания длины N с n различающимися нуклеотидами это расстояние D равно:
D = n / N
Однако наблюдаемые различия не эквивалентны |
? |
|
генетическому расстоянию. |
||
|
Генетическая дистанция включает мутации, не выявляемые напрямую
Tree-building models.
Джукс и Кантор (Jukes and Cantor 1969) предложили корректирующую формулу:
D = (- 34 ) ln (1 – 43 p)
Эта модель описывает вероятность того, что один нуклеотид заменится на другой.
Сделано допущение что все замены (любого нуклеотида на любой другой) равновероятны.
На практике частота транзиций выше, чем трансверсий.
Tree-building models. Белки.
Матрица Дайхофф.
Часть 1
•Введение.
•Скорости замен и время дивергенции.
–Гипотеза молекулярных часов.
–Теория нейтральной эволюции.
•Филогенетические деревья.
•Построение и анализ Филогенетических деревьев.
–выбор последовательностей
–множественное выравнивание,
–выбор и применение модели замен
–построение дерева
–Анализ дерева
Основные алгоритмы построения филогенетических деревьев
Методы, основанные на оценке расстояний (матричные методы):
Вычисляются эволюционные расстояния между всеми листьями (OTUs) и строится дерево, в котором расстояния между вершинами наилучшим образом соответствуют матрице попарных расстояний.
Наибольшего правдоподобия, Maximal likelihood, ML
Используется модель эволюции и строится дерево, которое наиболее правдоподобно при данной модели
•UPGMA
•Neighbor-joining
•Минимальная эволюция
•Квартеты («топологический»)
•...
Максимальной экономии (бережливости),
maximal parsimony, MP
Выбирается дерево с минимальным количеством мутаций, необходимых для объяснения данных
Построение дерева.
Рассмотрим два подхода к построению дерева: Distance-based вычисляют матрицу расстояний, (например парные числа замен между последовательностями или дистанция Кимуры) Примеры:
•UPGMA
•Объединения ближайших соседей (neighbor-joining). Character-based методы включают maximum parsimony (экономия) and maximum likelihood (максимального правдоподобия). Анализ maximum parsimony включает поиск дерева с минимальным числом замен, которые необходимы для описания соответствующей топологии и различий между таксонами.
