
Мы знаем также теоретические числености этих классов
экспериментальные численности |
Теоретические численности |
n1 |
|
n2, n3 |
|
n4 |
|
У нас есть четыре уравнения (два из них, для p(Ab) и p(aB), совпадают) с одной неизвестной х = q 2 = (1 – p )2 , и мы можем получить экспериментальную оценку x, а следовательно и q и p, подставив вместо теоретической численности экспериментальную. Но само количество неизвестных подсказывает нам, что это не есть система из четырех уравнений. Мы можем найти оценку p, решив каждое из них, а поскольку экспериментальные численности случайно флуктуируют вокруг теоретических (и для четырех таких численностей у нас есть три степени свободы), мы получим четыре разных оценки величины x. Например, хотя теоретические численности классов n2 и n3 равны друг другу, в реальности их численности обычно в той или иной мере различаются. Заметим, что во всех четырех случаях мы воспользуемся только частью экспериментальной информации и получим оценки с разной точностью.
Было бы желательно иметь одно уравнение, которое включало бы в себя всю экспериментальную информацию. Его можно получить, произведя какие-то объединяющие алгебраические действия с четырьмя нашими уравнениями, например, сложив, вычтя, умножив или разделив их. Все эти действия дадут нам некое результирующее уравнение, решив которое, мы получим экспериментальную оценку х, однако с разной точностью. Данная задача была исследована великим матстатистиком и матгенетиком Рональдом Фишером, результаты чего можно найт в его статье в Journal of Genetics за 1928 год. Ее содержание актуально до настоящего времени, однако мало сейчас кто вспоминает о нем.
Фишером доказано, что наиболее точную оценку (то есть с минимально возможной ее ошибкой) дает так называемый метод произведений. Этот метод еще можно найти в некоторых учебниках по генетике, однако не в самых последних. По-видимому, их авторы не считают определение процента рекомбинации на основании расщепления в дигибридном скрещивании актуальной задачей. Между тем всегда, когда мы исследуем не саму по себе ДНК, а какой бы то ни было фенотип, в качестве первого шага генетического анализа нам не избежать построения генетических карт, хотя бы для того, чтобы выяснить, в каком районе уже просеквенированного генома лежит определяющий его ген, с тем чтобы впоследствие его идентифицировать. Сами по себе генетические маркеры могут быть вполне молекулярными, но вероятности рекомбинации нам понадобятся в любом случае.
Метод произведений состоит в том, что на основании данных расщепления мы определяем единственный экспериментальный параметр R, выражаем его через экспериментальную оценку х и решаем.
получаем квадратное уравнение
вспомним как решается квадратное уравнение:
решаем наше:
Квадратное уравнение имеет два корня. Выбираем тот из них, который имеет физический смысл. Он заключается в том, что х представляет собой квадрат вероятности q, то есть по определению 0 < x ≤ 1. В фазе отталкивания найденное значение q есть оценка вероятности рекомбинации, в фазе притяжения она есть 1 – q.
У всякой оценки есть ее точность, которую можно выразить в виде ее среднеквадратического отклонения. Можно показать, что дисперсии Vq = Vpопределяются
а ошибку p или q получаем, извлекши из нее квадратный корень.
12.3.4. Сравнение разных типов скрещиваний с точки зрения информативности для определения вероятности рекомбинации.
Хотелось бы обратить ваше внимание на различную информативность трех возможных вариантов опытов по установлению частоты рекомбинации между ними: анализирующего скрещивания, дигибридного скрещивания с аллелями в фазе притяжения и дигибридного скрещивания с аллелями в фазе отталкивания.
Сначала наглядный пример: ниже для этих трех типов скрещиваний расчитаны теоретические численности для расщепления 160 потомков по четырем фенотипическим классам (которые в этих трех случаях одинаковы:
-
AB
Ab
aB
ab
в двух вариантах: отсутствие сцепления (то есть вероятность рекомбинации 0,5) – таблица слева, и сцепление с вероятностью рекомбинации 0,2 – таблица справа. Кроме того, для случая со сцеплением расчитано значение критерия χ2, для нулевой гипотезы об отсутствии сцепления.
Итак, анализирующее скрещивание (AABB x aabb) x aabb:
-
Сцепления нет (p=0,5)
Сцепление, p=0,2
χ2
40
40
64
16
57,6
40
40
16
64
Дигибридное скрещивание, фаза притяжения: F2 от AABB x aabb:
-
Сцепления нет (p=0,5)
Сцепление, p=0,2
χ2
90
30
106
14
45,5
30
10
14
26
Дигибридное скрещивание, фаза отталкивания: F2 от AAbb x aaBB:
-
Сцепления нет (p=0,5)
Сцепление, p=0,2
χ2
90
30
82
38
11,38
30
10
38
2
Насколько теоретически ожидаемые численности при сцеплении отличаются от таковых без сцепления? Легче всего заметить разницу при анализирующем скрещивании, когда без сцепления мы ожидаем равную численность во всех классах, а со сцеплением мы видим, что классы, раположенные по главной диагонали превышают, а расположенные по побочной диагонали – уступают по численности, различаясь между собой почти вчетверо. При дигибридном скрещивании уловить отклонение численностей при сцеплении от менделевского расщепления 9 : 3 : 3 : 1 в отсутствии сцепления уже не так легко, однако мы видим, что численность классы вдоль побочной диагонали уменьшилась почти вдвое, а класса ab – возросла в 2,5 раза. Труднее всего заметить отличия в случае дигибридного скрещивания в фазе отталкивания – конечно, численность класса ab упала впятеро, но 2 отличается от 10 всего на 8 потомков и отличия такого масштаба слишком легко маскируются случайными флуктуациями.
Наши интуитивные сравнения расщеплений находят строгое численное выражение в значении критерия χ2 , вклад в которое в данном случае имеет только сцепление. Значения говорят сами для себя, убывая в ряду наших скрещиваний, особенно значительно – при переходе к фазе отталкивания.
Мы можем сравнить эти три модели также приняв величину, обратную дисперсии параметра p за меру информации I, и расчитав количество информации I/n, которое несет один потомок.
Для дигибридного скрещивания:
Для анализирующего скрещивания:
Вспомнив, что буквой х мы обозначали квадрат вероятности рекомбинации для фазы отталкивания и квадрат разности единицы и это величины для фазы притяжения, расчитаем величину I/n для всех трех типов скрещивания и вероятности рекомбинации 0,2. Получаем:
анализирующее скрещивание 6,25
дигибридное скрещивание, притяжение 4,8
дигибридное скрещивание, отталкивание 1,32
Мы приходим к простому выводу – для определения вероятности рекомбинации нам следует предпочесть анализрующее скрещивание. Недостатком этого метода служит трудоемкость, поскольку, в отличие от дигибридного скрещивания, мы не можем просто предоставить гибридам F1 скрещиваться друг с другом самим либо самоопыляться, а вынуждены совершать большую работу по скрещиванию. Другим недостатком служит то, что далеко не всегда у нас есть подходящая тестерная линия, несущая рецессивные аллели всех исследуемых локусов. Между прочим, последнее обстоятельство мешает нам и дигибридное скрещивание организовать в фазе притяжения, поскольку нам опять-таки потребуется родитель, собравший все рецессивные аллели. Часто встречается ситуация, когда нам нужно установить с какими генами сцеплена новая рецессивная мутация в неизвестном локусе, и если эта новая мутация обнаружена у организма дикого типа в остальных отношениях, то она будет наследоваться вместе с доминантными аллелями дикого типа всех сцепленных с нею локусов, и ввести ее в какое-либо скрещивание с тестерными линиями нам удастся только в фазе отталкивания, то есть в самой неудобной конфигурации опыта.
Отсюда следует, возможно, неожиданный вывод – если мы пользуемся не молекулярными, а видимыми генетическими маркерами, опыты по экспериментальному мутагенезу следует проводить на организмах, несущих максимальное количество рецессивных аллелей в самых разных частях генома, с тем чтобы вновь образующиеся мутации оказались в фазе притяжения с какой-нибудь из них и были быстро и с успехом локализованы на хромосоме. Так например, у гороха весьма популярна линия WL1238, «одиннадцать рецессивов». Однако даже если каждая из таких видимых рецессивных мутаций не оказывает заметных влияния на приспособленность, когда их собирается в гомозиготе в одной линии более десятка, жизнеспособность последней все-таки падает за счет каких-то неучтенных генных взаимодействий и плейотропных эффектов. Поэтому тестерные линии невозможно накачать слишком большим количеством мутаций.
12.3.5. Метод максимального правдоподобия.
К сожалению, такого же простого метода получения экспериментальной оценки величины p как метод произведений для случаев, когда один или оба локуса проявляют неполное доминирование или кодоминирование, не существует. И я сам был свидетелем того, как иные генетики «решали» задачу вычисления доли рекомбинантных гамет следующим образом: они объявляли какой-либо аллель доминантным и объединяли гомозиготный по этому аллелю и гетерозиготный классы, тем самым сводя расщепление к четырехпольной таблице, после чего применяли имевшийся (некогда) в учебниках метод произведений. То есть они по своей доброй воле лишали себя способности различать гетерозиготы и тем самым выбрасывали из опыта большое количество доброкачественной генетической инфомрации.
И в то же время существует несколько более сложный, зато исключительно логичный и универсальный метод, который позволяет получать экспериментальные оценки вероятности p во всех случаях, когда имеется некоторое количество классов и возможность выразить теоретически ожидаемые их численности через величину p. Он называется метод максимального правдоподобия.
Метод максимального правдоподобия предложен все тем же Рональдом Фишером. Он имеет универсальное применение во всех случаях, когда нам нужно получить экспериментальную оценку некоторой вероятности (или вероятностей). Он не зависит от природы анализируемого явления и требует лишь существования какого-то количества классов объектов и способ вычисления теоретических численностей этих классов через искомую вероятность (вероятности). Доказывается, что среди прочих методов экспериментальной оценки вероятности он наиболее эффективен, то есть наиболее полно использует информацию и приводит к оценкам с наименьшими ошибками. Тем из вас, кто будет специализироваться по кафедре теоретической биологии, придется сталкиваться с этим методом в основном при построении филогенетических деревьев.
Недостатком его может оказаться большой объем расчетов, но это не касается наших простеньких моделей генетического расщепления, где он весьма эффективен. В частности, с его помощью можно находить такие оценки для расщеплений в дигибридном скрещивании с участием аллелей, проявляющих неполное доминирование или кодоминирование. Остается поражаться, что в этом контексте он не упоминается ни в одном отечественном учебнике. Я нашел его применение для этой цели в единственной книге о рекомбинации, изданной в 80е годы школой академика Жученко в Кишиневе. По-видимому, такое небрежение можно объяснить тем огромным промежутком времени, который прошел с момента разработки математического аппарата генетики (первые 30 лет XX столетия) до тех пор, когда биохимическая и молекулярная генетика стала поставлять большое количество данных с участием кодоминантных маркеров (последние 30 летXX столетия).
Итак, пусть у нас есть k классов, каждому из которых соответствует соответствует вероятность попадания в него одного объекта P1, ... Pk, так что P1 + ...+Pk= 1. Пусть у нас в экперименте имеется n объектов, которые распределились по этим классам, формируя экспериментальные численности классов n1 ... nk, так что n1 + n2 + ....+ nk = n. Спрашивается, какова вероятность, что n объектов распределятся на классы именно таким образом? Вообще говоря ясно, что попадание каждого объекта в один из классов является независимым элементарным событием, и наше сложное событие является совокупностью таких элементарных событий. Вероятность сложного события есть произведение вероятностей элементарных событий, так что для каждого конкретного исхода, когда каждый конкретный объект попал в определенный класс и в сумме получился нужный нам расклад, нам следует перемножить вероятности попадания этого конкретного объекта в тот определенный класс. Поскольку существует много разных возможных распределения конкретных объектов по определенным классам, когда получается нужный нам расклад, нам нужно умножить полученную вероятность на число таких возможностей. (Например, пусть у нас есть два объекта и два класса, причем попадание объекта в каждый из классов равновероятно. Значит, у нас k=2, n=2 P1=P2=1/2. Пусть нас интересует вероятность того, что в каждом из классов окажется по одному объекту, то есть вероятность расклада n1=1, n2=1. Вероятность того, что один объект попал в первый класс и один во второй есть произведение вероятностей P1 х P2= 1/4. Такой расклад получается в двух случаях – если первый из двух объектов попал в первый класс, а второй - во второй и если первый объект попал во второй класс, а второй – в первый. Значит нам нужно домножить полученную вероятность на 2.) Если мы это проделаем, то получимполиномиальное распределение, которое и отвечает на наш вопрос – какова вероятность конкретного расклада n объектов на классы. Оно есть обобщение биномиального распределения на случай, при котором возможно несколько разных исходов. Наша вероятность выглядит следующим образом:
Выражение в скобках представляет собой так называемый полиномиальный коэффициент – аналог чисел сочетаний, но для многомерного случая, он отражает количество возможных способов размещения индивидуальных объектов по классам для достижения нашего расклада. А произведение вероятностей классов, возведенных в степень экспериментальных численностей классов, как раз и есть произведение вероятностей элементарных событий.
Пусть P1, ... Pk представляют собой функции от некоего параметра х, экспериментальную оценку которого мы ищем. Суть метода максимального правдоподобия максимально же проста – нам нужно найти такое значение х, при котором вероятность нашего расклада P1...k окажется максимальной, поскольку эта вероятность сама оказывается функцией от х. Задача сводится к нахождению максимума функции. Как мы знаем, она решается путем дифференцирования ее по аргументу и нахождению значений аргумента, при которых производная равна нулю.
Однако, согласитесь, наша функция имеет вид, довольно неприятный для дифференцирования, будучи произведением степеней. И здесь нам приходит на помощь такая замечательная функция, как логарифм. Во-первых, она монотонна. Следовательно, ln(f(x)) имеет максимумы и миниумы при тех же значениях аргумента х, что и f(x). Поэтому вместо того, чтобы искать максимум вероятности нашего расклада, мы можем искать максимум ее логарифма. Во-вторых, логарифмирование сильно «облагораживает» формулу, делая ее вполне пригодной для дифференцирования. Произведения превращаются в суммы, а степени – в сомножители. Полиномиальный коэффициент не зависит от х и оборачивается всего лишь константой С :
Логарифм полиномиальной вероятности называется функцией максимального правдоподобия L:
Чтобы найти оценку параметра х, при которой вероятность нашего расклада максимальна, нужно продифференцировать функцию максимального правдоподобия по параметру х, приравнять производную к нулю и решить получившееся уравнение.
Давайте проделаем это на конкретном примере, а именно – найдем оценку вероятности рекомбинации для рассмотренного выше случая дигибридного расщепления по двум локусам, проявляющим доминирования. Четыре фенотипических класса были обозначены следующим образом:
-
B
b
A
n1
n2
a
n3
n4
где
Вспомним, какие выражения для вероятностей попадания в эти классы мы получили ранее:
|
B |
b |
A |
|
|
a |
|
|
Тогда функция максимального правдоподобия примет следующий вид:
дифференцируем и приравниваем к нулю
приводим к общему знаменателю и приравниваем к нулю числитель
получаем квадратное уравнение
Решив его, получим следующий осмысленный корень:
который, как мы помним, является оценкой квадрата вероятности образования рекомбинантных (для аллелей в фазе отталкивания) или нерекомбинантных (для фазы притяжения) гамет.
Таким образом, для нахождения экспериментальной оценки вероятности образования рекомбинантных гамет, мы снова получили и решили квадратное уравнение. Оно совсем не похоже на таковое, полученное методом произведений, в которое вообще не входили численности отдельных классов, но лишь учитывающий их параметр R. Тем не менее, оба они дают хорошую оценку искомой величины.
Теперь хорошо бы найти ошибку полученной оценки.
Заметим, что мы получили оценку нашего параметра, найдя максимум функции максимального правдоподобия, которая монотонно связана с вероятностью наблюдаемого расклада экспериментальных численностей. Из матанализа мы помним, что максимумы бывают пологие и острые. Интуитивно понятно, что чем более пологий максимум мы нашли, тем больше ошибка нашей оценки, поскольку при отклонениях значений аргумента х от точки максимума значение функции будет незначительно отклоняться от максимума. Наоборот, при остром макимуме значение функции быстро падает при отклонении аргумента от точки максимума. Острота максимума зависит от второй производной функции по ее аргументу. Поэтому неудивительно, что дисперсия найденной экспериментальной оценки х ищется исходя из второй производной функции максимального правдоподобия, следующим образом:
Здесь операция E означает подстановку теоретических численностей вместо экспериментальных после дифференцирования (это означает, что мы изучаем поведение идеальной функции максимального правдоподобия в данной точке).
Получаем вторую производную функции максимального правдоподобия
Подставляем теоретические численности
находим дисперсию оценки параметра x
Теперь нам нужно получить дисперсию q (она же – дисперсия p), то есть квадратного корня из х.