книги из ГПНТБ / Лакин Г.Ф. Биометрия учеб. пособие
.pdfи с х о д ы : AAA AAA AAA AAA AAA AAA AAA AAA вероятности: ppp pqp ppq pqq qpq qpp qqp qqq,
T. e. p3+3p2q+3pqz+q3= (p+q)3.
Очевидно, при n независимых испытаний возможны 2п исходов, вероятности которых распределятся в соответствии разложения двучлена:
p n(m) = (p + q)*, |
(4) |
где Рп ( т ) — символ, обозначающий вероятность частоты т появления события А ів п независимых испытаний. При п= 10 воз можны 2І0=1024 исхода. При равной вероятности альтернатив, т. е. при условии p — q = 0,5, вероятность частот ожидаемого собы тия распределится следующим образом:
Ріо (т) = (0,5 + 0,5)10 = 1/1024+ 10/1024 + 45/1024 +
+ 120/1024 + 210/1024 + 252/1024 + 210/1024+ 120/1024 +
+ 45/1024 + 10/1024 + 1/1024 = Л.
|
|
Если эти данные нанести на |
||||||||
|
|
график, |
как |
показано на рис. 7, |
||||||
|
|
получается |
полигон |
распреде |
||||||
|
|
ления |
вероятностей |
двучлена |
||||||
|
|
(0,5 +0,5)10. |
|
Очевидно, |
что |
|||||
|
|
распределение |
|
вероятности |
||||||
|
|
Рп(т) = (p + q)n |
следует |
рас |
||||||
|
|
пределению |
|
коэффициентов |
||||||
|
|
бинома |
Ньютона |
(а + Ь)п, |
от |
|||||
|
|
несенных к одному и тому же |
||||||||
Рис. 7. Кривая распределения вероят- |
знаменателю, |
равному 2". |
|
|||||||
Коэффициенты |
биномиаль |
|||||||||
/1 |
1 \ю |
|||||||||
ностей двучлена I — |
+ — |
ного |
ряда, |
|
соответствующие |
|||||
|
|
различным |
значениям степени |
|||||||
|
|
бинома, легко |
получаются при |
помощи арифметического треугольника Паскаля, в котором каж дая цифра получается суммированием двух стоящих над ней (табл. 6). Треугольник Паскаля показывает, что: 1) числовые значения коэффициентов, начиная с единицы, закономерно воз растают до определенного уровня, а затем в такой же последо вательности уменьшаются до единицы; 2) для каждой степени бинома общее число коэффициентов равно п + 1, например, при п = 3 число коэффициентов равно четырем, а при п = 4 это число будет равным 5 и т. д.; 3) сумма всех биномиальных коэффи циентов для любой степени бинома равна 2™, например, для (а + + b)3= 1 + 3 + 3 + 1 =8, или 23 = 2Х2Х2 = 8 и т. д.
Следовательно, характер распределения не изменится от то го, как мы его выразим — в значениях вероятности Р„(/п) или в абсолютных значениях частоты т ожидаемого события. В обоих
3 0
Биномиальные коэффициенты |
2я |
1
1 |
|
|
|
|
1 |
1 |
1 |
|
|
|
|
|
2 |
2 |
|
|
|
|
2 |
1 |
1 |
|
|
|
|
4 |
|
3 |
|
|
|
1 |
1 |
3 |
3 |
|
|
|
|
8 |
|
4 |
|
|
|
4 |
6 |
4 |
1 |
1 |
|
|
|
16 |
|
5 |
|
|
1 |
1 |
5 |
10 |
10 |
5 |
|
|
|
32 |
|
6 |
|
|
6 |
15 |
20 |
15 |
6 |
1 |
1 |
|
|
64 |
|
7 |
|
1 |
1 |
7 |
21 |
35 |
35 |
21 |
7 |
1 |
|
128 |
|
8 |
|
8 |
28 |
56 |
70 |
56 |
28 |
8 |
9 |
|
256 |
||
9 |
1 |
1 |
9 |
36 |
84 |
126 |
126 |
84 |
36 |
1 |
1 |
512 |
|
10 |
10 |
45 |
120 |
210 |
252 |
210 |
120 |
45 |
|
10 |
1024 |
и Т. д.
случаях закономерность биномиального распределения остается одна и та же: она выражает зависимость между частотой ожида емого результата т и числом испытаний я, проводимых в отно шении данного события. Причем частота появления ожидаемого события в я независимых испытаний определяется его вероятно стью.
Если событие А встречается в я испытаниях т раз, то проти воположное ему независимое событие А, согласно принятому условию, будет встречаться я — т раз, и вероятность любого ис хода выразится произведением p m X q n~m независимо от того, в каком порядке эти события чередуются. Откуда вероятность Рп {т) события А появиться т раз в я независимых испытаний можно выразить формулой Якоба Бернулли:
Рп (т) = Сп X Рт X qn~m = |
г—^ ----гг Х Р т Х Qn~m■ (5) |
|
m l (я — т)\ |
Здесь Сп — число сочетаний из я элементов по т, или биноми альный коэффициент; р — вероятность, с которой связано ожида емое событие А; q — 1— р — вероятность противоположного со бытия А; т — частота появления ожидаемого события; я —-чис ло испытаний; я! и m l — факториалы, т. е. ІХ2ХЗХ. . . Хя и 1Х2ХЗХ4Х ... Хяг. Совокупность вероятностей Ри(яг) при т = О, 1, 2, 3,...,я, т. е. Р„(0), Р„(1), Р„(2), ...,Рп{п) называется биномиальным распределением вероятностей. Так как вероятно сти Рп (т) образуют члены бинома (p + q) n, то при условии, что P+ q= 1, 2Р„(яі) = 1.
Итак, закон биномиального распределения описывается дву членной формулой бинома Ньютона (4) и аналогичной формулой Бернулли (5). По этому закону распределяются частоты ожида емого результата в серии многократных испытаний того или ино го события при условии, что p = q —0,5. Действие этого закона
можно показать на следующем примере. В. И. Романовский (1912) произвел 20160 подбрасываний четырех одинаковых мо нет. В каждом тираже, т. е. метании монет, учитывались ком бинации герб — решка. Результаты опыта получились следую щие (табл. 7):
|
|
Т а б л и ц а 7 |
|
Выпало одновременно |
Частоты |
||
|
|
||
гербов |
решек |
комбинаций |
|
|
|
||
4 |
0 |
1 |
181 |
3 |
1 |
4 909 |
|
2 |
2 |
7 483 |
|
1 |
3 |
5 085 |
|
0 |
4 |
1 |
402 |
Всего . . . |
— |
20 |
160 |
Видно, что частоты различных комбинаций герб — решка распре делились строго закономерно. Такого рода испытания проводи лись многими и во всех случаях получался аналогичный резуль тат: комбинации альтернатив распределялись строго по биноми альному закону.
Биномиальный закон действует и в биологических совокуп ностях: по нему распределяются альтернативные, дискретно варьирующие признаки. Для примера возьмем соотношение меж ду численностью мужских и женских особей в популяциях живот ных, которое равно примерно 1 : 1 или приближается к этому от ношению. Какова вероятность, что из 10 новорожденных три ока жутся мужского пола? По условию задачи имеем: от= 3, « = 10,
Р= д = 'І2 , откуда
=1 Х 2 Х З Х 4 Х 5 Х 6 Х 7 Х 8 Х 9 Х Ю
1 X 2 X 3 1 X 2 X 3 X 4 X 5 X 6 X 7 Х
1 |
1 |
120 |
у __\ / ___ = |
____ |
|
8 |
128 |
1024 ' |
Если вычислить вероятности всех возможных случаев осуществ ления ожидаемого события, т. е. вероятность появления мужско го пола в каждом из 10 случаев появления на свет потомства, то результаты распределятся следующим образом:
от: |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|
10 |
|
1 |
10 |
45 |
120 |
210 |
252 |
210 |
|
120 |
45 |
10 |
1 |
10 m ‘ І024 Ю24 1024 1024 1024 1024 1024 1024 1024 1024 1024
32
Видно, что с увеличением числа т вероятность Р\о{т) сначала
Г5 _ 252 быстро возрастает, достигая максимума при и ю — Ю24’ а затем
в такой же последовательности убывает. Эти данные показыва ют, что слишком мала вероятность ожидать, чтобы все десять новорожденных оказались мужского пола. Наиболее вероятный исход—равное отношение полов среди новорожденных.
При больших числах испытаний использование формулы Бер нулли становится затруднительным. В таких случаях для уста новления вероятности частоты ожидаемого события использует ся следующая приближенная формула Лапласа:
|
( т - а р У |
|
Р Л т)= -----: — |
2ПРЧ " |
(6) |
У'Ілпрд |
|
|
Здесь т — частота осуществления ожидаемого события; р — вероятность его осуществления при однократном испытании; пр —■средняя при альтернативном варьировании, или наиболь шая частота; npq — показатель вариации, называемый диспер сией частоты; я — отношение длины окружности к ее диаметру, равное 3,1416...
ПАРАМЕТРЫ БИНОМИАЛЬНОГО РАСПРЕДЕЛЕНИЯ
Из предыдущей формулы видно, что биномиальное распреде ление характеризуется двумя параметрами: средней величиной, представляющей собой наиболее вероятную частоту ожидаемого события в п повторных независимых испытаний и называемую математическим ожиданием, и дисперсией (D) частоты этого со бытия. Математическое ожидание (Е или М) частоты случайно го события приблизительно равно произведению числа испыта ний п на вероятность р, которую имеет данное событие в каждом отдельном испытании, т. е.
Е(т) = М = пр. |
(7) |
Например, нужно определить наиболее вероятное число девочек из общего количества 450 рождающихся детей. Исходя из соот ношения полов 1 : 1, вероятность появления женского пола р = 1І2 - Математическое ожидание рождения девочек выразится следую щей величиной:
М = — X 450 £= 225.
2
Дисперсия частоты т случайного события А в п независимых испытаний равна произведению общего числа испытаний на пря мую и противоположную вероятности этого события:
D(m) = npq. |
(8) |
2 -2802 |
33 |
Так, дисперсия частоты появления девочек в 450 случаях рожде ния потомства для принятой вероятности 0,5 равняется: D{m) = = 450X0,5X0,5=11,25.
Корень квадратный из дисперсии распределения частоты т случайного события А носит название стандартного отклонения биномиального распределения:
a{m) = ^D(m) = ^npq. |
(9) |
Характер биномиального распределения зависит от двух ве личин: числа испытаний п и вероятности р ожидаемого результа та. При p = q —0,5 распределение строго симметрично. Когда число испытаний неограниченно возрастает, т. е. при «->■оо, кри вая биномиального распределения стремится к своему пределу — кривой нормального распределения (см. ниже).
ПОНЯТИЕ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
Все, что можно подсчитать или измерить, называется величи ной. Не составляют исключение и биологические признаки — альтернативные и рядовые, когда их рассматривают с количест венной стороны. Поэтому в области биометрии допустимо не раз граничивать биологическое понятие «признак» с математическим понятием «величина»; в дальнейшем различий между этими по нятиями не делается.
Величины делятся на постоянные и переменные. Постоянной называется величина, которая в заданных условиях не меняет своего значения. Переменная — это такая величина, которая в данных условиях способна принимать различные числовые зна чения. Постоянные и переменные величины принято обозначать заглавными буквами, а их значения— строчными; причем посто янные величины обозначаются начальными буквами латинского алфавита (Л, В , С,...), а переменные — последними буквами то го же алфавита (X, У, Z, ...), соответственно прописными буква ми обозначаются значения постоянных (а, Ь, с, ...), и переменных івеличин Х[, х2, Хз, ... или у\, у2, уз, ■■■ и т. д. Биологу приходится иметь дело и с переменными и с постоянными величинами. С.пос ледними он встречается, используя те или иные уравнения, в ко
торые входят постоянные |
величины, |
называемые параметрами. |
Переменная величина |
называется |
с л у ч а й н о й , если в за |
данных условиях она может принимать то одни, то другие значе ния. Случайная величина, принимающая только целые числовые значения 0, 1, 2, 3, 4 ..., называется прерывистой или дискретной. Если же значения случайной величины можно указать лишь в ка ком-то промежутке от — до, она называется непрерывной случай ной величиной. Очевидно, счетные признаки — это дискретные случайные величины, а все мерные признаки относятся к случай ным величинам непрерывного варьирования.
34
Случайная величина в N повторных испытаниях может при нимать самые различные значения, но в каждом отдельном испы тании она принимает всегда только одно из возможных значе ний. Какое значение примет случайная величина в результате каждого испытания, заранее сказать невозможно. Поэтому ха рактеризовать случайную величину можно лишь с определенной вероятностью, т. е. указывая вероятность ее возможных значений.
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
Для точного выражения зависимости между переменными ве личинами в математике существует понятие ф у н к ц и и . Если определенному значению, которое может принять переменная величина X, называемая аргументом, соответствует одно значе ние другой переменной величины У, называемой функцией, то говорят «игрек есть функция от икс» и записывают эту функцио
нальную зависимость |
в виде уравнения общего вида Y = f ( X ) . |
Здесь выражение f ( X ) |
подразумевает действие, которое необхо |
димо произвести над аргументом, чтобы получить значение У. На пример, если У увеличивается в 2 раза быстрее, чем связанная с ней величина X, то зависимость между этими переменными мож
но выразить уравнением |
У = 2 Х , по которому легко |
построить |
график этой функции. |
распределения переменной |
случайной |
Чтобы открыть закон |
величины, необходимо найти функциональную зависимость меж ду числовыми значениями, которые она может принимать, и веро ятностями этих значений. Для случаев альтернативного (дис кретного) варьирования эта зависимость выражается приведен ной выше формулой 6. В отношении же непрерывной случайной величины указать вероятности ее значений принципиально невоз можно, так как в пределах заданного интервала она может при нимать любые значения. Поэтому речь может идти лишь о тех значениях, которые случайная непрерывная величина может при нять с той или иной вероятностью в интервале от — до, причем этот интервал может быть каким угодно— и большим и малым. Математики Муавр (1733), а затем Лаплас (1780) и Гаусс (1809), независимо друг от друга, доказали теорему о том, что вероятность Р любого значения х непрерывно распределяющей ся случайной величины X находиться в интервале от х до x + dx, где dx — величина, определяющая ширину указанного ин тервала, выражается следующей формулой:
1 |
- ( х - м г |
|
Р{х) = -----—1 |
Х е 2оа dx, |
(10) |
о У 2я |
|
|
где я и е — математические константы: я = 3,1416..., а е = 2,7183...; греческая буква а (сигма малая) обозначает стандартное или среднее квадратическое отклонение, характеризующее размер
2 * |
35 |
вариации случайной величины; М — средняя величина или мате
матическое ожидание.
Формула Гаусса — Лапласа описывает закон нормального распределения случайных величин, называемый также нормаль
ным законом. Выражение^__ , входящее в состав форму
лы 10, называется нормированным отклонением и обозначается буквой t; эта величина играет большую роль в исследовании свойств нормального распределения. Можно сказать, что форму ла Гаусса — Лапласа выражает зависимость между вероятно стью Р и нормированным отклонением t. Иными словами, вероят ность отклонения любого значения х случайной величины X от математического ожидания, которое служит центром распреде ления, где х—М = 0, определяется функцией нормированного от клонения. В простейшем виде эта функция выражается уравнением следующего вида:
V 2я |
|
|
|
|
|
(И) |
|
Здесь t — случайная |
величина, |
||||||
|
|||||||
|
для |
которой |
математическое |
||||
|
ожидаңие равно нулю, а сред |
||||||
|
нее |
квадратическое |
отклоне |
||||
|
ние— единице. Кривая, описы |
||||||
|
ваемая этим уравнением и на |
||||||
|
зываемая |
кривой |
нормального |
||||
Рис. 8. Кривая нормального распреде- |
распределения, или |
нормаль- |
|||||
ной |
кривой, |
имеет |
площадь, |
||||
ления |
равную |
единице. |
Графически |
||||
|
она |
изображается |
в |
виде ко |
локолообразной кривой, изображенной на рис. 8. Максимальная ордината этой кривой, или ее вершина, соответствует началу ко ординат, перенесенному в центр распределения, где х — М = 0. Вправо и влево от этого центра случайная величина может при нимать любые значения. Как уже сказано, величина отклонения значения х случайной величины X от центра распределения М определяется функцией его нормированного отклонения — f(t). Вероятности таких отклонений Р, соответствующие разным зна чениям t, приводятся в табл. I приложений. Из этой таблицы видно, что на равные интервалы, измеренные нормированным отклонением от центра распределения, приходится равное число вариант, и вероятность любой варианты х отклониться на t, 2t
и 3t в обе стороны от М равняется: |
|
|
|
Р{— t < x — М < |
+ |
0 = |
0,683 |
Р{— 2t.< X — М < |
+ |
20 = |
0,954 |
Р{— 3t < X — М < |
+ |
30 = |
0,997. |
36
Другими словами, в пределах от — t до + t расположено 68,3% всей площади, а следовательно, 68,3% от числа всех членов со вокупности и т. д. Это значит, что при общей численности 10 000 испытаний в пределах M ± t должно быть 6827 или 68,3% всех членов ряда.
Чтобы ордината (У) выражала не вероятности, а абсолютные численности, т. е. теоретически ожидаемые частоты вариант эм пирического вариационного ряда, нужно в правую часть уравне ния 11 ввести дополнительные множители: в числитель — общее число наблюдений (п) и величину классового интервала (і), если совокупность разбита на классы, а в знаменатель — величину среднего квадратического отклонения. Тогда уравнение 11 при нимает следующее выражение:
|
Р' = —о X f ( t ) , |
(12) |
1 |
- |
|
гдef ( t ) = —— Х<? — значение функции t. Эти значения приво-
V 2Л
дятся в табл. II приложений, р' — теоретические или ожидаемые частоты вариационного ряда. Пользуясь табл. I и II приложений, можно по двум эмпирическим показателям — средней величине и среднему квадратическому отклонению (см. ниже)— опреде лить ожидаемые частоты вариационного ряда, рассчитать орди наты и построить нормальную кривую. Таким образом из соотно шения, существующего между средней величиной (М ) и мерой варьирования (а), априори выводятся числовые характеристики закона распределения без опасения впасть в разногласие с фак тами. Как будет показано в дальнейшем, этот вывод имеет прин ципиальное значение в области статистического анализа эмпири ческих распределений.
ПАРАМЕТРЫ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ
Нормальное распределение характеризуется математическим ожиданием и дисперсией случайной величины. Математическое ожидание случайной величины X равняется сумме произведений отдельных значений этой величины на их вероятности:
Е (X) = М — Xipi -f- Х2 Р2 Ч- ... -f- XNPN = "EXjpi. |
(13) |
Математическое ожидание — величина именованная, она выра жается в тех же единицах меры, что и случайная величина. Фор мально математическое ожидание соответствует понятию средней арифметической (см. ниже). Однако ставить знак равенства меж ду этими средними величинами нельзя. Средняя арифметическая
37
эмпирической совокупности приближается к ее математическому ожиданию по мере увеличения числа наблюдений. Чтобы опреде лить математическое ожидание случайной величины, нужно выяс нить значения, которые она может принимать, и вероятности этих значений. Например, из 50 животных, поступающих на про дажу, десять оценены по 100 рублей каждое, 25 особей получили оценку по 80 рублей, а остальные 15 животных оценены по 50 рублей. Определим среднюю стоимость, т. е. математическое ожидание животных этой партии. Таблица значений этой івеличины с их вероятностями следующая:
значения величины: |
100 |
80 |
50 |
вероятности значений: |
10/50 |
25/50 |
15/50, |
отсюда М = 100X0,2 + 80X0,5 + 50X0,3 = 75 рублей.
Дисперсия служит мерой отклонения возможных значений случайной величины X от ее математического ожидания М. Она равна математическому ожиданию квадрата отклонения значе
ний этой величины от ее математического ожидания: |
|
D (X) = Е ( хі — М )2. |
(14) |
Дисперсию случайной величины можно представить и как раз ность между математическим ожиданием квадрата этой величи ны и квадратом ее математического ожидания:
D(X) = Е(Х2) — [Е{Х)]2. |
(14а) |
Например, имеются следующие значения случайной величины X и их вероятности:
х: |
0 |
1 |
2 |
3 |
р: |
0,2 |
0,3 |
0,4 |
0,1 |
Найдем математическое ожидание и дисперсию этой величины:
М = |
0 X 0,2 + |
1 X 0,3 |
+ |
2 X 0,4 + 3 X 0,1 = 1,4. |
Определяем |
величину |
Е(Х2) |
= |
0 X 0 ,2 + 1 X0,3 + 4Х0,4 + 9Х0,1 = |
=2,8.
Атакже [E(X)f = (1,4)2= 1,96. Откуда D(X) =2,8—1,96 = 0,84.
РАСПРЕДЕЛЕНИЕ ПУАССОНА
Когда вероятности альтернатив неравны, т. е. рф ц, биноми альное распределение становится ассиметричным и тем сильнее, чем больше разница между вероятностями р и q. Когда вероят ность р ожидаемого события очень мала, т. е. исчисляется соты ми и тысячными долями единицы по сравнению с противополож ной вероятностью q этого события, распределение его частоты в п независимых испытаний становится крайне ассимметричным. Распределение частоты таких редких событий описывается сле дующей формулой Пуассона (1837):
38
где т — частота ожидаемого события в п независимых испыта ний; а ^ п р — наивероятнейшая частота или математическое ожи дание редкого события; е = 2,7183...— основание натуральных ло
гарифмов; ml — факториал частоты, т. е. произведение |
нату |
ральных чисел 0ХІ Х2 ХЗ Х4 Х ... X т. |
|
Формула 15 может быть выражена и в таком виде: |
|
Рп{т) — —-— . |
(15а) |
т\еа |
|
По этой формуле проще определить вероятность частоты т ред кого события в серии независимых испытаний. Например, для а = 2 вероятность того, что событие А в данных условиях не осу ществится, будет равна:
2° |
1 |
1 |
ÖI72 ~~ |
(2,7183)2 |
0,1353. |
7,389 |
Вероятность единичного осуществления события А равняется:
21 |
2 |
2 |
Не2 |
(2,7183)2 |
0,2707. |
~7Д89 |
Для трех случаев вероятность Рз = 0,1805 и т. д. Так определяют ся значения вероятности Рп(т) для любых значений а от 0 до п. Таблица этих значений помещена в приложениях под № III. По этой таблице можно определить ожидаемые частоты т редкого события А для любого числа испытаний п. Для этого формула 15 преобразуется так, чтобы она выражала не вероятности, а ожи даемые абсолютные частоты случайного события А:
х т |
(16) |
р' = — Хе-*. |
|
ml |
|
Здесь р' — теоретические ординаты кривой распределения Пуас сона, т. е. ожидаемое число случаев редкого события в каждом отдельно взятом классе испытания — 0, 1, 2, 3 и т. д.; х — сред нее число фактически наблюдаемых случаев. Остальные символы объяснены выше.
Распределение Пуассона — частный случай биномиального распределения; оно обладает свойством с возрастанием средней а = пр приближаться к кривой биномиального распределения, что видно на рис. 9, который иллюстрирует график функции Рп (т), построенный для разных значений а.
Формула Пуассона описывает многие явления, с которыми биологи встречаются в своей работе. Наиболее часто такие ред