Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Лакин Г.Ф. Биометрия учеб. пособие

.pdf
Скачиваний:
54
Добавлен:
25.10.2023
Размер:
16.09 Mб
Скачать

и с х о д ы : AAA AAA AAA AAA AAA AAA AAA AAA вероятности: ppp pqp ppq pqq qpq qpp qqp qqq,

T. e. p3+3p2q+3pqz+q3= (p+q)3.

Очевидно, при n независимых испытаний возможны 2п исходов, вероятности которых распределятся в соответствии разложения двучлена:

p n(m) = (p + q)*,

(4)

где Рп ( т ) — символ, обозначающий вероятность частоты т появления события А ів п независимых испытаний. При п= 10 воз­ можны 2І0=1024 исхода. При равной вероятности альтернатив, т. е. при условии p — q = 0,5, вероятность частот ожидаемого собы­ тия распределится следующим образом:

Ріо (т) = (0,5 + 0,5)10 = 1/1024+ 10/1024 + 45/1024 +

+ 120/1024 + 210/1024 + 252/1024 + 210/1024+ 120/1024 +

+ 45/1024 + 10/1024 + 1/1024 = Л.

 

 

Если эти данные нанести на

 

 

график,

как

показано на рис. 7,

 

 

получается

полигон

распреде­

 

 

ления

вероятностей

двучлена

 

 

(0,5 +0,5)10.

 

Очевидно,

что

 

 

распределение

 

вероятности

 

 

Рп(т) = (p + q)n

следует

рас­

 

 

пределению

 

коэффициентов

 

 

бинома

Ньютона

(а + Ь)п,

от­

 

 

несенных к одному и тому же

Рис. 7. Кривая распределения вероят-

знаменателю,

равному 2".

 

Коэффициенты

биномиаль­

/1

1 \ю

ностей двучлена I —

+ —

ного

ряда,

 

соответствующие

 

 

различным

значениям степени

 

 

бинома, легко

получаются при

помощи арифметического треугольника Паскаля, в котором каж­ дая цифра получается суммированием двух стоящих над ней (табл. 6). Треугольник Паскаля показывает, что: 1) числовые значения коэффициентов, начиная с единицы, закономерно воз­ растают до определенного уровня, а затем в такой же последо­ вательности уменьшаются до единицы; 2) для каждой степени бинома общее число коэффициентов равно п + 1, например, при п = 3 число коэффициентов равно четырем, а при п = 4 это число будет равным 5 и т. д.; 3) сумма всех биномиальных коэффи­ циентов для любой степени бинома равна 2™, например, для (а + + b)3= 1 + 3 + 3 + 1 =8, или 23 = 2Х2Х2 = 8 и т. д.

Следовательно, характер распределения не изменится от то­ го, как мы его выразим — в значениях вероятности Р„(/п) или в абсолютных значениях частоты т ожидаемого события. В обоих

3 0

Биномиальные коэффициенты

1

1

 

 

 

 

1

1

1

 

 

 

 

 

2

2

 

 

 

 

2

1

1

 

 

 

 

4

3

 

 

 

1

1

3

3

 

 

 

 

8

4

 

 

 

4

6

4

1

1

 

 

 

16

5

 

 

1

1

5

10

10

5

 

 

 

32

6

 

 

6

15

20

15

6

1

1

 

 

64

7

 

1

1

7

21

35

35

21

7

1

 

128

8

 

8

28

56

70

56

28

8

9

 

256

9

1

1

9

36

84

126

126

84

36

1

1

512

10

10

45

120

210

252

210

120

45

 

10

1024

и Т. д.

случаях закономерность биномиального распределения остается одна и та же: она выражает зависимость между частотой ожида­ емого результата т и числом испытаний я, проводимых в отно­ шении данного события. Причем частота появления ожидаемого события в я независимых испытаний определяется его вероятно­ стью.

Если событие А встречается в я испытаниях т раз, то проти­ воположное ему независимое событие А, согласно принятому условию, будет встречаться я — т раз, и вероятность любого ис­ хода выразится произведением p m X q n~m независимо от того, в каком порядке эти события чередуются. Откуда вероятность Рп {т) события А появиться т раз в я независимых испытаний можно выразить формулой Якоба Бернулли:

Рп (т) = Сп X Рт X qn~m =

г—^ ----гг Х Р т Х Qn~m■ (5)

 

m l (я — т)\

Здесь Сп — число сочетаний из я элементов по т, или биноми­ альный коэффициент; р — вероятность, с которой связано ожида­ емое событие А; q — 1р — вероятность противоположного со­ бытия А; т — частота появления ожидаемого события; я —-чис­ ло испытаний; я! и m l — факториалы, т. е. ІХ2ХЗХ. . . Хя и 1Х2ХЗХ4Х ... Хяг. Совокупность вероятностей Ри(яг) при т = О, 1, 2, 3,...,я, т. е. Р„(0), Р„(1), Р„(2), ...,Рп{п) называется биномиальным распределением вероятностей. Так как вероятно­ сти Рп (т) образуют члены бинома (p + q) n, то при условии, что P+ q= 1, 2Р„(яі) = 1.

Итак, закон биномиального распределения описывается дву­ членной формулой бинома Ньютона (4) и аналогичной формулой Бернулли (5). По этому закону распределяются частоты ожида­ емого результата в серии многократных испытаний того или ино­ го события при условии, что p = q 0,5. Действие этого закона

можно показать на следующем примере. В. И. Романовский (1912) произвел 20160 подбрасываний четырех одинаковых мо­ нет. В каждом тираже, т. е. метании монет, учитывались ком­ бинации герб — решка. Результаты опыта получились следую­ щие (табл. 7):

 

 

Т а б л и ц а 7

Выпало одновременно

Частоты

 

 

гербов

решек

комбинаций

 

 

4

0

1

181

3

1

4 909

2

2

7 483

1

3

5 085

0

4

1

402

Всего . . .

20

160

Видно, что частоты различных комбинаций герб — решка распре­ делились строго закономерно. Такого рода испытания проводи­ лись многими и во всех случаях получался аналогичный резуль­ тат: комбинации альтернатив распределялись строго по биноми­ альному закону.

Биномиальный закон действует и в биологических совокуп­ ностях: по нему распределяются альтернативные, дискретно варьирующие признаки. Для примера возьмем соотношение меж­ ду численностью мужских и женских особей в популяциях живот­ ных, которое равно примерно 1 : 1 или приближается к этому от­ ношению. Какова вероятность, что из 10 новорожденных три ока­ жутся мужского пола? По условию задачи имеем: от= 3, « = 10,

Р= д = 'І2 , откуда

=1 Х 2 Х З Х 4 Х 5 Х 6 Х 7 Х 8 Х 9 Х Ю

1 X 2 X 3 1 X 2 X 3 X 4 X 5 X 6 X 7 Х

1

1

120

у __\ / ___ =

____

8

128

1024 '

Если вычислить вероятности всех возможных случаев осуществ­ ления ожидаемого события, т. е. вероятность появления мужско­ го пола в каждом из 10 случаев появления на свет потомства, то результаты распределятся следующим образом:

от:

0

1

2

3

4

5

6

7

8

9

 

10

 

1

10

45

120

210

252

210

 

120

45

10

1

10 m ‘ І024 Ю24 1024 1024 1024 1024 1024 1024 1024 1024 1024

32

Видно, что с увеличением числа т вероятность Р\о{т) сначала

Г5 _ 252 быстро возрастает, достигая максимума при и ю — Ю24’ а затем

в такой же последовательности убывает. Эти данные показыва­ ют, что слишком мала вероятность ожидать, чтобы все десять новорожденных оказались мужского пола. Наиболее вероятный исход—равное отношение полов среди новорожденных.

При больших числах испытаний использование формулы Бер­ нулли становится затруднительным. В таких случаях для уста­ новления вероятности частоты ожидаемого события использует­ ся следующая приближенная формула Лапласа:

 

( т - а р У

 

Р Л т)= -----:

2ПРЧ "

(6)

У'Ілпрд

 

 

Здесь т — частота осуществления ожидаемого события; р — вероятность его осуществления при однократном испытании; пр —■средняя при альтернативном варьировании, или наиболь­ шая частота; npq — показатель вариации, называемый диспер­ сией частоты; я — отношение длины окружности к ее диаметру, равное 3,1416...

ПАРАМЕТРЫ БИНОМИАЛЬНОГО РАСПРЕДЕЛЕНИЯ

Из предыдущей формулы видно, что биномиальное распреде­ ление характеризуется двумя параметрами: средней величиной, представляющей собой наиболее вероятную частоту ожидаемого события в п повторных независимых испытаний и называемую математическим ожиданием, и дисперсией (D) частоты этого со­ бытия. Математическое ожидание или М) частоты случайно­ го события приблизительно равно произведению числа испыта­ ний п на вероятность р, которую имеет данное событие в каждом отдельном испытании, т. е.

Е(т) = М = пр.

(7)

Например, нужно определить наиболее вероятное число девочек из общего количества 450 рождающихся детей. Исходя из соот­ ношения полов 1 : 1, вероятность появления женского пола р = 1І2 - Математическое ожидание рождения девочек выразится следую­ щей величиной:

М = — X 450 £= 225.

2

Дисперсия частоты т случайного события А в п независимых испытаний равна произведению общего числа испытаний на пря­ мую и противоположную вероятности этого события:

D(m) = npq.

(8)

2 -2802

33

Так, дисперсия частоты появления девочек в 450 случаях рожде­ ния потомства для принятой вероятности 0,5 равняется: D{m) = = 450X0,5X0,5=11,25.

Корень квадратный из дисперсии распределения частоты т случайного события А носит название стандартного отклонения биномиального распределения:

a{m) = ^D(m) = ^npq.

(9)

Характер биномиального распределения зависит от двух ве­ личин: числа испытаний п и вероятности р ожидаемого результа­ та. При p = q 0,5 распределение строго симметрично. Когда число испытаний неограниченно возрастает, т. е. при «->■оо, кри­ вая биномиального распределения стремится к своему пределу — кривой нормального распределения (см. ниже).

ПОНЯТИЕ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

Все, что можно подсчитать или измерить, называется величи­ ной. Не составляют исключение и биологические признаки — альтернативные и рядовые, когда их рассматривают с количест­ венной стороны. Поэтому в области биометрии допустимо не раз­ граничивать биологическое понятие «признак» с математическим понятием «величина»; в дальнейшем различий между этими по­ нятиями не делается.

Величины делятся на постоянные и переменные. Постоянной называется величина, которая в заданных условиях не меняет своего значения. Переменная — это такая величина, которая в данных условиях способна принимать различные числовые зна­ чения. Постоянные и переменные величины принято обозначать заглавными буквами, а их значения— строчными; причем посто­ янные величины обозначаются начальными буквами латинского алфавита (Л, В , С,...), а переменные — последними буквами то­ го же алфавита (X, У, Z, ...), соответственно прописными буква­ ми обозначаются значения постоянных (а, Ь, с, ...), и переменных івеличин Х[, х2, Хз, ... или у\, у2, уз, ■■■ и т. д. Биологу приходится иметь дело и с переменными и с постоянными величинами. С.пос­ ледними он встречается, используя те или иные уравнения, в ко­

торые входят постоянные

величины,

называемые параметрами.

Переменная величина

называется

с л у ч а й н о й , если в за­

данных условиях она может принимать то одни, то другие значе­ ния. Случайная величина, принимающая только целые числовые значения 0, 1, 2, 3, 4 ..., называется прерывистой или дискретной. Если же значения случайной величины можно указать лишь в ка­ ком-то промежутке от — до, она называется непрерывной случай­ ной величиной. Очевидно, счетные признаки — это дискретные случайные величины, а все мерные признаки относятся к случай­ ным величинам непрерывного варьирования.

34

Случайная величина в N повторных испытаниях может при­ нимать самые различные значения, но в каждом отдельном испы­ тании она принимает всегда только одно из возможных значе­ ний. Какое значение примет случайная величина в результате каждого испытания, заранее сказать невозможно. Поэтому ха­ рактеризовать случайную величину можно лишь с определенной вероятностью, т. е. указывая вероятность ее возможных значений.

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

Для точного выражения зависимости между переменными ве­ личинами в математике существует понятие ф у н к ц и и . Если определенному значению, которое может принять переменная величина X, называемая аргументом, соответствует одно значе­ ние другой переменной величины У, называемой функцией, то говорят «игрек есть функция от икс» и записывают эту функцио­

нальную зависимость

в виде уравнения общего вида Y = f ( X ) .

Здесь выражение f ( X )

подразумевает действие, которое необхо­

димо произвести над аргументом, чтобы получить значение У. На­ пример, если У увеличивается в 2 раза быстрее, чем связанная с ней величина X, то зависимость между этими переменными мож­

но выразить уравнением

У = 2 Х , по которому легко

построить

график этой функции.

распределения переменной

случайной

Чтобы открыть закон

величины, необходимо найти функциональную зависимость меж­ ду числовыми значениями, которые она может принимать, и веро­ ятностями этих значений. Для случаев альтернативного (дис­ кретного) варьирования эта зависимость выражается приведен­ ной выше формулой 6. В отношении же непрерывной случайной величины указать вероятности ее значений принципиально невоз­ можно, так как в пределах заданного интервала она может при­ нимать любые значения. Поэтому речь может идти лишь о тех значениях, которые случайная непрерывная величина может при­ нять с той или иной вероятностью в интервале от — до, причем этот интервал может быть каким угодно— и большим и малым. Математики Муавр (1733), а затем Лаплас (1780) и Гаусс (1809), независимо друг от друга, доказали теорему о том, что вероятность Р любого значения х непрерывно распределяющей­ ся случайной величины X находиться в интервале от х до x + dx, где dx — величина, определяющая ширину указанного ин­ тервала, выражается следующей формулой:

1

- ( х - м г

 

Р{х) = -----—1

Х е 2оа dx,

(10)

о У

 

 

где я и е — математические константы: я = 3,1416..., а е = 2,7183...; греческая буква а (сигма малая) обозначает стандартное или среднее квадратическое отклонение, характеризующее размер

2 *

35

вариации случайной величины; М — средняя величина или мате­

матическое ожидание.

Формула Гаусса — Лапласа описывает закон нормального распределения случайных величин, называемый также нормаль­

ным законом. Выражение^__ , входящее в состав форму­

лы 10, называется нормированным отклонением и обозначается буквой t; эта величина играет большую роль в исследовании свойств нормального распределения. Можно сказать, что форму­ ла Гаусса — Лапласа выражает зависимость между вероятно­ стью Р и нормированным отклонением t. Иными словами, вероят­ ность отклонения любого значения х случайной величины X от математического ожидания, которое служит центром распреде­ ления, где х—М = 0, определяется функцией нормированного от­ клонения. В простейшем виде эта функция выражается уравнением следующего вида:

V

 

 

 

 

 

(И)

Здесь t — случайная

величина,

 

 

для

которой

математическое

 

ожидаңие равно нулю, а сред­

 

нее

квадратическое

отклоне­

 

ние— единице. Кривая, описы­

 

ваемая этим уравнением и на­

 

зываемая

кривой

нормального

Рис. 8. Кривая нормального распреде-

распределения, или

нормаль-

ной

кривой,

имеет

площадь,

ления

равную

единице.

Графически

 

она

изображается

в

виде ко­

локолообразной кривой, изображенной на рис. 8. Максимальная ордината этой кривой, или ее вершина, соответствует началу ко­ ординат, перенесенному в центр распределения, где х — М = 0. Вправо и влево от этого центра случайная величина может при­ нимать любые значения. Как уже сказано, величина отклонения значения х случайной величины X от центра распределения М определяется функцией его нормированного отклонения — f(t). Вероятности таких отклонений Р, соответствующие разным зна­ чениям t, приводятся в табл. I приложений. Из этой таблицы видно, что на равные интервалы, измеренные нормированным отклонением от центра распределения, приходится равное число вариант, и вероятность любой варианты х отклониться на t, 2t

и 3t в обе стороны от М равняется:

 

 

Р{— t < x — М <

+

0 =

0,683

Р{— 2t.< X — М <

+

20 =

0,954

Р{— 3t < X — М <

+

30 =

0,997.

36

Другими словами, в пределах от — t до + t расположено 68,3% всей площади, а следовательно, 68,3% от числа всех членов со­ вокупности и т. д. Это значит, что при общей численности 10 000 испытаний в пределах M ± t должно быть 6827 или 68,3% всех членов ряда.

Чтобы ордината (У) выражала не вероятности, а абсолютные численности, т. е. теоретически ожидаемые частоты вариант эм­ пирического вариационного ряда, нужно в правую часть уравне­ ния 11 ввести дополнительные множители: в числитель — общее число наблюдений (п) и величину классового интервала (і), если совокупность разбита на классы, а в знаменатель — величину среднего квадратического отклонения. Тогда уравнение 11 при­ нимает следующее выражение:

 

Р' = о X f ( t ) ,

(12)

1

-

 

гдef ( t ) = —— Х<? — значение функции t. Эти значения приво-

V 2Л

дятся в табл. II приложений, р' — теоретические или ожидаемые частоты вариационного ряда. Пользуясь табл. I и II приложений, можно по двум эмпирическим показателям — средней величине и среднему квадратическому отклонению (см. ниже)— опреде­ лить ожидаемые частоты вариационного ряда, рассчитать орди­ наты и построить нормальную кривую. Таким образом из соотно­ шения, существующего между средней величиной (М ) и мерой варьирования (а), априори выводятся числовые характеристики закона распределения без опасения впасть в разногласие с фак­ тами. Как будет показано в дальнейшем, этот вывод имеет прин­ ципиальное значение в области статистического анализа эмпири­ ческих распределений.

ПАРАМЕТРЫ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ

Нормальное распределение характеризуется математическим ожиданием и дисперсией случайной величины. Математическое ожидание случайной величины X равняется сумме произведений отдельных значений этой величины на их вероятности:

Е (X) = М Xipi -f- Х2 Р2 Ч- ... -f- XNPN = "EXjpi.

(13)

Математическое ожидание — величина именованная, она выра­ жается в тех же единицах меры, что и случайная величина. Фор­ мально математическое ожидание соответствует понятию средней арифметической (см. ниже). Однако ставить знак равенства меж­ ду этими средними величинами нельзя. Средняя арифметическая

37

эмпирической совокупности приближается к ее математическому ожиданию по мере увеличения числа наблюдений. Чтобы опреде­ лить математическое ожидание случайной величины, нужно выяс­ нить значения, которые она может принимать, и вероятности этих значений. Например, из 50 животных, поступающих на про­ дажу, десять оценены по 100 рублей каждое, 25 особей получили оценку по 80 рублей, а остальные 15 животных оценены по 50 рублей. Определим среднюю стоимость, т. е. математическое ожидание животных этой партии. Таблица значений этой івеличины с их вероятностями следующая:

значения величины:

100

80

50

вероятности значений:

10/50

25/50

15/50,

отсюда М = 100X0,2 + 80X0,5 + 50X0,3 = 75 рублей.

Дисперсия служит мерой отклонения возможных значений случайной величины X от ее математического ожидания М. Она равна математическому ожиданию квадрата отклонения значе­

ний этой величины от ее математического ожидания:

 

D (X) = Е ( хі — М )2.

(14)

Дисперсию случайной величины можно представить и как раз­ ность между математическим ожиданием квадрата этой величи­ ны и квадратом ее математического ожидания:

D(X) = Е(Х2) — [Е{Х)]2.

(14а)

Например, имеются следующие значения случайной величины X и их вероятности:

х:

0

1

2

3

р:

0,2

0,3

0,4

0,1

Найдем математическое ожидание и дисперсию этой величины:

М =

0 X 0,2 +

1 X 0,3

+

2 X 0,4 + 3 X 0,1 = 1,4.

Определяем

величину

Е(Х2)

=

0 X 0 ,2 + 1 X0,3 + 4Х0,4 + 9Х0,1 =

=2,8.

Атакже [E(X)f = (1,4)2= 1,96. Откуда D(X) =2,8—1,96 = 0,84.

РАСПРЕДЕЛЕНИЕ ПУАССОНА

Когда вероятности альтернатив неравны, т. е. рф ц, биноми­ альное распределение становится ассиметричным и тем сильнее, чем больше разница между вероятностями р и q. Когда вероят­ ность р ожидаемого события очень мала, т. е. исчисляется соты­ ми и тысячными долями единицы по сравнению с противополож­ ной вероятностью q этого события, распределение его частоты в п независимых испытаний становится крайне ассимметричным. Распределение частоты таких редких событий описывается сле­ дующей формулой Пуассона (1837):

38

где т — частота ожидаемого события в п независимых испыта­ ний; а ^ п р — наивероятнейшая частота или математическое ожи­ дание редкого события; е = 2,7183...— основание натуральных ло­

гарифмов; ml — факториал частоты, т. е. произведение

нату­

ральных чисел 0ХІ Х2 ХЗ Х4 Х ... X т.

 

Формула 15 может быть выражена и в таком виде:

 

Рп{т) — —-— .

(15а)

т\еа

 

По этой формуле проще определить вероятность частоты т ред­ кого события в серии независимых испытаний. Например, для а = 2 вероятность того, что событие А в данных условиях не осу­ ществится, будет равна:

1

1

ÖI72 ~~

(2,7183)2

0,1353.

7,389

Вероятность единичного осуществления события А равняется:

21

2

2

Не2

(2,7183)2

0,2707.

~7Д89

Для трех случаев вероятность Рз = 0,1805 и т. д. Так определяют­ ся значения вероятности Рп(т) для любых значений а от 0 до п. Таблица этих значений помещена в приложениях под № III. По этой таблице можно определить ожидаемые частоты т редкого события А для любого числа испытаний п. Для этого формула 15 преобразуется так, чтобы она выражала не вероятности, а ожи­ даемые абсолютные частоты случайного события А:

х т

(16)

р' = — Хе-*.

ml

 

Здесь р' — теоретические ординаты кривой распределения Пуас­ сона, т. е. ожидаемое число случаев редкого события в каждом отдельно взятом классе испытания — 0, 1, 2, 3 и т. д.; х — сред­ нее число фактически наблюдаемых случаев. Остальные символы объяснены выше.

Распределение Пуассона — частный случай биномиального распределения; оно обладает свойством с возрастанием средней а = пр приближаться к кривой биномиального распределения, что видно на рис. 9, который иллюстрирует график функции Рп (т), построенный для разных значений а.

Формула Пуассона описывает многие явления, с которыми биологи встречаются в своей работе. Наиболее часто такие ред­