книги из ГПНТБ / Лакин Г.Ф. Биометрия учеб. пособие
.pdfл +
т
анты данной совокупности. Если взять нижнюю границу первогб класса 8, получатся следующие семь классов, по которым распре-* делятся все 50 вариант этой совокупности: 8—11 —14—17— 20—23—26—29.
Возникает вопрос, в какие классы относить варианты, кото рые по величине совпадают с верхней границей одного и с ниж ней границы другого класса? Например, в какой класс отнести варианту 11 — в первый или во второй? В решении этого вопроса возможны 2 варианта: 1) в один и тот же класс помещаются ва рианты, которые больше нижней, но меньше или равны верхней границе данного класса, т. е. варианты распределяются по клас сам по принципу «от — до включительно», 2) обычно верхние границы классов уменьшаются на какую-то незначительную ве личину, например на 0,1 или на 0,01, чем и достигается необходи мое разграничение классов. Так, в данном примере при умень шении верхней границы классов на 0,1 получаются следующие классовые интервалы: 8—10,9; 11—13,9; 14—16,9; 17—19,9; 20— 22,9; 23—25,9 и 26—28,9. Остается все 50 вариант распределить по этим классам. В результате получается интервальный вариа ционный ряд, который превращается в ряд прерывистого варьи рования (табл. 3)
|
|
Т а б л и ц а 3 |
|
Классы по числу зерен |
Срединные значения |
Частоты (р) |
|
в колосьях ячменя |
классов (*) |
||
|
|||
8—10,9 |
9,5 |
2 |
|
11—13,9 |
12,5 |
3 |
|
14—16,9 |
15,5 |
12 |
|
17—19,9 |
18,5 |
14 |
|
20—22,9 |
21,5 |
12 |
|
23—25,9 |
24,5 |
6 |
|
26—28,9 |
27,5 |
1 |
|
Сумма . . . . |
— |
50 |
Срединные значения классов, приведенные в табл. 3, получе ны следующим образом. Среднее значение первого класса, рав ное 9,5, является полусуммой значений нижней и верхней границ этого класса: (8+11): 2 = 9,5. Срединное значение второго клас са рассчитано таким же способом: (11 + 14): 2= 12,5 и т. д. Если верхняя граница класса уменьшена, срединные значения опреде ляются указанным способом по полусумме начал данного и по следующего классов.
При построении интервального вариационного ряда наиболее пристального внимания требует операция распределения вари ант по классам. Еіельзя допускать, чтобы одна и та же варианта учитывалась дважды и чтобы одинаковые варианты попадали в
2 0
разные |
классы. Чтобы избегать ошибок, рекомендуется не |
и с к а т ь |
одинаковые варианты в совокупности, а р а з н о с и т ь |
их по классам, что не одно и то же. Игнорирование этой рекомен дации, как показывает опыт, отнимает много времени на поиски одинаковых вариант, а главное приводит к ошибкам, на исправ ление которых затрачивается немало времени, особенно при на личии большого числа наблюдений.
Возьмем следующий пример, на котором удобно показать ме тодику построения интервального вариационного ряда при ис пользовании совокупности наблюдений большого объема. На группе клинически здоровых павианов-гамадрилов определялось содержание кальция (мг%) -в сыворотке крови. Результаты 100 анализов оказались следующие:
13,60 |
12,90 |
12,30 |
9,90 |
12,73 |
11,72 |
10,83 |
10,42 |
10,91 |
10,21 |
14,70 |
10,42 |
11,35 |
11,75 |
12,08 |
12,12 |
10,91 |
9,17 |
10,71 |
11,50 |
13,10 |
10,91 |
11,96 |
11,13 |
13,52 |
13,53 |
11,25 |
10,10 |
13,96 |
10,00 |
11,65 |
12,35 |
11,93 |
11,42 |
12,77 |
11,40 |
10,91 |
12,70 |
13,75 |
13,25 |
11,94 |
10,82 |
11,05 |
12,57 |
12,98 |
10,27 |
12,67 |
11,81 |
12,07 |
10,65 |
12,18 |
11,91 |
11,58 |
10,60 |
11,11 |
10,70 |
12,31 |
11,52 |
11,15 |
11,62 |
12,67 |
10,49 |
11, 18 |
11,86 |
9,66 |
10,05 |
9,55 |
12,50 |
(8 ,99) |
12,30 |
11,52 |
12,27 |
12,85 |
12,63 |
12,80 |
12,50 |
11,40 |
12,80 |
13,20 |
14,20 |
12,30 |
14,20 |
12,60 |
11,70 |
12,20 |
12,30 |
11,60 |
12,00 |
12,50 |
13,50 |
11,60 |
11,90 |
11,40 |
12,00 |
14,70 |
11,25 |
14,20 |
13,20 |
12,50 |
13,80 |
Минимальная и максимальная варианты этой совокупности, в дальнейшем обозначаемые через min и шах, равняются: min = 8,99 и т а х = 14,70 (эти варианты отмечены скобками). При наличии в совокупности 100 вариант и размахе вариации призна ка, равном 14,70—8,99 = 5,71, можно взять величину классового интервала і = 0,7 мг%. В масштабе этого интервала разбиваем вариацию признака на классы и разносим по ним варианты. Что бы не сбиться со счета, каждая варианта, относимая в свой класс, отмечается черточкой или каким-нибудь другим знаком. Удобно отмечать варианты, особенно при распределении очень большого числа наблюдений, с помощью следующего шифра частот:
о о о о о о о о -о |
о -о о -о |
о -о |
о -о о -о |
||||||
|
|
|
о |
о о О О |
О О |
0—0 |
0—0 |
0—0 |
0—0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
1 0 |
Как и в предыдущем примере, построение интервального ва риационного ряда облегчается при использовании вспомогатель ной таблицы (табл. 4).
Распределив все варианты по классам, как показано в табл. 4, подсчитывают их частоты в каждом классе и находят об щую сумму частот, которая должна равняться общему числу ва риант в данной совокупности. Построив интервальный вариаци онный ряд, его превращают в ряд прерывистого варьирования, т. е. находят срединные значения классов.
21
Классы |
) |
||
Срединные значения классов{ х |
|||
по уровню |
|||
кальция |
|
||
в сыворотке |
|
||
крови (мг %) |
|
||
8 ,5 5 — |
9 ,2 4 |
8 ,9 |
|
9 ,2 5 — |
9 ,9 4 |
9 ,6 |
|
9 ,9 5 — 1 0 ,6 4 |
1 0 ,3 |
||
1 0 ,6 5 — 1 1 ,3 4 |
11,0 |
||
1 1 ,3 5 - 1 2 ,0 4 |
1 1 ,7 |
||
1 2 ,0 5 - 1 2 ,7 4 |
1 2 ,4 |
||
1 2 ,7 5 — 1 3 ,4 4 |
1 3 ,1 |
||
1 3 ,4 5 - 1 4 ,1 4 |
1 3 ,8 |
||
1 4 , 1 5 - 1 4 , 8 4 |
1 4 ,5 |
Сумма . . . -
|
|
|
|
|
|
|
|
Т а б л и ц а 4 |
|
|
|
|
|
|
|
|
|
|
(р ) |
|
|
Отметки разносимых по классам вариант |
Частоты |
||||||
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
1 |
1 |
1 |
|
|
|
|
|
|
|
2 |
1 |
1 |
1 |
|
|
|
|
|
|
3 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
9 |
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 |
17 |
||||||||
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 |
25 |
||||||||
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 |
2 3 |
||||||||
1 1 1 1 1 1 1 1 1 1 |
10 |
||||||||
1 1 1 1 1 1 1 |
|
|
7 |
||||||
i |
l |
l |
! |
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
100 |
Пр и м е ч а н и е . Пятая графа (хр) понадобится в дальней шем.
ГРАФИКИ РАСПРЕДЕЛЕНИЯ
Чтобы придать большую наглядность закономерности варьи рования признаков, вариационные ряды принято изображать гра фически в виде гистограммы, или полигона, а также в виде кумуляты или огивы. График, называемый гистограммой, получает ся, если в системе координат отложить по оси абсцисс границы классов, а по оси ординат— их частоты, как показано на рис. 1.
Рис. 1. Гистограмма распределения кальция (мг %) в сыворотке крови павианов-гамадрилов:
на оси абсцисс — границы классов, на оси ординат — частоты вариант
22
Гистограмма изображает закономерность распределения вариант по классам вариационного ряда, т. е. при непрерывном варьиро вании признака. Прямоугольники соответствуют классам, а их высота — частотам вариационного ряда.
Если из срединных точек прямоугольников гистограммы опус тить перпендикуляры на ось абсцисс, а затем эти точки соединить между собой, получится график дискретного варьирования, на зываемый полигоном распределения. На рис. 2 изображен поли-
Рис. 2. Полигон распределения кальция (мг %) в сы воротке крови павианов-гамадрилов:
на оси абсцисс — значения классовых вариант, на оси орди нат — частоты
гон распределения кальция (мг%) в сыворотке крови павиановгамадрилов. Полигон распределения можно построить и незави симо от гистограммы, нанося на ось абсцисс срединные значения классов. А когда возникает необходимость, можно полигон прев ратить в гистограмму.
В других случаях график вариационного ряда строится в ви де кумуляты. Для этого по оси абсцисс откладываются значения классовых вариант, а по оси ординат — накопленные частоты. Сое диняя -затем соответствующие точки в системе координат, полу чаем график, называемый кумулятой і(рис. 3). Накопленные час тоты получаются последовательным суммированием или кумуля цией (от лат. cumulo— накапливаю) частот в направлении от минимальной варианты до конца вариационного ряда. На рис. 3 изображена кумулята распределения кальция (мг%) в сыворот ке крови гамадрилов. Полный ряд накопленных частот, обозна чаемый через Si, получен следующим образом:
X: |
8,9 |
9,6 |
10,3 |
11,0 |
11,7 |
12,4 |
13,1 |
13,8 |
14,5 |
р : |
2 |
3 |
9 |
17 |
25 |
23 |
10 |
7 |
4 |
Si |
2 |
5 |
14 |
31 |
56 |
79 |
89 |
96 |
100 |
23
Если ряд накопленных частот нанести на ось абсцисс, а зна чения вариант расположить по оси ординат и построить график, получается огива (рис. 4). Легко заметить, что огива есть не что, иное как кумулята, перевернутая на 180°.
Рис. 3. |
Кумулята распределения |
Рис, 4. Огива распределения каль |
кальция (мг %) в сыворотке кро |
ция (мг %) в сыворотке крови па |
|
ви павианов-гамадрилов: |
вианов-гамадрилов: |
|
на оси |
абсцисс — значения классовых |
на оси абсцисс — накопленные частоты |
вариант, на оси ординат — накопленные |
классовых вариант, на оси ординат — |
|
|
частоты |
значения классовых вариант |
Значение графиков заключается в их наглядности. Но они не дают точной характеристики варьирующего признака, так как зависят от принимаемых масштабов. Точную характеристику варьирующих признаков дают статистические (количественные) показатели, о которых речь пойдет в следующих главах.
ГЛАВА ТРЕТЬЯ
ЗАКОНОМЕРНОСТИ РАСПРЕДЕЛЕНИЯ
ХАРАКТЕРНЫЕ ЧЕРТЫ ВАРЬИРОВАНИЯ
В распределении эмпирических совокупностей бросается в глаза одна важная особенность — преимущественное накаплива ние вариант в центральных классах и постепенное убывание их числа по мере удаления от срединной точки вариационного ряда. Эта особенность, составляющая одну из характерных черт варьи рования биологических признаков,— факт очень важный, имею-
Рис. 5. Процентные соотношения в распределении 117 мужчин по росту (из Бейли, 1959):
на оси абсцисс — рост в английских дюймах, на оси ор д и н ат — частоты в процентах от общего числа наблю де ний
щий широкое распространение в природе. Кому, например, неиз вестно, что чаще встречаются люди среднего роста, а индивиды очень большого или очень малого роста встречаются сравнитель но редко. Но, вероятно, не все знают, что среди населения инди видов выше среднего и ниже среднего роста оказывается пример но одинаковое количество. Если совокупность людей одного пола и возраста поставить по ранжиру так, чтобы люди приблизитель но одинакового роста стали в затылок друг другу, получится как бы живая диаграмма распределения, более или менее симметрич ная.
На рис. 5 изображена гистограмма распределения 117 муж чин по росту, хорошо иллюстрирующая эту закономерность. Отмеченная черта варьирования обнаруживается не только в рас пределения людей по росту, но и по другим признакам, в част ности по размерам обуви. На рис. 6 изображена гистограмма рас-
25
пределения мужского населения Москвы и центральных областей Российской Федерации поэтому признаку.
Впервые на это явление обратил внимание А. Кетле (1835), исследовавший распределение нескольких тысяч солдат амери канской армии по росту (длине тела). «... Человеческий рост,— писал он, — изменяющийся, по-видимому, самым случайным об разом, тем не менее подчиняется самым точным законам; и эта особенность свойственна не только росту; она проявляется также и в весе, силе, быстроте передвижений человека, во всех его фи зических... и нравственных способностях. Этот івеликий прин-
25
Рис. 6. Процентные соотношения в распределении мужской обу ви среди населения центральных областей Российской Феде рации:
на оси абсцисс — номера обуви, на оси ординат — частоты в процентах от общего числа наблюдений
цип,... разнообразящий проявление человеческих способностей,...
кажется нам одним из самых удивительных законов мира» Описанная закономерность относится не только к человеку,
она проявляется во всей живой природе. Более того, не только биологические признаки, но и случайные ошибки, допускаемые при измерении физических предметов, следуют в общей массе указанной закономерности. Иллюстрацией могут служить резуль таты опыта, описанного Р. Шульце (1926), с многократным изме рением металлического стержня, приведенные в табл. 5.
Из этой таблицы видно, что погрешности, случайно допущен ные при 80-кратном измерении одного и того же предмета, рас пределяются строго закономерно, образуя правильный (симмет ричный) ряд. «Не удивительно ли, — писал Кетле, — что слу чайные ошибки располагаются в таком совершенном порядке и наши бессознательные промахи проявляются с такой симметрией,
' К е т л е А. Социальная физика. Т. I. Киев, 1911, стр. 38—39.
26
|
Т а б л и ц а 5 |
Длина стержня (мм) |
Сколько раз эта длина |
(варианты) |
встретилась в опыте |
999,6 |
1 |
999,7 |
3 |
999,8 |
8 |
999,9 |
17 |
1000,0 |
22 |
1000,1 |
17 |
1000,2 |
8 |
1000,3 |
3 |
1000,4 |
1 |
Всего испытаний . . . |
80 |
какая кажется могла бы быть результатом тщательно обдуман ных расчетов» 1.
Не во всяком случае при измерении тех или иных предметов получаются столь отчетливые результаты, как это описано Шульце. Но главное не в этом; важно, что в самых различных слу чаях проявляется одна и та же закономерность: в массе относи тельно однородных единиц (вариант) подавляющее большинство составляют варианты среднего размера, и чем дальше они откло няются от среднего уровня признака, тем реже встречаются в данной совокупности. Иными словами, между различными зна чениями признака и частотой их встречаемости в любой сово купности существует определенная связь. Наглядным выраже нием этой связи и служит вариационный ряд и его график — вариационная кривая. Чтобы глубже понять содержание отме ченной закономерности и ту роль, которую она играет в области статистического анализа массовых явлений, следует рассмотреть ее более подробно.
ВЕРОЯТНОСТЬ И ЕЕ СВОЙСТВА
Предположим, что в роддоме приняты 208 мальчиков и 200 девочек — всего 408 детей. Число 208 — это абсолютная частота родившихся мальчиков, а число 200 абсолютная частота ро дившихся девочек. Если число мальчиков и девочек, родившихся в этом роддоме, отнести к общему числу новорожденных детей, получаются относительные частоты, или частости этих событий:
208 |
= |
n rt |
— |
0,51—относительная частота родившихся мальчиков, |
|
408 |
|
|
200 |
= |
0 49 относительная частота, или доля родившихся девочек. |
— |
||
408 |
|
|
1 К е т л е А. Социальная физика. Т. I. Киев, 1911, стр. 330.
2 7
Само собой разумеется, что в разных случаях частость или доля рождающихся особей мужского и женского пола может быть раз личной. Теоретически, однако, можно ожидать, что в большей массе случаев доля родившихся девочек окажется равной доле новорожденных мальчиков. Теоретическое значение относитель ной частоты ожидаемого события называется его в е р о я т н о стью. Причем событием принято называть тот результат, кото рый получается при каждом испытании. Под испытанием же понимается процесс осуществления какого-либо комплекса усло вий, который может быть повторен неограниченное число раз. Например, метание монет, игральных кубиков, розыгрыш лоте рейных билетов, проведение опытов и т. п. действия — все это на языке теории вероятностей обозначается термином и с п ы т а н и я .
Если при каждом испытании событие неизбежно наступает,
оно называется д о с т о в е р н ы м . |
Если же в заданных условиях |
событие произойти не может, его |
называют н е в о з м о ж н ы м . |
Когда же событие в каждом отдельном испытании может про изойти, но может и не произойти, его называют возможным, или с л у ч а й н ы м , событием. События, которые при испытании в постоянных условиях повторяются многократно, получили назва ние м а с с о в ы х . Примером массовых событий случайного ха рактера может служить рождаемость особей мужского и жен ского пола — явление, которое в отдельных случаях точно пред сказать нельзя, но в общей массе новорожденных можно ожидать
определенные |
числовые соотношения между полами, доступ |
ные измерению и предсказанию. |
|
Согласно |
классическому определению, вполне подходящему |
для наших целей, вероятностью называется отношение числа слу чаев или исходов т, благоприятствующих наступлению ожидае мого события А, к числу всех возможных и несовместимых в дан
ном испытании исходов п, і. е. |
|
Р(А) = - , |
(3) |
п |
|
где Р ( А ) — символ, обозначающий вероятность Р |
ожидаемого |
события А. Например, в урне помещается 5 белых и 10 черных шаров. Наугад вынимается один шар. Какова вероятность, что вынутый шар окажется белым? Так как из общего числа 15 шаров в урне 5 белых, то из 15 возможных исходов всего лишь 5 «благоприятствуют» ожидаемому событию — появлению белого
шара. Откуда искомая |
вероятность Р(А) = 5/15 = |
1/3 = 0,33. |
|
В то же время вероятность |
появления черного шара при одно |
||
кратном тираже выразится |
величиной P{Ä) = 10/15 = 0,67. Вид |
||
но, что чем больше шансов |
благоприятствующих |
наступлению |
|
ожидаемого события, тем выше его вероятность. |
называется |
||
Вероятность, которую |
можно указать до опыта, |
априорной. Например, при метании монеты заранее, т. е. до ис пытания, известно, что она может лечь либо гербом вверх, либо
28
решкой. Здесь только две возможности, и вероятность каждой одна и та же, равная ѴгАприорной является вероятность любой цифры игрального кубика, любой фигуры в колоде карт, появле ние в потомстве мужского или женского пола и других подобных событий. Другое дело, например, действие на организм различ ных доз лекарственных или токсических веществ. В этом случае заранее, т. е. до опыта, указать вероятность результата нельзя; она может быть установлена лишь после многократных испыта ний, т. е. после опыта. Такие вероятности называются эмпириче скими, или апостериорными.
Из формулы 3 следует, во-первых, что вероятность любого события есть число, заключенное между нулем и единицей, т. е. она выражается в долях единицы, но может быть выражена и в процентах. Во-вторых, вероятность достоверного события равна единице, а вероятность невозможного события равняется нулю. Из этих аксиоматических свойств вероятности следует, что веро ятность противоположного события Ä дополняет вероятность прямого события А до единицы, т. е. Р(А )+Р(А ) = 1. Для удоб ства вероятность ожидаемого события принято обозначать через р, а вероятность противоположного события через q, т. е.
Р (А) =р и Р(А) =q. Так как p + q= 1, то р= 1—q.
БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
Выше приводились примеры определения вероятности появ ления ожидаемого события при однократных испытаниях. Теперь поставим вопрос так: какой результат можно ожидать, если в отношении одного и того же случайного события А и при одних и тех же условиях провести не единичное, а целый ряд повтор ных испытаний? Как распределятся результаты серии испыта ний, что равнозначно распределению частоты случаев при аль тернативной изменчивости признака? Чтобы получить ответ на этот вопрос, примем следующие условия: 1) вероятность ожида емого события Р(А)=р остается постоянной в каждом испыта нии; 2) будем учитывать только два исхода: появление собы тия А или его альтернативы А, т. е. появление противоположного
события, тоже |
имеющего постоянную вероятность P(Ä)=q; |
3) будем иметь |
в виду, что p + q=l . Серию испытаний проведем |
по схеме «возвращаемых шаров», т. е. по схеме независимых друг от друга испытаний, когда первый результат никак не отражает ся на результате последующего испытания, а значит и не изме няет вероятность ожидаемого результата.
При двух независимых испытаниях возможны следующие ис ходы с их вероятностями:
и с х о д ы |
АА |
AÂ АА ÄÄ; |
всего 22 = 2 x 2 = 4 исхода |
их вероятности: |
pp |
pq qp qq\ |
или p2 + 2pq + q2= (p + q)2. |
При трех независимых испытаниях возможны 23= 8 исходов:
29