книги из ГПНТБ / Лакин Г.Ф. Биометрия учеб. пособие
.pdfНа протяжении всего шестилетнего опыта Лютесценс-4548 замет но превосходит по урожайности сорт Лютесценс-329, независимо от того, что урожай пшеницы в период опыта сильно колебался. Средняя разность в пользу сорта Лютесценс-4548, равная 16,3— —11,3 = 5 ц/га, не вызывает сомнений.
Другой результат получен акад. П. Н. Константиновым (1955) в опыте по испытанию урожайности ячменя и овса в условиях нечерноземной полосы Российской Федерации (табл. 2).
Т а б л и ц а 2
Культура |
|
Урожай |
зерна |
по годгм |
опыта |
(ц,га) |
|
Сред |
1928 |
1929 j |
Н30 |
1931 |
1932 |
1933 |
If34 |
ний |
|
|
урожай |
|||||||
Ячмень ......................... |
7,70 |
9,00 |
9,40 |
7,40 |
7,40 |
10,9 |
8,00 |
8,54 |
О в е с ............................. |
8,26 |
7,22 |
8,43 |
5,57 |
6,35 |
8,0 |
9,13 |
7,57 |
Ячмень, судя по средним данным, оказался более урожайной культурой, чем овес. Однако средняя разница в урожае невелика: она составляет всего лишь 0,97 ц/га, в то же время урожай по годам опыта колебался так, что в двух случаях — в 1928 и в 1934 гг. — овес дал урожай выше, чем ячмень. Очевидно, судить о преимуществе ячменя перед овсом на основании этих данных можно лишь с большим риском, так как разница между средни ми показателями могла возникнуть не вследствие действия систе матических, а исключительно случайных причин. В таком случае следует привлечь дополнительные критерии, что и позволит сде лать более обоснованные выводы.
Эти примеры показывают, что в разных случаях подходить к оценке результатов наблюдений приходится по-разному. В рабо те исследователя в равной мере нетерпимы как математический формализм, жонглирование количественными показателями, так и пренебрежительное отношение к точным математическим мето дам, примитивизм в оценке количественных показателей. Истина заключается не в крайностях, а в разумном подходе к делу, в умелом применении математико-статистических методов в иссле довательской работе. Этому и призвана учить биометрия.
ИЗ ИСТОРИИ БИОМЕТРИИ
Биометрия имеет историю, которая своими корнями уходит в глубокую древность — к тому времени, когда совершался переход от пассивного к активному отношению человека к природе, от собирания пищи к ее производству и т. п.
Точная наука начинается с измерений. Но на протяжении мно гих столетий измерения носили чисто эмпирический характер, не
10
являясь методом научного исследования. Лишь с первой полови ны XVII в., т. е. в период расцвета буржуазного общества, при шедшего на смену феодолизма, измерение применяется как один из ведущих приемов познания природы. Пионерами, -провозгла сившими измерение основой точных знаний, были Галилей (1564—1672), Санторио (1561—1636), Борелли (1608—1679) и другие представители итальянского Возрождения. Это был пер вый — описательный период, предшествующий возникновению биометрии. Он характеризуется развитием механики, физики, ма тематики, приложением количественных методов к исследованию живой природы. Санторио, автор труда «О статической медици не» (1614) и других сочинений, изобретает измерительные прибо ры, старается установить норму и патологию в развитии организ ма. Галилей и его ученик Борелли изучают механику движения животных, устанавливают зависимость между двигательными функциями и абсолютными размерами тела животных. В даль нейшем французский гилполог Буржеля издает книгу «Экстерьер лошади» (1768), в которой излагается развернутая программа измерений для определения пригодности лошадей к той или иной службе. В это время развивается и военная антропология, опира ющаяся на массовые измерения мужчин призывного возраста в целях отбора наиболее пригодных к несению военной службы. Поводом для количественной оценки строения тела животных и человека явился, по-видимому, тот факт, что внешние формы до машних животных, "а также и строение тела человека находятся в определенной связи с их физиологическими и психическими свойствами. На эту связь обратили внимание еще в древности (Гиппократ, ок. 460—377 и Аристотель, ок. 384—322 до н. э.). Чтобы точнее выразить эту связь, глазомерная оценка качества животых по внешнему виду (экстерьеру) стала дополняться из мерениями тела. Вполне понятно, что массовые измерения живых существ привели к необходимости использования в биологии ста тистических методов.
Общество эпохи Возрождения нуждалось в развитии точных знаний о природе. Усовершенствование орудий труда, развитие кустарной и фабрично-заводской промышленности, навигации и военного дела, изобретение книгопечатания, огнестрельного ору жия, технические усовершенствования в области геодезии и аст рономии и т. п. — все это явилось мощным стимулом к развитию механики, физики, математики и нашло свое отражение в биоло гии. В это время возникают такие понятия, как переменная и бес конечно малая величина, создается учение о функциональной за висимости между переменными (Декарт, 1596—1650), дифферен циальное и интегральное исчисление (Ньютон, 1642—1727; Лейбниц, 1646—1716), что знаменовало возникновение нового на правления в науке — высшей математики. «Поворотным пунктом в математике, — писал Энгельс, — была декартова переменная
11
величина. Благодаря этому в математику вошли движение и диа лектика»
В середине XVII в. положены начала теории вероятностей, возникшей на почве азартных игр в условиях товарно-денежных отношений развивающегося буржуазного общества. У ее истоков имена Пьера Ферма (1601-—1665), Блэза Паскаля (1623—1662) и Христиана Гюйгенса (1629—1695). В дальнейшем трудами Муавра (1667—1754) и особенно Лапласа (1749—1827), Гаусса (1777—1855), Пуассона (1781—1840) и других математиков, открывших важнейшие законы распределения случайных ве личин, теория вероятностей становится на прочную научную основу и находит применение в решении ряда практических задач.
К этому времени относится и становление математической статистики, являющейся теоретической основой выборочного ме тода. Статистические сведения для нужд государства собирались еще в древности (Китай, Греция, Рим). В XVI—XVII вв. сведе ний о народонаселении, торговле, страховом деле, здравоохране нии и в других отраслях народного хозяйства накопилось так много, что возникла необходимость в их теоретическом осмысли вании. Нужен был метод, позволяющий по части наблюдений (выборке) судить о состоянии всей совокупности в целом, так как с ростом населения и экономики полное описание реальных сово купностей все более становилось делом обременительным и доро гим. Разработка нового метода и привела к обоснованию нового
направления в науке — математической |
статистики. Известная |
|
заслуга в этом принадлежит английской |
школе «политических |
|
арифметиков» во главе с Петти (1623—1687).. |
и математи |
|
Большой вклад в развитие теории вероятностей |
||
ческой статистики в XIX и в начале XX вв. внесли ученые Петер |
||
бургских школ Чебышева (1821—1894) и Чупрова |
(1874—1926), |
|
а также немецкие и английские ученые — Лексис |
(1837—1914), |
|
Боули и др. |
|
|
Теория вероятностей возникла на почве азартных игр, стати стика— из потребностей государства, а биометрия — в процессе развития биологии — в ответ на социальный заказ капиталисти ческого общества. Первым, кто удачно соединил эмпирические методы антропологии и социальной статистики с математической теорией вероятностей, был ученик Лапласа бельгиец А. Кетле (1796—1874). В 1835 г. вышла в свет книга Кетле «О человеке и развитии его способностей или опыт социальной физики»12, в ко торой на большом статистическом материале впервые было по казано, что различные физические признаки человека и даже его
1 Э н г е л ь с Ф. Диалектика природы. Госполитиздат, 1950, стр. 206.
2 Второе издание книги (1869) переведено на русский язык в 1911 1913 гг.
1 2
поведение подчиняются закону распределения вероятностей. В «Антропометрии» (1871) Кетле отметил, что описанные им за кономерности распространяются не только на человека, но и на все другие живые существа.
Кетле заложил основы биометрии. Математический аппарат этой науки создали питомцы английской школы биометриков, сформировавшейся во второй половине XIX в. во главе Ф. Гальтона (1822—1911) и К. Пирсона (1857—1936). Мощным стиму лом развития биометрии явилось эволюционное учение Ч. Дарви на (1809—1882), совершившего переворот в биологической науке. Дарвинизм стимулировал развитие экспериментальных методов в биологии, и как следствие — развитие биометрии. Английская школа биометриков проделала большую работу. Но, будучи больше математиками, чем биологами, Гальтон и Пирсон пере оценивали роль математических методов в биологических иссле дованиях, что и привело их к серьезным ошибкам.
С критикой формалистической концепции Гальтона и Пирсо на выступил в начале XX века датский ученый В. Иогансен (1857—1927). На основе точно поставленных опытов он пришел к выводу, что биологические проблемы должны решаться на ос нове математики, но не как математические задачи. «Статисти ке, — писал Иогансен, — всегда должен предшествовать биоло гический анализ, иначе результаты могут быть «статистической ложью» Г Это был трезвый, реалистический подход к оценке ро ли математических методов в биологии, знаменовавший начало нового периода в развитии биометрии.
В XX в. появились классические труды В. Госсета (1876— 1937), печатавшегося под псевдонимом «Стьюдент», Р. А. Фише ра (1890—1967) и других представителей английской школы био метриков. С именем Стьюдента связано обоснование так называ емой «теории малой выборки», открывшей новую страницу в ис тории биометрии. Р. Фишер разработал метод дисперсионного анализа, нашедший применение не только в биологии, но и в тех нике.
Большой вклад в развитие математических методов, применя емых в биологии, внесли отечественные ученые: В. И. Романов ский (1879—1954), С. И. Бернштейн (1880—1969), А. Я- Хинчин (1894—1959), А. Н. Колмогоров (р. 1903), В. С.. Немчинов (1894—1946), М. В. Игнатьев (1894—1959) и многие другие. Мно го сделано нашими учеными в области биометрической подго товки биологов и специалистов смежных с биологией дисциплин
(В. В. Алпатов, Ю. Л. Поморский, 1893—1954; П. |
В. Терентьев, |
1903—1970; А. А. Сапегин, Ю. А. Филипченко, |
1882—1930; |
С. С. Четвериков, 1880—1959 и др.). По учебникам Поморского,
‘ И о г а н с е н В. Элементы точного учения об изменчивости и наследст венности. Сельхозгиз, 1933, стр. 103.
13
Романовского, Сапегина, Филиппенко и других воспиталось целое поколение отечественных биометриков.
В условиях быстрого научно-технического прогресса и усили вающейся математизации биологии возникает ряд важных задач. Одна из них — полная ликвидация статистической неграмотности среди биологов. Другая сводится к предупреждению возможной фетишизации математических методов, к борьбе против под мены биологических методов исследования математикой. Неот ложной задачей является также унификация символики, уточне ние биометрической терминологии, что облегчит использование пособий по биометрии в исследовательской и педагогической ра боте биологов.
ГЛАВА ВТОРАЯ
ГРУППИРОВКА РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ
ТАБЛИЦЫ И РЯДЫ РАСПРЕДЕЛЕНИЯ
Результаты планомерного учета фиксируются обычно в пер вичных документах — протоколах опытов, полевых дневниках, журналах, бланках и т. п. Записи ведутся в форме лицевых сче тов или в хронологическом порядке. Собранный фактический ма териал подвергается затем статистической обработке. Цель обра ботки — извлечение из массы фактов заключенной в них инфор мации, получение на основании проведенного исследования объективных и убедительных выводов.
Первый шаг на пути статистической обработки заключается в группировке собранных данных в соответствии с задачами иссле дования и теми условиями, в которых оно проводилось. Наиболее рациональной формой группировки служат статистические таб лицы, в которые обычно и сводятся результаты массовых наблю дений. Статистические таблицы бывают сложные и простые. Их строение зависит от того, по каким признакам и по какому их количеству группируется материал, а также от задач, которые решаются группировкой собранного материала. Примером срав нительно простой группировки могут служить таблицы 1 и 2. Бо лее сложные — групповые и комбинированные — таблицы полу чаются при группировке биометрического материала по двум, трем и большему числу признаков. Примером сложных таблиц, иллюстрирующих зависимость одного варьирующего признака от изменений другого, служат корреляционные таблицы, а также таблицы дисперсионных комплексов, в которые сводятся резуль таты наблюдений по нескольким признакам.
Наиболее простую форму статистической группировки пред ставляют ряды распределения. Они строятся на основе операции ранжирования, т. е. путем расположения вариант в возрастаю щем или убывающем порядке (от франц. ranger — выстраивать в ряд по росту). Например, имеется следующая совокупность 20 измерений признака: 2 5 3 6 4 7 4 5 6 6 5 9 5 6 10 8 12 9 7 6. Видно, что признак варьирует от 2 до 12 единиц. Расположим эту совокупность в возрастающем порядке: 2 3 4 4 5 5 5 5 6 6 6 6 6 7 7 8 9 9 10 12. Получился ранжированный ряд значений признака.
При распределении членов совокупности в ряд преследуются определенные цели. Одна из них — раскрытие закономерности варьирования изучаемого признака. Поэтому к рядам распреде ления предъявляются известные требования: 1) они должны быть легко обозримы, 2) хорошо иллюстрировать закономерность варьирования. Ранжированный ряд сам по себе, т. е. в том виде, каким он представлен выше, плохо удовлетворяет этим требова ниям. Если же варианты расположить в виде двойного ряда, учи
15
тывая их повторяемость в общем строю, совокупность распреде лится следующим образом:
варианты (х): |
2 3 4 5 6 7 8 9 |
|
10 |
11 |
12 |
||||||
повторяемость |
вариант |
1 |
2 |
4 |
5 |
2 |
1 |
2 |
1 |
0 |
1 |
(р): |
1 |
Такой упорядоченный ряд распределения, в котором указана пов торяемость вариант, принадлежащих к данной совокупности, на
зывается |
в а р и а ц и о н н ы м р я д о м . Числа, с |
которыми |
от |
дельные |
варианты встречаются в совокупности, |
называют |
их |
в е с а м и , |
или ч а с т о т а м и . |
|
|
Признаки принято обозначать прописными буквами латинско |
|||
го алфавита — X, Y, Z ..., а их числовые значения, |
т. е. вариан |
ты, — соответствующими строчными буквами — хи х2, Хз ••• или у ь у2, Уз ... и т. д. Частоты обозначаются латинской буквой р (малое). Общее число вариант, входящих в состав данной сово купности, называется ее объемом и обозначается латинскими буквами п или N. Общая сумма частот равна объему совокупно сти (2р = п). Частоты — это абсолютные веса отдельных вариант. Они могут быть выражены и в относительных значениях варьи рующего признака — в долях единицы или же в процентах от общей численности вариант в данной совокупности. В таких слу чаях веса называются относительными частотами, или частостя ми. Сумма частостей, выраженных в долях единицы, равняется
единице/ 2 |
— = |
1 ),а сумма частостей, выраженная в процентах, |
||
' |
п |
' |
|
|
I |
P |
|
\ |
. Замена абсолютных значений призна- |
равна 10012 — 1 0 0 = 100 |
|
|||
Л |
п |
|
|
|
ка, т. е. частот частостями, облегчает сопоставление одного вари ационного ряда с другим и делает более выразительными харак терные черты варьирования.
КЛАССИФИКАЦИЯ ПРИЗНАКОВ
Биологические признаки делятся на качественные и количест венные. К качественным относятся, например, такие признаки, как окраска листьев и цветков, вкус и запах продуктов и т. п. Если же речь идет о размерах листьев, числе лепестков в цвет ках, весе и росте организма, урожае с единицы земельной пло щади и других подобных признаках, они называются количест венными. Разумеется, деление биологических признаков на каче ственные и количественные весьма условно; в любом качестве можно обнаружить целую гамму количественных градаций, рав но как и количественные изменения выражаются обычно сери ями качественных различий. Так, в окраске цветков и листьев нетрудно заметить многочисленные оттенки, которые зависят от
16
количества пигмента, содержащегося в клетках этих органов рас тений. То же можно наблюдать в окраске кожных покровов, радужной оболочке глаз и других признаках. Количественные из менения переходят в разные качественные состояния, которые в свою очередь характеризуют определенную меру количества. Та ким образом обнаруживаются переходы, связь между количест венными и качественными признаками.
Однако из этого отнюдь не следует, что классификация приз наков на качественные и количественные не имеет значения. Она оправдывается уже тем, что в вариационные ряды распределяют ся только количественные признаки, тогда как значения качест венных признаков в вариационные ряды не распределяются. Ка чественные признаки обычно рассматриваются в альтернативной форме, т. е. как противопоставляемые друг другу состояния. На пример, здоровые противопоставляются больным, сильные — слабым, окрашенные — неокрашенным и т. д. Количественно они выражаются в абсолютных числах, долях единицы или в процен тах от общего числа наблюдений. В альтернативной форме мож
но представить |
и количественные признаки, противопоставляя |
высокорослые |
индивиды низкорослым, широкотелые — узкоте- |
льгм, тяжелые — легким и т. д. Поэтому в биометрии наряду с |
термином качественные признаки употребляется и термин альтер нативные признаки, т. е. такие, которые не распределяются в ряды, а выражаются в виде альтернатив.
Количественные признаки делятся на счетные и мерные, или размерные. Счетными называются такие признаки, которые учи тываются путем подсчета: число зерен в колосьях, количество де тенышей в помете, число позвонков, ребер и т. д. Эти признаки варьируют прерывисто (дискретно), так как их значения выра жаются только целыми числами; количество детенышей в поме те, число зерен или колосков в колосе, или количество снесенных птицей яиц не может быть дробным. Мерными называются та кие признаки, которые подвергаются измерениям, т. е. учитыва ются с помощью той или иной единицы измерения. Числовые зна чения этих признаков могут быть не только целыми, но и дроб ными числами. Например, вес и рост человека и животных, урожайность сельскохозяйственных культур, длина колосьев и тому подобные признаки могут принимать в определенных преде лах любые числовые значения. Иными словами, мерные признаки варьируют непрерывно.
ПОСТРОЕНИЕ ВАРИАЦИОННЫХ РЯДОВ
Известно два вида вариационных рядов: безынтервальные и интервальные вариационные ряды. В качестве примера безынтервального вариационного ряда приводим распределение 863 аме риканских угрей по числу позвонков (по Бергу, 1924):
число позвонков (X): |
103 |
104 |
105 |
106 |
107 |
108 |
109 |
ПО |
111 |
количество особей (р): |
1 |
8 |
45 |
183 |
274 |
221 |
96 |
31 |
3 |
Если признак варьирует слабо, то независимо от того, как он варьирует — дискретно или непрерывно, совокупность его значе-. ний можно распределить в безынтервальный вариационный ряд. К сожалению, многие признаки варьируют в очень широких пре делах и распределение их в безынтервальные ряды не достигает цели: ряды получаются слишком растянутыми, плохо обозримы ми, они недостаточно четко отображают закономерность варьиро вания. Например, в отобранных случайным способом 50 колосьях двухрядного ячменя были подсчитаны зерна, содержавшиеся в каждом колосе. Результаты оказались следующие:
21 |
27 |
17 |
20 |
22 |
12 |
24 |
13 |
20 |
19 |
22 |
16 |
22 |
21 |
16 |
23 |
16 |
21 |
24 |
18 |
11 |
22 |
15 |
23 |
21 |
10 |
15 |
18 |
15 |
21 |
14 |
15 |
9 |
18 |
22 |
15 |
17 |
19 |
17 |
18 |
17 |
18 |
24 |
19 |
16 |
17 |
15 |
25 |
16 |
17 |
|
|
|
|
|
от 9 до 27 зерен |
на |
колос. Если |
||||||
Видно, что признак варьирует |
эту совокупность распределить в дискретный вариационный ряд, получается следующее:
*:9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
21 |
5 |
22 |
23 |
24 |
25 |
26 |
27 |
р: 1 |
1 |
1 |
1 |
1 |
1 |
6 |
5 |
6 |
5 |
3 |
2 |
5 |
|
2 |
3 |
1 |
0 |
1 |
Распределение оказалось плохо выражающим закономерность варьирования: Лучший результат в таких случаях получается от распределения совокупности наблюдений в интервальный вариа ционный ряд. Техника построения такого ряда заключается в сле дующем. Вся вариация признака от минимальной до максималь ной варианты разбивается на равные интервалы, или промежут ки (от — до), называемые также к л а с с а м и . Затем все варианты совокупности распределяются поэтим классам. В ре зультате получается интервальный вариационный ряд, в котором частоты (р) относятся уже не к отдельным конкретным вариан там, как в безынтервальном вариационном ряду, а к установ ленным классовым интервалам т. е. оказываются частотами не вариант, а классов.
Но так как обобщающие биометрические характеристики — средние величины —• вычисляются на дискретных вариационных рядах, ряды непрерывного варьирования превращаются в дис кретные вариационные ряды. Эта операция сводится к замене классовых интервалов их срединными (центральными) значения ми, которые равны полусумме нижней и верхней границ каждого класса. Срединные значения классов приобретают значения от дельных вариант (х) с их частотами (р) и потому называются классовыми вариантами, в отличие от конкретных вариант сово купности.
Число классов, на которые следует разбить вариацию призна ка при составлении интервального вариационного ряда, 'зависит от задачи исследования и характера собранного материала. При
18
этом нужно учитывать, что ширина классового интервала сказы вается не только на характере распределения вариант по клас сам, но и на точности числовых (средних) характеристик вариа ционного ряда. При очень узких интервалах увеличивается точ ность, с какой вычисляются средние показатели, но искажаются существенные черты варьирования признака. При очень широких интервалах увеличивается внутриклассовая вариация, что также ухудшает общую картину варьирования и сильно сказывается на точности средних показателей. Поэтому понятны попытки найти подходящий критерий, который позволил бы определять опти мальное или минимальное число классов, на которые следует разбить вариацию признака, чтобы получился хорошо обозримый вариационный ряд при достаточной точности вычисляемых сред них характеристик. Г. А. Стерджес (Sturges, 1926) рекомендовал следующую формулу:
I |
= |
Хтах |
Хщіп |
, |
,.. |
----------------- |
|
(1) |
|||
|
|
1 +3,32 lg П |
w |
где і — величина классового интервала, которая берется обычно целым числом и постоянной для всех интервалов ряда; хтах — максимальная, а хты— минимальная варианты совокупности; 1g n — десятичный логарифм общего числа вариант данной сово купности.
Формула Стерджеса позволяет определять то минимальное число классов, на которое можно разбить вариацию признака. Близкой к формуле Стерджеса является другая формула, осно ванная на рекомендации К. Брукса и Н. Карузерс (1963), кото рые определяют число интервалов К при данном объеме наблю дений п, исходя из условия K=SS5xlg«. Отсюда формула для оп ределения величины классового интервала:
i = |
■^mai |
-^mln |
. |
/riN |
-----------------5 X l g« |
(2) |
|||
|
|
1 |
Кроме отмеченных формул, существуют и другие рекомендации. Все они носят эмпирический характер и не должны применяться догматически.
Рассмотрим методику построения интервального вариационого ряда по данным подсчета количества зерен в каждом из 50 колосьев ячменя. Крайние варианты этой совокупности равны: Хшіп=9 и Хтах—27 зерен на колос. Величина классового интерва ла по формуле Стерджеса равна 3, а по формуле Брукса — Ка рузерс — несколько более 2 зерен. Остановимся на і = 3. При раз бивке вариации на классы границы первого класса устанавлива ем с таким расчетом, чтобы минимальная варианта попала примерно в середину этого класса. Поэтому нижняя граница пер вого класса должна быть несколько меньше минимальной вари-
19