
книги из ГПНТБ / Лакин Г.Ф. Биометрия учеб. пособие
.pdfЗдесь-------= m - — ошибка выборочной средней. Отсюда грани-
Ѵ п
цы доверительного интервала для генеральной средней М можно обозначить так:
x —t r r i j ^ M
Величина tmx, которую обозначим греческой буквой А (дельта), т. е. А — tmx, является максимальной погрешностью оценки ге нерального параметра М по величине выборочной средней х; &х называют также предельной или максимальной выборочной ошибкой средней арифметической.
f(x)
Рис. 10. Доверительные интервалы для трех порогов дове рительной вероятности — І3!= 0,95, Р 2 = 0,99, Р 3=0,999
КРИТЕРИИ ОЦЕНКИ
Определение возможных значений генеральных параметров по величине выборочных показателей носит общее название оценки генеральных параметров. Критерием оценки служит стан дартная величина нормированного отклонения (ist), с которой сравнивается фактическое значение этого критерия (/ф). В от ношении генеральной средней М этот критерий выражается сле дующими аналогичными отношениями:
X — М |
X — М |
|
tffi = ------, или |
L5 = ----------frt. |
|
тх |
а |
|
При t$<.tgt нулевая гипотеза сохраняется. Если же |
ну |
левую гипотезу следует отвергнуть. Например, в одной из кошар овцесовхоза на 95 особях средний настриг шерсти на одну овцу
100
составил 6,2 кг при а = 0,43 кг. Можно ли на основании этого ре зультата заключить, что настриг шерсти на этой кошаре досто верно снижен по сравнению со средним настригом шерсти по совхозу, равным 6,4 кг на овцу? Нормируя известные величины, находим:
6,2 - |
6,4 |
- 4 ,5 . |
|
t, |
У95 = |
|
|
0,43 |
|
|
|
Для Р = 0,99 tst = 2,58. Так как t$>tst, |
нулевая гипотеза |
отвер |
|
гается. |
|
|
|
Критерием достоверности |
различий, наблюдаемых |
между |
сердними х\ и Х2 , служит отношение разности х\ — x 2 — D к своей статистической ошибке. Именно:
при |
Пі = |
п2 |
Іф = |
X I |
— Х2 . |
|
|
(k — Пі -f- п2-f- 2 ) |
||
of + |
су2 |
|
|
|
||||||
|
|
|
1 |
|
|
|
|
|||
или |
|
|
х, — Хп |
|
= |
D > |
|
{k = n1 + n2 - 2 ); |
||
|
Г ф = ------- |
|
|
— |
|
|
|
|||
|
|
|
г .2 |
|
2 |
|
т т |
|
|
|
|
|
|
- J ± + * |
|
|
|
|
|
||
|
|
|
«1 |
|
Щ |
|
|
|
|
|
при |
Щ ф п 2 |
іф= - |
|
|
|
Хі |
х 2 |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
-I f |
(П 1 — |
U |
а І ~ H ^ 2 — |
0 |
g 2 п 1~\- П 2 |
||
|
|
|
У |
|
|
п1 -\-п2 — 2 |
|
пх X Щ |
||
|
|
|
|
> |
tstik = n1 -\-n2 - |
2 ). |
||||
Нулевая |
гипотеза заключается в |
предположении, что средние |
Мі и М2 генеральных совокупностей, из которых взяты выборки, не отличаются друг от друга, т. е. Мі = М2.
Например, по данным госплемкниги, коровы горбатовской по роды по шестому отелу имеют средний суточный удой, равный х \= 13,12±0,46 кг, а коровы той же породы по третьему отелу дают в сутки в среднем х2= 14,28±0,73 кг. Разница в пользу ко
ров второй |
группы составляет: |
14,28— 13,12= 1,16 кг. |
Ошибка |
||
этой |
разницы: mD= -]/0,732 + |
0,462 = |0,74 = |
0,86 кг, |
откуда |
|
іф = |
—— = |
1,35. По табл. I приложений для |
^ = 1,35 находим |
||
|
0,86 |
|
|
|
|
Р = 0,82. Так как эта величина не достигает даже первого порога доверительной вероятности (Р = 0,95), нулевую гипотезу отверг нуть нельзя; наблюдаемую разницу в суточном удое между ко ровами разных групп следует считать статистически недостовер
101
ной. Это значит, что вопрос о больших удоях коров по третьему отелу остается открытым.
Нулевую гипотезу можно испытать и путем сопоставления доверительных интервалов сравниваемых параметров. В данном случае при Р = 0,95 доверительные интервалы для генеральных параметров будут следующими:
х х ± tm—= 13,12 ± 1,96 X 0,46= 13,12 + 0,90= 12,2214,02;
*7+ t m - = 14,28 ± 1,96 X 0,73= 14,28 ± 1,43= 13,8515,71;
Видно, что границы доверительных интервалов почти совпадают друг'с другом, что не позволяет отвергнуть нулевую гипотезу.
Рассмотрим следующий пример. Анализы сыворотки крови, взятой у клинически здоровых и страдавших припадками тета нии обезьян, дали следующие результаты (табл. 26).
Таблица 26
|
|
Количество |
электролитов в сыворотке мг% |
|
||||
|
|
калий |
|
|
кальций |
|
||
Группы животных |
|
|
|
|
|
|
|
|
|
п |
х + т п — |
а 2 |
п |
x +m— |
а 2 |
||
|
|
~ |
X |
|
|
~ |
X |
|
Нормальные |
89 |
1 8 ,5 6 |
± 0 , 2 0 |
3 , 4 2 |
100 |
1 1 , 9 0 + 0 , 1 2 |
1 ,4 4 |
|
Припадочные |
107 |
1 8 ,1 4 |
± 0 , 1 1 |
3 , 7 6 |
42 |
8 , 9 2 + 0 , 1 7 |
1 ,2 5 |
Нужно сравнить нормальных и припадочных животных по этим показателям. Разность по калию равна: 18,56—18,14 = = 0,42 мг%. Находим ошибку этой разности:
|
Л/ |
(Пі — 1) оі2 + (п2— 1) ст22 |
X+1 + |
n2. |
||
|
mD |
Пі |
ТІ2 — 2 |
|
X ~ |
|
|
' |
|
Пі X «2 |
|||
-і/ 88 X 3,42 + |
106 X 3,76 |
ч/89 + |
107 |
|
196 |
|
V |
8 9 + 107 — 2 |
X 89X |
107 |
3,61 X 9523 |
||
|
|
= У0,074 = 0,27 мг % • |
|
|||
|
|
|
0,42 |
1,56. |
Оценим эту ве |
|
Критерий достоверности ■— |
|
|||||
|
|
|
0+7 = |
У |
|
личину по табл. V приложений, в которой для Р = 0,05 и числа степеней свободы k= (п\— 1) + («2— 1 ) = п і + я 2— 2 = 89+107— —2=194 находим ^г = 1,96. Так как 7ф= 1,56<7S(= 1,96, нулевая гипотеза сохраняется; разницу между нормальными и припа-
102
дочными особями по уровню калия |
(мг%) |
в сыворотке |
крови |
||||||||||
нужно |
признать статистически недостоверной. |
|
|
||||||||||
Разница между теми же группами животных по уровню каль |
|||||||||||||
ция |
в |
|
сыворотке |
крови |
составляет: |
11,90 — 8,92 = 2,98 |
мг%. |
||||||
Ошибка этой разницы: |
|
|
|
|
|
|
|
||||||
m D |
і / |
2 |
|
пі + |
л2 |
38 X |
100 + |
42 |
У0,047 = |
0,22 |
мг%, |
||
= |
|/ |
OsX' |
Пі X |
п2 Ь |
|
|
= |
||||||
откуда |
|
|
|
|
100X42 |
|
|
|
|||||
|
|
|
|
|
2,98 |
|
|
|
|
|
|||
|
|
|
|
|
|
Іф |
|
|
|
|
|
||
|
|
|
|
|
|
0,22 |
13,5. |
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В данном |
случае |
k = 100 + 42 — 2= 140 |
и |
^<= 1,96. |
Поскольку |
||||||||
|
|
|
нулевая гипотеза |
отвергается; |
разница между |
припа |
дочными и нормальными обезьянами по этому признаку оказа лась статистически достоверной. ■
При оценке разности между средними х\ и х 2, характеризую щими редкие события, которые распределяются по закону Пуас сона, критерием достоверности можно взять отношение
Достоверность (т. е. неслучайность) разности между сред ними зависит не только от абсолютной величины этой разности, но также от объемов выборок, на которых вычислены эти пока затели, и от размаха варьирования признаков. Неопровержение нулевой гипотезы еще не служит доказательством того, что раз ница между генеральными параметрами отсутствует. Статисти ческая недостоверность разницы свидетельствует лишь о том, что такая разница не доказана и вопрос остается открытым.
При сравнении статистических показателей друг с другом следует учитывать, на каких совокупностях — зависимы^ или независимых-— они получены. Если варианты одного признака^ распределяются независимо от распределения значений другого признака Y, -они называются независимыми. Если же значения одного признака в той или иной степени связаны с соответствую щими значениями другого признака, они зависимы друг от друга. Выше рассматривались примеры независимых выборок. Случаи зависимых переменных рассматриваются ниже.
МА Л Ы Е В Ы Б 0 Р К И Т-РАСПРЕДЕЛЕНИЕ СТЬЮДЕНТА
Во многих случаях объем выборочной совокупности не пре вышает 20—30 наблюдений. Такие выборки называются м а л ы
103
/
м и. Представление о малых и больших выборках связано с ис следованиями Вильяма Госсета (1908), печатавшегося под псев донимом Стьюдент (Student). Исследуя закон распределения ма
лой выборки («< 30), он |
впервые |
установил, что выборочная |
|||||
случайная величина |
t = |
X — М г |
имеет |
непрерывную |
' |
||
---------уп |
функ- |
||||||
|
|
а |
|
|
|
|
|
цию распределения |
(для — о о < ^ < + оо) |
с плотностью, |
равной |
||||
|
|
/ |
і2 |
- |
* |
|
|
|
|
\ 2 |
|
|
|||
/ ( / ) = с п_Л і + — -) |
, |
|
|
||||
где Сп-і — константа, зависящая только от числа |
степеней сво |
||||||
боды k = n—1. |
^-распределения |
Стьюдента |
оказывается |
||||
Характерным для |
то, что оно строго симметрично относительно нулевой точки в системе координат, где г“= 0; оно зависит от двух величин: нор мированного отклонения t и объема выборки (п), который берет ся числом степеней свободы; степень различия ^-распределения Стьюдента от нормального распределения определяется только числом степеней свободы k\ с увеличением п распределение Стьюдента быстро приближается к нормальному с параметрами
М= 0 и а=1 и уже при |
30 практически не отличается от него |
(табл. 27). |
Т а б л и ц а 27 |
|
В табл. 27 приведены значения функции нормального рас пределения и распределения Стьюдента для разных значений t (значения функции даны трехзначными числами после запятой). Из этой таблицы видно, что, начиная с « = 30, распределение кри терия t Стьюдента практически уже не зависит от п. Наглядное представление об особенностях ^-распределения дает рис. 11, на
* Под плотностью распределения понимается число случаев, приходящихся на единицу ширины классового интервала непрерывно варьирующей величины. Иначе, плотность распределения — это отношение частоты данного интервала к его ширине, выраженное в единицах измерения вариант данного ряда.
104
котором на фоне нормальной кривой (менее плоской) нанесена кривая (-распределения при п = 3.
Таким образом, распределение Стьюдента — это всего лишь частный случай нормального распределения; оно отражает спе цифику малой выборки, распределяющейся по нормальному закону в зависимости от п. Для практических расчетов, связан ных с распределением Стьюдента, составлена специальная таб лица, облегчающая решение практических задач. Она приведена в приложениях под № V. В этой таблице указаны критические (стандартные) значения критерия t для разных уровней значи мости (Р ) в зависимости от числа степеней свободы k, что по зволяет оценивать расхождение между генеральными парамет рами по разности выборочных показателей. В верхней строке табл. V указаны уровни значимости для двустороннего, а в ниж-
Рис. 11. (-распределение при п = 3 (на фоне нормальной кривой)
ней строке — для одностороннего критерия t. Это значит, что в первом случае учитывается отклонение t от центра распределе ния, где ( = 0, как в сторону положительных ( + ), так и отрица тельных (—) значений. Ведь в одном конце кривой распределе ния t= + 1,96 соответствует Р = 2,5% и в другом конце і= 1,96 соот ветствует Р = 2,5%. А всего (±1,96 соответствует 2,54-2,5 = 5,0%. Это и есть уровень значимости двустороннего критерия (. Ка ким из этих критериев пользоваться, зависит от самой задачи исследования. При сравнении, например, двух средних х\ и Х2 , когда знак разности не имеет значения, для ее оценки исполь
зуется двусторонний критерий.
Когда выборки независимы, разность между генеральными параметрами оценивается по разности выборочных средних (хі — —хг = D). Числа степеней свободы в таких случаях определяют ся по формуле
k = (Пі — 1) —I- (^2 — 1) = f l l -f- /І2 — 2.
Если же сравниваемые выборки зависимы одна от другой, то разность между генеральными средними следует оценивать пар ным способом, т. е. не по разности выборочных средних, а по средней разности между парными вариантами (х—y — d) сопря
105
женных распределений. В этом случае числа степеней свободы определяются по формуле
k = п — 1 (или k = п — 2).
Нулевая гипотеза отвергается при іф — ---------^ rsi для со т о
ответствующих Р и k.
Переходим к рассмотрению соответствующих примеров, на которых легче усвоить значение критерия t в оценке генераль ных параметров по данным выборочных наблюдений.
СЛУЧАИ НЕЗАВИСИМЫХ ВЫБОРОК
Возьмем следующий пример. Изучалось влияние кобальта на увеличение живого веса кроликов. Опыт проводился на двух группах животных — опытной и контрольной. Возраст кроликов в обоих группах колебался в пределах от полутора до двух ме сяцев. Исходный вес особей не выходил за пределы 500—600 г. Опыт длился полтора месяца. Обе группы животных содержа лись на одном и том же кормовом рационе. Но, в отличие от кон трольных, опытные кролики ежедневно получали в виде водного
раствора по 0,06 |
г хлористого кобальта |
на |
1 кг живого веса. |
|||||||
За время опыта животные |
дали |
следующие |
прибавки |
в весе: |
||||||
контрольные: |
504 |
560 |
580 |
600 |
420 |
530 |
490 |
580 470; щ = |
9 |
|
опытные: |
580 |
692 |
700 |
621 |
640 |
561 |
680 |
630; |
«2 = |
8 |
Прежде всего заметим, что перед нами величины, которые варьируют независимо: каждая величина принимает то или иное значение совершенно независимо от того, какое значение приня ла другая величина.
В табл. 28 показан расчет средних и квадратов отклонений ва риант от средних арифметических в опыте и в контроле. Сред няя арифметическая опытной группы равна 638 г, а в контроле — 526 г. Разница составляет 638—526=112 г. По формуле 59а определяем ошибку этой разности:
|
-і/ |
46 806 |
9 + |
8 |
,------- |
|
|||
|
У |
8 + |
X —— = |
У736,8 = 27,13 г. |
|
||||
|
7" |
9 X : |
|
|
|
||||
Критерий достоверности |
|
|
112 |
= 4,1. |
Для уровня значимо |
||||
|
|
|
|
|
27,13 |
|
|
|
|
сти Р = 0,01 и |
числа |
степеней |
свободы, |
&= 9 + 8 — 2=15 по |
|||||
табл. V приложений находим |
tst = 2,95. Полученная в опыте ве |
||||||||
личина ^ф = 4,1 значительного |
превосходит критическое |
значение |
|||||||
этого критерия |
(4г = 2,95), |
что |
позволяет |
отвергнуть |
нулевую |
гипотезу и признать разницу в привесах кроликов в опыте и в контроле статистически достоверной.
106
|
|
|
|
|
Т а б л и ц а 28 |
Привесы (г) |
Отклонения от средней |
Квадраты отклонения |
|||
|
|
арифметической |
|
|
|
опыт |
контроль |
опыт |
контроль |
опыт |
контроль |
580 |
504 |
58 |
22 |
3 364 |
484 |
692 |
560 |
54 |
34 |
2 916 |
1 156 |
700 |
420 |
62 |
106 |
3 844 |
11236 |
621 |
600 |
17 |
74 |
289 |
5 476 |
640 |
580 |
2 |
54 |
4 |
2 916 |
561 |
530 |
77 |
4 |
5 929 |
16 |
680 |
490 |
42 |
36 |
1 764 |
1296 |
630 |
580 |
8 |
54 |
64 |
2 916 |
|
470 |
|
56 |
|
3 136 |
£: 5 104 |
7 434 |
|
|
18 174 |
28 632 |
X ■ 638 |
526 |
— |
— |
46 806 |
Рассмотрим еще один аналогичный пример. На двух группах лабораторных мышей—-опытной и контрольной — выяснялось действие химио-терапевтического препарата на развитие орга низма животных. В результате месячных испытаний обнаружи лись следующие различия в весе животных, выраженном в граммах:
контрольные: |
70 |
78 |
60 |
80 |
60 |
60 68; |
х г — 68 |
г |
опытные: |
80 |
75 |
62 |
70 |
68 |
71; |
Х2 = 71 |
г |
Разница между средними опытной и контрольной групп равна: 71— 68 = 3,0 г. Определим ошибку этой разности, для чего сна чала рассчитаем суммы квадратов отклонений вариант от их средних по формуле
|
2 а2 = |
2 {хі — х ) 2= |
(2*)2 |
||
|
2х2 — - — — . |
||||
|
2 |
(702 + |
782 + |
|
4762 |
|
Контроль: 2аі = |
802 + ... + 682) ----- -— |
|||
= |
32 808 - 32 368 = |
440 |
|
|
|
|
2 |
|
+ 622 |
+ |
4262 |
|
Опыт: 2а3 = (8 0 2 + 752 |
... + 712) ------— = |
|||
= |
30 434 — 30 246 = |
188 |
|
|
|
Находим объединенный средний квадрат отклонений:
а |
440 -J- 188 |
628 |
’* _ |
7 + 6 - 2 |
57,1, |
ТГ |
107
откуда ошибка разности средних определится так:
У |
2 |
щ + «2 |
= |
т / |
„ |
13 |
4,2 г. |
|
|
«1 X «2 |
^ |
57,1 Xтх- = У17,7 = |
|||||
|
|
|
F |
|
'42 |
|
|
|
|
|
п . \ / п о |
|
|
у |
|
|
|
Критерий достоверности различий |
3,0 |
По |
табл. V |
|||||
0,71 |
||||||||
приложений для |
Я = 0,05 |
и |
6=11 |
4~2 |
|
Так как |
||
находим tst = 2,2. |
нулевая гипотеза сохраняется, разность между генераль ными средними этих групп оказывается статистически недосто
верной. Отметим, что когда известна генеральная средняя |
(М), |
||||
то разность |
между ней и выборочной средней (ж) оценивается |
||||
нормированным отклонением |
выборочной |
средней |
от средней |
||
генеральной |
через ошибку |
выборочной |
средней |
(потому |
что |
генеральная средняя ошибки не имеет), т. е. |
|
|
|||
х — М |
х — М |
Г |
|
|
|
t — ---------, |
или t = ----------Уп как было показано выше. |
|
|||
тх |
о |
|
|
|
|
Например, методом селекции на повышение жирномолоч ности создана линия крупного рогатого скрта общей численно
стью 12 животных со |
средним процентом жира в молоке |
4.16 + 0,025%. Исходная |
порода характеризуется средней жир |
номолочностью 4,09%. Спрашивается, достоверна ли разница 4.16 — 4,09 = 0,07%, характеризующая эффективность селекцион ной работы, направленной на повышение жирномолочности ста
да? Критерий t0 = в’в-- _ з)2. По |
таблице Стьюдента для |
0,025 |
|
Р = 0,01 (двусторонний критерий) и |
6 = 1 2 — 1= 11 критерий |
/st=3,11. Так как t ^ > t st, нулевая гипотеза должна быть отверг нута. Отбор на жирномолочность оказался эффективным.
СЛУЧАИ ЗАВИСИМЫХ ВЫБОРОК
Когда приходится сравнивать выборки, значения которых варьируют в определенной зависимости друг от друга, что бы вает связано с самим характером опыта, описанный выше спо соб оценки генеральных параметров в приложении к таким слу чаям зависимых переменных оказывается неточным. Покажем это на следующем примере. Изучалось влияние черного и ап рельского пара на урожай ржи. Опыт длился на протяжении шести лет. Учитывался вес тысячи зерен в граммах. Результаты опыта оказались следующие (по Сапегину, 1937):
год посева: |
1898 |
1899 |
1901 |
1902 |
1903 |
1904 |
Хі — 27,9 |
г |
по черному пару: |
31,1 |
24,0 |
24,6 |
28,6 |
29,1 |
30,1; |
||
по апрельскому: |
31,6 |
24,2 |
24,8 |
29,1 |
29,9 |
31,0; |
^ = 28,4 |
г |
Видно, что урожай ржи по апрельскому пару несколько выше, чем по черному; средняя разница в весе 1000 зерен составляет
108
x i—X2 =D — 0 ,b г. Можно ли положиться на эту разницу, надеж на ли она?
Если подойти к оценке этих данных по разности средних, т. е. тем способом, который описан выше, не учитывая сопряжен ность, существующую между вариантами по годам опыта, полу
чится следующий результат |
(табл. 29). |
|
|
|
||||
|
|
|
|
|
|
|
Т а б л и ц а 29 |
|
|
|
Урожай (вес 1000 |
Отклонения |
Квадраты отклонений |
||||
|
|
зерен) |
||||||
|
|
|
|
|
|
|
||
Годы |
|
черный пар |
апрельский |
|
|
|
|
|
|
|
öl |
02 |
|
|
4 |
||
|
|
(*і) |
пар ( х 2) |
|
|
|||
1898 |
|
3 1 ,1 |
3 1 , 6 |
3 , 2 |
3 , 2 |
1 0 ,2 4 |
1 0 ,2 4 |
|
1899 |
|
2 4 ,0 |
2 4 , 2 |
3 , 9 |
4 , 2 |
1 5 ,2 4 |
1 7 ,6 4 |
|
1901 |
|
2 4 , 6 |
2 4 , 8 |
3 , 3 |
3 , 6 |
1 0 ,8 9 |
1 2 ,9 6 |
|
1902 |
|
2 8 , 6 |
2 9 ,1 |
0 , 7 |
0 , 7 |
0 , 4 9 |
0 , 4 9 |
|
1903 |
|
2 9 ,1 |
2 9 , 9 |
1 ,2 |
1 ,5 |
1 ,4 4 |
2 , 2 5 |
|
1904 |
|
3 0 ,1 |
3 1 , 0 |
2 , 2 |
2 , 6 |
4 , 8 4 |
6 , 7 6 |
|
Сумма |
|
- |
— |
j |
|
4 3 ,1 4 |
5 0 ,3 4 |
|
|
|
|
||||||
Выборочная ошибка разности в таком случае определяется |
||||||||
по формуле 59: |
|
|
|
|
|
|
||
mD |
= |
2а22 |
W |
-і/ 43,14 + 50,34 |
У 9,35 = |
3,1, |
||
У Пі + |
/і2 — 2 |
|
= |
|||||
|
|
' ‘ 6 + 6 — 2 |
|
|
|
|||
отсюда |
іф — |
Для &=10 и Р = 0,05 критерий tat= 2,23. |
||||||
Поскольку |
|
нулевую |
гипотезу |
отвергнуть |
нельзя. |
|
||
Если |
же исходить из сравнения не средних, |
а вариант, Т. е. |
оценивать генеральные параметры по средней разности вариант,
учитывая |
сопряженность |
между |
ними, |
получается следующий |
|||||
результат |
(табл. 30). |
|
|
|
|
|
Т а б л и ц а 30 |
||
|
|
|
|
|
|
|
|
||
|
|
|
|
Вес 1000 зерен по годам опыта |
|
|
|||
|
Посев |
1898 |
1899 |
1901 |
1902 |
1903 |
1904 |
Среднее |
|
|
|
|
|
||||||
По черному пару . . . . |
31,1 |
24,0 |
24,6 |
28,6 |
29,1 |
30,1 |
27,9 |
||
Апрельскому..................... |
31,6 |
24,2 |
24,8 |
29,1 |
29,9 |
31,0 |
28,4 |
||
Разность |
(d) .................... |
0,5 |
0,2 |
0,2 |
0,5 |
0,8 |
0,9 |
— |
|
Квадрат |
(d2) ................ |
0,25 |
0,04 |
0,04 |
0,25 |
0,64 |
0,81 |
Та!2=2,03 |
109