Биостат - помощь / Учебники / Ивантер Коросов Введение в количественную биологию
.pdf
110 |
Задача «Доказать отличие двух выборок» |
Специфические методы χ²Пирсона и λ Колмогорова – Смирнова позволяют проверять гипотезы о соответствии друг другу двух частотных распределений и тем самым улавливать не только отличия в общих тенденциях, но и частные особенности отдельных классов вариант.
Критерий χ²Пирсона
Критерий позволяет выяснить, насколько полученный экспериментатором фактический материал подтверждает теоретическое предположение, в какой мере анализируемые данные совпадают с теоретически ожидаемыми. Возникает задача статистической оценки разницы между фактическим и теоретическим распределениями. С формальных позиций сравниваются два вариационных ряда, две выборки: одна – эмпирическое распределение, другая представляет собой выборку с теми же параметрами (n, M, S и др.), что и эмпирическая, но ее частотное распределение построено в точном соответствии с выбранным теоретическим законом (нормальным, Пуассона, биномиальным и др.), которому предположительно подчиняется поведение изучаемой случайной величины.
Нулевая гипотеза предполагает отсутствие различий между сравниваемыми распределениями. Для ее проверки и служит «критерий согласия» χ²Пирсона:
|
χ 2 |
= å |
(a − A)2 |
, |
|
A |
|||
|
a – |
|
|
|
где |
фактическая частота наблюдений, |
|||
|
A – |
теоретически ожидаемая частота для данного класса. |
||
Расчетное значение критерия сравнивают с критическим значением для принятых уровня значимости (α) и числа степеней свободы (df) (табл. 9П). Если вычисленная величина χ2 равна или превышает таб-
личную χ² , решают, что эмпирическое распределение от теоре-
(α, df)
тического отличается достоверно. Тем самым гипотеза об отсутст-
вии этих различий будет опровергнута. Если же χ²< χ² , то нуле-
(α, df)
вая гипотеза остается в силе. Обычно принято считать допустимым уровень значимости α = 0.05, так как в этом случае остается только 5% шансов, что нулевая гипотеза правильна и, следовательно, есть достаточно оснований (95%), чтобы от нее отказаться.
Задача «Доказать отличие двух выборок» |
111 |
Как и раньше, для определения числа степеней свободы из общего объема выборки нужно вычесть число ограничений (т. е. число параметров, использованных для расчета теоретических частот). Однако необходимо помнить, что в случае с критерием хи-квадрат для определения числа степеней свободы используют не объем выборки n, а число классов частотного распределения k.
Для альтернативного распределения (k = 2) в расчетах участвует только один параметр, объем выборки, следовательно, число для него df = k–1 = 2– 1 = 1. Для проверки равномерности распределения результатов дигибридного скрещивания (известно четыре класса) df = k–1 = 4– 1 = 3. Для проверки соответствия вариационного ряда распределению Пуассона используются уже два параметра – объем выборки и среднее значение (численно совпадающее с дисперсией); число степеней свободы df = k– 2. При проверке соответствия эмпирического распределения вариант нормальному или биномиальному закону число степеней свободы берется как число фактических классов минус три условия построения рядов – объем выборки, средняя и дисперсия, df = k– 3. Сразу стоит отметить, что критерий χ² работает только для выборок объемом не менее 25 вариант, а частоты отдельных классов должны быть не ниже 4.
Общий порядок работы таков. Сначала строится вариационный ряд, т. е. частотное (a) распределение для фактических данных. Затем формулируются теоретические соображения о том, какой тип распределения реализуется в изучаемой совокупности. В соответствии с этим выдвигается нулевая гипотеза: «эмпирические частоты соответствуют данному типу распределения» или, что то же самое, «в генеральной совокупности реализован такой-то тип распределения». На следующем этапе формируется «теоретическая выборка». Для этого, во-первых, требуется явно вычислить теоретические частости (p), соответствующие значениям вариационного ряда. Пожалуй, это самый ответственный момент всех расчетов, поскольку ранее высказанная идея воплощается в числа – теоретические частости данного значения. После этого рассчитываются частоты распределения выбранного теоретического типа (A) для конкретных параметров исходной выборки. Завершается процедура расчетом величины критерия хи-квадрат (χ²), ее сопоставлением с табличным значением (χ²(α, df)). В итоге формулируется статистический вывод о соответствии или не соответствии эмпирических рядов теоретиче-
112 |
Задача «Доказать отличие двух выборок» |
скому распределению. Это дает возможность прийти к тому или иному биологическому заключению.
В качестве первого примера решим задачу, соответствует ли закону Пуассона распределение числа повторных отловов альбатросов (табл. 6.4). В этом случае рассматривается процесс, этапами которого выступают события «отлов птицы». В чреде таких событий встречаются редкие – «отлов меченной особи». Биологическая подоплека состоит в следующем: случайны ли повторные отловы птиц или есть факторы, ответственные за нарушение случайности? Например, птицы могут приманиваться и стремиться попасть вновь либо могут стараться избежать повторного отлова. В обоих случаях птицы будут «умышленно» попадаться чаще или реже, нарушая случайность повторного отлова и искажая тем самым форму распределения, которое будет отходить от формы, предписанной законом Пуассона. Согласно нулевой гипотезе, птицы ведут себя случайно, их встречаемость соответствует этому закону.
Алгоритм расчетов теоретических частот для распределения Пуассона достаточно прост и основан на формулах, не требующих предварительного расчета теоретических частостей p:
|
A |
= |
|
n |
(частота нулевого класса), |
||||
|
|
|
|
||||||
|
0 |
|
|
eM |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
A = |
M |
× A |
|
(частота прочих классов), |
||||
|
|
|
|||||||
|
x |
|
|
x |
x−1 |
|
|
||
|
|
|
|
|
|
|
|
||
где |
М – |
средняя арифметическая ряда, |
|||||||
|
x – |
значение ряда (число объектов в пробе), |
|||||||
|
Ax – |
теоретическая частота значения x, |
|||||||
|
n – |
объем выборки (число проб), |
|||||||
|
e = 2.7183… |
– основание натурального логарифма. |
|||||||
|
Параметры данного вариационного ряда были рассчитаны в |
||||||||
разделе Основные типы распределений: M = 0.968. Теоретическая |
|||||||||
частота нулевого значения равна: |
|||||||||
|
A |
= |
n |
= |
32 |
= 11.93803 ≈ 12, |
|||
|
|
|
|
||||||
|
0 |
|
|
eM |
|
e0.968 |
|
||
|
|
|
|
|
|
||||
|
|
|
Задача «Доказать отличие двух выборок» |
113 |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 6.4 |
|||
|
Число по- |
Фактическая |
Теоретическая |
|
(a - A)2 |
|
|
|||||||||
|
вторных |
|
|
|
||||||||||||
|
отловов, |
частота, |
|
частота, |
|
|
|
|
|
|
||||||
|
|
|
|
A |
|
|
||||||||||
|
|
|
a |
|
A |
|
|
|
|
|||||||
|
x |
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
15 |
|
|
12 |
|
|
0.75 |
|
|
|
|
|
1 |
|
|
|
|
7 |
|
|
|
11 |
|
|
1.45 |
|
|
|
|
2 |
|
|
|
|
7 |
|
|
|
6 |
|
|
|
|
|
|
|
3 |
|
|
|
|
2 |
|
|
10 |
2 |
9 |
|
0.17 |
|
|
|
|
4 |
|
|
|
|
1 |
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
Сумма |
n = Σa = 32 |
|
n = ΣA = 32 |
|
|
χ² = 2.31 |
|
|
|||||||
частота значения x = 1: |
|
|
|
|
|
|
|
|
||||||||
|
A |
= |
M |
× A |
= |
0.968 |
|
×11.93 = 11.55602 ≈ 11 |
|
|
|
|
||||
|
|
|
|
|
|
|
||||||||||
|
x |
|
x |
x−1 |
1 |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
и т. д. (табл. 6.4, графа 3).
По окончании вычислений получаем два ряда частот, отличия между которыми оцениваются по критерию хи-квадрат.
Перед расчетом значения критерия следует убедиться, что выполнены требования к данным для расчета критерия χ²:
–объем выборки более 25 вариант, n>25,
–суммы эмпирических и теоретических частот равны объему выборки n = Σa = ΣA (с точностью не ниже 1–2%),
–все классы эмпирического и теоретического рядов имеют частоты
более 4, aj>4; если какие-либо классы имеют меньше 4 вариант (у нас значения 3 и 4 имею частоты 2 и 1), то они должны быть объединены (суммированы) с соседними, что и показано в таблице с помощью фигурных скобок. Далее вычисляем значения критерия: для первой строки
(a - A)2 = (15 -12)2 =
0.75
A12
ит. д. (графа 4), итого χ²= 2.31. Число степеней свободы находим как число окончательных классов (3) минус число ограничений (средняя и объем выборки): df = k–2 = 3–2 = 1.
Табличное значение χ² = 3.84. Полученная величина
(0.05,1)
(2.31) меньше табличной (3.84), следовательно, нулевая гипотеза не
114 Задача «Доказать отличие двух выборок»
отвергается: эмпирическое распределение достоверно не отличается от распределения Пуассона. Иными словами, у нас нет оснований утверждать, что вероятность повторного отлова изменяется: нельзя утверждать, что операция отлова птиц привлекает или пугает.
Кстати, соответствие эмпирического ряда распределению Пуассона можно проверить и другим способом, сравнив по критерию Фишера величины средней арифметической и дисперсии для числа степеней свободы: df1 = n–1, df2 = n– 1. В нашем случае M = 0.968,
S²= 1.257; F = 1.257/0.968 = 1.157. Поскольку эта величина меньше
табличной (F(0.05,31,31) = 1.84), сравниваемые показатели достоверно не отличаются, а равенство средней и дисперсии характерно лишь
для распределения Пуассона.
В качестве второго примера рассмотрим анализ пространственного размещения особей. Как известно, есть три важнейших типа размещения: регулярное (соответствующее жестким конкурентным отношениям), агрегированное (скученность особей вблизи от источников необходимых ресурсов) и случайное (когда нет острой конкуренции или дефицита ресурсов). Зная тип размещения особей, можно многое сказать об их биологии. Судить о характере пространственного размещения можно по распределению встреч особей по небольшим одинаковым пробным площадкам, на которые разбивается исследуемая территория (рис. 6.2). Равномерное территориальное размещение особей дает унимодальное распределение встреч (одна вершина повышенных частот) (рис. 6.2, В). Если наблюдается агрегация, то имеет место бимодальное распределение (много площадок без особей, много площадок с несколькими особями и мало площадок с единичными экземплярами) (рис. 6.2, Б). Когда же размещение животных или растений по территории местообитания случайно, при обобщении получается частотное распределение Пуассона (рис.6.2, А). Поэтому, проверяя, соответствует ли этому закону эмпирическое распределение особей по площадкам, мы тем самым проверяем гипотезу о случайном размещении организмов в пространстве. Возьмемся проверить, действительно ли на иллюстрации «случайное размещение» из монографии А. М. Гилярова (1990, с. 41, рис. 8) точки размещены случайно? Разбиваем территорию на пробные площадки, нарисовав сетку. Подсчитываем число площадок (a), на которых встретилось разное число точек (x), формируем вариационный ряд (табл. 6.5).
Задача «Доказать отличие двух выборок» |
115 |
30 |
|
А |
|
|
|
|
|
Б |
|
|
|
В |
|
|
20 |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
1 |
2 |
3 |
4 |
0 |
1 |
2 |
3 |
4 |
0 |
1 |
2 |
3 |
4 |
Рис. 6.2. Территориальное размещение особей и соответствующие распределения
|
|
|
|
|
Таблица 6.5 |
Число то- |
|
|
|
|
|
чек на од- |
Фактическая |
Теоретическая |
(a − A)2 |
||
ной пло- |
частота, |
|
частота, |
|
A |
щадке, |
a |
|
A |
|
|
|
|
|
|||
x |
|
|
|
|
|
0 |
28 |
|
29.7 |
|
2.98 |
1 |
19 |
|
15.5 |
|
|
2 |
2 |
22 |
4.0 |
20.3 |
3.01 |
3 |
1 |
|
0.7 |
|
|
4 |
0 |
|
0.1 |
|
|
Сумма |
n = Σa = 50 |
|
n = ΣA = 50 |
|
χ² = 5.99 |
Определяем объем выборки (n = 50), среднюю арифметическую (M = 0.52). Предполагая распределение Пуассона, рассчитываем по алгоритму теоретические частоты (A), объединяем классы, где частоты меньше 4, вычисляем χ², отыскиваем табличное значение
χ² = 3.84. Поскольку полученное значение критерия (5.99)
(0.05,1)
больше табличного (3.84), эмпирическое распределение отличается
116 Задача «Доказать отличие двух выборок»
от распределения Пуассона. На иллюстрации отображено не случайное размещение особей в пространстве, поскольку пустых площадок слишком мало, а единичных слишком много; размещение точек тяготеет к агрегированному. Такому типу лучше соответствует биномиальное распределение с неравными вероятностями исходов.
Теория статистического оценивания строится на идее нормального распределения. Многие из параметров и критериев предлагаются ею в предположении, что изучаемые признаки имеют нормальное распределение. По большому счету, используя статистические методы для описания непрерывных признаков, нужно быть уверенным, что они действительно подчиняются нормальному закону, а в случае дискретных признаков – биномиальному. Для такой проверки нулевая гипотеза звучит так: «полученное распределение соответствует нормальному (биномиальному)» или «выборка взята из генеральной совокупности, подчиняющейся закону нормального (биномиального) распределения».
Все вычислительные операции для случаев нормального и биномиального распределений совпадают. Рассмотрим проверку на не-нормальность распределения массы тела бурозубок.
Расчеты начинаются с построения вариационного ряда и поиска центральных значений для каждого класса (табл. 6.6 и 6.7). Да-
лее по формуле t = |
|
|
x j − M |
|
|
вычисляются нормированные отклоне- |
|
|
|||||
|
|
|
|
|
S
ния середины каждого классового интервала (xj) от общей средней M (S – стандартное отклонение). В нашем случае M = 9.29 г, S = 0.897 г. Для второго интервала: t = |8.05– 9.27|/0.897 = 1.38. Далее определяем теоретические частости нормального распределения, или ординаты нормальной кривой (табл. 4П), соответствующие вычисленным нормированным отклонениям. Для t = 1.38 находим p = 0.1539 ≈ 0.15 (табл. 6.6, графа 5). (Следует отметить, что модуль в формуле нормированных отклонений берется потому, что в таблице 6П приведены частости p только для положительных значений t.) Следующая операция, вычисление теоретических частот распределения, ведется по формуле:
А = с·p,
где p – ординаты нормальной кривой;
Задача «Доказать отличие двух выборок» |
117 |
с – константа ряда, определяемая по формуле c = dx × n ,
S
dx – классовый интервал (в данном случае он равен 0.7); п – объем выборки (63).
Для нашего примера c = 0.7 × 63 = 49.16. 0.897
Теоретическая частота для f = 0.15 составит:
А= 49.16·0.1539 = 7.55 ≈ 8 (графа 6).
Врезультате вычислений получаем теоретическую выборку с параметрами M = 9.29 г, S = 0.897 г, п = 63, частоты которой соответствуют нормальному распределению (см. рис. 3.3, с. 63).
Таблица 6.6
|
Центр |
Факти- |
Норми- |
Ордина- |
Теоре- |
|
|
|
|||
Классо- |
рованное |
ты нор- |
(a - A)2 |
||||||||
интер- |
ческая |
тическая |
|||||||||
вые ин- |
вала, |
частота, |
от- |
мальной |
частота, |
|
|
|
|||
|
A |
||||||||||
тервалы |
клонение, |
кривой, |
|
||||||||
xj |
|
a |
|
А |
|
|
|
||||
|
|
t |
p |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|||
7–7.7 |
7.35 |
2 |
9 |
2.16 |
0.04 |
2 |
10 |
|
0.1 |
|
|
7.8–8.4 |
8.05 |
7 |
1.38 |
0.15 |
8 |
|
|
||||
|
|
|
|
|
|||||||
8.5–9.1 |
8.75 |
18 |
|
0.60 |
0.33 |
16 |
|
|
0.25 |
|
|
9.2–9.8 |
9.45 |
22 |
|
0.18 |
0.39 |
19 |
|
|
0.47 |
|
|
9.9–10.5 |
10.15 |
10 |
|
0.96 |
0.25 |
12 |
|
|
0.33 |
|
|
10.6–11.2 |
10.85 |
1 |
4 |
1.74 |
0.09 |
4 |
5 |
|
0.2 |
|
|
11.3–11.9 |
11.55 |
3 |
2.52 |
0.02 |
1 |
|
|
||||
|
|
|
|
|
|||||||
Σ |
|
n=Σa= 63 |
|
|
n=ΣA= 63 |
χ²= 1.36 |
|||||
Теперь оцениваются отличия частот двух рядов по критерию хи-квадрат. Но перед этим необходимо убедиться в совпадении суммы эмпирических и теоретических частот (по 63 варианты) и в том, что минимальная частота в отдельных классах обоих рядов не ниже 4. Поскольку в крайних классах частоты были ниже, проводим их объединение (отмечено скобками), после чего число классов снизилось до k = 5. Далее вычисляем критерий хи-квадрат: для первого класса (9–10)²/10 = 0.1. Значение критерия составило: χ² = 1.36.Число степеней свободы (при трех ограничениях и пяти классах) равно:
df = 5– 3 = 2. Табличное значение (табл. 9П) χ² = 5.99.
(0.05,2)
118 |
Задача «Доказать отличие двух выборок» |
Поскольку полученное значение (1.36) меньше табличного (5.99), нулевая гипотеза сохраняется, распределение бурозубок по массе тела достоверно от нормального не отличается.
Аналогичные расчеты для дискретного признака (плодовитость лисиц), имеющего предположительно биномиальное распределение (дискретный аналог нормального), представлены в табл. 6.7. Так, при параметрах M = 5 экз., S = 1.33 экз. для второго интервала получаем: t = |8–5|/1.33 = 1.5.
|
|
|
|
|
|
|
|
|
Таблица 6.7 |
|||
|
|
Фактиче- |
Нормиро- |
Ординаты |
Теорети- |
|
|
|
|
|||
|
Центр ин- |
ская час- |
ванное от- |
нормаль- |
ческая |
|
(a − A)2 |
|
||||
|
тервала, |
тота, |
клонение, |
ной кри- |
частота, |
|
|
|
|
|||
|
A |
|
||||||||||
|
xj |
a |
|
|
t |
вой, |
А |
|
|
|
||
|
|
|
|
p |
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
1 |
9 |
|
2.26 |
0.031 |
2 |
9 |
0 |
|
|
|
|
3 |
8 |
|
1.5 |
0.129 |
7 |
|
|
||||
|
|
|
|
|
|
|
|
|||||
|
4 |
16 |
|
|
0.75 |
0.301 |
17 |
|
0.05 |
|
|
|
|
5 |
23 |
|
|
0 |
0.399 |
23 |
|
0 |
|
|
|
|
6 |
21 |
|
|
0.75 |
0.301 |
17 |
|
0.94 |
|
|
|
|
7 |
3 |
6 |
|
1.5 |
0.129 |
7 |
9 |
1 |
|
|
|
|
8 |
3 |
|
2.26 |
0.031 |
2 |
|
|
||||
|
|
|
|
|
|
|
|
|||||
|
Сумма |
n = Σa = 75 |
|
|
|
n = ΣA = 75 |
|
χ² = 2 |
|
|||
|
Соответствующая |
ордината нормальной кривой равна: |
||||||||||
p = 0.1295 (графа 4), теоретическая частота составит: |
|
|
|
|
|
|||||||
|
А = с·p = 56.38·0.1295 = 7.3 ≈ 7 (графа 5), |
|
|
|
|
|
||||||
поскольку значение c = 1·75/1.33 = 56.38. В результате вычислений получаем частоты (A) распределения (с параметрами М = 5, S = 1.33, n = 75), строго соответствующего биномиальному (см. рис. 3.4, с. 69). Объединим классы с частотами менее 4 и рассчитаем значение критерия χ²= 2. Число степеней свободы (при трех ограничениях и пяти классах) равно: df = 5– 3 = 2. Поскольку это значение
(χ²= 2) меньше критического табличного (χ2(0.05,2) = 5.99), нулевая гипотеза не может быть отклонена, значит, распределение лисиц по
плодовитости достоверно от биномиального не отличается.
В рассмотренных примерах проводилась проверка соответствия эмпирического распределения тому или иному типу распределения, заданному статистическим законом. На основании этого за-
Задача «Доказать отличие двух выборок» |
119 |
кона и рассчитывались ожидаемые частости p. Однако метод χ² позволяет проверять гипотезы, диктуемые не только формальными статистическими законами, но и содержательными (биологическими) соображениями. Основанием для подобных гипотез могут быть биологические законы расщепления признаков в гибридных поколениях, представленность морф, соотношение разнополых и разновозрастных групп в популяции, соотношения видов в ценозах и пр. Таким случаям соответствуют признаки с альтернативным и полиномиальным распределением. Для расчета теоретически ожидаемых частостей p используются идея о полной группе событий (сумма частостей для всех возможных событий равна 1) и содержательные соображения.
Рассмотрим применение критерия хи-квадрат при анализе
альтернативной изменчивости. В одном из опытов по изучению наследственности у томатов было обнаружено 3629 красных и 1176 желтых плодов. Теоретическое соотношение частот при расщеплении признаков во втором гибридном поколении должно быть 3:1 (75% к 25%, или в долях: p1 = 0.75, p2 = 0.25). Выполняется ли оно? Иными словами, взята ли данная выборка из той генеральной совокупности, в которой соотношение частот 3:1?
Для того чтобы это проверить, сформируем уже знакомую таблицу (табл. 6.8), заполнение которой аналогично рассмотренным, только для расчета теоретической частоты используется формула:
А = n·p, |
|
|
|
|
|
|
||
где p – |
теоретические частости; |
|
|
|
|
|
||
n – |
объем выборки. |
|
|
|
|
|
|
|
Например, A2 = n·p2 = 4805·0.25 = 1201.25 ≈ 1201. |
|
|
|
|||||
|
|
|
|
|
|
Таблица 6.8 |
||
Значение |
Фактиче- |
Теоретиче- |
Теорети- |
|
|
(a − A)2 |
||
ская часто- |
ская |
ческая |
|
|
||||
(цвет плода), |
та, |
частость, |
частота, |
|
|
|
|
|
|
|
A |
||||||
xj |
|
|
|
|||||
|
a |
p |
А |
|
|
|
|
|
|
|
|
|
|
|
|||
Красный |
3629 |
0.75 |
3603 |
|
0.187621 |
|||
Желтый |
1176 |
0.25 |
1201 |
|
0.5204 |
|
||
Сумма |
|
n = Σa = 4805 |
1 |
n = ΣA = 4805 |
|
|
χ² = 0.71 |
|
