Биостат - помощь / Учебники / Ивантер Коросов Введение в количественную биологию
.pdf
130 Задача «Доказать отличие нескольких выборок»
тролируемого фактора (xфакт.) и действия случайных причин (xслуч.):
xi = M ±xфакт. ±xслуч.
Иными словами, отклонение варианты от общей средней связано с отклонением за счет действия изучаемого фактора и за счет действия прочих неучтенных факторов.
Каждой дозе изучаемого фактора соответствует одна выборка (градация). Поэтому каждая групповая (выборочная) средняя будет характеризовать реакцию объектов на соответствующую дозу изучаемого фактора и эффект изучаемого фактора можно выразить как отклонение групповой средней от общей средней:
xфакт. = Mj – M.
В свою очередь, от групповой средней каждая варианта будет отличаться в силу случайных неучтенных причин, эффект действия случайных факторов можно выразить как отклонение отдельной варианты от данной групповой средней:
xслуч. = xi – Mj.
Получается, что отклонение варианты от общей средней будет равно отклонению групповой средней от общей средней (эффект учтенного фактора) и отклонению варианты от своей групповой средней (эффект неучтенных факторов). Отсюда
(xi – M) = (Mj – M) + ( xi – Mj).
Обобщая эту запись для всех вариант выборки (возведя в квадрат и суммировав), получаем правило разложения общей вариации признака на составные части, отражающие влияние всех названных причин:
Собщ. = Сфакт. + Сслуч.
Общая сумма квадратов признака рассчитывается как сумма квадратов отклонений всех вариант (xi) от общей средней (M):
Собщ. = Σ (xi – M) ².
Факториальная сумма квадратов рассчитывается как сумма квадратов отклонений частных средних (Mi) для каждой выборки (всего k выборок) от общей средней:
Сфакт. = Σ (Mj – M)².
Остаточная (случайная) сумма квадратов есть сумма квадратов отклонений вариант каждой выборки (xi) от своей средней (Mj):
Сслуч. = Σ (xi – Mj)².
Параметры дисперсионного анализа и порядок их вычислений представлены в таблице 7.2.
Задача «Доказать отличие нескольких выборок» |
131 |
Отношение сумм квадратов (SS, sum of squares) к соответствующему числу степеней свободы дает оценку величины дисперсии, или средний квадрат (MS, mean square), иногда ее именуют варианса. Влияние изучаемого фактора отражает факториальная, или межгрупповая, дисперсия S²факт., а влияние случайных неорганизованных в данном исследовании причин – случайная, или внутригрупповая, остаточная дисперсия S²случ., или S²остат.
Таблица 7.2
|
|
|
|
|
Сте- |
Диспер- |
|
Кри- |
|||||
Состав- |
Суммы |
|
Сила |
сии |
|
||||||||
|
пени |
|
терий |
||||||||||
ляющие |
квадратов |
влия- |
(средний |
|
|||||||||
диспер- |
(SS), |
|
ния, |
сво- |
квадрат, |
|
влия- |
||||||
|
боды, |
|
ния, |
||||||||||
сии |
С |
|
η² |
df |
MS), |
|
F |
||||||
|
|
|
|
|
|
|
S² |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|||
Фактори- |
Сфакт. = |
|
Cфакт. |
|
k– 1 |
S²факт. = |
|
F = |
|||||
|
|
Cфакт. |
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||
альная |
Σ (Mj – M)² |
|
Cобщ. |
|
= |
|
|
|
|
|
|
|
|
|
|
df факт. |
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
||||
Случай- |
Сслуч. = |
|
|
|
|
S²случ. = |
|
Sфакт2 . |
|||||
|
Σ (xi – M j)² |
|
|
|
n– k |
= |
|
Cслуч. |
|
|
|
|
|
ная |
|
|
|
|
2 |
|
|||||||
|
|
|
|
|
dfслуч. |
|
|
||||||
|
|
|
|
|
|
|
|
|
Sслуч. |
||||
Общая |
Собщ. = |
|
|
|
|
|
|
|
|
|
|
|
|
дисперсия |
Σ (xi – M) ² |
|
|
|
|
|
|
|
|
|
|
|
|
Сила влияния фактора определяется как доля частной суммы квадратов в общем варьировании признака. Показатель силы влияния изучаемого фактора составляет: η²факт. = Сфакт./ Собщ., неорганизованных (случайных): η²случ. = Сслуч./ Собщ.; сумма этих показателей, естественно, равна единице: η²факт.+ η²случ. = 1.
В то же время нам кажется, что придавать большое значение этому индексу не стоит. Во-первых, в литературе показано, что он дает не точную характеристику вклада фактора в общую изменчивость и для него приходится рассчитывать некую поправку. Во-вто- рых, утверждение вроде «фактор влияет с силой 20%» ничего не передает, кроме впечатления о не очень большом влиянии фактора. Гораздо интереснее было бы дать прогноз возможных значений результативного признака при том или ином уровне действия фак-
132 Задача «Доказать отличие нескольких выборок»
тора, а это можно сделать только с помощью регрессионного анализа или имитационного моделирования. По этим причинам мы рекомендуем рассматривать показатель η факт. как простую и удобную характеристику влияния фактора на признак, подталкивающую исследователя к решению о необходимости продолжения биометрического исследования в рамках регрессионного анализа. Чем большую долю в общей дисперсии занимает ее факториальная часть, тем большая часть общего разнообразия обусловлена варьированием за счет действия фактора.
Нулевая гипотеза гласит: «влияние фактора на признак отсутствует». Проверяют гипотезу по критерию Фишера:
F = S²факт./ S²случ. ≥ F(a,df1 ,df 2 ) ,
где df1 = k– 1, df2 = n– k,
k – число градаций результативного признака,
n – общий объем всех выборок по всем градациям.
Влияние считается достоверным, если величина расчетного критерия равна или превышает свое табличное значение с принятым уровнем значимости (обычно α = 0.05) (F определяется по табл. 7П).
Дисперсионный анализ для количественных признаков
Однофакторным называется анализ, изучающий действие на результативный признак только одного организованного фактора А. Для примера оценим влияния растворенного в воде вещества на плодовитость дафний, используемых в качестве тест-объектов в водно-токсикологических экспериментах. В ходе предварительного исследования были получены четыре выборки, четыре группы значений плодовитости животных, выращенных в средах с разным содержанием химической добавки.
Сначала необходимо сгруппировать выборочный материал в комбинативную таблицу (организовать дисперсионный комплекс). Для этого варианты каждой выборки записываются в отдельные графы, именуемые градациями (табл. 7.3). Результативным признаком служит средняя плодовитость дафний за неделю (для иллюстративности расчетов она дана в целых числах). В нашем примере организованы 4 градации – чистая вода (контроль, градация А1; значения плодовитости 6, 5, 5, 7), слабая концентрация вещества (5 мг/л,
Задача «Доказать отличие нескольких выборок» |
133 |
А2; 8, 7, 6, 6), средняя (15 мг/л, А3; 8, 8, 7) и сильная (30 мг/л, А4; 8, 7, 9). Предлагаемый ниже алгоритм расчетов позволяет использовать неравное число вариант в градациях. Расчеты несложны и показаны в таблице 7.3.
Таблица 7.3
|
|
Градации фактора |
|
|
|||
A1 |
|
A2 |
|
A3 |
|
A4 |
|
x |
x2 |
x |
x2 |
x |
x2 |
x |
x2 |
6 |
36 |
8 |
64 |
8 |
64 |
8 |
64 |
5 |
25 |
7 |
49 |
8 |
64 |
7 |
49 |
5 |
25 |
6 |
36 |
7 |
49 |
9 |
81 |
7 |
49 |
6 |
36 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Σ |
|
Σx² |
135 |
185 |
|
177 |
|
194 |
691 |
H1 = ΣΣx² = 691 |
||||||||||
Σx |
23 |
|
|
|
27 |
|
|
|
23 |
|
|
|
24 |
|
|
97 |
H2 = (ΣΣx)²/n = |
|
n |
4 |
|
|
4 |
|
|
|
3 |
|
|
|
3 |
|
|
14 |
= (97)²/14= 672 |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Σx²/n |
132 |
|
|
182 |
|
|
|
176.3 |
|
|
|
192 |
|
|
682.8 |
H3 = ΣΣx²/n = |
||
|
|
|
|
|
|
|
|
|
|
= 682.8 |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
M |
5.8 |
|
|
6.8 |
|
|
|
7.67 |
|
|
|
8 |
|
|
6.93 |
|
||
|
|
|
|
|
||||||||||||||
|
|
|
|
Сфакт. = H3 – H2 = 682.8 – 672 = 10.76 |
||||||||||||||
|
|
|
|
|
|
Сслуч. = H1 – H2 = 691 – 672 = 8.17 |
||||||||||||
|
|
|
|
|
|
Собщ. = H1 – H3 = 691 – 682.8 = 18.93 |
||||||||||||
|
Полученные значения позволяют вычислить дисперсии, оп- |
|||||||||||||||||
ределить силу влияния фактора и критерий достоверности Фишера.
Состав- |
Суммы |
Сила |
Степе- |
|
Крите- |
|
квадра- |
влия- |
ни сво- |
Диспер- |
|||
ляющие |
тов, |
ния, |
боды, |
сии, S² |
рий, |
|
дисперсии |
F |
|||||
С |
η |
df |
|
|||
|
|
|
||||
Факториаль- |
10.76 |
57% |
3 |
3.59 |
|
|
ная |
|
|||||
|
|
|
|
|
||
Случайная |
8.17 |
|
10 |
0.82 |
4.39 |
|
Общая |
18.93 |
|
|
4.39 |
|
134 Задача «Доказать отличие нескольких выборок»
Поскольку полученное значение критерия (F = 4.39) больше
табличного (F(0.05,3,10) = 3.7) (табл. 7П), отличие факториальной и случайной дисперсий достоверно, влияние фактора значимо.
Отсюда следует биологический вывод: стимулирующее влияние изучаемого фактора (вещества) на плодовитость дафний относительно велико (57%) и достоверно (с вероятностью Р>0.95).
Выполнить дисперсионный анализ по представленному алгоритму можно и в среде Excel. Для этого введем подписанные метками (А1, А2…) данные в четыре столбца, отдельно для каждой градации.
Вызовем программу обработки командой Сервис \ Анализ
данных…\ Однофакторный дисперсионный анализ, ОК. Заполним окно макроса, выделив блок данных с метками и поставив галочку в поле «Метки в первой строке», ОК. На новом листе (рис. 7.1) появятся результаты расчетов, идентичные приведенным в табл. 7.3. Чтобы все надписи были видны, нужно изменить ширину столбцов. Это можно сделать, нажав на серый квадрат слева вверху листа (над 1, левее А), перевести курсор на границу между любыми столбцами (курсор примет форму креста со стрелками, направленными в стороны) и дважды кликнуть левой кнопкой мыши. Ширина каждого столбца будет автоматически определена по максимально длинному содержимому какой-либо ячейки этого столбца.
Спомощью макроса Однофакторный дисперсионный анализ
врамках пакета Excel можно обрабатывать выборки самого разного размера, в том числе очень большого, поэтому мы не приводим специальных алгоритмов для ручного обсчета больших выборок.
Задача «Доказать отличие нескольких выборок» |
135 |
|
|
|
|
Рис. 7.1. Дисперсионный анализ в среде Excel
Парные сравнения выборочных средних методом Шеффе
Дисперсионный анализ позволяет установить достоверность отличия нескольких средних арифметических друг от друга, но он не сообщает, какие именно средние от каких именно средних отличаются. Может статься, например, что действие фактора вызывает более или менее плавное изменение средних без заметных переломов в этой тенденции. При этом биологический вопрос может состоять в том, чтобы определить минимальную дозу фактора, которая по сравнению с контролем значимо влияет, изменяет среднюю для этой градации, т. е. определить «первую действующую концентрацию». Казалось бы, этот вопрос относится к задаче сравнения двух выборок: контрольная выборка поочередно сравнивается с выборками, полученными для все возрастающих доз фактора, а первое достоверное отличие средних как раз и означает, что данная доза уже «действующая». Однако с точки зрения статистики такое сравнение оказывается некорректным и неточным.
136 Задача «Доказать отличие нескольких выборок»
При таком «лобовом» попарном сравнении выборок одна из них (для градации контроля) все время участвует в этой процедуре, на основании которой формулируются разные статистические выводы о достоверности отличий средних с той или иной вероятностью. Тем самым эти выводы оказываются зависимыми друг от друга. Доверительная вероятность каждого из этих выводов поэтому от сравнения к сравнению уменьшается! Чем больше выводов сделано на одном и том же материале, тем меньше вероятность их справедливости.
Второе негативное обстоятельство связано с тем, что такая процедура учитывает далеко не всю информацию о явлении. Действительно, изменчивость вариант комплекса выборок (в нашем примере было 14 вариант в 4 выборках) определяется как действием изучаемого фактора, так и множеством других не учитываемых, случайных, причин. При сравнении же всего двух выборок (например, выборок 1 и 4) эта случайная изменчивость представлена не всем объемом информации, но только той частью, что проявилась в рамках этих двух сравниваемых выборок (две выборки содержат лишь 7 вариант). Поэтому оценки случайной изменчивости для двух выборок оказываются не столь точными, как могли бы быть по всем градациям.
Улучшить ситуацию позволяет метод попарного сравнения выборок, проводимый на базе однофакторного дисперсионного анализа (метод Шеффе). Для сравнения двух средних предлагается критерий F Фишера, в числителе которого стоит оценка действия фактора (разность средних) для любых двух сравниваемых градаций, а в знаменателе – оценка случайной изменчивости, общая для всего
дисперсионного комплекса: |
|
|
|
|
|
|||
F = |
(M i |
- M j |
)2 |
|
|
|
~ F(α,df 1,df 2) |
, |
|
|
|
|
|
|
|||
|
æ |
1 |
|
1 |
ö |
|||
|
(k -1) × S 2 |
случ. × ç |
|
+ |
|
÷ |
|
|
|
|
|
|
|
||||
|
|
ç |
|
|
|
÷ |
|
|
|
|
è ni |
|
n j ø |
|
|
||
где M – средние арифметические для любых двух (i, j) градаций однофакторного дисперсионного комплекса,
S²случ.– оценка случайной изменчивости из таблицы дисперсионного анализа,
k – число градаций фактора,
|
Задача «Доказать отличие нескольких выборок» |
137 |
ni, nj – объемы выборок сравниваемых градаций, |
|
|
α – |
принятый уровень значимости (обычно α = 0.05), |
|
df – |
число степеней свободы df1 = k–1, df2 = (k–1) ·(n–1). |
|
Отличия средних считаются достоверными, если расчетное значение критерия Фишера превысит табличное F(α,df1,df2) (табл. 7П).
Сопоставляя выборочные средние для первой и четвертой градаций нашего примера (табл. 7.3), имеем:
F1,4 = (5.8–8)²/[(4–1) · 0.82·(1/4+1/3)] = 3.37, df1 = 4–1 = 3; df2 = (4–1) ·(14–1) = 39,
F(0.05,3,39) = 2.87.
Полученное значение (3.37) больше табличного (2.87), следовательно, между средними арифметическими первой и последней градаций есть достоверное отличие; разные дозы фактора действительно вызывают изменение плодовитости дафний.
Сравнение выборок первой и второй градаций показывает, что низкие дозы фактора в них не позволяют говорить о существенном влиянии на дафний: для данных объемов выборок полученное значение критерия (0.69) меньше табличного (2.87).
F = (5.8–6.8)²/[(4–1) · 0.82·(1/4+1/3)] = 0.69 < 2.87.
Непараметрический однофакторный дисперсионный анализ
Рассмотренные выше схемы дисперсионного анализа исходили из предположения о нормальном распределении изучаемого результативного признака. Когда для какого-либо признака нет уверенности, что выполняется предположение о нормальном распределении изучаемого признака, когда требуется провести анализ быстро и без особой точности, когда мало данных или они выражены качественными признаками, можно использовать схему непараметрического дисперсионного анализа. Этот метод более неприхотлив, но менее точен, нежели параметрический анализ. Он исследует распределения вариант в нескольких выборках. Нулевая гипотеза состоит в том, что распределения одинаковы, т. е. выборки взяты из одной генеральной совокупности.
Порядок вычислений состоит в том, что все варианты ранжируются в порядке возрастания. Затем суммируются ранги вариант по каждой выборке отдельно и рассчитывается критерий:
138 Задача «Доказать отличие нескольких выборок»
|
12 |
æ |
R 2 |
|
R j |
2 |
|
R |
k |
2 ö |
|
|||
H = |
|
× ç |
1 |
+ ... + |
|
|
|
+ ... + |
|
|
÷ |
- 3 × (n +1) ~ χ²(α, k– 1), |
||
n × (n -1) |
n |
n |
|
|
n |
|
|
|||||||
|
ç |
|
j |
|
k |
÷ |
|
|||||||
|
|
è |
1 |
|
|
|
|
|
ø |
|
||||
где |
n – |
число всех вариант, |
|
nj – |
объем j-й градации фактора, |
|
Rj – |
сумма рангов для каждой j-й градации фактора, |
|
k – |
число градаций фактора (j = 1, 2, … k). |
При объеме выборок больше 5 вариант статистика H имеет распределение хи-квадрат с df = k– 1 степенями свободы и сравнивается со значениями из табл. 9П.
Применим эту схему (табл. 7.4) к нашим данным из табл. 7.3, расположив их в строку.
№ п/п |
|
1 |
2 |
|
|
3 |
4 |
5 |
6 |
|
7 |
|
8 |
9 |
10 |
11 |
12 |
13 |
14 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Градация |
|
1 |
1 |
|
|
1 |
1 |
2 |
2 |
|
2 |
|
2 |
3 |
3 |
3 |
4 |
4 |
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Значение |
|
5 |
5 |
|
|
6 |
7 |
6 |
6 |
|
7 |
|
8 |
7 |
8 |
8 |
7 |
8 |
9 |
|
Затем упорядочим и ранжируем. Для нескольких одинаковых |
||||||||||||||||||||
значений берется средний ранг. |
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
№ п/п |
1 |
2 |
3 |
4 |
|
5 |
6 |
|
7 |
8 |
|
9 |
10 |
11 |
12 |
13 |
14 |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Градация |
1 |
1 |
1 |
2 |
|
2 |
1 |
|
2 |
3 |
|
4 |
2 |
|
3 |
3 |
4 |
4 |
||
Значение |
5 |
5 |
6 |
6 |
|
6 |
7 |
|
7 |
7 |
|
7 |
8 |
|
8 |
8 |
8 |
9 |
||
Ранг |
1.5 |
1.5 |
4 |
4 |
|
4 |
7.5 7.5 |
7.5 |
7.5 11.5 11.5 11.5 11.5 |
14 |
||||||||||
|
|
|
|
|
|
|
|
|
||||||||||||
Наконец, разнесем ранги по градациям и подсчитаем необхо- |
||||||||||||||||||||
димые суммы. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 7.4 |
||
Градация |
1 |
1 |
1 |
|
1 |
|
2 2 |
2 |
|
2 |
|
3 |
3 |
|
3 |
4 |
4 |
4 |
||
|
5 |
5 |
6 |
|
7 |
|
6 6 |
7 |
|
8 |
|
7 |
8 |
|
8 |
7 |
8 |
9 |
||
Значение |
|
|
|
|
|
|||||||||||||||
|
1.5 1.5 4 |
|
7.5 |
|
4 4 7.5 |
|
11.5 |
7.5 11.5 |
11.5 |
7.5 11.5 |
14 |
|||||||||
Ранг, R |
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
Сумма, R |
|
|
|
|
|
14.5 |
|
|
|
27 |
|
|
|
30.5 |
|
|
33 |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
4 |
|
|
|
|
4 |
|
|
|
|
3 |
|
|
3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
R²/n |
|
|
|
|
52.56 |
|
|
|
182.3 |
|
|
|
310.1 |
|
|
363 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Задача «Доказать отличие нескольких выборок» |
139 |
Объем всей выборки равен: n = 14. Величина критерия H составит:
H = 12 × (52.56 +182.3 + 310.1 + 363)- 3 ×13 = 14 ×13
= 0.065934 ×907.8958 - 45 = 14.86 .
По таблице хи-квадрат для α = 0.05 и df = 4– 1 = 3 находим:
χ² = 7.81. Полученное значение критерия (14.86) больше таб-
(0.05,3)
личного (7.81), значит, отличие выборочных распределений достоверно. Химическая добавка действительно изменяет плодовитость дафний.
Сравнение нескольких выборок по изменчивости признака
Одна из задач сравнения двух выборок состояла в том, чтобы оценить однородность варьирования значений в их пределах, т. е. чтобы сопоставить множества случайных причин, действовавших при формировании выборок. Для двух выборок задача решалась с помощью метода сравнения двух дисперсий по критерию Фишера. В случае нескольких выборок используется критерий Бартлетта. С его помощью проверяется нулевая гипотеза о равенстве нескольких дисперсий по всем градациям дисперсионного комплекса (Но: S1²= ... = Sj ²= … = Sk²) – «фактор, действующий на разные выборки, не вызывает изменения характера варьирования».
Существенным ограничением для использования этого критерия является требование соответствия сравниваемых распределений нормальному закону. В другом случае критерий будет фиксировать не отличие дисперсий, но отличие типов распределений. Это значит, что уверенность в «нормальности» распределения должна быть условием выполнения процедуры, рассмотренной ниже.
Метод основан на том известном явлении, что выборочные дисперсии несколько отличаются от генеральной (в силу ошибки репрезентативности), а с ростом объема выборки ошибка репрезентативности уменьшается. Это значит, что для принятой нулевой гипотезы каждая из выборочных дисперсий (Sj²) может отличаться от общей дисперсии (S²), рассчитанной по всей совокупности, только случайно. Показано, что сумма отличий выборочных дисперсий от общей есть случайная величина примерно с χ²-распределением:
