Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ivanter2000_vved_v_kolich_biol

.pdf
Скачиваний:
16
Добавлен:
14.04.2015
Размер:
3.42 Mб
Скачать

132

7

ЗАДАЧА "ДОКАЗАТЬ ОТЛИЧИЕ НЕСКОЛЬКИХ ВЫБОРОК" ("ДОКАЗАТЬ ВЛИЯНИЕ ФАКТОРА")

При изучении и анализе сложных и многообразных причинноследственных отношений между объектами и явлениями биологу приходится учитывать целый комплекс внешних и внутренних факторов, от которых в конечном итоге зависят уровень и ход наблюдаемых процессов, те или иные биологические свойства живых организмов, их динамика и разнообразие. При этом зачастую важно оценивать не только роль одного из многочисленных внешних факторов, но и их взаимодействие при констелляционном влиянии на популяцию или организм.

Идейная база для изучения действия факторов содержится уже в методе сравнения двух выборок. Биологическим содержанием операции сравнения двух выборок, в конце концов, выступает поиск факторов, ответственных за смещение средних арифметических или усиление изменчивости признаков. Развивая это направление биометрического исследования, можно не ограничиваться только двумя "дозами" фактора, но изучить серию ситуаций, в которых фактор проявлял разную силу действия на результативный признак – от самого слабого, до самого сильного. При этом каждому уровню фактора будет соответствовать отдельная выборка и общая задача получит формулировку "сравнить несколько выборок". В терминах факториальной биометрии вопрос о влиянии фактора на признак звучит так: сказывается ли отличие условий получения разных выборок на качестве (значениях) вариант? В терминах статистики вопрос звучит несколько иначе: из одной ли генеральной совокупности отобраны все выборки, оценивают ли выборочные средние арифметические одну и ту же генеральную среднюю? Вариантов ответа может быть только два:

1.Все выборки отобраны из одной генеральной совокупности, условия возникновения вариант одни и те же.

2.Выборки отобраны из разных генеральных совокупностей, условия возникновения вариант выборок различаются.

Впостановке вопроса можно уловить противоречие. Выше было сказано, что по условию задачи выборки формировались в разных условиях, и тут же предполагается, что условия были одинаковые. На самом деле противоречия нет, поскольку речь идет об определении чувствительности признака к действию фактора. Условия формирования выборок могут отличаться, но они могут никак и не сказаться на величине изучаемого признака, не отразиться на значениях вариант. Смысл статистического сравнения в том и состоит, чтобы оценить эффективность действия фактора на признак, доказать реальность реакции вариант выборок на разные условия их формирования. Круг методов сравнения нескольких выборок довольно широк, их выбор зависит от конкретной задачи

(табл. 7.1).

 

 

Таблица 7.1

 

 

 

 

Задача

Содержание задачи

Методы

 

Доказать различие

Отличаются

Однофакторны

 

нескольких средних

доминирующие

й

 

 

 

133

 

 

 

 

(для одного признака)

факторы,

дисперсионный

 

 

формирующие выборки

анализ

 

Доказать различие

Отличаются

Двух- и

 

нескольких средних

доминирующие

многофакторн

 

(для нескольких

факторы,

ый

 

признаков)

формирующие выборки

дисперсионный

 

 

 

анализ

 

Доказать различие

Отличаются

Метод парных

 

нескольких пар

доминирующие

сравнений

 

средних в контексте

факторы,

Шеффе

 

сравнения нескольких

формирующие две

 

 

выборок

сравниваемые выборки

 

 

Доказать различие

Отличаются случайные

Метод

 

нескольких дисперсий

факторы,

Бартлетта

 

(для одного признака)

формирующие выборки

 

 

Доказать различие

Факторы, участвующие

Критерий χ²

 

нескольких частотных

в формировании

Пирсона

 

распределений (для

выборки, отличаются в

 

 

одного признака)

целом

 

 

Доказать различие

Факторы, участвующие

Непараметриче

 

нескольких выборок в

в формировании

ский

 

целом (для одного

выборки, отличаются в

дисперсионный

 

признака)

целом

анализ

 

Сравнение нескольких выборок по величине одного признака (однофакторный дисперсионный анализ)

Дисперсионный анализ позволяет оценить достоверность отличия нескольких выборочных средних одновременной, т. е. изучить влияние одного контролируемого фактора на результативный признак путем оценки его относительной роли в общей изменчивости этого признака, вызванной влиянием всех факторов.

Логико-теоретические основы

Задача дисперсионного анализа состоит в том, чтобы охарактеризовать силу и достоверность влияния фактора на признак, причем только на величину (средний уровень) признака, но не на его изменчивость. Дисперсионный анализ есть метод сравнения нескольких средних арифметических. В этом смысле он подобен методу сравнения двух средних арифметических с помощью критерия Стьюдента:

134

 

обобщенный

показатель

отличия

средних

 

T

 

 

 

 

 

обобщенный

показатель

случайного

варьирован

ия

 

T = (M1–M2)/ md, или T = dM/ md

где M1 , M2 – две выборочные средние,

dM – обобщенный показатель отличия выборочных средних,

md – обобщенная ошибка репрезентативности m d

m 12 m 22 .

Критерий сравнивает две средние арифметические двух выборок, полученных при разных условиях, при действии двух доз некоего фактора. В числителе этой формулы стоит оценка действия возможного доминирующего фактора, а в знаменателе стоит оценка действия случайных факторов варьирования выборочных значений. Если изучаемый фактор сказывается на значении вариант, то оценка его действия (dM) превысит оценку действия случайных факторов (md), хотя бы в 2 раза (критическое

значение критерия Стьюдента для репрезентативных выборок T(0.05,30) ≈ 2). В этом случае говорят о достоверном отличии средних арифметических, о достоверном влиянии на варианты различных

условий их формирования.

В дисперсионном анализе использован такой же показатель достоверности влияния фактора, но адаптированный к случаю сравнения нескольких выборок (критерий Фишера):

F= S²факт./ S²случ..

Вкачестве обобщенной меры отличия нескольких выборочных

средних выступает дисперсия, рассеяние выборочных средних (Mj) вокруг общей средней (Mобщ.):

 

 

k

 

S факт2

.

( M j

M общ . ) 2 / df факт . ,

где dfфакт. = k–1,

j= 1, 2, …k,

k– число сравниваемых средних.

В качестве обобщенной меры случайного варьирования служит дисперсия вариант (xi) вокруг средней в каждой градации (Mj):

 

 

k

n j

 

S случ2

.

 

( x ij

M j ) 2 / df случ . ,

где df случ. = n–1,

i = 1, 2, …n, n – число вариант всех выборок.

В этом отношении критерий Фишера, используемый для сравнения нескольких средних арифметических, подобен критерию Стьюдента, служащему для сравнения двух средних:

135

 

 

 

 

 

изменчивость

 

 

 

 

 

M

1 M

2

 

за счет систематических причин

 

 

S 2

факт .

T

 

 

 

 

––––––––––––––––––––––––––––

 

F

 

 

 

 

 

 

 

 

 

 

 

 

 

m d

 

 

изменчивость

 

 

S 2

случ .

за счет случайных причин

Применяя дисперсионный анализ, это обстоятельство важно всегда иметь в виду: несмотря на то, что критерий Фишера использует дисперсии, тем не менее, сравниваются друг с другом выборочные средние арифметические!

Техника расчетов

В основе однофакторного дисперсионного анализа (дословно – разложение дисперсий) лежит модель варианты (xi), которая выражает ее отклонение от общей средней (M) за счет действия контролируемого фактора (xфакт.) и действия случайных причин (xслуч.):

xi = M ±xфакт. ±xслуч.

Иными словами, отклонение варианты от общей средней связано с отклонением за счет действия изучаемого фактора и за счет действия прочих неучтенных факторов.

Каждой дозе изучаемого фактора соответствует одна выборка (градация). Поэтому каждая групповая (выборочная) средняя будет характеризовать реакцию объектов на соответствующую дозу изучаемого фактора и эффект изучаемого фактора можно выразить как отклонение групповой средней – от общей средней:

xфакт. = Mj M.

В свою очередь, от групповой средней каждая варианта будет отличаться в силу случайных неучтенных причин, эффект действия случайных факторов можно выразить как отклонение отдельной варианты от данной групповой средней:

xслуч. = xi Mj.

Получается, что отклонение варианты от общей средней будет равно отклонению групповой средней от общей средней (эффект учтенного фактора) и отклонению варианты от своей групповой средней (эффект неучтенных факторов). Отсюда:

(xi – M) = (Mj M) + ( xi Mj).

Обобщая эту запись для всех вариант выборки (возведя в

136

квадрат и суммировав), получаем правило разложения общей вариации признака на составные части, отражающие влияние всех названных причин:

Собщ. = Сфакт. + Сслуч.

Общая сумма квадратов признака рассчитывается как сумма квадратов отклонений всех вариант (xi) от общей средней (M):

Собщ. = Σ (xi – M)².

Факториальная сумма квадратов рассчитывается как сумма квадратов отклонений частных средних (Mi) для каждой выборки (всего k выборок) от общей средней:

Сфакт. = Σ (Mj – M)².

Остаточная (случайная) сумма квадратов есть сумма квадратов отклонений вариант каждой выборки (xi) от своей средней (Mj):

Сслуч. = Σ (xi – Mj)².

Параметры дисперсионного анализа и порядок их вычислений представлены в таблице 7.2.

Отношение сумм квадратов (SS, sum of squares) к соответствующему числу степеней свободы дает оценку величины дисперсии, или средний квадрат (MS, mean square), иногда ее именуют варианса. Влияние изучаемого фактора отражает факториальная, или межгрупповая, дисперсия S²факт., а влияние случайных неорганизованных в данном исследовании причин – случайная, или внутригрупповая, остаточная дисперсия S²случ., или S²остат.

 

 

 

 

 

 

 

 

 

 

 

Таблица 7.2

 

Суммы

 

 

 

Степе

Дисперси

 

Критер

 

 

 

 

 

 

 

и

 

ий

 

Состав-

квадратов

Сила

 

ни

 

 

 

 

 

(средний

 

влияни

 

ляющие

(SS),

влияния,

 

свобо

 

 

 

 

 

квадрат,

 

я,

 

дисперсии

 

 

η²

 

ды,

 

 

 

 

 

 

MS),

 

 

 

 

С

 

 

 

df

 

 

 

 

 

 

 

 

 

 

S²

 

F

 

 

 

 

 

 

 

 

 

 

 

Фактори-

Сфакт. =

 

C факт .

 

 

S² факт. =

 

 

 

 

 

k–1

 

 

C

 

 

 

F =

 

 

 

 

 

 

 

 

 

 

 

альная

Σ (Mj – M)²

 

C общ .

 

 

=

 

факт .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

df

факт .

 

 

 

137

Случайна

Сслуч. =

 

 

S²случ. =

 

2

 

 

n–k

 

C

 

 

 

S факт .

 

 

 

 

 

 

 

 

 

я

Σ (xi – Mj)²

 

=

случ .

 

 

S случ2 .

 

 

 

df

случ .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Общая

Собщ. =

 

 

 

 

 

 

 

 

 

дисперсия

Σ (xi – M)²

 

 

 

 

 

 

 

 

 

Сила влияния фактора определяется как доля частной суммы квадратов в общем варьировании признака. Показатель силы влияния

изучаемого

фактора

составляет:

η² факт.

=

Сфакт./ Собщ.,

неорганизованных (случайных): η² случ.

= Сслуч./

Собщ.;

сумма этих

показателей, естественно, равна единице: η² факт.+ η² случ. = 1.

В то же время нам кажется, что придавать большое значение этому индексу не стоит. Во-первых, в литературе показано, что он дает не точную характеристику вклада фактора в общую изменчивость и для него приходится рассчитывать некую поправку. Во-вторых, утверждение вроде "фактор влияет с силой 20%" ничего не передает, кроме впечатления о не очень большом влиянии фактора. Гораздо интереснее было бы дать прогноз возможных значений результативного признака при том или ином уровне действия фактора, а это можно сделать только с помощью регрессионного анализа или имитационного моделирования. По этим причинам мы рекомендуем рассматривать показатель η факт. как простую и удобную характеристику влияния фактора на признак, подталкивающую исследователя к решению о необходимости продолжения биометрического исследования в рамках регрессионного анализа. Чем большую долю в общей дисперсии занимает ее факториальная часть, тем большая часть общего разнообразия обусловлена варьированием за счет действия фактора.

Нулевая гипотеза гласит: "влияние фактора на признак отсутствует". Проверяют гипотезу по критерию Фишера:

F = S² факт./ S²случ. F (α, df1, df2),

где df1 = k–1, df2 = n–k,

k – число градаций результативного признака,

n – общий объем всех выборок по всем градациям.

Влияние считается достоверным, если величина расчетного критерия равна или превышает свое табличное значение с принятым

138

уровнем значимости (обычно α = 0.05) (F определяется по табл. 7П).

Дисперсионный анализ для количественных признаков

Однофакторным называется анализ, изучающий действие на результативный признак только одного организованного фактора А. Для примера оценим влияния растворенного в воде вещества на плодовитость дафний, используемых в качестве тест-объектов в воднотоксикологических экспериментах. В ходе предварительного исследования были получены четыре выборки, четыре группы значений плодовитости животных, выращенных в средах с разным содержанием химической добавки.

Сначала необходимо сгруппировать выборочный материал в комбинативную таблицу (организовать дисперсионный комплекс). Для этого варианты каждой выборки записываются в отдельные графы, именуемые градациями (табл. 7.3). Результативным признаком служит средняя плодовитость дафний за неделю (для иллюстративности расчетов она дана в целых числах). В нашем примере организованы 4 градации – чистая вода (контроль, градация А1; значения плодовитости 6, 5, 5, 7), слабая концентрация вещества (5 мг/л, А2; 8, 7, 6, 6), средняя (15 мг/л, А3; 8, 8, 7) и сильная (30 мг/л, А4; 8, 7, 9). Предлагаемый ниже алгоритм расчетов позволяет использовать неравное число вариант в градациях. Расчеты не сложны и показаны в таблице 7.3.

Таблица 7.3

 

 

 

Градации фактора

 

 

 

 

 

A1

 

A2

 

A3

 

A4

 

 

 

 

x

x2

x

x2

x

x2

x

x2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

36

8

64

8

64

8

64

 

 

 

5

25

7

49

8

64

7

49

 

 

 

5

25

6

36

7

49

9

81

 

 

 

7

49

6

36

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Σ

 

 

 

 

 

 

 

 

 

 

 

 

Σx²

 

135

 

185

 

177

 

194

691

H1 = ΣΣx² = 691

 

 

 

 

 

 

 

 

 

 

 

Σx

23

 

27

 

23

 

24

 

97

H2 = (ΣΣx)²/n =

 

 

 

 

 

 

 

 

 

 

139

 

 

 

 

 

 

 

 

 

 

 

 

n

4

 

4

 

3

 

3

 

14

= (97)²/14 = 672

 

 

 

 

 

 

 

 

 

 

 

 

 

Σx²/n

132

 

182

 

176.3

 

192

 

682.8

H3 = ΣΣx²/n =

 

 

 

 

 

= 682.8

 

 

 

 

 

 

 

 

 

 

 

 

M

5.8

 

6.8

 

7.67

 

8

 

6.93

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сфакт. = H3 – H2 = 682.8 – 672 = 10.76

Сслуч. = H1 – H2 = 691 – 672 = 8.17

Собщ. = H1 – H3 = 691 – 682.8 = 18.93

Полученные значения позволяют вычислить дисперсии, определить силу влияния фактора и критерий достоверности Фишера.

 

Суммы

 

Степен

 

Критери

 

квадрато

Сила

и

 

Составляющ

Дисперс

й,

в,

влияния,

свобод

ие дисперсии

 

ии,

 

 

η

ы,

 

 

 

 

F

 

С

 

df

 

 

 

 

 

Факториальн

10.76

57%

3

3.59

 

ая

 

 

 

 

 

 

Случайная

8.17

 

10

0.82

4.39

Общая

18.93

 

 

4.39

 

Поскольку полученное значение критерия (F = 4.39) больше

табличного (F(0.05,3,10) = 3.7) (табл. 7П), отличие факториальной и случайной дисперсий достоверно, влияние фактора значимо.

Отсюда следует биологический вывод: стимулирующее влияние изучаемого фактора (вещества) на плодовитость дафний относительно велико (57%) и достоверно (с вероятностью Р>0.95).

Выполнить дисперсионный анализ по представленному алгоритму можно и в среде Excel. Для этого введем подписанные метками (А1, А2…) данные в четыре столбца, отдельно для каждой градации.

140

Вызовем программу обработки командой Сервис \ Анализ данных…\ Однофакторный дисперсионный анализ, ОК. Заполним окно макроса, выделив блок данных с метками и поставив галочку в поле "Метки в первой строке", ОК. На новом листе (рис. 7.1) появятся результаты расчетов, идентичные приведенным в табл. 7.3. Чтобы все надписи были видны, нужно изменить ширину столбцов. Это можно сделать, нажав на серый квадрат слева вверху листа (над 1, левее А), перевести курсор на границу между любыми столбцами (курсор примет форму креста со стрелками, направленными в стороны) и дважды кликнуть левой кнопкой мыши. Ширина каждого столбца будет автоматически определена по максимально длинному содержимому какой-либо ячейки этого столбца.

С помощью макроса Однофакторный дисперсионный анализ в

рамках пакета Excel можно обрабатывать выборки самого разного размера, в том числе очень большого, поэтому мы не приводим специальных алгоритмов для ручного обсчета больших выборок.

141

Рис. 7.1. Дисперсионный анализ в среде Excel

Парные сравнения выборочных средних методом Шеффе

Дисперсионный анализ позволяет установить достоверность отличия нескольких средних арифметических друг от друга, но он не сообщает, какие именно средние от каких именно средних отличаются. Может статься, например, что действие фактора вызывает более или менее плавное изменение средних без заметных переломов в этой тенденции. При этом биологический вопрос может состоять в том, чтобы определить минимальную дозу фактора, которая по сравнению с контролем значимо влияет, изменяет среднюю для этой градации, т. е. определить "первую действующую концентрацию". Казалось бы, этот вопрос относится к задаче сравнения двух выборок: контрольная выборка поочередно сравнивается с выборками, полученными для все возрастающих доз фактора, а первое достоверное отличие средних как раз и означает, что данная доза уже "действующая". Однако с точки зрения статистики такое сравнение оказывается некорректным и неточным.

При таком "лобовом" попарном сравнении выборок одна из них (для градации контроля) все время участвует в этой процедуре, на основании которой формулируются разные статистические выводы о достоверности отличий средних с той или иной вероятностью. Тем самым эти выводы оказываются зависимыми друг от друга. Доверительная вероятность каждого из этих выводов, поэтому, от сравнения к сравнению уменьшается! Чем больше выводов сделано на одном и том же материале, тем меньше вероятность их справедливости.

Второе негативное обстоятельство связано с тем, что такая процедура учитывает далеко не всю информацию о явлении.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]