Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ivanter2000_vved_v_kolich_biol

.pdf
Скачиваний:
16
Добавлен:
14.04.2015
Размер:
3.42 Mб
Скачать

92

средней; между генеральной и выборочными средними всегда будет отличие, ошибка "воспроизводимости", ошибка репрезентативности.

Сравнение средних арифметических по критерию T Стьюдента

Задача сравнения выборочных средних – это вопрос о том, действовал ли в одной из выборок новый систематический фактор по сравнению с другой выборкой? В терминах статистики отличия между средними могут иметь два противоположных источника:

1.Обе выборки взяты из одной генеральной совокупности, но средние отличаются в силу ошибки репрезентативности.

2.Выборки взяты из разных генеральных совокупностей, отличие средних вызвано, в основном, действием разных доминирующих факторов (а также и случайно).

Статистическая задача состоит в том, чтобы сделать обоснованный выбор. Исходно предполагается (Но): "достоверных отличий между средними нет".

Отличить закономерное от случайного можно только на основе знания законов поведения случайной величины. Для исключения чужеродных ("выскакивающих") вариант мы применяли закон нормального распределения: в диапазоне четырех стандартных отклонений, 1.96∙S, отклонение вариант от средней происходит по случайным причинам; за границами этого диапазона лежат чужеродные для данной выборки значения. Поскольку выборочные средние имеют нормальное распределение (см. раздел Ошибка репрезентативности выборочных параметров), критерий отличия двух выборочных средних также базируется на свойствах нормального

распределения: в границах Mобщ.±1.96∙m (или приблизительно Mобщ.±2∙m) выборочные средние арифметические отличаются от общей (генеральной) средней по случайным причинам. Критерий отличия средних формируется по типу критерия "исключения", если одну из

выборочных средних (М1) принять в качестве генеральной средней, другую взять как "подозрительную" варианту (М2), а роль характеристики варьирования играет обобщенная ошибка репрезентативности (md):

93

t

x M

t

M 1

M 2

.

S

 

m d

 

 

 

 

Обобщенная ошибка получена объединением двух ошибок, рассчитанных по сравниваемым выборкам (для случая, когда выборочные дисперсии отличаются несильно):

m d m 12 m 22 ,

которые, в свою очередь, определены рассмотренным выше соотношением:

 

 

 

S

 

 

.

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда рабочая формула для T критерия отличия средних будет:

T

 

 

M 1

M 2

 

 

 

~ T(α, df).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m 12

 

 

m 22

Следует помнить, что разность средних нужно брать по модулю, т. е. без учета знака. Полученное этим способом значение критерия T Стьюдента сравнивают с табличным при выбранном уровне значимости (обычно для α = 0.05) и числе степеней свободы (объемы выборок без числа ограничений, df = n1+n2–2). Результатом такого сравнения должен стать один из двух вариантов следующего статистического вывода. Если полученное значение (величина) критерия больше табличного, значит, различия между параметрами при заданном уровне значимости и установленном числе степеней свободы достоверны. Если же полученная величина критерия меньше табличной, то при данном уровне значимости и числе степеней свободы различия между параметрами недостоверны. Последнее говорит о том, что различия случайны, никакого определенного вывода сделать нельзя, нулевая гипотеза остается не опровергнутой.

Табличные значения критерия следует брать из таблицы Стьюдента (табл. 6П). Обычно эта статистика соответствует нормальному распределению, но в случае небольших выборок дает необходимую поправку на объем выборки, предупреждает возможность сделать слишком жесткий вывод по недостаточным данным. По этой причине критерий различия средних арифметических носит название критерия Стьюдента. Одно из необходимых требований к применению этого критерия – это уверенность в том, что

94

изучаемые признаки имеют распределение, в целом соответствующее нормальному. Если такой уверенности нет, для сравнения средних арифметических лучше воспользоваться непараметрическими критериями.

Рассмотрим такой пример. В процессе специальных исследований было установлено, что у стариков (20 человек) до лечения инсулином среднее содержание белков в крови составляло 81.04±1.7, а после лечения 79.33±1.6. Нетрудно видеть, что полученные величины неодинаковы. Но достоверно ли это различие, закономерно ли оно? Можно ли утверждать, что лечение инсулином понижает содержание белков в крови? Согласно общей нулевой гипотезе средние не отличаются. Проверим ее с помощью критерия Стьюдента:

T

M

1 M

2

 

 

81 . 04 79 . 33

 

= 0.7.

 

 

 

 

 

 

 

 

m 12 m 22

1 . 7 2 1 . 6 2

 

 

 

 

 

 

По таблице граничных значений критерия (табл. 6П) находим, что для уровня значимости α = 0.05 и числа степеней свободы df =

20+20–2 = 38 величина критерия составляет T(0.05,39) = 2.03. Поскольку полученное значение (0.7) меньше табличного (2.03), нулевая гипотеза

сохраняется, различия между средними величинами статистически недостоверны (незначимы). Следовательно, влияние инсулина на содержание белков в крови приведенными выше данными не подтверждается и остается недоказанным, возможно, из-за недостаточного числа определений.

В среде Excel определить величину T можно с помощью двух функций. Первая из них имеет формат:

=ТТЕСТ(массив1;массив2;хвосты;тип),

где массив1 – диапазон со значениями вариант первой выборки, массив2 – диапазон со значениями вариант второй выборки, хвосты – число, определяющее какой критерий используется,

односторонний или двусторонний; обычно неизвестно, какая их средних величин должна быть больше, поэтому ставим 2 (двухсторонний),

тип – число, определяющее тип выполняемого теста, мы рассматривали двухвыборочный с равными дисперсиями, ставим 2 (двухпарный).

95

Результатом выполнения этой функции оказывается уровень значимости, соответствующий степени различия средних, т. е. вероятность того, что различия средних недостоверны. Поскольку обычно в биологии принимают в качестве границы уровень значимости α = 0.05, все значения функции =ТТЕСТ, меньшие 0.05, будут свидетельствовать о достоверных отличиях сравниваемых средних арифметических. Для рассмотренного выше случая оценки действия инсулина функция показала:

=ТТЕСТ(диапазон1;диапазон2;2;2) = 0.492876.

Вероятность того, что отличия недостоверны, очень высока (α = 0.49)! Расчетные уровни значимости можно перевести в привычную форму T критерия Стьюдента с помощью второй функции:

=СТЬЮДРАСПОБР(вероятность;степени_свободы),

где вероятность – уровень значимости, рассчитанный функцией =ТТЕСТ, т. е. ссылка на ячейку, содержащую формулу этой функции,

степени_свободы – число степеней свободы df = n1+n2–2.

В нашем случае =СТЬЮДРАСПОБР(0.492876;38) = 0.7.

Если объемы сравниваемых выборок существенно отличаются (n1n2) или их дисперсии далеко не равны (S²1S²2), для оценки достоверности отличий двух выборочных средних следует пользоваться другой, более точной, рабочей формулой:

T

 

 

 

 

 

 

 

 

M 1 M 2

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

1

 

 

( n

1 1 ) S 12

( n 2 1 ) S

22

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1 n 2 2

 

 

 

 

 

 

 

n 1

n 2

 

 

 

 

 

 

 

Сравним самцов и самок гадюки (см. данные в табл. 6.3 на стр. 108) по средней длине хвоста (M1 = 81.6, M2 = 65.1 мм), объемы выборок одинаковы (n1 = 8, n2 = 9), зато дисперсии отличаются (S²1 = 24.8, S²2 = 6.9). Величина критерия составит:

 

 

 

 

 

 

 

 

 

81 . 6 65 . 1

 

 

 

= 8.7.

T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

1

 

 

( 8 1 ) 24 . 8 ( 9 1 ) 6 . 9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

8

9

 

 

 

8 9

Отличие средних достоверно, поскольку рассчитанное значение

превышает табличное T(0/05,15) = 2.13.

Для этого случая при вычислениях в среде Excel следует

96

использовать третий тип критерия – двухпарный с неравными отклонениями: =ТТЕСТ(диапазон1;диапазон2;2;3) = 0.00000627,

и далее =СТЬЮДРАСПОБР(0.00000627;15) = 6.8.

Значения 8.7 и 6.8 немного отличаются, поскольку формула критерия для функции Excel несколько отличается от приведенной и более чувствительна к отличию дисперсий. Обычно расчеты по обоим формулам совпадают.

Когда исследуемые признаки подчиняются другому закону распределения, к ним могут быть применены другие критерии. Рассмотрим случай с распределением Пуассона. Как уже говорилось, для признаков, подчиняющихся этому закону, характерно совпадение по величине средней арифметической и дисперсии. Это позволяет

проводить

сравнение

 

и средних арифметических,

и дисперсий

по критерию F Фишера (подробнее см. ниже) и строить выводы

одновременно и по различию средних, и по различию дисперсий.

 

S 12

M 1

 

~ F(α, df1, df2).

 

F

 

 

 

 

 

 

 

 

 

 

 

 

S 22 1

M 2

1

 

Полученное значение сравнивается с табличным (табл. 7П) при

выбранном

уровне

значимости (α = 0.05) и степенях

свободы df1 =

2∙M2+2, df2 = 2∙M1.

Рассмотрим случай сравнения частоты встречаемости растений (фиалка) на нескольких пробных площадках двух типов лугов. Для каждого луга получили средние значения 1.5 и 14.2 экз. на 1 площадку. Нулевая гипотеза состоит, что плотность данного вида на лугах одинакова. Критерий Фишера дает:

 

M

1

14

. 2

= 5.68; df1

= 2∙(1.5+1) = 5, df2

= 2∙14.2 = 28.

F

 

 

 

 

 

 

1

 

1

 

M 2

1 . 5

 

 

 

Значение F = 5.68 больше табличного F(0.05,5,28) = 5.67; нулевую гипотезу можно отбросить и считать доказанным, что плотность

растений на лугах разного типа достоверно отличается.

При сравнении достоверности различия долей (p) альтернативных признаков применяют критерий Фишера с φ-преобразованием.

Вместо процентов берут фи-значения ( arcsin

p или по таблице

10П) и подставляют их в формулу:

97

 

F

( 1 2 ) 2 n 1 n 2

~ F(α, df1, df2),

 

 

 

 

n 1 n 2

где

φ1 и φ2 – преобразованные доли, n1 и n2 – объемы выборок.

 

Полученное значение сравнивают с табличным в соответствии с

заданным уровнем значимости, α = 0.05, и числом степеней свободы:

df1 = 1, df2 = n1+n2–2.

Например, в процессе учетов мелких млекопитающих в двух разных биотопах, где стояло по 200 ловушек, попалось соответственно 5 и 15 зверьков. Отличается ли численность животных на этих площадках? Если рассматривать ловушку как варианту, способную принимать два значения – "пустая" и "сработавшая" (со зверьком), то получаем выборку вариант (ловушек) с альтернативным распределением. Число пойманных особей можно пересчитать в процент сработавших ловушек:

М1 = 100%∙5/200 = 2.5%, М1 = 100%∙15/200 = 7.5%. По таблице 10П находим значения φ и вычисляем значение критерия:

F

( 0 . 318

1 . 555 ) 2 200 200

= 5.62.

 

 

 

200

200

 

 

 

 

 

 

 

Полученная

величина

(5.62)

больше

критической

F(0.05, 1, 398) = 3.9,

значит, численность мелких млекопитающих во

втором биотопе достоверно выше, чем в первом.

 

Сравнение двух выборок по изменчивости признака

При сравнении двух выборок статистические критерии позволяют оценить достоверность отличий стандартных отклонений, дисперсий и коэффициента вариации, характеризующих степень разнородности вариант двух выборок. Здесь могут возникнуть сомнения, как можно ставить вопрос о достоверности различий показателей, выражающих действие случайных причин, как можно говорить о неслучайном отличии проявлений случайности? Казалось бы, случайное не может отличаться от случайного! Парадокс легко разрешается, если вспомнить, что влияющих на признак случайных причин множество: xслуч. = Σxслуч.j (см. раздел Показатели изменчивости). Во-первых, на варианты разных выборок может действовать различное число случайных факторов, во-первых,

98

случайные факторы могут быть разного качества (сильные, слабые). Более сильные случайные факторы могут вносить большую прибавку к значениям признака, чем слабые. Поэтому чем их больше и чем они сильнее, тем в большей степени одни варианты будут отличаться от других, тем выше будет изменчивость в выборке (и ее оценки – дисперсия, стандартное отклонение и коэффициент вариации). Соответственно, если в сравниваемых выборках "действовали" случайные факторы, отличные по числу или качеству, дисперсии будут отличаться достоверно.

Сравнение стандартных отклонений по критерию T Стьюдента

Существует два распространенных подхода к установлению достоверности отличий между выборочными дисперсиями, хотя нулевая гипотеза (Но) в обоих случаях одинакова: сравниваемые выборки взяты из одной генеральной совокупности, т. е. выборочные дисперсии служат отражениями одной и той же генеральной дисперсии. Стандартные отклонения можно сравнить с помощью критерия Стьюдента:

T

 

S 1

S 2

 

~ T(0.05, n1+n2–2),

 

 

 

 

 

 

 

 

 

 

m 12

m 22

 

 

 

 

 

 

 

 

 

 

 

оценив ошибку формуле: m S

 

S

 

.

 

 

 

 

 

 

 

2 n

Сравнение дисперсий по критерию F Фишера

Наиболее точным методом определения достоверности различий между выборочными дисперсиями служит критерий F Фишера, который представляет собой отношение дисперсий (большее значение должно стоять в числителе):

F

S 12

~ F(α, df1, df2),

S 22

 

 

где S1 > S2, df1 = n1–1, df2 = n2–1.

Если полученная величина F больше табличного значения при

99

принятом уровне значимости (табл. 7П для α = 0.05 и табл. 8П для α = 0.01) и числе степеней свободы (df1 и df2), то различие между дисперсиями признается достоверным; если она меньше, то расхождение между ними может считаться несущественным, случайным, т. е. нулевая гипотеза не отвергается.

Рассмотрим такой пример. При сравнении по показателю плодовитости (число эмбрионов на самку) двух популяций красной полевки с разным уровнем численности (у первой, горной, популяции плотность населения в два раза выше, чем у равнинной) оказалось, что при очень близких средних арифметических (соответственно M1 = 5.8 и M2 = 5.4, разница статистически недостоверна) стандартные отклонения значительно различаются: S1 = 1.82, S2 = 0.52 (при n1 = 27, n2 = 12). Отсюда

F

 

S

12

 

3.3124

12.25 .

 

 

 

 

 

 

 

S 22

0.2704

 

 

Полученное значение критерия (12.2) больше

табличного

F(0.05,26,11)

=

2.6,

следовательно, нулевую гипотезу о

случайности

отличий можно отбросить, сделав вывод о том, что показатели изменчивости плодовитости в разных по численности популяциях достоверно отличаются. С биологических позиций это понятно, поскольку генетические отличия между особями практически по всем признакам, включая плодовитость, в больших популяциях выше, чем в малых. Новым фактором, усиливающим изменчивость особей в выборке, становится возможность появления аберрантных форм в условиях более свободной панмиксии.

В среде Excel определить величину F можно с помощью двух функций. Первая из них имеет формат:

=ФТЕСТ(массив1;массив2),

где массив1 – диапазон со значениями вариант первой выборки, массив2 – диапазон со значениями вариант второй выборки. Результатом выполнения этой функции оказывается уровень

значимости, соответствующий степени различия дисперсий, т. е. вероятность того, что различия дисперсий недостоверны. Поскольку обычно в биологии принимают в качестве границы уровень значимости α = 0.05, все значения функции ФТЕСТ, меньшие 0.05, будут свидетельствовать о достоверных отличиях между выборочными дисперсиями. Для рассмотренного выше случая функция показала:

100

=ФТЕСТ(диапазон1;диапазон2) = 0.000058.

Расчетные уровни значимости можно перевести в привычную форму F критерия Фишера с помощью второй функции:

=FРАСПОБР(вероятность;степени_свободы1;степени_свободы2),

где вероятность – уровень значимости, рассчитанный функцией ФТЕСТ или ссылка на ячейку, содержащую формулу этой функции,

степени_свободы1 – число степеней свободы для выборки с большей дисперсией, df1 = n1–1,

степени_свободы2 – число степеней свободы для выборки с меньшей дисперсией, df2 = n2–1.

В нашем случае =FРАСПОБР(0.000058;26;11) = 12.28.

Сравнение коэффициентов вариации по критерию T Стьюдента

Коэффициенты вариации не имеют единиц измерения, поэтому их можно использовать для сравнения изменчивости разных показателей. Достоверность отличий коэффициентов оценивается с помощью критерия Стьюдента по формуле:

T

CV 1

CV 2

 

~ T(0.05,n1+n2–2),

 

 

 

 

 

 

 

 

 

m 12

m 22

где CV1, CV2 – значения коэффициентов вариации, m1, m2 – ошибки коэффициентов вариации.

Вывод о достоверности отличий делается в том случае, если рассчитанное значение превысит табличное при заданном уровне значимости α = 0.05 и числе степеней свободы df = n1+ n2–2. Сравним по критерию Стьюдента изменчивость веса тела землероек и плодовитости лисиц: CV1 = 8.6±0.77%, n1 = 63; CV2 = 26.7±2.2%, n2 = 76, отсюда

T

 

8 . 6 26 .

7

 

= 7.76.

 

 

 

 

 

 

 

 

 

 

 

 

 

0 . 77 2

2

. 2 2

 

 

Поскольку полученное значение (7.8) больше табличного

(T(0.05, 137) = 1.96), изменчивость плодовитости лисиц достоверно выше, чем изменчивость веса тела землероек.

Сравнение двух выборок в целом (непараметрические критерии)

101

Описанные выше статистические критерии (T, F и др.) относятся к параметрическим, так как используют стандартные параметры распределений (М, S, n). Они связаны с законом нормального распределения и применяются для оценки расхождения между генеральными параметрами по выборочным показателям сравниваемых совокупностей. Существенным достоинством параметрических критериев служит их большая статистическая мощность, т. е. широкие разрешающие возможности, а недостатком – трудоемкость расчетов, неприменимость к распределениям, сильно отклоняющимся от нормального, а также при исследовании качественных признаков.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]