- •Статистические методы обработки данных в экологии Методические рекомендации по изучению дисциплины
- •Оглавление
- •Рекомендуемая литература Основная литература
- •Дополнительная литература
- •Предисловие
- •Методические рекомендации по изучению дисциплины
- •Тема 1. Сущность и цели обработки данных
- •1.1 Методические рекомендации по изучению данной темы
- •1.2 Основные теоретические сведения
- •1.3 Вопросы для самоконтроля
- •Тема 2. Первичная статистическая обработка данных
- •2.1 Методические рекомендации по изучению данной темы
- •2.2 Основные теоретические сведения
- •2.3 Вопросы для самоконтроля
- •Тема 3. Проверка статистических гипотез относительно двух выборочных совокупностей
- •3.1 Методические рекомендации по изучению данной темы
- •3.2 Основные теоретические сведения
- •3.3 Вопросы для самоконтроля
- •Тема 4. Дисперсионный анализ
- •4.1 Методические рекомендации по изучению данной темы
- •4.2 Основные теоретические сведения
- •4.3 Вопросы для самоконтроля
- •Тема 5. Непараметрические методы факторного анализа
- •5.1 Методические рекомендации по изучению данной темы
- •5.2 Основные теоретические сведения
- •5.3 Вопросы для самоконтроля
- •Тема 6. Корреляционный анализ
- •6.1 Методические рекомендации по изучению данной темы
- •6.2 Основные теоретические сведения
- •6.3 Вопросы для самоконтроля
- •Тема 7. Регрессионный анализ
- •7.1 Методические рекомендации по изучению данной темы
- •7.2 Основные теоретические сведения
- •7.3 Вопросы для самоконтроля
- •Задания для контрольной работы и требования по ее оформлению Требования к оформлению контрольных работ
- •Задания для контрольной работы
3.3 Вопросы для самоконтроля
Как проверить гипотезу о равенстве дисперсий двух нормальных генеральных совокупностей по имеющимся выборкам из них?
Как проверить гипотезу о равенстве математических ожиданий двух независимых нормальных генеральных совокупностей по имеющимся выборкам из них?
Как проверить гипотезу о равенстве математических ожиданий двух зависимых нормальных генеральных совокупностей по имеющимся выборкам из них?
Что называется рангом наблюдения в выборке?
Можно ли применять ранговые критерии проверки однородности генеральных совокупностей, имеющих дискретные законы распределения?
Что такое средние ранги? Когда они используются?
Как проверяется гипотеза об однородности двух зависимых выборок с использованием ранговых критериев?
Тема 4. Дисперсионный анализ
В результате изучения данной темы студент должен иметь представление:
о задачах дисперсионного анализа;
знать:
основы однофакторного и двухфакторного дисперсионного анализа;
и уметь использовать:
методы дисперсионного анализа для решения прикладных задач.
4.1 Методические рекомендации по изучению данной темы
Сначала ознакомьтесь с основными теоретическими сведениями приведенными выше. Затем тщательно изучите материал, изложенный в главе 5 учебного пособия. Внимательно разберите решения примеров приведенных в главе 5 учебного пособия. Если после изучения учебного пособия вам остались непонятны некоторые вопросы, обратитесь к рекомендуемой литературе. Затем ответьте на вопросы для самоконтроля. Из контрольной работы выполните шестое и седьмое задания своего варианта.
4.2 Основные теоретические сведения
Цель и задачи дисперсионного анализа
При проведении исследований часто возникает необходимость оценки влияния на исследуемую величину одного или нескольких факторов, которые носят качественный характер. Примером может служить определение эффективности лечения несколькими лекарствами (первый фактор) при различных стадиях болезни (второй фактор). Подобные задачи решаются с использованием методов дисперсионного анализа (когда закон распределения исследуемой величины известен) или непараметрических методов (при неизвестном законе распределения).
Однофакторный дисперсионный анализ в модели с фиксированными эффектами
Пусть изучается влияние на исследуемую величину какого-либо одного фактора A, который имеет k уровней A1 ,.., Ak, причем эти уровни зафиксированы экспериментатором в том смысле, что на исследуемую величину оказывают влияние именно уровни фактора, а все изменения за счет остальных (мешающих) факторов незначительны. В этом случае говорят о модели дисперсионного анализа с фиксированными эффектами.
Результаты измерений, когда на каждом из k уровней было проведено по n наблюдений исследуемой величины, можно представить в виде таблицы.
Номер наблюдения |
Уровни фактора А |
||||
А1 |
|
Aj |
|
Ak |
|
1 2 … i ... n |
x11 x12 ... xi1 … xn1 |
… … … … … … |
x1j x2j ... xij … xnj |
… … … … … … |
x1k x2k ... xik … xnk |
Модель такого анализа имеет вид
,
,
.
где
– математическое ожидание (среднее),
соответствующее j-му
уровню фактора;
– генеральное среднее;
– дифференциальный эффект
j-го
уровня фактора;
– независимые случайные величины,
имеющие нормальное распределение с
нулевым средним и одинаковой дисперсией
σ2.
Задача дисперсионного
анализа – выяснение существенности
влияния фактора A
на исследуемую величину, т.е. определения
отличия средних значений для каждой
группы данных. Для этого необходимо
проверить нулевую гипотезу H0:
против альтернативной H1:
.
Проверка гипотезы H0 основана на сопоставлении двух независимых оценок дисперсии σ2. Одна из оценок действует вне зависимости от того, верна ли гипотеза H0, вторая – существенно зависит от справедливости гипотезы H0. Сопоставляя эти две оценки, можно вынести заключение о справедливости гипотезы H0.
Указанные оценки строятся на основании разложения суммы квадратов отклонений значений xij от оценки генерального среднего
на две суммы квадратов:
где
– выборочное среднее значение для j-го
уровня фактора A.
Разделив указанные суммы на соответствующие им степени свободы, получим две оценки дисперсии σ2:
,
.
Эти оценки при справедливости гипотезы H0 являются несмещенными оценками дисперсии σ2.
Однако, при
отклонении от гипотезы H0
оценка
получает смещение, величина которого
тем больше, чем больше отклонение от
гипотезы.
Сопоставление
этих двух оценок дисперсии
и
осуществляется с использованием
статистики Фишера
,
которая имеет число степеней свободы k-1 и k(n-1).
Влияние фактора
A
на исследуемую величину считается
значимым с уровнем значимости α,
если вычисленное значение статистики
F
больше
α-процентной
точки распределения статистики Фишера
.
Если гипотеза о равенстве средних отвергнута, то можно сделать вывод о том, что все или некоторые средние μj не совпадают. Чтобы проверить, какие именно из средних не равны, нужно провести дополнительные исследования.
Можно, например, проверять несовпадение попарно, однако при этом общий уровень значимости (т.е. уровень значимости всех критериев) обычно будет отличаться от заданного уровня α. Поэтому следует применять методы множественного сравнения, позволяющие проверять также гипотезы для любых линейных комбинаций средних.
В методе множественных
сравнений Шеффе для проверки гипотезы
H0:
против H1:
нужно построить доверительный интервал
,
где
Если этот интервал не содержит ноль, то гипотеза H0 отклоняется.
Сравнение средних необходимо проводить в следующем порядке. Сначала сравнить группу с наибольшим выборочным средним с группой имеющей наименьшее выборочное среднее, затем с группой с наименьшим выборочным средним среди остальных групп и т.д. Когда при сравнении обнаружится, что μj и μt различаются незначимо или не останется группы с меньшим выборочным средним, следует заменить группу с наибольшим средним на группу со вторым по величине средним и начать процедуру сначала.
Однофакторный дисперсионный анализ в модели со случайными эффектами
В модели со случайными эффектами совокупности, соответствующие различным уровням фактора, выбираются случайно из большого (бесконечного) числа совокупностей. Каждой совокупности присваиваются номер от 1 до k и j-я совокупность считается соответствующей j-му уровню фактора. Из каждой совокупности случайно выбираются n объектов и рассматриваются значения x1j, x2j, ..., xnj. Предполагается, что эти наблюдения распределены нормально со средним mj и дисперсией σ2, не зависящей от уровня j фактора. Кроме того, предполагается, что средние m1, ..., mk представляют собой случайную выборку из совокупности, распределенной нормально со средним μ и дисперсией σa2.
Модель однофакторного дисперсного анализа со случайными эффектами описывается уравнением
,
где aj – дифференциальный эффект уровня фактора, который представляет собой случайную величину, распределенную нормально с нулевым средним и дисперсией σa2.
В этой модели нас тоже интересует, есть ли изменчивость между группами, однако интерпретация такой изменчивости иная. Теперь проверяется гипотеза H0: σa2 = 0 при H1: σa2 ≠ 0, означающая, что фактор не вносит никакого вклада в дисперсию. Можно показать, что проверкой этой гипотезы используется то же самое F-отношение:
.
Подчеркнем, что в реальной задаче выбор модели дисперсионного анализа производится фактически при принятии решения о целях исследования и способе взятия выборки.
Проверка однородности дисперсий
При использовании стандартных методов дисперсионного анализа необходимо условие равенства дисперсий остаточных случайных величин. Если нет уверенности в том, что это условие выполняется, следует проводить проверку однородности дисперсий.
Чтобы избавиться от серьезных сомнений в применимости стандартного метода, должно быть веское подтверждение однородности дисперсий, поэтому при проверке часто используется очень малый уровень значимости (порядка 0.001). При больших объемах выборок могут использоваться большие уровни.
В критерии Барлетта для проверки гипотезы H0: σ12 =...= σk2 используется статистика
,
где
– оценка дисперсии
j-й
совокупности и
– объединенная
оценка дисперсии, которые определяются
из выражения:
,
;
,
.
Эта статистика имеет распределение χ2 с k-1 степенями свободы.
Критерий Кочрена основан на статистике
,
при этом объемы выборок, по которым рассчитаны одинаковы.
Распределение этой статистики известно точно и зависит от числа степеней свободы n-1 и количества выборок. Критические значения статистики G находят по таблицам процентных точек распределения Кочрена.
Двухфакторный дисперсионный анализ с пересечением уровней факторов
В двухфакторном дисперсионном анализе изучается влияние на исследуемую величину двух факторов A и B, каждый из которых имеет конечное число уровней. При этом ставится задача о том, как влияют и влияют ли вообще эти факторы на исследуемую величину.
Два фактора A и B называются пересекающимися, если в плане эксперимента предусмотрены все возможные сочетания факторов. Поэтому для фактора A с k уровнями и фактора B с n уровнями такой план должен содержать по меньшей мере одно наблюдение для каждой из kn комбинаций уровней. Комбинацию ij, где i – уровень фактора А, а j – уровень фактора В, называют ij-ячейкой. В каждой ячейке располагаются значения случайной величины X, полученной при m повторных наблюдениях. Результаты наблюдений можно представить в виде таблицы
|
А1 |
|
Ai |
|
Ak |
B1 |
x111 ... x11t … x11m |
… … … … … |
xi11 ... xi1t … xi1m |
… … … … … |
xk11 ... xk1t … xk1m |
... |
... |
... |
... |
... |
... |
Bj |
x1j1 ... x1jt … x1jm |
… … … … … |
xij1 ... xijt … xijm |
… … … … … |
xkj1 ... xkjt … xkjm |
... |
... |
... |
... |
... |
... |
Bn |
x1n1 ... x1nt … x1nm |
… … … … … |
xin1 ... xint … xinm |
… … … … … |
xkn1 ... xknt … xknm |
Модель дисперсионного анализа фиксированными эффектами имеет вид
,
где
– генеральное среднее;
– дифференциальный эффект фактора А;
– дифференциальный эффект фактора B;
Величина
называется взаимодействием i
уровня фактора А
и j
уровня фактора В,
если этот эффект не выражается суммой.
Случайные величины
предполагаются
независимыми и распределенными нормально
с нулевым средним и неизвестной
дисперсией, одинаковой для всех i
и j.
Проверяемыми гипотезами являются:
H0: |
|
H0: |
|
H0: |
|
Эти гипотезы проверяются соответственно с помощью F-отношений
;
,
.
Здесь
|
|
|
|
В случае m
= 1 (неповторяемый
эксперимент) нельзя вычислить оценку
,
поэтому в качестве нее используют
.
