- •Дисперсионный анализ
- •11 Однофакторный дисперсионный анализ
- •1. Краткие сведения из теории статистики
- •2. Справочная информация по технологии работы
- •12. Двухфакторный дисперсионный анализ без повторений и с повторениями
- •1. Краткие сведения из теории статистики
- •2. Справочная информация по технологии работы
Дисперсионный анализ
11 Однофакторный дисперсионный анализ
1. Краткие сведения из теории статистики
Ранее были рассмотрены процедуры оценки значимости различия между средними двух выборок. Первая из возможных вероятностных моделей строилась на предположении, что обе выборки извлечены из нормальных совокупностей с общей дисперсией (), но, возможно, с различными математическими ожиданиями. С помощью этой модели проверялось, согласуются ли выборочные данные с нулевой гипотезой о фактическом равенстве этих математических ожиданий. На практике эти две выборки могли быть измерениями каких-либо сопоставимых величин, полученных в результате различных «обработок», а расхождение между математическими ожиданиями, если оно имеется, можно было приписать различию действия (эффекта) обработок. Например, измерения могли быть урожаями пшеницы, а две обработки соответствовали бы применению различных удобрений, так что одно из удобрений вносится на том поле, где собирают данные о первой выборке, а другое - на том, откуда поступают данные о второй выборке.
Одними из первопроходцев в области разработки статистических методов проверки гипотез были исследователи, занимавшиеся изучением сельского хозяйства. Так, дисперсионный анализ первоначально был предложен Р. Фишером (1925) для обработки результатов агрономических опытов по выявлению условий, при которых испытываемый сорт сельскохозяйственной культуры дает максимальный урожай.
Но как сравнить три обработки и более? Один из способов состоит в их попарном сравнении, когда для каждой пары применяются методы, рассмотренные ранее. Это довольно обременительно и не может быть признано удовлетворительным (не все пары будут независимыми), поэтому предпочтительнее обобщить двухвыборочную процедуру так, чтобы можно было ответить на вопрос: равны ли три (или более) математических ожидания?
Таким обобщением на три (и более) выборки является метод дисперсионного анализа, или ANOVA (Analysis of Variance — дисперсионный анализ), который служит для установления влияния отдельных факторов на изменчивость какого-либо признака, значения которого могут быть получены опытным путем в виде случайной величины Y. При этом величину Y называют результативным признаком, а конкретную реализацию фактора А — уровнем (группой) фактора А или способом обработки и обозначают через .
В зависимости от числа оказывающих влияние факторов различают однофакторный и многофакторный (двухфакторный и т. д.) дисперсионный анализ.
Задачи однофакторного дисперсионного анализа хотя и являются самыми простыми в своем классе, но тем не менее весьма часто встречаются на практике. Типичный пример - сравнение по достигаемым результатам нескольких уровней фактора, например установление зависимости выполненных на стройке за смену работ от работающей бригады (см. пример 1).
Методы дисперсионного анализа основываются на идеях о различии средних. Логика рассуждений при этом состоит в следующем.
Пусть - математическое ожидание результативного признака соответственно при уровне .
Если при изменении уровня фактора групповые математические ожидания не изменяются, т. е. , то считаем, что результативный признак не зависит от фактора А, в противном случае такая зависимость имеется. Но поскольку числовые значения математических ожиданий неизвестны, возникает задача проверки гипотезы
Проверить гипотезу о равенстве групповых математических ожиданий можно, соблюдая следующие требования при каждом уровне фактора:
-
наблюдения независимы и проводятся в одинаковых условиях;
-
результативный признак имеет нормальный закон распределения с постоянной для различных уровней генеральной дисперсией .
При этом возникает вопрос, как установить, одинаковы генеральные дисперсии результативного признака при различны уровнях фактора или нет? Не зная числовых значений этих дисперсий, нельзя однозначно ответить на этот вопрос, можно лишь проверить гипотезу
В лекции 9 для проверки гипотезы был предложен критерий Фишера, но он применим только для двух выборок. Для проверки гипотезы о равенстве дисперсий трех (и более) нормальных распределений применяется критерий Бартлетта
При выполнении гипотезы , величина w имеет распределение, близкое к -распределению с к=т-1степенями свободы. Для подтверждения (или опровержения) гипотезы при заданном уровне значимости а находится правосторонняя критическая точка , определяющая критический интервал . Если wp попадает в интервал , то гипотеза , отвергается, в противном случае -принимается.
Если гипотеза подтверждается, то можно приступить непосредственно к процедуре дисперсионного анализа, т. е. к проверке гипотезы . Сама процедура дисперсионного анализа базируется на том, что изменчивость или вариация наблюдаемых значений результативного признака Y может быть вызвана изменчивостью уровней фактора А и изменчивостью значений случайных неконтролируемых факторов, влияющих на Y, которые называют остаточными.
В математической статистике доказывается формула разложения общей выборочной дисперсии на сумму дисперсии групповых средних и средней из групповых дисперсий
На основе данного разложения для генеральной дисперсии находят три несмещенные оценки: . Причем является несмещенной оценкой в любом случае, а - только при выполнении гипотезы , т.е. только в том случае, когда фактор А не влияет на результативный признак Y.
Проверка гипотезы Но о равенстве групповых математических ожиданий основывается на сравнении оценок . В математической статистике доказывается, что если гипотеза верна, то величина
имеет F-распределение с числом степеней свободы k=m-1 b l=n-m, т.е.
Если расчетное значение F-критерия Fp попадает в интервал то гипотеза Но о равенстве групповых математических ожиданий отвергается, т. е. считаем, что фактор А влияет на результативный признак Y. Если же , то гипотеза Но не отвергается, и в этом случае говорят, что влияние фактора А на признак Y не подтвердилось выборочными наблюдениями.
Если в процессе анализа выявлено влияние фактора А на результативный признак Y, то можно измерить степень данного влияния с помощью выборочного коэффициента детерминации
который показывает, какая доля выборочной дисперсии объясняется зависимостью результативного признака У от влияющего фактора А
Итак, однофакторный дисперсионный анализ позволяет по выборочным данным выяснить, влияет ли контролируемый фактор на результативный признак, и при наличии такого влияния оценить его степень.