Тема 7. Гипотезы об «однородности». Однофакторный дисперсионный анализ.
1. Критерий однородности Колмогорова-Смирнова.
Пусть наблюдение состоит из двух независимых выборок: – выборка из распределения , – выборка из распределения , и независимы. Основная гипотеза заключается в том, что выборки и однородны (являются выборками из одного и того же распределения), то есть :
: .
Требуется составить критерий для проверки гипотезы .
Если функция является непрерывной, то для проверки гипотезы может использоваться критерий однородности Колмогорова-Смирнова, статистика которого имеет вид:
,
где – эмпирическая функция распределения выборки и – эмпирическая функция распределения выборки . Если гипотеза не верна, то есть , то функции эмпирического распределения и сходятся к различным функциям, поэтому точная верхняя грань модуля разности не стремится к нулю с увеличением , а стремится к конечному числу отличному от нуля, которое затем умножается на возрастающую величину . Отсюда следует, что в случае если гипотеза не верна статистика с большой вероятностью принимает «большие» значения, поэтому «большие» значения статистики свидетельствуют против гипотезы и в критическую область гипотезы следует отнести «большие» значения статистики :
,
где пороговое значение определяется из распределения статистики и заданного уровня значимости . При больших и распределение статистики может быть вычислено приближенно на основе теоремы Смирнова.
Теорема 7.1. (Смирнов)
Пусть и – независимые выборки из распределения , – функция эмпирического распределения выборки , – функция эмпирического распределения выборки и статистика :
.
Если – непрерывная функция, тогда для любого фиксированного :
.
Без доказательства.
Таким образом, если гипотеза верна, то при больших и для заданного уровня значимости получим приближенное равенство:
,
,
откуда численно определяется значение .
2. Критерий Фишера.
Пусть наблюдение образовано двумя независимыми выборками: – выборка из нормального распределения , – выборка из нормального распределения , и – независимы, параметры , , и – неизвестны. Основная гипотеза заключается в том, что :
: .
Требуется составить критерий проверки гипотезы .
Для проверки гипотезы используется критерий Фишера со статистикой:
, , , , |
(7.1) |
Утверждение 7.2.
Пусть – выборка из нормального распределения , – выборка из нормального распределения , и – независимы. Основная гипотеза заключается в том, что .
Если гипотеза верна, тогда статистика (7.1) имеет распределение Фишера .
Доказательство:
Согласно теореме Фишера (теорема 5.5) случайная величина имеет распределение , а случайная величина имеет распределение , причем и независимы, поскольку выборки и независимы.
Если гипотеза верна, тогда :
,
где обозначает случайную величину, имеющую распределение . Случайная величина с независимыми и по определению имеет распределение Фишера .
Утверждение доказано.
Распределение Фишера при одновременном возрастании и «концентрируется» в малой окрестности 1, поэтому если гипотеза верна, то значение статистики с большой вероятностью оказывается близким к 1.
Можно показать, что если гипотеза не верна, то есть (пусть для определенности ), то статистика сходится по вероятности к отношению при одновременном возрастании и :
, при .
Таким образом, если гипотеза не верна, то распределение статистики «концентрируется» в окрестности .
Отсюда следует, что в качестве критической области гипотезы следует выбирать те значения статистики , которые «больше 1»:
,
где – квантиль распределения Фишера уровня , где – заданный уровень значимости.