Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
206
Добавлен:
23.11.2019
Размер:
219.65 Кб
Скачать

29. Статистическая проверка гипотез. Критерии согласия и методы их использования. Критерий χ2, Смирнова-Колмогорова, Колмогорова.

Статистическая гипотеза - предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных.

Проверка статистической гипотезы - процесс принятия решения о том, противоречит ли рассматриваемая статистическая гипотеза наблюдаемой выборке данных.

Статистический тест или статистический критерий - строгое математическое правило, по которому принимается или отвергается статистическая гипотеза.

Методика проверки статистических гипотез

Пусть задана случайная выборка xm = (x1,…,xm).

1. Формулируется нулевая гипотеза H0 о распределении вероятностей. Чаще всего рассматриваются две гипотезы - основная или нулевая H0 и альтернативная H1 (верна, если H0 не верна).

2. Задаётся некоторая статистика (функция выборки), для которой в условиях справедливости гипотезы H0 выводится функция распределения F(T) и/или плотность распределения p(T). Вывод функции распределения F(T) при заданных H0 и T является строгой математической задачей.

3. Фиксируется уровень значимости — допустимая для данной задачи вероятность ошибки первого рода, то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число из [0,1]. На практике часто полагают 0.05.

4. На множестве допустимых значений статистики T выделяется критическое множество Ωα наименее вероятных значений статистики T, такое, что

5. Собственно статистический тест (статистический критерий) заключается в проверке условия:

если T(Xm) принадлежит Ωα, то делается вывод «данные противоречат нулевой гипотезе при уровне значимости α». Гипотеза отвергается.

если T(Xm) не принадлежит Ωα, то делается вывод «данные не противоречат нулевой гипотезе при уровне значимости α». Гипотеза принимается.

Если данные не противоречат нулевой гипотезе, это ещё не значит, что гипотеза верна. Есть ошибки второго рода: нулевая гипотеза может быть принята, хотя на самом деле она не верна.

Методика на основе достигаемого уровня

Достигаемый уровень значимости (пи-величина, англ. p-value) — это наименьшая величина уровня значимости, при которой нулевая гипотеза отвергается для данного значения статистики критерия T:

Если достигаемый уровень значимости достаточно мал (близок к нулю), то нулевая гипотеза отвергается. В частности, его можно сравнивать с фиксированным уровнем значимости; тогда альтернативная методика будет эквивалентна классической.

Значение  называется также -квантилем распределения .

Ошибка первого рода - нулевая гипотеза отвергается, хотя на самом деле она верна. Вероятность ошибки первого рода:

Ошибка второго рода - нулевая гипотеза принимается, хотя на самом деле она не верна. Вероятность ошибки второго рода:

Критерии согласия

Критерии согласия проверяют, согласуется ли заданная выборка с заданным фиксированным распределением, с заданным параметрическим семейством распределений, или с другой выборкой.

Критерий хи-квадрат (критерий Пирсона)

Нужен для сравнения эмпирического распределения F*(x) c теоретическим F(x). Проверяет, что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения.

Критерий Смирнова-Колмогорова он же Колмогорова

Критерий Колмогорова-Смирнова используется для проверки гипотезы : "случайная величина  имеет распределение .

Источники

http://www.machinelearning.ru/wiki/index.php?title=Статистический_тест

https://ru.wikipedia.org/wiki/Критерий_согласия_Пирсона