- •Критерий хи-квадрат проверки гипотез.
- •1. Проверка простой гипотезы о вероятностях
- •2. Проверка сложной гипотезы о вероятностях
- •3. Проверка гипотезы о типе распределения.
- •5. Проверка гипотезы о независимости признаков (таблица сопряженности признаков).
- •6. Проверка гипотезы об однородности выборок.
- •Задания для самостоятельного выполнения.
- •Часть 1.
- •Часть 2.
МОСКОВСКИЙ ЭНЕРГЕТИЧЕСКИЙ ИНСТИТУТ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)
ИНСТИТУТ АВТОМАТИКИ И ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ
КАФЕДРА ПРИКЛАДНОЙ МАТЕМАТИКИ
Лабораторная работа № 5.
Критерий хи-квадрат проверки гипотез.
Выполнил
студент группы А-13-08
каф. Прикладной Математики
Захаров Антон
Преподаватель
Тигетов Давид Георгиевич
Москва, 2011
1. Проверка простой гипотезы о вероятностях
Обозначим:
A1, ..., Am-mвозможных исходов некоторого опыта;p1, ..., pm - вероятности cooтветствующих исходов,;
n- число независимых повторений опыта;
1, ..., m- число появлений соответствующих исходов вnопытах,;
p, ..., p- гипотетические значения вероятностей,p 0,.
Требуется по наблюдениям 1,...,m проверить гипотезуНо том , что вероятности p1, ..., pmимеют значенияp, ..., p, т.е.
Н: pi= p, i=1, ...,m.
Оценками для p1, ..., pmявляются=1 /n,...,=m/n. Мерой расхождения между гипотетическими и эмпирическими вероятностями принимается величина
,
которая с точностью до множителя nесть усредненное с весамиpзначение квадрата относительного отклонения значенийот p.СтатистикаX2называется статистикой хи-квадрат Пирсона. Для ее вычисления используются две формулы:
. (1)
Условно статистику можно записать так:
Н - наблюдаемые частоты i, Т - теоретические (ожидаемые) частотыnp. Поскольку по закону больших чисел pi приn, то
.
Последняя величина равна 0, если верна Н; если жеНне верна, тоX2 .
Процедура проверки гипотезы состоит в том, что если величина X2 приняла “слишком большое” значение, т.е. если
X2 h, (2)
то гипотеза Нотклоняется; если это не так, будем говорить, что наблюдения не противоречат гипотезе. На вопрос, что означает “слишком большое” значение, отвечает
Теорема К. Пирсона. Если гипотезаНверна иpi0 > 0,i=1,...,m, то приn распределение статистикиХ2 асимптотически подчиняется распределению хи-квадрат сm- 1 степенями свободы, т.е.
Р{ X2 < x / H } Fm-1(x) P{ 2m-1< x }.
Порог hвыберем из условия: вероятность ошибки первого рода должна быть малой - равной выбираемому значению- уровню значимости:
P{ отклонитьH/ H верна} =P{X 2 h / H}P{2m-1 h} =,
откуда
h = Q(1-, n -1) (3)
- квантиль уровня 1-распределения хи-квадрат сm -1 степенями свободы.
Процедура (2) - (3) проверки Нможет быть записана иначе: гипотезаН отклоняется, если
P{2m-1 X2} , (4)
т.е. если мала вероятность получения (при справедливости Н) такого же расхождения, как в опыте (т.е.X2), или ещё большего. Вероятность слева в (4) называется минимальным уровнем значимости (при любом значении, большемP{X2m-1 X2}, гипотеза, очевидно, отклоняется).
Замечание. Теорему Пирсона можно применять, если все ожидаемые частоты
np10,i=1, ...,m;(5а)
если mпорядка десяти и более, достаточно выполнения
np 4,i=1, ...,m. (5б)
Если (5) не выполняется, необходимо некоторые исходы Аi объединять
2. Проверка сложной гипотезы о вероятностях
Пусть A1, ...,Am -mисходов некоторого опыта,n- число независимых повторений опыта,1,...,m - числа появлений исходов. Проверяемая гипотезаНпредполагает, что вероятности исходовP(Ai)являются известными функциямиpi(a) k-мерного параметраa = (a1,...,ak), т.е.
Н: Р(Аi) = pi(a), i = 1, ..., m,
но значение анеизвестно.
Для проверки гипотезы Нопределим статистику
(6)
По теореме Фишера, если Нверна, то приnраспределение статистикиХ2асимптотически подчиняется распределению хи-квадрат с числом степеней свободыf = m-1- k,и потомуотклоняем Н, если
h, (7)
где h = Q(1-, f) - квантиль уровня 1-распределения хи-квадрат с числом степеней свободыf; такой порог обеспечивает выбранный уровеньвероятностиP(отклонитьН / Н) ошибки 1-го рода. Если (7) не выполняется, делаем вывод, чтонаблюдения не противоречат гипотезе. Распределению хи-квадрат сf = m-1-kстепенями свободы асимптотически подчиняется также статистика
, (8)
где - оценка максимального правдоподобия дляа, и потому в (7) может быть использована статистика (8) вместо (6). Процедура (7) может быть записана иначе: если
P{f2 X2} (9)
то гипотеза Нотклоняется.