2. Критерий хи-квадрат проверки простой гипотезы о вероятностях.
Представим себе, что проводится серия независимых испытаний, в каждом из которых происходит в точности одно из событий ,, …,(событияобразуют полную группу событий), имеющих неизвестные вероятности,, …,(). По результатам серии фиксируется количествонаступлений события, количествонаступлений, и так далее до, так что наблюдение представляет собой вектор, имеющий полиномиальное распределение, которое будем обозначать:
.
(Заметим, что отсюда в частности следует, что каждая случайная величина имеет распределение Бернулли, действительно, дляполучим ():
.
Очевидно, то же самое может быть проделано и для любого , поэтому).
Основная гипотеза заключается в том, что неизвестные вероятностиравны заданным вероятностям():
: ,, …,.
Требуется построить статистический критерий проверки гипотезы .
Для решения сформулированной задачи используется критерий хи-квадрат со статистикой критерия следующего вида:
.
Статистика отражает «суммарное» отклонение наблюдаемых количествнаступлений событий, от ожидаемых средних количеств наступлений событий –, причем каждое отклонениевходит в сумму с «весом», учитывающим величину гипотетической вероятности.
Оказывается, что в том случае, когда гипотеза не верна, статистикас большой вероятностью принимает «большие» значения (утверждение 6.14), поэтому гипотезуследует отклонять, если значение статистикиоказалось «большое», то есть в качестве критической областигипотезыследует брать области вида:
,
где – некоторый порог, выбираемый из условия заранее заданного уровня значимости. По определению уровень значимости есть вероятность:
,
,
откуда следует, что в качестве порога следует брать квантиль уровнятого распределениястатистики, которое определяется гипотезой. Точное выражение для функции распределениянайти затруднительно, однако, можно показать (теорема 6.15), что если гипотезаверна, то функция распределенияпри возрастаниистремится к функции распределения хи-квадрат сстепенью свободы, то есть при больших:
.
Таким образом, проверка гипотезы сводится к следующей последовательности действий:
1) по заданному уровню значимости определяется квантильуровняраспределения;
2) по реализации наблюдения (числовым данным, полученным в результате проведения эксперимента) вычисляется значение статистики;
3) если , тогда гипотезаотклоняется, если, тогда гипотезапринимается.
Перейдем к доказательству основных фактов, использованных при формулировке критерия. Прежде всего, покажем, что в случае, когда гипотеза не верна, значения статистикинеограниченно возрастают с ростом.
Утверждение 6.14.
Пусть наблюдение имеет полиномиальное распределение, и основная гипотезазаключается в том, что().
Если гипотеза не верна, тогда последовательность (по) случайных величинне ограничена по вероятности, то есть:
, при.
Доказательство:
Пусть ипроизвольно выбранные числа, покажем, что найдетсятакое, что для всех:
,
это и будет означать, что .
По условию утверждения гипотеза не верна, поэтому найдутся такие индексы, при которых, пусть– один из таких индексов, то есть.
Поскольку (следует из того, что наблюдениеимеет полиномиальное распределение), то в соответствии с теоремой Бернулли:
, при,
отсюда следует, что для выбранного ранее и для(поскольку) найдется номертакой, что для всех:
.
Отсюда следует, что
,
,
Если , тогда:
,
.
Если , тогда:
,
.
В том и другом случаях,
.
Из вложенности событий:
,
следует неравенство для вероятностей событий:
.
Пусть есть событие:
,
тогда , и для произвольного:
.
Пусть , тогда для:
,
.
Отсюда следует, что при :
,
тогда
.
Таким образом, для произвольных инайден способ определения числатакого, что для всех:
.
Утверждение доказано.
В силу утверждения 6.14статистикаотвечает условию а) определения статистики критерия6.5: в случае если гипотезане верна, статистикас большой вероятностью примет «большое» значение, которое укажет на «большое» расхождение между наблюдаемыми величинами и ожидаемыми значениями.
Для того, чтобы статистика отвечала и пункту б) определения статистики критерия и могла быть использована в статистическом критерии, остается лишь найти способ вычисления (хотя бы приближенного) значений функции распределения статистики. Оказывается, что в случае если гипотезаверна (то есть,) распределение статистикис ростомстремится к распределению.
Теорема 6.14.(Пирсон)
Пусть наблюдение имеет полиномиальное распределение(). Если верна гипотеза:
:,,
тогда распределение статистики стремится к распределению хи-квадрат сстепенью свободы:
, при.
Доказательство:
Преобразуем статистику следующим образом:
,
где вектор-столбец :
,
и – транспонированный вектор.
Представим, что исходным наблюдением является не вектор , а выборка объема, в которой каждая случайная величинаотражает исход-го испытания и принимает значения 1, 2, …,в зависимости от того, событие с каким номером наступило в-ом испытании:
.
Пусть – бинарная случайная величина:
.
Заметим, что математическое ожидание , и кроме того, легко видеть, что, тогда:
,
где – вектор-столбец случайных величин и– вектор столбец:
,.
Таким образом, статистика :
.
Поскольку все случайные величины выборки имеют одинаковое распределение, то все векторы() имеют одинаковые моменты. Вычислим математическое ожидание:
.
Поскольку по условию теоремы гипотеза считается верной, то, тогда:
.
Вычислим дисперсионную матрицу :
.
Если , то, поскольку случайная величинане может принимать два различных значенияиодновременно, и следовательно. Если, тогда, тогда:
.
Таким образом,
.
Поскольку по условию теоремы гипотеза считается верной, то, тогда:
.
Отсюда следует, что дисперсионную матрицу можно представить в виде:
,
где – единичная матрица порядка,– транспонированный вектор.
Как и ожидалось, дисперсионная матрица является вырожденной. Действительно, что если дисперсионную матрицу умножить на вектор, то получится нулевой вектор:
.
Легко видеть, что
,
тогда
.
Если бы матрица была невырожденной, то равенствос некоторым векторомвыполнялось бы только в случае, то есть не могло бы существовать ни одного ненулевого вектора, при котором выполнялось бы равенство. Однако, найден ненулевой вектортакой, что, тогда матрицаобязательно вырождена. Поскольку все векторыимеют вырожденную дисперсионную матрицу, то к суммене применима центральная предельная теорема для многомерного случая.
Преобразуем векторы в векторыс помощью ортогонального преобразования с матрицей(– транспонированная матрица):
,
,
тогда статистика преобразуется к следующему виду:
.
Поскольку векторы имеют одинаковые математические ожидания и дисперсионные матрицы, то векторыимеют также одинаковые математические ожидания и дисперсионные матрицы. Математическое ожидание:
. |
(6.1) |
Дисперсионная матрица :
.
Дисперсионная матрица оказывается «почти единичной». Представим, что в матрицепоследняя строка совпадает с транспонированными вектором-столбцом:
,
где – матрица порядка. Поскольку– ортогональная матрица, то её строки являются взаимно ортогональными векторами, отсюда следует, что строки матрицыявляются взаимно ортогональными векторами, которые к тому же ортогональны и вектору, тогда:
, |
(6.2) |
где – нулевой вектор-столбец порядка, и следовательно:
,
то есть – матрица все элементы, которой равны нулю, кроме элемента в-ой строке и-ом столбце, который равен 1. Таким образом, дисперсионная матрица:
(6.3) |
где единичная матрица порядка.
Заметим, что
,
поскольку,
,
в силу того, что случайная величина принимает одно из целых значений отдо, так что в суммеобязательно в точности одно слагаемое будет равно 1 и остальные будут равны 0.
Пусть , тогда, причем из (6.1) и (6.2) следует:
,
(6.4) |
и в силу (6.3),
,
. |
(6.5) |
Заметим, что
,
тогда статистика :
|
(6.6) |
Векторы имеют одинаковые распределения (поскольку векторыи следовательноимеют одинаковые распределения), математические ожидание(6.4) и невырожденные дисперсионные матрицы(6.5), поэтому к последовательности случайных величинприменима центральная предельная теорема для многомерного случая, согласно которой нормированная суммаимеет асимптотически многомерное нормальное распределение:
, при.
Пусть вектор-столбец случайных величин , поскольку распределение векторастремиться к распределению случайной величины, то распределение случайной величиныстремится к распределению случайной величины. Таким образом, из (6.6) распределение статистикистремится к распределению суммы квадратов:
.
Взятые по отдельности случайные величины имеют нормальное распределение с нулевым математическим ожиданием и единичной дисперсией, и кроме того независимы поскольку являются некоррелированными (дисперсионная матрицаявляется единичной, так что все ковариациипри) нормальными случайными величинами. Отсюда следует, что случайная величинаимеет распределение, тогда и статистикаприимеет распределение:
, при.
Теорема доказана.
Можно показать, что критерий хи-квадрат является состоятельным: в данном случае наблюдение имеет полиномиальное распределение, полностью определяемое вектором вероятностейи числом.
Утверждение 6.16.
Пусть наблюдение имеет полиномиальное распределение и основная гипотезазаключается в том, что(), статистика критерияимеет вид:
,
и критическая область , тогда при всяком альтернативном распределениизначение функции мощности:
стремится к 1 при :
.
Без доказательства.
Ранее было показано, что если гипотеза верна, то распределение статистикипри увеличениистремится к распределению, можно также установить, что если гипотезане верна, то распределение статистикипри увеличениистремится к нецентральному распределению хи-квадрат.
Случайная величина имеет нецентральное распределение, если:
,
где – совместно независимые случайные величины,и, при этом плотность вероятности случайной величинызависит только от величины, но не по отдельности от, …,.
Утверждение 6.17.
Пусть наблюдение имеет полиномиальное распределение() и основная гипотезазаключается в том, что().
Если гипотеза не верна, тогда распределение статистики:
стремится при к нецентральному распределению.
Без доказательства.
Условия применимости на практике.
Поскольку известно только предельное (при ) распределение статистики(теорема6.15), то для конечногоиспользование распределенияв качестве распределенияявляется приближенным. Замечено, что «хорошее» приближение достигается в тех случаях, когда все произведения (),
.
Проверка гипотезы о распределении полностью известном.
Рассмотрим следующую задачу проверки гипотезы: пусть – выборка из неизвестного распределенияи основная гипотезазаключается в том, что, где– известная функция распределения. Требуется предложить критерий проверки гипотезы.
Воспользоваться критерием хи-квадрат для решения непосредственно поставленной задачи не возможно, тем не менее, имеется возможность сформулировать «близкую» к поставленной задачу, для решения которой использовать критерий хи-квадрат.
Пусть некоторые числа, рассмотрим разбиение числовой оси на интервалы и полуинтервалы:
,
,
…,
,
.
Зафиксируем некоторый номер и определим события,
,
,
…,
.
Легко видеть, что события ,, …,вообще говоря при всеходинаковы, поскольку все случайные величинывыборки одинаковы (имеют одну и ту же функцию распределения), и кроме того образуют полную группу событий, поскольку несовместны и их объединение есть множество всех элементарных событий. Определим вероятности,, …,событий,, …,:
,
,
…,
.
Рисунок 6.3. Разбиение и вероятности.
Из исходного наблюдения – выборки – сформируем векторпо правилу:
,
,
то есть – случайное количество величин выборкипопавших в интервал (полуинтервал).
В качестве основной гипотезы рассмотрим «расширенную» гипотезу :
,, , , …, |
(6.7) |
Теперь для проверки «расширенной» гипотезы может быть использован критерий хи-квадрат, рассмотренный выше.
Из (6.7) следует, что гипотеза заключается в том, что:
Таким образом, «расширенная» гипотеза утверждает, чтотолько для точек, а гипотезаутверждает, чтодля всех, поэтомуи, вообще говоря, различные гипотезы. Фактически,утверждает, что истинное распределениепринадлежит некоторому множеству:
:,
где – множество таких функций распределения, что:
.
Конечно, , однако, вмогут оказаться и другие функции, отличные от, поэтому гипотеза«расширенная».
Остается вопрос о выборе точек , …,, которые определяют интервалы и события, …,: на практике количество точек выбирают так чтобы,
,
при этом местоположение точек выбирают так, чтобы все гипотетические вероятности оказались приближенно равны между собой:
.