
3. Критерий хи-квадрат проверки сложной гипотезы о вероятностях.
Пусть проводится серия из
независимых испытаний, в каждом из
которых может произойти в точности одно
из событий
,
…,
,
имеющих неизвестные вероятности
,
…,
.
По результатам серии фиксируются
количества наступлений событий
,
…,
,
так что наблюдение представляет собой
вектор случайных величин
,
имеющий полиномиальное распределение
.
Основная гипотеза
заключается в том, что неизвестные
вероятности
равны заданным выражениям
при некотором значении параметра
(в общем случае параметр
является
-мерным):
:
,
…,
.
Требуется предложить статистический
критерий проверки гипотезы
.
Заметим, что сформулированная задача,
схожа с задачей, рассмотренной в пункте
2, отличие заключается в том, что
гипотетические вероятности
являются не числовыми значениями, а
некоторыми функциями параметра
.
Указанное отличие не позволяет в качестве
статистики критерия использовать
статистику
:
,
поскольку статистика
оказывается зависимой от параметра
,
теорема Пирсона (6.15)
не может быть применима и как следствие
предельное (при
)
распределение статистики
неизвестно. Более того, следует ожидать,
что это распределение окажется различным
при различных значениях параметра
.
Тем не менее, при специальном выборе
параметра
удается найти предельное распределение.
Предположим, что при каждой реализации
наблюдения
значение параметра
выбирается таким образом, чтобы
минимизировать значение статистики
.
Минимальные значения статистики
образуют новую статистику
,
не зависящую от параметра:
.
Пусть
– значение параметра
,
при котором достигается минимальное
значение статистики
,
тогда:
Теорема 6.18.(Фишер)
Пусть наблюдение
имеет полиномиальное распределение
и основная гипотеза
заключается в том, что:
:
,
где
–
-мерный
параметр и
– известные функции. Если гипотеза
верна, тогда распределение статистики:
,
стремиться при
к распределению
.
Без доказательства.
Вычисление статистики
требует трудоемкой операции нахождения
минимума, а для решения в общем виде
требует нахождения функции
доставляющей минимум статистики
,
что существенно затрудняет использование
статистического критерия. Оказывается,
сформулированная выше теорема Фишера
справедлива и в том случае, когда вместо
функции
используется МП-оценка
параметра
,
вычисляемая по функции правдоподобия,
составленной в соответствии с тем видом
функции распределения наблюдения,
которую определяет гипотеза
.
Теорема 6.19.(Фишер)
Пусть наблюдение
имеет полиномиальное распределение
и основная гипотеза
заключается в том, что:
:
,
где
–
-мерный
параметр (
– множество допустимых значений
параметра
),
и функции
таковы, что:
1)
(
),
2) существуют и непрерывны производные
(
,
),
3) существуют и непрерывны производные
(
,
,
),
4) для всех
ранг матрицы, образованной частными
производными,
равен
.
Если гипотеза
верна и
– МП-оценка параметра
,
тогда распределение статистики,
стремится при
к распределению
.
Без доказательства.
В качестве критической области
выбирается область вида:
,
где пороговое значение
выбирается исходя из заданного уровня
значимости
как квантиль уровня
распределения
.
В остальном статистический критерий
аналогичен статистическому критерию
хи-квадрат, рассмотренному в пункте 2.
Проверка гипотезы о распределении с неизвестным параметром.
Пусть
– выборка из неизвестного распределения
и основная гипотеза
заключается в том, что
,
где
– функция распределения известная с
точностью до значения параметра
.
Требуется предложить критерий проверки
гипотезы
.
На практике сформулированную задачу
заменяют другой, но «близкой» задачей:
выбираются точки
и рассматривается разбиение числовой
оси на полуинтервалы и интервалы:
,
,
…,
.
Рассматриваются события
,
…,
:
.
Легко видеть, что,
,
,
…,
.
Для исходной выборки
определяется вектор
так, что:
,
.
В качестве основной гипотезы рассматривается
«расширенная» гипотеза
:
,
,
,
,
…,
.
Для проверки гипотезы
используется статистический критерий
со статистикой
,
где
– МП-оценка параметра
.
В качестве критической области
выбирается область вида:
,
где
– квантиль уровня
распределения
и
– заданный уровень значимости.
На практике, как правило, сперва
вычисляется МП-оценка
,
и лишь затем производится разбиение
числовой оси с помощью точек
,
…,
так чтобы
.
Проверка гипотезы о независимости признаков.
Пусть проводится серия из
независимых испытаний, в каждом из
которых происходит в точности одно из
событий
,
…,
и в точности одно из событий
,
…,
,
причем вероятности совместного
наступления событий
неизвестны. По результатам серии
фиксируется количество
наступлений каждой пары
,
таким образом наблюдение
имеет полиномиальное распределение
.
Основная гипотеза
заключается в том, что события
и
попарно независимы, то есть вероятности
,
или иначе неизвестные вероятности
при некоторых числах
и
,
где вектор вероятностей
играет роль параметра:
:
,
,
.
Заметим, что
и
,
поэтому эти вероятности не входят в
вектор параметров
.
Требуется предложить статистический
критерий проверки гипотезы
.
Для решения задачи используется критерий хи-квадрат проверки сложной гипотезы со статистикой,
,
где вектор вероятностей
является МП-оценкой параметра
и
,
.
Гипотеза
определяет функцию распределения
наблюдения
как полиномиальное распределение:
.
Отсюда функция правдоподобия
и МП-оценка
доставляет максимальное значение
функции
(или минимальное значение
)
при условиях
и
.
Для нахождения МП-оценки
воспользуемся методом множителей
Лагранжа с функцией,
.
Для определения
требуется решить систему:
.
Таким образом, статистика
имеет вид:
,
,
.
Согласно теореме Фишера 6.19распределение статистикипри
стремится к распределению
,
где
– количество вероятностей
и
– количество параметров (
параметров
и
параметров
).
Легко видеть, что:
,
поэтому распределение статистики
стремится при
к распределению
.
В качестве критической области
выбирается область вида:
где
– квантиль уровня
распределения
и
– заданный уровень значимости.
Проверка гипотезы об однородности.
Пусть проводится
независимых серий испытаний: в первой
серии проводится
независимых испытаний, в каждом из
которых происходит в точности одно из
событий
,
…,
,
во второй серии проводится
независимых испытаний, в каждом из
которых происходит в точности одно из
событий
,
…,
,
и так далее, в
-ой
серии проводится
независимых испытаний, в каждом из
которых происходит в точности одно из
событий
,
…,
.
Вероятности событий
неизвестны. По результатам серии
фиксируется количество
наступлений каждого события
,
и наблюдение представляет собой вектор
,
функция распределения которого является
произведением полиномиальных распределений
.
Основная гипотеза
заключается в том, что при фиксированном
и переменном
события
имеют одинаковые вероятности, то есть
выполняются равенства,
,
…,
,
или, что тоже самое, при фиксированном
и переменном
вероятности
при некоторых
,
где вектор вероятностей
играет роль параметра:
:
,
,
.
Вероятность
,
поэтому
не входит в вектор параметров
.
Требуется предложить критерий проверки
гипотезы
.
Для решения задачи используется статистика,
,
где вектор вероятностей
является МП-оценкой параметра
и
.
Гипотеза
определяет функцию распределения
наблюдения
как полиномиальное распределение:
.
Таким образом, функция правдоподобия
и МП-оценка
доставляет максимальное значение
функции
(или минимальное значение функции
)
при условии
.
Для нахождения МП-оценки
используется метод множителей Лагранжа
с функцией,
.
Для определения
требуется решить систему:
.
Таким образом, статистика
имеет вид:
,
.
Можно показать, что
распределение статистики
при
стремится к распределению
,
где
– количество «независимых»
(
,
– при фиксированном
:
)
и
– количество параметров
(заметим, что
).
В качестве критической области
выбирается область вида:
,
где
– квантиль уровня
распределения
и
– заданный уровень значимости.