
Тема 6. Проверка статистических гипотез.
1. Основные определения.
Одной из основных задач статистики является задача проверки статистических гипотез различного вида.
Определение 6.1.
Статистической гипотезой(гипотезой) называют некоторое утверждение о вероятностных свойствах наблюдения.
Задача проверки гипотезы заключается в формировании такого метода обработки наблюдения, который позволяет определить согласуется ли сформулированное утверждение о свойстве наблюдения с конкретной реализацией наблюдения, полученной в результате эксперимента. Фактически, задача проверки гипотезы, говоря неформально, заключается в том, чтобы проверить насколько гипотетическое представление о наблюдении согласуется с тем, что наблюдается в действительности.
Если метод обработки наблюдения выявил наличие согласованности между гипотезой и наблюдением, полученным в результате эксперимента, то говорят, что гипотеза принимается, в противном случае говорят, чтогипотеза отклоняется.
Определение 6.2.
Метод обработки наблюдения, согласно которому гипотеза принимается либо отклоняется, называется статистическим критерием(критерием).
Разработка критерия и исследование его свойств составляют суть задачи проверки статистической гипотезы.
Определение 6.3.
Если в задаче проверки сформулирована
только одна гипотеза, то её называют
основной (нулевой) гипотезой(обычно
её обозначают).
Если гипотеза полностью (однозначно) определяет гипотетическую (предполагаемую) функцию распределения наблюдения, то гипотеза называется простой, в противном случае –сложной(например, гипотеза, определяющая функцию распределения с точностью до неизвестного параметра, является сложной).
Определение 6.4.
В задачах проверки с одной гипотезой статистический критерий также называют критерием согласия.
Происхождение названия «критерий согласия» происходит от того, что критерий призван ответить на вопрос «согласуются ли наблюдаемые статистические данные с гипотезой».
Неформально общий принцип всех критериев
проверки гипотез может быть проиллюстрирован
на следующем простом примере: рассмотрим
серию независимых испытаний, в которых
некоторая монета, вероятность выпадения
герба для которой
неизвестна, подбрасывается
раз и при этом фиксируется количество
выпавших гербов
.
Основная гипотеза заключается в том,
что «монета является симметричной», то
есть неизвестная вероятность
:
.
Пусть проведено три серии испытаний, в каждой из которых количество выпавших гербов разное:
а) в первой серии –
;
б) во второй серии –
;
в) в третьей серии – .
В рамках первой серии выпадение герба
52 раза из 100 для симметричной монеты
кажется вполне правдоподобным.
Действительно, для симметричной монеты
среднее количество выпадений герба при
100 подбрасываниях равно 50, и наблюдаемое
значение 52 отличается от среднего на
2. Вероятность отклонения случайной
величины количества выпавших гербов
от среднего 50 не менее чем на 2, в случае
если гипотеза верна, весьма велика:
,
то есть такое событие имеет большую вероятность, при справедливости гипотезы, и вполне могло произойти в конкретном эксперименте, поэтому в данном случае нет причин отклонять гипотезу, и гипотеза вполне обосновано принимается.
В рамках второй серии отклонение
количества выпавших гербов 43 от среднего
50 для симметричной монеты кажется менее
правдоподобным. Действительно, вероятность
отклонения случайной величины количества
выпавших гербов
от среднего 50 не менее чем на 7, в случае
если гипотеза верна, оказывается малой:
.
В данном случае на основании наблюдения весьма затруднительно судить о том верна гипотеза или нет, поэтому принять или отклонить гипотезу в данном случае можно только с большой вероятностью ошибки.
В рамках третьей серии отклонение
количества выпавших гербов 73 от среднего
50 для симметричной монеты кажется
абсолютно неправдоподобным. Действительно,
в этом случае вероятность отклонения
случайной величины количества выпавших
гербов
от среднего 50 не менее чем на 23, в случае
если гипотеза верна, оказывается
чрезвычайно малой величиной:
.
Если считать, что гипотеза верна и монета симметрична, то наблюдаемое событие, как видно, имеет слишком малую вероятность, и вряд ли наблюдалось бы в конкретном эксперименте, поэтому в данном случае, гипотезу безоговорочно можно считать отклоненной.
В приведенном примере метод обработки наблюдения заключался в следующем: вычислялось отклонение наблюдаемого значения количества выпавших гербов от гипотетического (ожидаемого) среднего значения количества выпавших гербов. Если гипотеза верна, то отклонение наблюдаемого значения от ожидаемого с большой вероятностью окажется мало и с малой вероятностью – велико, поэтому если наблюдалось малое отклонение, как в первой серии, то гипотеза принималась, если же наблюдалось большое отклонение, как в третьей серии, то гипотеза отклонялась.
Рассмотрим решение задачи проверки
статистической гипотезы
в общем случае: пусть
– наблюдение, которое является исходным
(на основе которого формируется решение,
принимается гипотеза или отклоняется).
Прежде всего, разрабатывается специальная
статистика
,
которая является основой критерия и
называется статистикой критерия.
Определение 6.5.
Статистикой критерияназывается
всякая статистика
,
отвечающая требованиям:
а) статистика
отражает меру расхождения между
наблюдаемым значением некоторой
величины, вычисляемой на основе
наблюдения, и гипотетическим (ожидаемым)
значением некоторой, возможно уже
другой, величины;
б) статистика
имеет полностью известную функцию
распределения (во многих случаях это
требование может быть ослаблено:
достаточно располагать способом
приближенного вычисления значений
функции распределения
).
Требование б) оказывается вполне
естественным, поскольку гипотеза
предписывает наблюдению
некоторую определенную, возможно с
точностью до параметров, функцию
распределения. Статистика
устроена таким образом, что гипотеза
предписывает статистике
полностью определенную функцию
распределения (уже не зависящую от
параметров). Вопрос лишь в том, удается
ли найти выражение для функции
распределения
,
если этого сделать не удается, то
допустимым является нахождение выражения,
аппроксимирующего функцию распределения
,
и в частности, нахождение предельной
функции распределения, то есть функции
распределения, к которой асимптотически
с ростом
стремится функция распределения
.
В примере, рассмотренном выше, роль
статистики
играет модуль разности наблюдаемого
количества выпавших гербов и гипотетического
(ожидаемого) среднего количества
выпадений герба при
подбрасываниях в том случае, когда
основная гипотеза верна:
.
Требование а) для статистики
выполнено – статистика
измеряет отклонение между наблюдаемой
величиной
и ожидаемым средним
.
Требование б) для статистики
также выполнено, поскольку случайная
величина
имеет распределение Бернулли
,
параметры которого полностью определяются
гипотезой
(на это указывает значение вероятности
),
и следовательно функция распределения
полностью определена.
Пусть
– множество всех возможных значений
статистики
:
.
Выделим в
подмножество
,
которое отвечает «большим» значениям
статистики
(в примере, разобранном выше, подмножество
имеет вид:
,
где
некоторый порог). Будем считать, что
если статистика
принимает значение из множества
,
то наблюдение не согласуется с гипотезой,
то есть гипотеза отклоняется, в противном
случае наблюдение не противоречит
гипотезе и гипотеза принимается.
Рисунок 6.1.Статистика критерия и критическая область.
Определение 6.6.
Множество
значений статистики критерия, при
которых гипотеза отклоняется, называетсякритической областью гипотезы
.
Термин критическая область отражает факт отклонения (критики) гипотезы.
Имея конкретную реализацию наблюдения
,
не составляет труда вычислить значение
статистики
и определить принадлежит ли значение
критической области
,
если принадлежит, то гипотеза
отклоняется, если не принадлежит, то
гипотеза принимается.
Поскольку статистика критерия
согласно требованию б) имеет известную
функцию распределения, предписываемую
гипотезой
,
то оказывается определенной вероятность
попадания статистики
в критическую область
.
Определение 6.7.
Пусть
– статистика критерия и
– критическая область гипотезы
,уровнем значимостиназывается
вероятность события
:
,
где вероятность вычисляется в соответствии
с той функцией распределения
,
которая определяется гипотезой
.
Поскольку при попадании статистики
в критическую область
,
согласно действию критерия, гипотеза
отклоняется, то уровень значимости
фактически является вероятностью
отклонения гипотезы в случае, когда она
верна.
Вообще говоря, для проверки гипотезы в
общем случае можно использовать различные
критерии согласия (основанные на
различных статистиках
),
поэтому необходимо располагать способом
сравнения различный критериев, который
позволил бы выяснить какой критерий
является наилучшим.
Определение 6.8.
Пусть
– наблюдение,
– гипотеза и
– множество функций распределения
наблюдения, которые определяет гипотеза
:
.
Альтернативным распределениемназывается всякая функция распределения,
которая может оказаться истиной функций
распределения наблюдения и не совпадает
ни с одной функцией распределения из
.
Определение 6.9.
Множество
всех альтернативных распределений
определяетальтернативную гипотезу(обычно обозначаемую
).
Определение 6.10.
Пусть для проверки гипотезы
построен критерий согласия со статистикой
критерия
и критической областью
.Функцией мощности критерияназывается
функционал, который для заданной функции
распределения
наблюдения равен вероятности события
,
которая вычисляется при условии, что
наблюдение
имеет функцию распределения
:
.
Определение 6.11.
Пусть
альтернативное распределение, значение
функции мощности
называетсямощностью критерия при
альтернативе
.
Рисунок 6.2. Функция мощности.
Функция мощности критерия является
фундаментальной характеристикой
критерия, поскольку отражает способность
критерия принимать правильные решения:
принимать основную гипотезу в том
случае, когда она оказывается верной,
и отклонять в том случае, когда она
оказывается неверной. Действительно,
функция мощности
равна вероятности отклонения основной
гипотезы
,
если наблюдение имеет функцию распределения
.
Если гипотеза верна и наблюдение имеет
функцию распределения
,
определяемую гипотезой
,
то гипотеза должна приниматься критерием,
а значение функции мощности
определяет вероятность отклонения
критерием верной гипотезы
(вероятность принять неверное решение),
желательно, чтобы эта вероятность была
как можно меньше. Если же гипотеза
неверна и наблюдение имеет какое-либо
альтернативное распределение
,
то гипотеза должна отклоняться критерием
и значение функции мощности
равно вероятности отклонения критерием
неверной гипотезы
(вероятность принять верное решение),
желательно, чтобы эта вероятность была
как можно больше.
Таким образом, наилучшим критерием является тот, для которого функция мощности:
а) имеет как можно меньшее значение для
функций
,
определяемых гипотезой
(если наблюдение действительно имеет
функцию распределения
,
то критерий с как можно меньшей
вероятностью должен отклонять гипотезу
,
поскольку она оказывается верной);
б) как можно быстрее возрастает до
единицы при отклонениях от множества
распределений
,
определяемых гипотезой
(если наблюдение имеет функцию
распределения
,
то критерий с как можно большей
вероятностью должен отклонять гипотезу,
поскольку она оказывается неверной).
Определение 6.12.
Критерий называется несмещенным,
если мощность критерия при любом
альтернативном распределениибольше уровня значимости при любом
распределении
,
определяемом гипотезой
:
.
Свойство несмещенности является желательным и говорит о том, что вероятность отклонения гипотезы, когда она неверна, больше вероятности отклонения гипотезы, когда она верна.
Определение 6.13.
Критерий называется состоятельным,
если мощность критерия при любой
альтернативестремится к 1 при возрастании
:
.
На практике не всегда используют наилучшие в смысле функции мощности критерии, поскольку существенную роль может иметь сложность вычисления критерия. В условиях ограниченного времени, когда решение о том принимается гипотеза или отклоняется нужно сделать за короткий промежуток времени, зачастую применяются менее мощные критерии, но более простые в смысле вычисления.