Добавил:

Tushkan Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский университет «МЭИ»

Предмет:

Теория вероятностей и математическая статистика

Файл:

Лекции / Tema_6.doc

Скачиваний:

Добавлен:

28.06.2014

Размер:

2.09 Mб

Скачать

☆

<<< < Предыдущая 12 / 42 3 4 > Следующая >>>

2. Критерий хи-квадрат проверки простой гипотезы о вероятностях.

Представим себе, что проводится серия независимых испытаний, в каждом из которых происходит в точности одно из событий ,, …,(событияобразуют полную группу событий), имеющих неизвестные вероятности,, …,(). По результатам серии фиксируется количествонаступлений события, количествонаступлений, и так далее до, так что наблюдение представляет собой вектор, имеющий полиномиальное распределение, которое будем обозначать:

(Заметим, что отсюда в частности следует, что каждая случайная величина имеет распределение Бернулли, действительно, дляполучим ():

Очевидно, то же самое может быть проделано и для любого , поэтому).

Основная гипотеза заключается в том, что неизвестные вероятностиравны заданным вероятностям():

: ,, …,.

Требуется построить статистический критерий проверки гипотезы .

Для решения сформулированной задачи используется критерий хи-квадрат со статистикой критерия следующего вида:

Статистика отражает «суммарное» отклонение наблюдаемых количествнаступлений событий, от ожидаемых средних количеств наступлений событий –, причем каждое отклонениевходит в сумму с «весом», учитывающим величину гипотетической вероятности.

Оказывается, что в том случае, когда гипотеза не верна, статистикас большой вероятностью принимает «большие» значения (утверждение 6.14), поэтому гипотезуследует отклонять, если значение статистикиоказалось «большое», то есть в качестве критической областигипотезыследует брать области вида:

где – некоторый порог, выбираемый из условия заранее заданного уровня значимости. По определению уровень значимости есть вероятность:

откуда следует, что в качестве порога следует брать квантиль уровнятого распределениястатистики, которое определяется гипотезой. Точное выражение для функции распределениянайти затруднительно, однако, можно показать (теорема 6.15), что если гипотезаверна, то функция распределенияпри возрастаниистремится к функции распределения хи-квадрат сстепенью свободы, то есть при больших:

Таким образом, проверка гипотезы сводится к следующей последовательности действий:

1) по заданному уровню значимости определяется квантильуровняраспределения;

2) по реализации наблюдения (числовым данным, полученным в результате проведения эксперимента) вычисляется значение статистики;

3) если , тогда гипотезаотклоняется, если, тогда гипотезапринимается.

Перейдем к доказательству основных фактов, использованных при формулировке критерия. Прежде всего, покажем, что в случае, когда гипотеза не верна, значения статистикинеограниченно возрастают с ростом.

Утверждение 6.14.

Пусть наблюдение имеет полиномиальное распределение, и основная гипотезазаключается в том, что().

Если гипотеза не верна, тогда последовательность (по) случайных величинне ограничена по вероятности, то есть:

, при.

Доказательство:

Пусть ипроизвольно выбранные числа, покажем, что найдетсятакое, что для всех:

это и будет означать, что .

По условию утверждения гипотеза не верна, поэтому найдутся такие индексы, при которых, пусть– один из таких индексов, то есть.

Поскольку (следует из того, что наблюдениеимеет полиномиальное распределение), то в соответствии с теоремой Бернулли:

, при,

отсюда следует, что для выбранного ранее и для(поскольку) найдется номертакой, что для всех:

Отсюда следует, что

Если , тогда:

В том и другом случаях,

Из вложенности событий:

следует неравенство для вероятностей событий:

Пусть есть событие:

тогда , и для произвольного:

Пусть , тогда для:

Отсюда следует, что при :

тогда

Таким образом, для произвольных инайден способ определения числатакого, что для всех:

Утверждение доказано.

В силу утверждения 6.14статистикаотвечает условию а) определения статистики критерия6.5: в случае если гипотезане верна, статистикас большой вероятностью примет «большое» значение, которое укажет на «большое» расхождение между наблюдаемыми величинами и ожидаемыми значениями.

Для того, чтобы статистика отвечала и пункту б) определения статистики критерия и могла быть использована в статистическом критерии, остается лишь найти способ вычисления (хотя бы приближенного) значений функции распределения статистики. Оказывается, что в случае если гипотезаверна (то есть,) распределение статистикис ростомстремится к распределению.

Теорема 6.14.(Пирсон)

Пусть наблюдение имеет полиномиальное распределение(). Если верна гипотеза:

:,,

тогда распределение статистики стремится к распределению хи-квадрат сстепенью свободы:

, при.

Доказательство:

Преобразуем статистику следующим образом:

где вектор-столбец :

и – транспонированный вектор.

Представим, что исходным наблюдением является не вектор , а выборка объема, в которой каждая случайная величинаотражает исход-го испытания и принимает значения 1, 2, …,в зависимости от того, событие с каким номером наступило в-ом испытании:

Пусть – бинарная случайная величина:

Заметим, что математическое ожидание , и кроме того, легко видеть, что, тогда:

где – вектор-столбец случайных величин и– вектор столбец:

Таким образом, статистика :

Поскольку все случайные величины выборки имеют одинаковое распределение, то все векторы() имеют одинаковые моменты. Вычислим математическое ожидание:

Поскольку по условию теоремы гипотеза считается верной, то, тогда:

Вычислим дисперсионную матрицу :

Если , то, поскольку случайная величинане может принимать два различных значенияиодновременно, и следовательно. Если, тогда, тогда:

Таким образом,

Поскольку по условию теоремы гипотеза считается верной, то, тогда:

Отсюда следует, что дисперсионную матрицу можно представить в виде:

где – единичная матрица порядка,– транспонированный вектор.

Как и ожидалось, дисперсионная матрица является вырожденной. Действительно, что если дисперсионную матрицу умножить на вектор, то получится нулевой вектор:

Легко видеть, что

тогда

Если бы матрица была невырожденной, то равенствос некоторым векторомвыполнялось бы только в случае, то есть не могло бы существовать ни одного ненулевого вектора, при котором выполнялось бы равенство. Однако, найден ненулевой вектортакой, что, тогда матрицаобязательно вырождена. Поскольку все векторыимеют вырожденную дисперсионную матрицу, то к суммене применима центральная предельная теорема для многомерного случая.

Преобразуем векторы в векторыс помощью ортогонального преобразования с матрицей(– транспонированная матрица):

тогда статистика преобразуется к следующему виду:

Поскольку векторы имеют одинаковые математические ожидания и дисперсионные матрицы, то векторыимеют также одинаковые математические ожидания и дисперсионные матрицы. Математическое ожидание:

(6.1)

Дисперсионная матрица :

Дисперсионная матрица оказывается «почти единичной». Представим, что в матрицепоследняя строка совпадает с транспонированными вектором-столбцом:

где – матрица порядка. Поскольку– ортогональная матрица, то её строки являются взаимно ортогональными векторами, отсюда следует, что строки матрицыявляются взаимно ортогональными векторами, которые к тому же ортогональны и вектору, тогда:

(6.2)

где – нулевой вектор-столбец порядка, и следовательно:

то есть – матрица все элементы, которой равны нулю, кроме элемента в-ой строке и-ом столбце, который равен 1. Таким образом, дисперсионная матрица:

(6.3)

где единичная матрица порядка.

Заметим, что

поскольку,

в силу того, что случайная величина принимает одно из целых значений отдо, так что в суммеобязательно в точности одно слагаемое будет равно 1 и остальные будут равны 0.

Пусть , тогда, причем из (6.1) и (6.2) следует:

(6.4)

и в силу (6.3),

(6.5)

Заметим, что

тогда статистика :

(6.6)

Векторы имеют одинаковые распределения (поскольку векторыи следовательноимеют одинаковые распределения), математические ожидание(6.4) и невырожденные дисперсионные матрицы(6.5), поэтому к последовательности случайных величинприменима центральная предельная теорема для многомерного случая, согласно которой нормированная суммаимеет асимптотически многомерное нормальное распределение:

, при.

Пусть вектор-столбец случайных величин , поскольку распределение векторастремиться к распределению случайной величины, то распределение случайной величиныстремится к распределению случайной величины. Таким образом, из (6.6) распределение статистикистремится к распределению суммы квадратов:

Взятые по отдельности случайные величины имеют нормальное распределение с нулевым математическим ожиданием и единичной дисперсией, и кроме того независимы поскольку являются некоррелированными (дисперсионная матрицаявляется единичной, так что все ковариациипри) нормальными случайными величинами. Отсюда следует, что случайная величинаимеет распределение, тогда и статистикаприимеет распределение:

, при.

Теорема доказана.

Можно показать, что критерий хи-квадрат является состоятельным: в данном случае наблюдение имеет полиномиальное распределение, полностью определяемое вектором вероятностейи числом.

Утверждение 6.16.

Пусть наблюдение имеет полиномиальное распределение и основная гипотезазаключается в том, что(), статистика критерияимеет вид:

и критическая область , тогда при всяком альтернативном распределениизначение функции мощности:

стремится к 1 при :

Без доказательства.

Ранее было показано, что если гипотеза верна, то распределение статистикипри увеличениистремится к распределению, можно также установить, что если гипотезане верна, то распределение статистикипри увеличениистремится к нецентральному распределению хи-квадрат.

Случайная величина имеет нецентральное распределение, если:

где – совместно независимые случайные величины,и, при этом плотность вероятности случайной величинызависит только от величины, но не по отдельности от, …,.

Утверждение 6.17.

Пусть наблюдение имеет полиномиальное распределение() и основная гипотезазаключается в том, что().

Если гипотеза не верна, тогда распределение статистики:

стремится при к нецентральному распределению.

Без доказательства.

Условия применимости на практике.

Поскольку известно только предельное (при ) распределение статистики(теорема6.15), то для конечногоиспользование распределенияв качестве распределенияявляется приближенным. Замечено, что «хорошее» приближение достигается в тех случаях, когда все произведения (),

Проверка гипотезы о распределении полностью известном.

Рассмотрим следующую задачу проверки гипотезы: пусть – выборка из неизвестного распределенияи основная гипотезазаключается в том, что, где– известная функция распределения. Требуется предложить критерий проверки гипотезы.

Воспользоваться критерием хи-квадрат для решения непосредственно поставленной задачи не возможно, тем не менее, имеется возможность сформулировать «близкую» к поставленной задачу, для решения которой использовать критерий хи-квадрат.

Пусть некоторые числа, рассмотрим разбиение числовой оси на интервалы и полуинтервалы:

…,

Зафиксируем некоторый номер и определим события,

…,

Легко видеть, что события ,, …,вообще говоря при всеходинаковы, поскольку все случайные величинывыборки одинаковы (имеют одну и ту же функцию распределения), и кроме того образуют полную группу событий, поскольку несовместны и их объединение есть множество всех элементарных событий. Определим вероятности,, …,событий,, …,:

…,

Рисунок 6.3. Разбиение и вероятности.

Из исходного наблюдения – выборки – сформируем векторпо правилу:

то есть – случайное количество величин выборкипопавших в интервал (полуинтервал).

В качестве основной гипотезы рассмотрим «расширенную» гипотезу :

…,

(6.7)

Теперь для проверки «расширенной» гипотезы может быть использован критерий хи-квадрат, рассмотренный выше.

Из (6.7) следует, что гипотеза заключается в том, что:

Таким образом, «расширенная» гипотеза утверждает, чтотолько для точек, а гипотезаутверждает, чтодля всех, поэтомуи, вообще говоря, различные гипотезы. Фактически,утверждает, что истинное распределениепринадлежит некоторому множеству: