Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект лекций Глазова / 8.2. Выравнив статист рядов.doc
Скачиваний:
57
Добавлен:
11.05.2015
Размер:
192.51 Кб
Скачать

8.3.1. Критерий согласия хи-квадрат к. Пирсона.

Пусть выборка объема n группирована (см. п 6.4): диапазон выборочных значений разбит на N разрядов вида (xk, xk+1) (k=1, 2, ...N), выбраны представители разрядов , подсчитаны числаmk (k=1, 2, ...N) выборочных значений, попавших в каждый разряд, найдены частоты разрядов

, k=1, 2, ..., N,

(8.3.1)

из физических соображений и по виду гистограммы подобран вид теоретической плотности вероятности f(x), оценены необходимые параметры плотности и получена оцененная плотность вероятности.

В качестве меры расхождения - величины критерия в случае критерия согласия хи-квадрат берется

,

(8.3.2)

где pk - «теоретические» вероятности попадания СВ Х в разряды:

,

(8.3.3)

ck - т. н. веса разрядов.

Как видим, величина U критерия хи-квадрат представляет собой взвешенную сумму квадратов отклонений частот разрядов от «теоретических» вероятностей попадания в разряды. Причина взвешивания состоит в том, что разряды с большими вызывают, в среднем, большие по модулю отклонения, чем разряды с меньшими, поэтому следует придавать разрядам вес, тем меньший, чем больше. К. Пирсон показал, что если веса разрядов брать как

ck=n/pk ,

(8.3.4)

то при больших n распределение величины U имеет замечательные и простые свойства: оно практически не зависит от распределения генеральной совокупности и от объема выборки n, а зависит только от числа разрядов N и от числа связей, наложенных на при оценке параметров подобранного по гистограмме распределения. Выражаясь более точно, распределение величиныU асимптотически (при ) стремится к центральному хи-квадрат-распределению сr степенями свободы (см. п. 7.9), имеющему плотность вероятности

.

(8.3.5)

Число степеней свободы определяется как r=k-s, где s - число наложенных связей. Число s находится из следующих соображений. Одна связь накладывается всегда, это условие нормировки для группированной выборки:

.

Кроме того, на вероятности разрядов наложено столько связей, сколько параметров оценивалось при получении ; действительно, пусть, например, оценивалось два параметра, для чего вычислялись статистическое среднее

,

и статистическая дисперсия

,

и использовались соотношения между моментами и параметрами теоретического распределения f(x). Тогда всего наложено 3 связи. Т. о. s=q+1, где q - число оцененных параметров. В итоге

r=k-q-1.

(8.3.6)

Удобнее величину критерия записать в другом виде; подставив (8.3.1) и (8.3.4) в равенство (8.3.2), приведем его к виду

.

(8.3.7)

Стоящая в левой части равенства буква греческого алфавита(«хи») дала название рассматриваемому критерию. Для распределения с плотностью (8.3.5) имеются многочисленные таблицы функции распределенияFu(u), пользуясь которыми легко найти вероятность превышения случайной величиной U заданного значения w:

P(U>w)=1-Fu(w).

(8.3.8)

В настоящее время имеется множество компьютерных пакетов статистической ориентации, которые позволяют легко и быстро вычислять эту вероятность (и даже производить все вычисления, связанные с применением критерия согласия хи-квадрат).

Теперь алгоритм применения критерия хи-квадрат для проверки гипотезы о согласованности оцененного распределения с выборочными данными сводится к следующему.

1) Подготавливаются величины и наборы величин n, N, {mk}, {pk}, r (вероятности {pk} вычисляются по (8.3.3), r вычисляется по (8.3.6)).

2) Вычисляется реализованное значение u критерия по (8.3.7).

3) Задается критическая вероятность pcr , например, 0.05, 0.01, 0.05, 0.1.

4) По таблицам функции распределения хи-квадрат (или с помощью компьютерного пакета) по данным значениям u и r находится вероятность того, что СВU превзойдет данное значение u по чисто случайным причинам.

5) Вероятность сравнивается с критической вероятностьюpcr и принимается решение: если , то принимается решение «отвергнуть гипотезуН0», т. е. «считать, что подобранное распределение не согласуется с выборочными данными»; если, то принимается решение «не отвергать гипотезуН0», т. е. «нет существенных оснований считать, что подобранное распределение не согласуется с выборочными данными».

Сделаем несколько важных замечаний.

1) Критерий согласия хи-квадрат, как и всякий критерий согласия, не может доказать (обосновать) согласованность оцененного распределения с выборочными данными, т. е принятие гипотезы Н0; он только может в некоторых случаях отвергнуть ее, или не найти для этого оснований. Это принципиальный вопрос двухальтернативного испытания гипотез. Действительно, если вероятность мала, то это значит, что по чисто случайным причинам маловероятно наблюденное отклонение u; если же велика, то это значит, что наблюденное u может возникнуть по чисто случайным причинам, но не обязательно значит, что в это отклонение не внесла свой вклад несогласованность оцененного распределения с выборочными данными. Пусть, например, получилось =0.99. Это означает, что наблюденное отклонениеu столь мало, что по чисто случайным причинам могло получится значительно большее отклонение; но отсюда вовсе не следует, что имеется согласованность; наоборот, столь малое отклонение подозрительно: несогласованность могла компенсировать случайное отклонение и дать в итоге малое отклонение.

2) Задание критической вероятности субъективно и зависит от того, что понимается под термином «достаточно малая вероятность». Поэтому в приведенном выше алгоритме применения критерия предусмотрено, что критическая вероятность задается до того, как будет найдена . В противном случае возможна неосознанная подделка результатов, «выдавание желаемого за действительное». Пусть, например, в данном эксперименте получилось. Если заранее заданоpcr=0.05, то Н0 не будет отвергнуто; если же pcr заранее не задано, то появляется искушение считать величину 0.07 «достаточно малой» и отвергнуть гипотезу Н0.

3) Поскольку применение критерия связано с использованием асимптотического распределения величины U, очевидно, что для получения корректных результатов необходимо, чтобы n было «большим» (практика показывает, что достаточно n порядка нескольких сотен). Менее очевидно, что и величины mk должны быть не очень малыми: не менее 5-10 (кроме концевых разрядов). Это соображение может повлиять на выбор числа разрядов и их величины.

4) Иногда число попаданий m1 в левый концевой разряд настолько мало, что вклад этого разряда

в значение u слишком велик (составляет существенную часть u). Тогда следует объединить этот разряд с соседним, соответственно перенумеровав разряды. Число попаданий в объединенный разряд находится суммированием прежних чисел попаданий в объединяемых разрядах, соответственно пересчитываются p1, k и новое значение u. Подобным образом следует поступать и в том случае, когда число попаданий в правый концевой разряд слишком мало и вклад этого разряда

в значение u слишком велик: следует объединить этот разряд с соседним, N-1-ым, соответственно перенумеровав разряды и пересчитав pN, k и новое значение u.