Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Литература / книга.pdf
Скачиваний:
150
Добавлен:
17.04.2013
Размер:
1.36 Mб
Скачать

где р - неизвестная вероятность, общая для обеих генеральных

 

p* p*

 

 

 

 

 

n p q

>>1,

cтатистика: Z =

1

2

 

 

 

H

 

1

1

1

 

>>1.

 

 

 

 

 

 

~ N(0,1) при n p

 

q

 

 

1

 

1

 

0

2

 

2

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

p(1p) n

+ n

 

 

 

 

 

 

 

 

 

 

 

1

2

 

 

 

 

 

 

 

 

 

Неизвестное р оценивается по объединенной выборке следующим образом:

~

 

m1

+ m2

 

p

=

n

+ n

.

 

 

1

2

 

Таким образом, окончательно статистика Z приобретает вид:

 

p* p*

 

 

 

Z1 =

1

2

 

 

.

 

 

 

 

 

 

1

 

 

1

 

~

~

 

 

p(1

p) n

+ n

 

 

 

1

 

2

 

7.4. Проверка гипотез о законе распределения

Общие положения, постановка задачи

Пусть закон распределения генеральной случайной величины неизвестен, но имеются те или иные основания предполагать, что генеральная распределена по закону, описываемому известной функцией распределения: FX (x / Θ) , где Θ - вектор параметров, которыми опре-

деляется данная функция (например, высказывается предположение,

что X ~ N (m,σ2 ) .

Таким образом, формулируем основную гипотезу:

H0 : X ~ FX (x / Θ).

132

Альтернативной всегда выступает гипотеза H1 = H 0 , т.е. отрицающая H0 . Критерии, используемые для проверки указанной основ-

ной гипотезы, носят название критериев согласия.

В данном параграфе рассмотрим два наиболее важных для практики критерия согласия: критерий Колмогорова и критерий Пирсона (критерий хи-квадрат), но вначале обсудим некоторые общие положения, связанные с проблемой построения критериев согласия. Заметим, что, как и в случае проверки уже известных нам гипотез о параметрах, для реализации критерия согласия нужна подходящая статистика, являющаяся мерой расхождения в данном случае между гипотетической функцией, утверждаемой в H0 , и эмпирической функцией распределе-

ния, наблюдаемой в выборке. Обозначим эмпирическую функцию распределения Fn*(x) , подчеркивая этим ее зависимость от объема выборки. Всякая подходящая статистика Z должна очевидно быть функцией как от FX (x) , так и от Fn*(x) , т.е. Z = Z (FX (x / Θ), Fn*(x)). Но так как истинная функция распределения неизвестна, то гипотеза H0 оказыва-

ется сложной, даже если вектор параметров Θ известен. В этом состоит одна из трудностей построения критериев согласия. Основное требование, предъявляемое к подходящей статистике, заключается в том, чтобы ее закон распределения при условии H0 по крайней мере асимптотиче-

ски (при n → ∞) не зависел от гипотетической функции распределения.

Критерий согласия Колмогорова

Большое значение для построения подходящей статистики имеет факт применимости закона больших чисел к эмпирической функции распределения, а именно имеет место следующая теорема.

Теорема 7.5. Пусть Fn*(x) - эмпирическая функция распределения, построенная по выборке x1, x2,..., xn из генеральной совокупности

X ~ F

(x) . Тогда для x R F *(x)

p

F

X

(x) .

n → ∞

X

n

 

 

Имеем по определению: Fn*(x) = P*{X < x}, т.е. при каждом действительном x Fn*(x) есть относительная частота события {X < x}

133

("успеха") в n опытах по схеме Бернулли с вероятностью "успеха" Fn (x) . Поэтому, в силу закона больших чисел в формулировке Бернул-

ли, следует утверждение теоремы.

Колмогоровым была изучена статистика n = Sup Fn* (x) FX (x) -

x R

точная верхняя грань отклонения эмпирической функции распределения от теоретической на всей оси и на ее основе разработан критерий согласия. Имеет место следующая теорема.

Теорема 7.6. (Колмогорова). Пусть Х - СВНТ с функцией распределения

FX (x) t > 0 : lim P{ n n < t}= K(t) =

}.

(1)i exp{2i2 t2

n→∞

i=−∞

 

 

 

Доказательство см., напр., в [4], § 3.2].

Функция K (t) - функция распределения Колмогорова - табулиро-

вана и может быть использована для проверки гипотезы о законе распределения непрерывной генеральной случайной величины с помощью

статистики Zn = n n уже при n 20 .

На практике экстремум заменяется на максимум, который достигается в одной из точек скачка эмпирической функции распределения (если она строится для простой выборки). Несколько сложнее осуществляется поиск максимума отклонения для интервальной выборки. При этом возникает не простой вопрос о зависимости мощности критерия от числа интервалов, если эти интервалы не порождены естественной классификацией признаков в номинальной шкале.

Критерий согласия хи-квадрат

Критерий хи-квадрат более алгоритмичен, чем критерий Колмогорова, и имеет более широкий спектр приложений, поскольку применяется как для дискретной, так и для непрерывной генеральной совокупности. Основан этот критерий на поразрядном сравнении частот и вероятностей, поэтому предварительно выборка приводится к частотному

134

FX(x)

1

 

I2 I3

Il

 

 

 

 

 

 

 

 

 

a1 a2 a3

al–1

x

 

Рис.7.5.

виду. При этом в зависимости от типа генерального по разному трактуется понятие "разряд".

СВДТ

Если генеральная X

СВНТ

разряды для сравнения частот - это возможные значения x в группированной выборке;

разряды - это интервалы, полу-

чаемые при интервальном представлении выборки.

Рассмотрим более подробно структуру критерия для непрерывной Х. Пусть гипотеза H0 - простая, т.е. полностью определяет закон распределения X.

Разобьем множество значений EX на l интервалов точками деления a0,a1, a2,...,al , как показано на рис.7.5, так что IK = [ak 1, ak ),

k = 2,3,..,l 1; I1 = (−∞, a1), Il =[al 1,+∞).

Так как Н0 - простая, то теоретическая вероятность попадания на интервал IK :

P{X Ik } = P{ak 1 X < ak } = = FX (ak ) FX (ak 1) = pk -

точно известна. Пусть получена выборка: x1, x2,..., xn. Распределим ее по интервалам: пусть mk - число выборочных значений, попавших в Ik . Очевиднодолжновыполнятьсяусловие:

l

 

mk = n.

(7.5)

k =1

135

Рассмотрим меру расхождения, основанную на среднеквадратичной близости:

l

 

 

 

 

 

 

 

 

 

 

 

 

mk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Z = ck ( pk* pk )2 , где pk* =

 

. Имеет место следующая теорема.

n

k =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Теорема 7.7. Если Н0 - простая,

c

 

=

n

,

n >>1 , то

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

pk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Z

=

l

 

n

 

( p* p )2 ~ χ2 (l 1).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

k

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Преобразуем

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Z =

l

n

m

p

 

2

=

 

l (m

 

np

k

)2

=

n

m

k

np

 

2

pk

 

k

k

 

 

k

npk

 

 

 

npk

k .

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k =1

 

 

 

 

 

 

 

 

 

 

k =1

 

 

 

 

 

 

 

 

k =1

 

 

 

 

 

Обозначим

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Zk = mk npk

 

 

 

 

 

l

 

 

 

 

 

 

 

 

 

 

 

 

Z = Zk2.

 

 

 

 

(7.6)

 

 

 

 

 

 

 

 

 

 

 

npk

 

 

 

k =1

 

 

 

 

 

 

 

Можно показать, что при больших n mk ~ Pu(npk ) , т.е. Zk - стан-

дартизованная пуассоновская величина.

Известно, что пуассоновское распределение асимптотически нор-

мально (см.

задачу 14.572 в [2]).

Поэтому при n >>1,

таких, что

λk = npk >>1

для всех k =1,2,...,l

можно считать, что

Zk ~ N (0,1) .

Отсюда, согласно (7.6), статистика Z представляет собой сумму квадратов стандартизованных нормальных величин. Если бы Z1, Z2,.., Zn были

независимы в совокупности, то в соответствии с теоремой Пирсона 6.3 Z ~ χ2 (l) . Однако утверждение о независимости в данном случае не имеет места, так как на случайные величины Z1, Z2,.., Zn наложено одно линейное условие связи. Действительно, как следует из (7.6):

mk = npk Zk + npk .

Учитывая (7.5), получаем

136

l

l

l

 

mk = ( npk Zk + npk ) = n

npk Zk = 0 -

линейная зависи-

k =1

k =1

k =1

 

мость между величинами Z1, Z2,.., Zn . При этом,

согласно основной

концепции распределения хи-квадрат, "теряется одна степень свободы", в результате получаем:

l

 

 

2

~ χ2

(l 1).

Z = mk n pk

 

n p

k

 

 

 

k =1

 

 

 

 

Пример 2. Исследуя вероятностные законы наследственности, Грегор Мендель проводил в течение 8 лет (с 1857 по 1865 г.) эксперименты по селекции гороха. За это время он вырастил и детально изучил около 10000 растений гороха, прежде чем решился опубликовать свои результаты в одном из научных журналов. Однако после этого потребовалось целых 35 лет, чтобы ученый мир понял и оценил значение сделанного им открытия. В одном из своих экспериментов Мендель наблюдал частоты в схожести различных видов семян, получаемых при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Данные наблюдений Менделя и теоретически рассчитанные вероятности приведены в табл.7.1.

Таблица 7.1

Номер

 

 

Теоретические

Виды семян

Частота mk

вероятности

разряда

 

 

Pk

k

 

 

 

1

Круглые и желтые

315

9 16

2

Морщинистые и

101

3 16

 

желтые

 

 

 

3

Круглые и зеленые

108

3 16

4

Морщинистые и

32

1 16

 

зеленые

 

 

 

 

N = 556

1

137

Проверить на уровне значимости α = 0,05 основную гипотезу о

соответствии наблюдаемых частот теоретическим вероятностям.

В данном примере разрядами являются значения качественных признаков: X1 - форма (круглые или морщинистые), X 2 - цвет (желтый

или зеленый), по которым вся популяция гороха (генеральная совокупность) разделилась на 4 непересекающихся класса. Статистика Пирсона принимает вид:

4

 

 

 

2

 

 

mk n pk

 

(3).

 

Z =

n p

 

~ χ

 

 

k =1

k

 

 

χ2(3) находим: t

(3)=

Из таблицы квантилей распределения

= t0,95 (3)= 7,81. Вычисляем

 

 

 

 

1−α

 

выборочное

 

значение статистики:

Zвыб = 0,47 . Так как 0,47<<7,81 ( Zвыб G1−α ), то гипотеза H0 принимается с хорошей надежностью.

Замечание 1. Критическую область для проверки основной гипотезы H0 следует выбирать на правом хвосте распределения χ2(l 1), так как

это максимизирует мощность критерия. Действительно, если гипотеза H0 - ложная, т.е. pk не являются истинными вероятностями k-го раз-

ряда, то каждое слагаемое в сумме (7.5) будет иметь порядок n и сумма будет неограниченно возрастать вместе с объемом выборки. Таким об-

разом, если Gα ={z z > zкр} , то при достаточно большом n событие {Z > zкрH1} будет иметь вероятность, близкую к единице, и ложная

гипотеза будет почти наверняка отвергнута.

Замечание 2. Выбор интервалов - не простая задача при практическом использовании критерия хи-квадрат. Следует иметь в виду, что преобразование выборки к интервальному виду (в случае непрерывной Х) связано с некоторой потерей информации. Однако для эффективной работы критерия Пирсона группировка является необходимой операцией, позволяющей параметризировать критерий. Но при этом число интервалов l не должно быть ни слишком малым, иначе будет потеряно слишком много информации о распределении генеральной совокупности, ни слишком большим, так как в этом случае получаются слабо наполненные разряды и мощность критерия падает. Теоретически этот вопрос исследовался в [7], где показано, что при проверке на нормаль-

138