Добавил:

korayakov Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский университет «МИЭТ»

Предмет:

Теория вероятностей и математическая статистика

Файл:

Литература / книга.pdf

Скачиваний:

150

Добавлен:

17.04.2013

Размер:

1.36 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1718 / 2218 19 20 21 22 > Следующая >>>

где р - неизвестная вероятность, общая для обеих генеральных

	p* − p*						n p q				>>1,
cтатистика: Z =	1	2			H		1	1		1		>>1.
cтатистика: Z =					H		~ N(0,1) при n p			q		>>1.
		1		1		0	2		2		2
		1		1
	p(1− p) n		+ n
		1	2

Неизвестное р оценивается по объединенной выборке следующим образом:

~		m1	+ m2
p	=	n	+ n	.
		1	2

Таким образом, окончательно статистика Z приобретает вид:

	p* − p*
Z1 =	1	2			.

		1		1
~	~
p(1	− p) n		+ n
		1	2

7.4. Проверка гипотез о законе распределения

Общие положения, постановка задачи

Пусть закон распределения генеральной случайной величины неизвестен, но имеются те или иные основания предполагать, что генеральная распределена по закону, описываемому известной функцией распределения: FX (x / Θ) , где Θ - вектор параметров, которыми опре-

деляется данная функция (например, высказывается предположение,

что X ~ N (m,σ2 ) .

Таким образом, формулируем основную гипотезу:

H0 : X ~ FX (x / Θ).

132

Альтернативной всегда выступает гипотеза H1 = H 0 , т.е. отрицающая H0 . Критерии, используемые для проверки указанной основ-

ной гипотезы, носят название критериев согласия.

В данном параграфе рассмотрим два наиболее важных для практики критерия согласия: критерий Колмогорова и критерий Пирсона (критерий хи-квадрат), но вначале обсудим некоторые общие положения, связанные с проблемой построения критериев согласия. Заметим, что, как и в случае проверки уже известных нам гипотез о параметрах, для реализации критерия согласия нужна подходящая статистика, являющаяся мерой расхождения в данном случае между гипотетической функцией, утверждаемой в H0 , и эмпирической функцией распределе-

ния, наблюдаемой в выборке. Обозначим эмпирическую функцию распределения Fn*(x) , подчеркивая этим ее зависимость от объема выборки. Всякая подходящая статистика Z должна очевидно быть функцией как от FX (x) , так и от Fn*(x) , т.е. Z = Z (FX (x / Θ), Fn*(x)). Но так как истинная функция распределения неизвестна, то гипотеза H0 оказыва-

ется сложной, даже если вектор параметров Θ известен. В этом состоит одна из трудностей построения критериев согласия. Основное требование, предъявляемое к подходящей статистике, заключается в том, чтобы ее закон распределения при условии H0 по крайней мере асимптотиче-

ски (при n → ∞) не зависел от гипотетической функции распределения.

Критерий согласия Колмогорова

Большое значение для построения подходящей статистики имеет факт применимости закона больших чисел к эмпирической функции распределения, а именно имеет место следующая теорема.

Теорема 7.5. Пусть Fn*(x) - эмпирическая функция распределения, построенная по выборке x1, x2,..., xn из генеральной совокупности

X ~ F	(x) . Тогда для x R F *(x)	p	F	X	(x) .
		n → ∞
X	n

Имеем по определению: Fn*(x) = P*{X < x}, т.е. при каждом действительном x Fn*(x) есть относительная частота события {X < x}

133

("успеха") в n опытах по схеме Бернулли с вероятностью "успеха" Fn (x) . Поэтому, в силу закона больших чисел в формулировке Бернул-

ли, следует утверждение теоремы.

Колмогоровым была изучена статистика ∆n = Sup Fn* (x) − FX (x) -

x R

точная верхняя грань отклонения эмпирической функции распределения от теоретической на всей оси и на ее основе разработан критерий согласия. Имеет место следующая теорема.

Теорема 7.6. (Колмогорова). Пусть Х - СВНТ с функцией распределения

FX (x) t > 0 : lim P{ n ∆n < t}= K(t) =	∞	}.
	∑(−1)i exp{− 2i2 t2
n→∞	i=−∞

Доказательство см., напр., в [4], § 3.2].

Функция K (t) - функция распределения Колмогорова - табулиро-

вана и может быть использована для проверки гипотезы о законе распределения непрерывной генеральной случайной величины с помощью

статистики Zn = n ∆n уже при n ≥ 20 .

На практике экстремум заменяется на максимум, который достигается в одной из точек скачка эмпирической функции распределения (если она строится для простой выборки). Несколько сложнее осуществляется поиск максимума отклонения для интервальной выборки. При этом возникает не простой вопрос о зависимости мощности критерия от числа интервалов, если эти интервалы не порождены естественной классификацией признаков в номинальной шкале.

Критерий согласия хи-квадрат

Критерий хи-квадрат более алгоритмичен, чем критерий Колмогорова, и имеет более широкий спектр приложений, поскольку применяется как для дискретной, так и для непрерывной генеральной совокупности. Основан этот критерий на поразрядном сравнении частот и вероятностей, поэтому предварительно выборка приводится к частотному

134

FX(x)

	I2 I3	Il


a1 a2 a3		al–1	x

Рис.7.5.

виду. При этом в зависимости от типа генерального по разному трактуется понятие "разряд".

СВДТ

Если генеральная X

СВНТ

разряды для сравнения частот - это возможные значения x в группированной выборке;

разряды - это интервалы, полу-

чаемые при интервальном представлении выборки.

Рассмотрим более подробно структуру критерия для непрерывной Х. Пусть гипотеза H0 - простая, т.е. полностью определяет закон распределения X.

Разобьем множество значений EX на l интервалов точками деления a0,a1, a2,...,al , как показано на рис.7.5, так что IK = [ak −1, ak ),

k = 2,3,..,l −1; I1 = (−∞, a1), Il =[al −1,+∞).

Так как Н0 - простая, то теоретическая вероятность попадания на интервал IK :

P{X Ik } = P{ak −1 ≤ X < ak } = = FX (ak ) − FX (ak −1) = pk -

точно известна. Пусть получена выборка: x1, x2,..., xn. Распределим ее по интервалам: пусть mk - число выборочных значений, попавших в Ik . Очевиднодолжновыполнятьсяусловие:

l
∑mk = n.	(7.5)

k =1

135

Рассмотрим меру расхождения, основанную на среднеквадратичной близости:

Z = ∑ck ( pk* − pk )2 , где pk* =

. Имеет место следующая теорема.

k =1

Теорема 7.7. Если Н0 - простая,

n >>1 , то

( p* − p )2 ~ χ2 (l −1).

∑ p

k =1

Преобразуем

Z =

− p

l (m

− np

∑ pk

∑

npk

∑

npk

k .

k =1

Обозначим

Zk = mk − npk

Z = ∑Zk2.

(7.6)

npk

k =1

Можно показать, что при больших n mk ~ Pu(npk ) , т.е. Zk - стан-

дартизованная пуассоновская величина.

Известно, что пуассоновское распределение асимптотически нор-

мально (см.	задачу 14.572 в [2]).	Поэтому при n >>1,	таких, что
λk = npk >>1	для всех k =1,2,...,l	можно считать, что	Zk ~ N (0,1) .

Отсюда, согласно (7.6), статистика Z представляет собой сумму квадратов стандартизованных нормальных величин. Если бы Z1, Z2,.., Zn были

независимы в совокупности, то в соответствии с теоремой Пирсона 6.3 Z ~ χ2 (l) . Однако утверждение о независимости в данном случае не имеет места, так как на случайные величины Z1, Z2,.., Zn наложено одно линейное условие связи. Действительно, как следует из (7.6):

mk = npk Zk + npk .

Учитывая (7.5), получаем

136

l	l	l
∑mk = ∑( npk Zk + npk ) = n		∑ npk Zk = 0 -	линейная зависи-
k =1	k =1	k =1
мость между величинами Z1, Z2,.., Zn . При этом,			согласно основной

концепции распределения хи-квадрат, "теряется одна степень свободы", в результате получаем:

l			2	~ χ2	(l −1).
Z = ∑ mk −n pk				~ χ2	(l −1).
	n p	k
k =1		k

Пример 2. Исследуя вероятностные законы наследственности, Грегор Мендель проводил в течение 8 лет (с 1857 по 1865 г.) эксперименты по селекции гороха. За это время он вырастил и детально изучил около 10000 растений гороха, прежде чем решился опубликовать свои результаты в одном из научных журналов. Однако после этого потребовалось целых 35 лет, чтобы ученый мир понял и оценил значение сделанного им открытия. В одном из своих экспериментов Мендель наблюдал частоты в схожести различных видов семян, получаемых при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Данные наблюдений Менделя и теоретически рассчитанные вероятности приведены в табл.7.1.

Таблица 7.1

Номер			Теоретические
Номер	Виды семян	Частота mk	вероятности
разряда	Виды семян	Частота mk	вероятности
разряда			Pk
k
1	Круглые и желтые	315	9 16
2	Морщинистые и	101	3 16
	желтые	101	3 16
	желтые
3	Круглые и зеленые	108	3 16
4	Морщинистые и	32	1 16
	зеленые	32	1 16
	зеленые
	∑	N = 556	1

137

Проверить на уровне значимости α = 0,05 основную гипотезу о

соответствии наблюдаемых частот теоретическим вероятностям.

В данном примере разрядами являются значения качественных признаков: X1 - форма (круглые или морщинистые), X 2 - цвет (желтый

или зеленый), по которым вся популяция гороха (генеральная совокупность) разделилась на 4 непересекающихся класса. Статистика Пирсона принимает вид:

4			2
mk −n pk			2	(3).
Z = ∑	n p	~ χ		(3).
k =1	k		χ2(3) находим: t		(3)=
Из таблицы квантилей распределения			χ2(3) находим: t		(3)=
= t0,95 (3)= 7,81. Вычисляем				1−α
= t0,95 (3)= 7,81. Вычисляем	выборочное			значение статистики:

Zвыб = 0,47 . Так как 0,47<<7,81 ( Zвыб G1−α ), то гипотеза H0 принимается с хорошей надежностью.

Замечание 1. Критическую область для проверки основной гипотезы H0 следует выбирать на правом хвосте распределения χ2(l −1), так как

это максимизирует мощность критерия. Действительно, если гипотеза H0 - ложная, т.е. pk не являются истинными вероятностями k-го раз-

ряда, то каждое слагаемое в сумме (7.5) будет иметь порядок n и сумма будет неограниченно возрастать вместе с объемом выборки. Таким об-

разом, если Gα ={z z > zкр} , то при достаточно большом n событие {Z > zкрH1} будет иметь вероятность, близкую к единице, и ложная

гипотеза будет почти наверняка отвергнута.

Замечание 2. Выбор интервалов - не простая задача при практическом использовании критерия хи-квадрат. Следует иметь в виду, что преобразование выборки к интервальному виду (в случае непрерывной Х) связано с некоторой потерей информации. Однако для эффективной работы критерия Пирсона группировка является необходимой операцией, позволяющей параметризировать критерий. Но при этом число интервалов l не должно быть ни слишком малым, иначе будет потеряно слишком много информации о распределении генеральной совокупности, ни слишком большим, так как в этом случае получаются слабо наполненные разряды и мощность критерия падает. Теоретически этот вопрос исследовался в [7], где показано, что при проверке на нормаль-

138

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1718 / 2218 19 20 21 22 > Следующая >>>

Соседние файлы в папке Литература

#
17.04.20131.36 Mб150книга.pdf
#
17.04.201321.9 Mб415Феллер_теория вероятностей_I.pdf
#
17.04.201333.75 Mб372Феллер_теория вероятностей_II.pdf