Добавил:

slavapmk study@slavapmk.ru Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский технический университет связи и информатики

Предмет:

Теория вероятностей и математическая статистика

Файл:

Панков все лекции для ИИ.pdf

Скачиваний:

Добавлен:

11.05.2026

Размер:

9.06 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 1415 / 1615 16 > Следующая >>>

КАФЕДРА ТЕОРИИ ВЕРОЯТНОСТЕЙ И ПРИКЛАДНОЙ МАТЕМАТИКИ

Лекция № 16

Статистические критерии согласия о виде распределения: Критерии Колмогорова, 2 Пирсона

для проверки простой гипотезы и 2 Фишера для проверки

сложной гипотезы

Пусть нам неизвестен законраспределения, изкоторого производится выборка. В этом случае формулируется только одна основная гипотеза H0 . Обычно рассматриваются следующие постановки задач, которые часто встречаются на практике:

1.Имеется выборка, и нас интересует вопрос, является ли она выборкой из заданного закона распределения. В этом случае основную гипотезу H0 называют гипотезой о виде распределения.

2.Имеются две выборки, и возникает вопрос, являются ли они наблюдением над одной случайной величиной или разными. В

этом случае говорят о гипотезе однородности.

3.Имеется выборка из двумерной случайной величины 1, 2 , и мы

пытаемся определить, независимы ли случайные величины 1 и 2 .

В этом случае H0 - гипотеза независимости.

Во всех этих трех случаях формулируется только одна гипотеза - H0 , и требуется проверить, согласуются ли имеющиеся статистические данные с этой гипотезой, или они ее опровергают. Соответствующие критерии именуются критериями согласия. Аналогично предыдущей

теме формулируются понятия простой и сложной гипотезы: если H0 однозначно определяет распределение наблюдаемой случайной величины, то ее называют простой, в противном случае – сложной. Из приведенных выше трех постановок задачи только в первом случае H0 может быть простой. К примеру, если основная гипотеза H0 формулируется следующим образом: «случайная величина, из которой производится выборка, имеет стандартное нормальное распределение: N 0,1 ». Если же H0 формулируется, например, как

«случайная величина, из которой производится выборка, имеет нормальное распределение», то она сложная.

Критерий согласия хи-квадрат

Пусть случайная величина , из которой производят выборку, обладает неизвестной функцией распределения: F x . Имеется выборка из нее x1,..., xn .

Пусть основная гипотеза H0 формулируется следующим образом: случайная величина имеет некоторое фиксированное распределение с функцией распределения F0 x :

H0 : F x F0 x .

Наша задача – проверить, согласуется ли выборка с гипотезой H0 . Рассмотрим три случая.

1). Пусть случайная величина принимает конечное число значений:

					y1 ... yN
					p ... p		.
						1	N
Основнаягипотеза H0					состоитв том, чтовыборка x1,..., xn производится
из полиномиальной					схемы с	вектором вероятностей исходов
		p1,..., pN , равным фиксированномувектору							p1(0) ,..., pN(0) , где p(0)j	0
	p	p1,..., pN , равным фиксированномувектору						p0	p1(0) ,..., pN(0) , где p(0)j	0
для всех j				.
для всех j			1, N	.

H0 : p p0 .

Рассмотрим статистику хи-квадрат (статистику 2 ):

	N	hj np(0)j		2		N	h	2
2							j		n,
		np	(0)				(0)
	j 1		j				np	j
					j 1

	n
где hj	Ind xk yj - число выборочных значений yj ,	т. е. число, равное
	k 1
тому,	сколько раз в выборке встретилось значение yj , по всем j			.
тому,	сколько раз в выборке встретилось значение yj , по всем j		1, N	.
Зафиксируем постоянную C 0.
Сформулируем критерий согласия хи-квадрат 2		или критерий 2
Пирсона:

-если статистика 2 C , то принимаем гипотезу H0 ;

-если статистика 2 C , то отвергаем гипотезу H0 (принимаем H0 ).

Критерий 2 характеризуется уровнем значимости, т. е. вероятностью ошибки первого рода , состоящей в том, что гипотеза H0 отвергается при условии, что она верна:

P H0 | H0 .

Для нахождения вероятности ошибки первого рода критерия 2 используется следующая теорема:

Теорема (Пирсона – без доказательства). Если верна гипотеза H0 , то

2 D 2 ,

n N 1

где 2N 1 - случайная величина, имеющая распределение хи-квадрат с N 1 степенью свободы.

Отсюда, при больших значениях n получаем следующую приближенную формулу для вычисления вероятности ошибки первого рода критерия 2 :

P H0 | H0 P 2 C | H0 1 P 2 C | H0 1 F 2N 1 (C),

где F 2N 1 (x) - функция распределения случайной величины, имеющей хи-квадрат распределение с N 1 степенью свободы.

При заданной по этой формуле, меняя приближенное равенство на обычное, вычисляют конкретное значение C :

C 2N 1;1 ,

т. е. C - квантиль хи-квадрат распределения с N 1 степенями свободы уровня 1 ,

Отметим, что так как H0 - сложная гипотеза, то вычислить ошибку второго рода P H0 | H0 очень трудно.

2). Пусть x1,..., xn – выборка из дискретной случайной величины, принимающей счетное число значений:

y1	... yN 1		yN		...
p	... p	N 1	p	N	...	.
1		N 1		N

Основная гипотеза имеет вид:

H0 : p1,..., pN 1, pN ,... p10 ,..., pN0 1, pN0 ,... .

Данныйслучайсводяткпредыдущемуспомощьюследующегоприема. Будем считать, что x1,..., xn – выборка из полиномиальной случайной величины следующего вида:

y' ...

N 1

' ... p'

N 1

где для всех j

выполняется y'j yj

и p'j

pj , и

1, N 1

, y

,... , p'

N 1

N 2

N k

k 0

Тогда H0 имеет вид

H0 : p' p1' ,..., pN' 1, pN' p0' ( p1(0)' ,..., pN(0)'1, pN(0)' ),

где для всех j 1, N 1 выполняется p(0)'j p(0)j , а pN(0)' pN(0)k .

k 0

3). Пусть – абсолютно непрерывная случайная величина с функцией распределения F x .

К примеру, N 0,1 .

Основная гипотеза имеет в этом случае вид:

H0 : F (x) F0 (x),

где F0 x - некоторая фиксированная функция распределения.

Разобьем область значений случайной величины на N непересекающихся подмножеств S1,...,SN . Если xi Sk , то говорят, что произошло событие Ek , для всех k 1, N .

n			Sk
Обозначим через hk Ind xi			Sk	количество событий EK в выборке,
i 1
N
hk n.
k 1
Обозначим pk(0) P SK \| H0 ,			и	будем считать, что производится
выборка из дискретной случайной величины:
			E1 ...EN
			p ... p			.
				1		N
Основная гипотеза имеет вид:
H0 :		p1,..., pN				p1(0) ,..., pN(0) .
H0 :	p	p1,..., pN			p0	p1(0) ,..., pN(0) .

И мы сводим ситуацию опять к первому случаю.

Метод, который мы применили во втором и в третьем случае, можно назвать методом группировки данных.

Пример. При n 4040 бросаниях монеты Бюффон получил h1 2048 выпадений герба и h2 n h1 1992 выпадений решетки. Проверим, используя критерий 2 , совместимы ли эти данные с гипотезой H0 о том, что монета была симметрична, т. е. что вероятность выпадения герба p 1/ 2. Здесь

N 2,

p(0)	1/ 2 p,
1
p2(0)	1 p 1/ 2,
	h пр 2		h2	п 1 р 2	2048 2020 2	1992 2020	2
2		1						0,776.
2		пр		п 1 р	2020	2020		0,776.

Пусть уровень значимости критерия 0,05.

Тогда C 2N 1;1 1;0,952 3,841.

Сравним значение статистики 2 и величину C . Так как X 2 C , то данные не противоречат гипотезе.

Критерий однородности хи-квадрат

Одной из важных прикладных задач математической статистики является задача проверки однородности статистического материала. Пусть имеются две независимые выборки, описывающие один и тот же процесс, явление и так далее, но полученные в разное время или, вообще говоря, в разных условиях. Требуется установить, являются ли они выборками из одного и того же распределения, или же закон распределения от выборки к выборке меняется. Такая задача может возникнуть, к примеру, при контроле качества некоторой продукции, когда по контрольным выборкам из различных партий требуется установить, не менялось ли ее качество от смены к смене или в результате изменения технологического процесса и так далее.

В таком виде задачу можно сформулировать следующим образом:

Пусть x1,..., xn - выборка из случайной величины		с	некоторой
функцией распределения F x , y1,..., yn - выборка		из	случайной

величины с некоторой функцией распределения F (x).

Требуется проверить гипотезу однородности:

H0 :F (x) F (x).

Часто применяемым в такой ситуации критерием является критерий однородности хи-квадрат 2 или критерий 2 Фишера. Его

используют для проверки однородности данных, имеющих конечную дискретную структуру. Но к этому виду можно свести любую другую модель, как мы показали выше, применяя предварительно метод группировки данных. Поэтому метод 2 применим, на самом деле, к анализу любых данных, т. е. является в этом смысле универсальным. Кроме того, с помощью этого метода можно анализировать любое конечное число выборок.

Предположим, что существует S последовательных серий независимых наблюдений x1,1,..., xn1 ,1 , …, x1,S ,..., xnS ,S , состоящих из n1, ,nS наблюдений соответственно. При этом в каждом из них наблюдалась

величина,

принимающая одно из N значений: E1, , EN .

Т.

е.

выборка

x1,1,..., xn1 ,1 производилась из случайной величины

x1,S ,..., xnS ,S

...

N ,…,

– из S

1 ...

p1,1 ... pN ,1

p1,s ... pN ,S

Основная гипотеза имеет в этом случае вид:

H0 : pj,1 ... pj,S

для всех j

1, N

Или, как можно переформулировать,

H0 : pj,i pj

для всех j

и для всех i

1, N

1,S

Ej – количество исходов Ej в i-й выборке.

Обозначим hj,i Ind xk ,i

k 1

Если бы мы использовали ту же статистику, что и в предыдущей подтеме, то мы получили бы для каждой выборки статистику

	N	hj,i ni pj,i 2	N	hj,i ni pj 2
i2
i2		ni pj,i		ni pj
	j 1	ni pj,i	j 1	ni pj

Но здесь возникает проблема: мы не знаем pj,i pj - они нам не даны изначально. Значит, вместо них следует использовать какие-то оценки.

Используем в статистике вместо pj				S	S	1
Используем в статистике вместо pj				оценку p*j hj,i	ni .
				i 1	i 1
S	S N	hj,i ni p*j		2
Обозначим 2* i2		n p	* .
i 1	i 1 j 1	n p	j
i 1	i 1 j 1	i	j

Теорема (без доказательства). Если верна гипотеза H0 , то

2*	D	2	2	,
			NS N S 1	,
	n	N 1 S 1

т. е. статистика 2* сходится по распределению к хи-квадрат распределению, число степеней свободы которого равно NS N S 1.

Сформулируем критерий однородности выборок хи-квадрат:

-если статистика 2* C , то принимаем гипотезу H0 ;

-если статистика 2* C , то отвергаем гипотезу H0 (принимаем H0 ).

Уровень значимости , также как и в случае критерия согласия хиквадрат, задает конкретное значение C :

P H0 | H0 P 2* C | H0 1 P 2* C | H0 1 F 2N 1 S 1 C .

Отсюда принимаем C 2

N 1 S 1 ;1

Критерий независимости хи-квадрат

Пусть в эксперименте наблюдается двумерная случайная величина1, 2 с неизвестной функцией распределения F 1, 2 (x, y), и имеется

основание предполагать, что компоненты 1 и 2 независимы. В этом случае надо проверить гипотезу независимости

H0 : F 1 , 2 x, y F 1 x F 2 y ,

где F	x и F y - некоторые одномерные функции распределения.
1	2
Простой критерий согласия для гипотезы H0		можно построить,
основываясь на методике хи-квадрат.
Будем считать, что выборка x1, y1 , x2 , y2 ,..., xn , yn		производится из

двумерной случайной величины 1, 2 , где случайная величина 1 принимает конечное число - S - некоторых значений a1,...,aS , а 2 - N значений b1,...,bN . Эти значения обычно называют признаками. Обозначим через

hi, j	n	Ind xk	, yk ai	,bj
hi, j		Ind xk	, yk ai	,bj

	k 1

число появлений в выборке пары признаков ai ,bj .

S N

Очевидно, что hi, j n, где n - объем выборки.

i 1 j 1

Результаты наблюдений удобно располагать в виде таблицы сопряженности двух признаков:

	b1	…	bj	…	bN	Сумма по строке:
a1	h1,1	…	h1, j	…	h1,N	h1,0
…	…	…	…	…	…	…

ai	hi,1	…	hi, j	…	hi,N	hi,0
…	…	…	…	…	…	…

aS	hS,1	…	hS , j	…	hS,N	hS ,0
Сумма по столбцу:	h0,1	…	h0, j	…	h0,N	n

Обозначим:

pi, j - вероятность появления пары признаков ai ,bj , pi,0 - вероятность появления признака ai ,

p0, j - вероятность появления признака bj .

Основная гипотеза имеет в этом случае вид: H0 : pi, j pi,0 p0, j для всех j 1, N и для всех i 1,S .

Как и в предыдущей подтеме, при построении статистики воспользуемся вместо неизвестных вероятностей их оценками.

Рассмотрим статистику:

	S	N	hi, j npi,o po, j 2	, где pi,o	h		, po, j	h	.
			* *		i,0			0, j
2			npi,o po, j	*			*
	i 1	j 1			n			n
Теорема (без доказательства).						Если верна гипотеза H0 , то

2	D	2	2
			NS N S 1.
	n	N 1 S 1

Сформулируем критерий независимости признаков хи-квадрат:

	2	C , то принимаем гипотезу H0 ;
	- если статистика	C , то принимаем гипотезу H0 ;
	2
	2	C , то отвергаем гипотезу H0 (принимаем H0 ).
	- если статистика	C , то отвергаем гипотезу H0 (принимаем H0 ).

Также, как и в случае предыдущих критериев, ошибка первого рода, или уровень значимости , задает конкретное значение C :

C | H0

P H

0 | H0 P

1 P

C | H

1 F 2

N 1 S 1

Поэтому принимаем:

N 1 S 1 ;1

Пример. В эксперименте каждый человек классифицировался по двум признакам: цвету глаз и цвету волос. При этом по первому признаку 1 он относился к одной из трех категорий S 3 – голубые, зеленые, карие глаза; и по второму признаку 2 к четырем N 4 – блондин, брюнет, шатен, рыжий.

Выпишем таблицу сопряженности признаков для n=6800 человек.

	брюнет	блондин	шатен	рыжий	Сумма по строке:

карие	1768	807	189	47	2811

голубые	946	1387	746	53	3132

зеленые	115	438	288	16	857

Сумма по столбцу:	2829	2632	1223	116	6800

Для данной выборки значение статистики

2	3	4	hi, j npi*,o		po*, j 2
			*	*	1075,2.
	i 1	j 1	npi,o	po, j

Пусть уровень значимости 0,001.

N 1 S 1 6,

C 2		2	22,5,
		6;0,999
	N 1 S 1 ;1
2	C .
	C .

Следовательно, гипотезуо независимости этих двух признаков следует отклонить, вероятность ошибки при этом значительно меньше 0,001.

Пусть x1,..., xn1 и y1,..., yn2 вариационные ряды, составленные из элементов первой и второй выборок соответственно. Требуется проверить гипотезу H0 о совпадении законов распределения. Определим

эмпирические функции распределения F1(n1 ) и F2(n2 ) . Для проверки гипотезы вводятся следующие статистики:

sup F1

Dn1 ,n2

x F2

x F1

Dn1 ,n2

sup F2 2

Dn1 ,n2

x F1

max Dn1 ,n2 , Dn1 ,n2 sup

F2 2

В случае истинности нулевой гипотезы распределения статистик Dn

и Dn

,n одинаковы, поэтому рассматривается лишь статистика Dn ,n .

Без

ограничения общности можно считать, что n2 n1 . Предположим,

что

предельные функции F1(x) и F2 (y) непрерывны и гипотеза H0

верна.

Пусть n2 и n0

n1n2

. Тогда случайные величины Dn

, Dn

имеют

n1 n2

распределение

Колмогорова.

Для

статистики Dn ,n

критической

является область больших значений, т. е. гипотеза об однородности

отклоняется, если	D	,n2	n	(n ,n )	, где	(n ,n )	- критическая точка
	n1		0 1 2			1 2

распределения

Колмогорова

статистики

Dn ,n n0 при

уровне

значимости .

На практике для сокращения объема вычислений величины Dn

и Dn

можно находить по формулам

(n )

j 1

Dn1 ,n2

max

F1 1

(x(i) )

max F2 2

( y( j) )

1 i n2 n2

1 j n1

Dn1 ,n2

(n )				i 1	j	(n )
max F1	1	(x(i) )			max	F2 2	(y( j) )

1 i n2				n2	1 j n1 n1

max Dn1,n2			, Dn1 ,n2
x

Если число выборок k 2	и объемы выборок равны n1 n2 ... nk , то
можно использовать следующее обобщение статистик:
D(k )	maxsup	F	(n) (x) F (n) (x)
D(k )	maxsup	F	(n) (x) F (n) (x)
(n )		i	j
1	1 i, j n
	1 i, j n

Для практических целей обычно достаточно предельных статистик:

lim P		nD		K( )	,	lim P		nD		S( )
n		n			,	n		n

где

		2
	2
1 2 ( 1)k 1e 2k		, 0
K( )	k 1

0, 0

1 2 2 2 , 0

S( )

0, 0

Предельное распределение для статистики nDn в точности совпадает с S( ) .

Замечание: При использовании данного критерия не требуется предварительного разбиения на интервалы и группирования.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 1415 / 1615 16 > Следующая >>>

Соседние файлы в предмете Теория вероятностей и математическая статистика

#
11.05.20269.06 Mб0Панков все лекции для ИИ.pdf
#
11.05.20261.2 Mб0Панков Практикум по ТВиМС 21.12.pdf