Добавил:
study@slavapmk.ru Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Панков все лекции для ИИ.pdf
Скачиваний:
0
Добавлен:
11.05.2026
Размер:
9.06 Mб
Скачать

КАФЕДРА ТЕОРИИ ВЕРОЯТНОСТЕЙ И ПРИКЛАДНОЙ МАТЕМАТИКИ

Лекция № 16

Статистические критерии согласия о виде распределения: Критерии Колмогорова, 2 Пирсона

для проверки простой гипотезы и 2 Фишера для проверки

сложной гипотезы

Пусть нам неизвестен законраспределения, изкоторого производится выборка. В этом случае формулируется только одна основная гипотеза H0 . Обычно рассматриваются следующие постановки задач, которые часто встречаются на практике:

1.Имеется выборка, и нас интересует вопрос, является ли она выборкой из заданного закона распределения. В этом случае основную гипотезу H0 называют гипотезой о виде распределения.

2.Имеются две выборки, и возникает вопрос, являются ли они наблюдением над одной случайной величиной или разными. В

этом случае говорят о гипотезе однородности.

3.Имеется выборка из двумерной случайной величины 1, 2 , и мы

пытаемся определить, независимы ли случайные величины 1 и 2 .

В этом случае H0 - гипотеза независимости.

Во всех этих трех случаях формулируется только одна гипотеза - H0 , и требуется проверить, согласуются ли имеющиеся статистические данные с этой гипотезой, или они ее опровергают. Соответствующие критерии именуются критериями согласия. Аналогично предыдущей

теме формулируются понятия простой и сложной гипотезы: если H0 однозначно определяет распределение наблюдаемой случайной величины, то ее называют простой, в противном случае – сложной. Из приведенных выше трех постановок задачи только в первом случае H0 может быть простой. К примеру, если основная гипотеза H0 формулируется следующим образом: «случайная величина, из которой производится выборка, имеет стандартное нормальное распределение: N 0,1 ». Если же H0 формулируется, например, как

«случайная величина, из которой производится выборка, имеет нормальное распределение», то она сложная.

Критерий согласия хи-квадрат

Пусть случайная величина , из которой производят выборку, обладает неизвестной функцией распределения: F x . Имеется выборка из нее x1,..., xn .

Пусть основная гипотеза H0 формулируется следующим образом: случайная величина имеет некоторое фиксированное распределение с функцией распределения F0 x :

H0 : F x F0 x .

Наша задача – проверить, согласуется ли выборка с гипотезой H0 . Рассмотрим три случая.

1). Пусть случайная величина принимает конечное число значений:

 

 

 

 

 

y1 ... yN

 

 

 

 

 

 

p ... p

.

 

 

 

 

 

 

 

1

N

 

Основнаягипотеза H0

состоитв том, чтовыборка x1,..., xn производится

из полиномиальной

схемы с

вектором вероятностей исходов

 

 

p1,..., pN , равным фиксированномувектору

 

p1(0) ,..., pN(0) , где p(0)j

0

 

p

p0

для всех j

 

.

 

 

 

 

 

 

1, N

 

 

 

 

 

 

H0 : p p0 .

Рассмотрим статистику хи-квадрат (статистику 2 ):

 

N

hj np(0)j

2

 

N

h

2

 

2

 

 

 

 

 

 

j

n,

np

(0)

 

(0)

 

j 1

j

 

 

 

np

j

 

 

 

 

j 1

 

 

 

n

 

 

 

где hj

Ind xk yj - число выборочных значений yj ,

т. е. число, равное

 

k 1

 

 

 

тому,

сколько раз в выборке встретилось значение yj , по всем j

 

.

1, N

Зафиксируем постоянную C 0.

 

 

 

Сформулируем критерий согласия хи-квадрат 2

или критерий 2

Пирсона:

 

 

 

-если статистика 2 C , то принимаем гипотезу H0 ;

-если статистика 2 C , то отвергаем гипотезу H0 (принимаем H0 ).

Критерий 2 характеризуется уровнем значимости, т. е. вероятностью ошибки первого рода , состоящей в том, что гипотеза H0 отвергается при условии, что она верна:

P H0 | H0 .

Для нахождения вероятности ошибки первого рода критерия 2 используется следующая теорема:

Теорема (Пирсона – без доказательства). Если верна гипотеза H0 , то

2 D 2 ,

n N 1

где 2N 1 - случайная величина, имеющая распределение хи-квадрат с N 1 степенью свободы.

Отсюда, при больших значениях n получаем следующую приближенную формулу для вычисления вероятности ошибки первого рода критерия 2 :

P H0 | H0 P 2 C | H0 1 P 2 C | H0 1 F 2N 1 (C),

где F 2N 1 (x) - функция распределения случайной величины, имеющей хи-квадрат распределение с N 1 степенью свободы.

При заданной по этой формуле, меняя приближенное равенство на обычное, вычисляют конкретное значение C :

C 2N 1;1 ,

т. е. C - квантиль хи-квадрат распределения с N 1 степенями свободы уровня 1 ,

Отметим, что так как H0 - сложная гипотеза, то вычислить ошибку второго рода P H0 | H0 очень трудно.

2). Пусть x1,..., xn – выборка из дискретной случайной величины, принимающей счетное число значений:

y1

... yN 1

yN

...

 

p

... p

N 1

p

N

...

.

1

 

 

 

 

Основная гипотеза имеет вид:

H0 : p1,..., pN 1, pN ,... p10 ,..., pN0 1, pN0 ,... .

Данныйслучайсводяткпредыдущемуспомощьюследующегоприема. Будем считать, что x1,..., xn – выборка из полиномиальной случайной величины следующего вида:

 

 

 

 

 

 

 

 

y' ...

y'

y

'

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

1

N 1

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p

' ... p'

p'

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

N 1

 

N

 

 

 

 

 

 

где для всех j

 

выполняется y'j yj

и p'j

pj , и

1, N 1

 

 

y'

 

 

y

 

, y

 

, y

 

,... , p'

 

 

 

 

p

 

.

 

 

 

 

N

N 1

N 2

 

 

 

N k

 

 

N

 

 

 

 

 

 

 

N

 

 

 

 

k 0

Тогда H0 имеет вид

H0 : p' p1' ,..., pN' 1, pN' p0' ( p1(0)' ,..., pN(0)'1, pN(0)' ),

где для всех j 1, N 1 выполняется p(0)'j p(0)j , а pN(0)' pN(0)k .

k 0

3). Пусть – абсолютно непрерывная случайная величина с функцией распределения F x .

К примеру, N 0,1 .

Основная гипотеза имеет в этом случае вид:

H0 : F (x) F0 (x),

где F0 x - некоторая фиксированная функция распределения.

Разобьем область значений случайной величины на N непересекающихся подмножеств S1,...,SN . Если xi Sk , то говорят, что произошло событие Ek , для всех k 1, N .

n

Sk

 

 

 

Обозначим через hk Ind xi

количество событий EK в выборке,

i 1

 

 

 

 

N

 

 

 

 

hk n.

 

 

 

 

k 1

 

 

 

 

Обозначим pk(0) P SK | H0 ,

и

будем считать, что производится

выборка из дискретной случайной величины:

 

 

 

E1 ...EN

 

 

 

p ... p

.

 

 

 

 

1

 

N

Основная гипотеза имеет вид:

 

 

 

H0 :

 

p1,..., pN

 

p1(0) ,..., pN(0) .

p

p0

И мы сводим ситуацию опять к первому случаю.

Метод, который мы применили во втором и в третьем случае, можно назвать методом группировки данных.

Пример. При n 4040 бросаниях монеты Бюффон получил h1 2048 выпадений герба и h2 n h1 1992 выпадений решетки. Проверим, используя критерий 2 , совместимы ли эти данные с гипотезой H0 о том, что монета была симметрична, т. е. что вероятность выпадения герба p 1/ 2. Здесь

N 2,

p(0)

1/ 2 p,

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

p2(0)

1 p 1/ 2,

 

 

 

 

 

 

 

 

 

h пр 2

 

h2

п 1 р 2

 

2048 2020 2

 

1992 2020

2

2

1

 

 

 

 

 

 

 

 

 

0,776.

пр

 

п 1 р

 

2020

2020

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть уровень значимости критерия 0,05.

Тогда C 2N 1;1 1;0,952 3,841.

Сравним значение статистики 2 и величину C . Так как X 2 C , то данные не противоречат гипотезе.

Критерий однородности хи-квадрат

Одной из важных прикладных задач математической статистики является задача проверки однородности статистического материала. Пусть имеются две независимые выборки, описывающие один и тот же процесс, явление и так далее, но полученные в разное время или, вообще говоря, в разных условиях. Требуется установить, являются ли они выборками из одного и того же распределения, или же закон распределения от выборки к выборке меняется. Такая задача может возникнуть, к примеру, при контроле качества некоторой продукции, когда по контрольным выборкам из различных партий требуется установить, не менялось ли ее качество от смены к смене или в результате изменения технологического процесса и так далее.

В таком виде задачу можно сформулировать следующим образом:

Пусть x1,..., xn - выборка из случайной величины

 

с

некоторой

функцией распределения F x , y1,..., yn - выборка

 

из

случайной

величины с некоторой функцией распределения F (x).

Требуется проверить гипотезу однородности:

H0 :F (x) F (x).

Часто применяемым в такой ситуации критерием является критерий однородности хи-квадрат 2 или критерий 2 Фишера. Его

используют для проверки однородности данных, имеющих конечную дискретную структуру. Но к этому виду можно свести любую другую модель, как мы показали выше, применяя предварительно метод группировки данных. Поэтому метод 2 применим, на самом деле, к анализу любых данных, т. е. является в этом смысле универсальным. Кроме того, с помощью этого метода можно анализировать любое конечное число выборок.

Предположим, что существует S последовательных серий независимых наблюдений x1,1,..., xn1 ,1 , …, x1,S ,..., xnS ,S , состоящих из n1, ,nS наблюдений соответственно. При этом в каждом из них наблюдалась

величина,

принимающая одно из N значений: E1, , EN .

Т.

е.

 

выборка

x1,1,..., xn1 ,1 производилась из случайной величины

1

 

E

 

E

 

x1,S ,..., xnS ,S

 

E

E

 

 

 

1

...

 

N ,…,

– из S

1 ...

 

 

N

.

 

p1,1 ... pN ,1

 

p1,s ... pN ,S

Основная гипотеза имеет в этом случае вид:

 

 

 

 

 

 

H0 : pj,1 ... pj,S

для всех j

 

,

 

 

 

 

 

 

 

 

1, N

Или, как можно переформулировать,

 

 

 

 

 

 

 

 

 

 

 

 

 

H0 : pj,i pj

для всех j

 

и для всех i

 

.

 

 

 

 

 

1, N

1,S

 

 

 

 

 

 

ni

Ej – количество исходов Ej в i-й выборке.

Обозначим hj,i Ind xk ,i

k 1

Если бы мы использовали ту же статистику, что и в предыдущей подтеме, то мы получили бы для каждой выборки статистику

 

N

hj,i ni pj,i 2

N

hj,i ni pj 2

i2

 

 

 

 

ni pj,i

ni pj

 

j 1

j 1

Но здесь возникает проблема: мы не знаем pj,i pj - они нам не даны изначально. Значит, вместо них следует использовать какие-то оценки.

Используем в статистике вместо pj

S

S

1

оценку p*j hj,i

ni .

 

 

 

 

i 1

i 1

 

S

S N

hj,i ni p*j

2

 

 

Обозначим 2* i2

 

n p

* .

 

 

i 1

i 1 j 1

j

 

 

 

i

 

 

 

Теорема (без доказательства). Если верна гипотеза H0 , то

 

2*

D

2

 

2

,

 

 

 

 

NS N S 1

 

 

n

N 1 S 1

 

 

т. е. статистика 2* сходится по распределению к хи-квадрат распределению, число степеней свободы которого равно NS N S 1.

Сформулируем критерий однородности выборок хи-квадрат:

-если статистика 2* C , то принимаем гипотезу H0 ;

-если статистика 2* C , то отвергаем гипотезу H0 (принимаем H0 ).

Уровень значимости , также как и в случае критерия согласия хиквадрат, задает конкретное значение C :

P H0 | H0 P 2* C | H0 1 P 2* C | H0 1 F 2N 1 S 1 C .

Отсюда принимаем C 2

N 1 S 1 ;1

Критерий независимости хи-квадрат

Пусть в эксперименте наблюдается двумерная случайная величина1, 2 с неизвестной функцией распределения F 1, 2 (x, y), и имеется

основание предполагать, что компоненты 1 и 2 независимы. В этом случае надо проверить гипотезу независимости

H0 : F 1 , 2 x, y F 1 x F 2 y ,

где F

x и F y - некоторые одномерные функции распределения.

1

2

 

Простой критерий согласия для гипотезы H0

можно построить,

основываясь на методике хи-квадрат.

 

Будем считать, что выборка x1, y1 , x2 , y2 ,..., xn , yn

производится из

двумерной случайной величины 1, 2 , где случайная величина 1 принимает конечное число - S - некоторых значений a1,...,aS , а 2 - N значений b1,...,bN . Эти значения обычно называют признаками. Обозначим через

hi, j

 

n

Ind xk

, yk ai

,bj

 

 

 

 

 

 

 

 

k 1

 

 

 

число появлений в выборке пары признаков ai ,bj .

S N

Очевидно, что hi, j n, где n - объем выборки.

i 1 j 1

Результаты наблюдений удобно располагать в виде таблицы сопряженности двух признаков:

 

b1

bj

bN

Сумма по строке:

a1

h1,1

h1, j

h1,N

h1,0

 

 

 

 

 

 

 

ai

hi,1

hi, j

hi,N

hi,0

 

 

 

 

 

 

 

aS

hS,1

hS , j

hS,N

hS ,0

Сумма по столбцу:

h0,1

h0, j

h0,N

n

Обозначим:

pi, j - вероятность появления пары признаков ai ,bj , pi,0 - вероятность появления признака ai ,

p0, j - вероятность появления признака bj .

Основная гипотеза имеет в этом случае вид: H0 : pi, j pi,0 p0, j для всех j 1, N и для всех i 1,S .

Как и в предыдущей подтеме, при построении статистики воспользуемся вместо неизвестных вероятностей их оценками.

Рассмотрим статистику:

 

S

N

hi, j npi*,o po*, j 2

, где pi,o

 

h

 

, po, j

h

.

 

* *

i,0

0, j

2

 

 

npi,o po, j

*

 

*

 

 

i 1

j 1

 

 

n

 

 

n

 

Теорема (без доказательства).

Если верна гипотеза H0 , то

2

D

2

 

2

 

 

 

 

NS N S 1.

 

n

N 1 S 1

 

Сформулируем критерий независимости признаков хи-квадрат:

2

C , то принимаем гипотезу H0 ;

- если статистика

2

 

 

 

C , то отвергаем гипотезу H0 (принимаем H0 ).

- если статистика

Также, как и в случае предыдущих критериев, ошибка первого рода, или уровень значимости , задает конкретное значение C :

 

 

 

2

C | H0

 

 

 

 

 

 

 

P H

 

 

 

 

 

 

 

 

0 | H0 P

 

 

0

 

 

 

 

 

 

 

 

1 P

 

2

C | H

1 F 2

 

C

.

 

 

 

 

 

 

 

 

 

 

 

 

N 1 S 1

 

 

Поэтому принимаем:

C2

N 1 S 1 ;1

Пример. В эксперименте каждый человек классифицировался по двум признакам: цвету глаз и цвету волос. При этом по первому признаку 1 он относился к одной из трех категорий S 3 – голубые, зеленые, карие глаза; и по второму признаку 2 к четырем N 4 – блондин, брюнет, шатен, рыжий.

Выпишем таблицу сопряженности признаков для n=6800 человек.

 

брюнет

блондин

шатен

рыжий

Сумма по строке:

 

 

 

 

 

 

карие

1768

807

189

47

2811

 

 

 

 

 

 

голубые

946

1387

746

53

3132

 

 

 

 

 

 

зеленые

115

438

288

16

857

 

 

 

 

 

 

Сумма по столбцу:

2829

2632

1223

116

6800

 

 

 

 

 

 

Для данной выборки значение статистики

2

3

4

hi, j npi*,o

po*, j 2

 

 

*

*

1075,2.

 

i 1

j 1

npi,o

po, j

Пусть уровень значимости 0,001.

N 1 S 1 6,

C 2

 

2

22,5,

 

 

6;0,999

 

 

N 1 S 1 ;1

 

 

2

C .

 

 

 

 

 

 

 

Следовательно, гипотезуо независимости этих двух признаков следует отклонить, вероятность ошибки при этом значительно меньше 0,001.

Пусть x1,..., xn1 и y1,..., yn2 вариационные ряды, составленные из элементов первой и второй выборок соответственно. Требуется проверить гипотезу H0 о совпадении законов распределения. Определим

эмпирические функции распределения F1(n1 ) и F2(n2 ) . Для проверки гипотезы вводятся следующие статистики:

 

sup F1

n

 

 

 

n

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Dn1 ,n2

1

 

x F2

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

x F1

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Dn1 ,n2

sup F2 2

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Dn1 ,n2

 

 

 

 

 

 

 

 

 

n

x F1

n

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

max Dn1 ,n2 , Dn1 ,n2 sup

F2 2

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В случае истинности нулевой гипотезы распределения статистик Dn

,n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

и Dn

,n одинаковы, поэтому рассматривается лишь статистика Dn ,n .

Без

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

 

 

ограничения общности можно считать, что n2 n1 . Предположим,

что

предельные функции F1(x) и F2 (y) непрерывны и гипотеза H0

верна.

 

 

Пусть n2 и n0

 

n1n2

 

. Тогда случайные величины Dn

 

 

 

 

, Dn

 

 

 

имеют

 

 

 

 

n0

 

 

 

,n

 

,n

 

n0

 

n1 n2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

распределение

Колмогорова.

Для

статистики Dn ,n

 

 

 

критической

2

n0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

является область больших значений, т. е. гипотеза об однородности

отклоняется, если

D

,n2

n

(n ,n )

, где

(n ,n )

- критическая точка

n1

0 1 2

1 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

распределения

Колмогорова

статистики

Dn ,n n0 при

уровне

 

 

 

 

 

 

 

 

 

 

1

2

 

 

 

 

 

значимости .

 

 

 

 

 

 

 

 

 

 

 

 

 

На практике для сокращения объема вычислений величины Dn

,n

и Dn

,n

 

 

 

 

 

 

 

 

 

 

 

1

2

1

2

можно находить по формулам

 

 

 

 

 

 

 

 

 

 

 

i

(n )

 

(n )

 

 

j 1

 

 

 

 

 

 

 

Dn1 ,n2

max

 

F1 1

(x(i) )

max F2 2

( y( j) )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 i n2 n2

 

 

1 j n1

 

 

n1

 

 

 

 

 

 

 

Dn1 ,n2

Dn1 ,n2

(n )

 

 

i 1

j

(n )

 

max F1

1

(x(i) )

 

 

 

max

 

F2 2

(y( j) )

 

 

 

1 i n2

 

 

 

n2

1 j n1 n1

 

 

 

 

 

 

 

 

 

 

max Dn1,n2

, Dn1 ,n2

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

Если число выборок k 2

и объемы выборок равны n1 n2 ... nk , то

можно использовать следующее обобщение статистик:

D(k )

maxsup

 

F

(n) (x) F (n) (x)

 

 

 

 

(n )

 

 

i

j

 

 

1

1 i, j n

 

 

 

 

 

 

 

 

 

 

 

Для практических целей обычно достаточно предельных статистик:

lim P

 

nD

 

K( )

,

lim P

 

nD

 

S( )

n

n

 

n

n

 

где

 

 

2

2

1 2 ( 1)k 1e 2k

, 0

K( )

k 1

 

0, 0

1 2 2 2 , 0

S( )

0, 0

Предельное распределение для статистики nDn в точности совпадает с S( ) .

Замечание: При использовании данного критерия не требуется предварительного разбиения на интервалы и группирования.