Скачиваний:
20
Добавлен:
20.05.2014
Размер:
120.05 Кб
Скачать

Лекция 14. Критерии согласия.

Критерий согласия Колмогорова.

Колмогоров Андрей Николаевич, (1903-1987)

Статистические критерии, применяемые для проверки гипотезы H0 ïðè альтернативе H1; являющейся отрицанием H0 называются критериями со- гласия. В такого рода задачах на самом деле решается вопрос о том, согласуются ли наблюдения с нашей гипотезой H0 о распределении исследуемой

генеральной совокупности.

Критерий Колмогорова, о котором идет речь ниже, применяется в слу- чае, когда H0 простая гипотеза

H0 : F (x) = F0(x)

и функция распределения F0(x) - непрерывна. При этом альтернативой является

H1 : F (x) 6= F0(x):

Основой всех методов построения критериев согласия является рассмотрение некоторой удачно выбранной меры расхождения между выборкой и гипотетическим распределением.

Для критерия Колмогорова выбор меры расхождения связан с выбороч- ной (эмпирической) функцией распределения Fn(x): А именно, рассматривается статистика Колмогорова

Dn = sup jFn(x) F0(x)j:

x2R

Особенностью статистики Dn является то, что ее распределение при гипотезе H0 не зависит от функции распределения F0(x):

Действительно, в определении Dn сделаем замену переменных u = F0(x):

Тогда

Dn = sup jFn(F0 1(u)) uj:

u

По выборке X1; :::; Xn построим новую последовательность независимых случайных величин Y1; :::; Yn: Каждое Yj = F0(Xj): Можно показать, что при гипотезе H0 случайные величины Yj распределены равномерно на от-

резке [0,1].

Теперь посмотрим на значение выборочной функции распределения в точке F0 1(u)

n

Fn(F0 1(u)) = n1 X (F0 1(u) Xj);

j=1

ãäå

((

(F 1

(u)

 

X ) = 1; F0 1(u) Xj > 0

= 1; u Yj > 0

:

0

 

j

0; F0 1(u) Xj 0;

0; u Yj 0

 

1

Поэтому

n

Fn(F0 1(u)) = n1 X (u Yj) = Rn(u);

j=1

ãäå Rn(u) - значение выборочной функции распределения выборки Y1; :::; Yn в точке u: Поэтому

D

n

x j

n

(x)

 

0

(x)

j = u j

n

(u)

 

j

:

 

= sup

F

 

F

sup

R

 

u

Этот факт имеет принципиальное значение, так как достаточно полу- чить распределение величины Dn лишь для выборки из равномерного распределения R[0; 1] и использовать это распределение для выборки из сово-

купности с любой непрерывной функцией распределения F0(x): Аналитически получить распределение величины Dn - сложно, поэто-

му моделируя случайные выборки из равномерного распределения создают таблицы для этого распределения при разных n:

Вторым замечательным фактом является то, что при

n ! 1 распреде-

ление p

 

 

 

 

nDn слабо сходится к пределу. В частности это означает, что при

больших

 

 

(óæå ïðè

n 20)

распределение статистики p

 

 

практически

n

nDn

 

 

 

 

 

от n не зависит. Более точно, верна теорема Колмогорова.

Теорема Колмогорова Если гипотеза H0 : F (x) = F0(x) верна и функ-

öèÿ F0(x) непрерывна, то

 

 

 

 

 

lim P (pnD

 

< x) = K(x) =

1

( 1)je 2j2x2

:

n

!1

 

 

n

 

X

 

 

 

 

 

 

 

j=1

Итак, если выборка взята из совокупности с функцией распределения

F0(x); то распределение Dn не зависит от функции F0(x): Кроме того, по- следовательность pnDn имеет предельное распределение при n ! 1: Это

предельное распределение не совпадает ни с одним упоминавшемся здесь ранее и носит название распределения Колмогорова.

Теорема Колмогорова является основой для построения критерия согласия (при n > 20) проверки гипотезы H0 с критическим множеством

K

p

 

 

 

 

 

 

 

 

 

 

 

= f nDn > k1 g :

 

(H0

 

p

 

 

 

; pnDn < k1

(X) = H1

;

nDn k1

Число k1 (квантиль уровня 1 для функции распределения Колмого-

рова) определяется по заданному уровню значимости из таблиц распределения Колмогорова.

Критерий Колмогорова является состоятельным критерием уровня :

2

- не верна, то
Теорема Пирсона.

Критерий согласия Пирсона.

Английский статистик К.Пирсон (1857-1936)

Предположим, что в результате эксперимента воэможно появление s исходов A1; :::; As с вероятностями p1; :::; ps: Пусть проводится n таких независимых экспериментов и 1; :::; s - число появлений событий A1; ::::; As соответственно. Тогда статистика

X2 = Xs ( j npj)2

j=1 npj

при n ! 1 слабо сходится к распределению хи-квадрат с s 1-ой степенью свободы.

Теорема Пирсона-Фишера. Проводится n независимых экспериментов и в результате каждого эксперимента воэможно появление s исходов

A1; :::; As с вероятностями p1( ); :::; ps( );

= ( 1; :::; q) 2 : Пусть j - число появлений события Aj в этих экспери- ментах j = 1; :::; s: Пусть также

( b1; :::; bq) = b - оценки максимального правдоподобия неизвестных параметров 1; :::; q: Тогда статистика

X2 = Xs ( j npj(b))2

j=1 npj(b)

при n ! 1 слабо сходится к распределению хи-квадрат с числом степеней свободы s q 1:

Эти две теоремы можно использовать при построении критериев согласия для проверки нулевой гипотезы

H0 : pj = p0j ( ); j = 1; :::; s

H1 : в противном случае

Если верна нулевая гипотеза, то распределение статистики

X2 =

s

( j npj0( ))2

 

Xj

b

 

 

np0( )

 

 

b

 

=1

j

при больших n аппроксимируется распределением хи-квадрат с s q 1 степенью свободы. Можно показать, что если гипотеза H0

для любого C

lim P (X2 > C) = 1

n!1

Поэтому критерий

(H0

: X2

< 2

(s q 1; 1 )

(X) = H1

: X2

2

(s q 1; 1 )

3

при больших n является критерием уровня и состоятельным критерием.

Пример. При n=4040 бросаниях монеты Бюффон получил выпадение

герба 2048 раз и решки 1992 раза. Совместимы ли эти данные с гипотезой о том, что монета симметрична. X2 = 0:776; 2(1; 0:95) = 3:841:

Пример. Исследовались 52 семьи с тремя детьми. X - число девочек в семье с тремя детьми. 0 = 5; 1 = 17; 2 = 24; 3 = 6: Проверить гипотезу о том, что число девочек в семье из трех детей распределено биномиально с параметрами 3, р. В этой задаче n = 52; s = 4;

pj = C3j j(1 )3 j; j = 0; 1; 2; 3;

q = 1: Оценка максимального правдоподо-

бия параметра = ( 1 + 2 2 + 3 3)=3 = 0:53:

X

 

< (2; 0:95) =

чения в

 

 

b

 

 

= Cj (1

X

 

 

 

 

Вычисляя значения p

j

 

3 j); j = 0; 1; 2; 3 и подставляя эти зна-

 

 

 

 

 

 

3

 

2

 

 

2

2

5:99: Наши данные не b

b

 

 

b

получаем значение

 

 

 

 

 

формулу для вычисления

 

 

 

 

 

 

 

 

 

 

противоречат нулевой гипотезе.

 

 

 

Проверка гипотезы о независимости признаков.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A1

 

Am

 

 

 

 

 

 

 

 

 

 

B1

 

11

 

1m

 

 

 

 

 

 

 

 

 

 

.

 

.

.

.

 

 

 

 

 

 

 

 

 

 

.

 

.

.

.

 

 

 

 

 

 

 

 

 

 

.

 

.

.

.

 

 

 

 

 

 

 

 

 

 

Br

 

r1

 

rm

 

 

 

 

 

 

 

 

 

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i;j ij = n:

 

 

 

 

 

 

 

 

 

 

Гипотеза о независимости признаков

 

 

 

 

 

H0 : pij = P (A = Ai; B = Bj) = P (A = Ai)P (B = Bj) = piqj:

Неизвестные параметры

 

 

 

 

 

 

 

 

 

 

 

 

 

 

pi;

qj; i = 1; :::; m; j = 1; :::; r:

 

 

 

Число неизвестных параметров равно r + m 2: Оценки метода максимального правдоподобия для неизвестных параметров равны

pi =

Pjn ij

; qj =

Pin ij

:

b

 

b

 

По теореме Пирсона

X2 = X ( ij npbiqbj)2 npbiqbj

ij

при n ! 1 имееет распределение хи-квадрат с числом степеней свободы rm 1 (r + m 2) = rm r m + 1 = (r 1)(m 1):

Пример. 140 студентов, которые приняли участие в психологическом эксперименте, были поделены на группы в соответствие с выбранными специальностями, которые подчеркивали способности левого полушария мозга (философия, физика, математика) или правого полушария (музыка, театр,

4

танцы и т.д). Студенты были также поделены в соответствие с тем, какой рукой они пишит подавляющее количество времени (П, ПЛ, Л)

 

Левое

Правое

 

 

 

Ï

89

28

ÏË

5

5

Ë

5

8

Возможно ли на 5% уровне отвергнуть связь между выбором специаль-

ности и доминированием руки на основании этих данных?

X2 = 14:92 > 2(2; 0:95) = 5:99:

Предположим, как и раньше, что есть выборка X = (X1; :::; Xn) из совокупности с распределением F (x): Мы хотим выяснить согласуются ли значения выборки с простой гипотезой

H0 : F (x) = F0(x);

ãäå F0(x) - некоторая функция распределения.

Теорему Пирсона можно использовать для для построения критерия согласия для проверки нулевой гипотезы.

Разобъем всю числовую ось R на конечное число непересекающихся подмножеств A1; :::; As Ïðè ýòîì

Al = (al 1; al]; l = 1; :::; s; a0 = 1; as = 1:

Обозначим

p0l = F0(al) F0(al 1); l = 1; 2; :::; s

- вероятности того, что случайная величина Xj примет значения из мно- жества Al; если верна гипотеза H0: Мы можем теперь считать, что проводятся n независимых испытаний, каждое из которых имеет s исходов (если Xj 2 Al; то в j-ом испытании произошел l-ый исход).

Обозначим l - число точек выборки, попавших в интервал Al: Тогда по теореме Пирсона, если верна гипотеза H0 распределение статистики

X2 = Xs ( l np0l )2

np0

l=1 l

при больших n приближается к распределению хи-квадрат с (s 1)-ой степенью свободы

Критерий хи-квадрат Пирсона. Зададим некоторый уровень значи- мости > 0 и пусть 2(s 1; 1 ) - квантиль распределения хи-квадрат с

(s 1)-ой степенью свободы, т.е.

P ( 2(s 1) 2(s 1; 1 )) = :

Зададим критическое множество: K = f(x1; :::; xn) : X2 2(s 1; 1 )g: Тогда критерий согласия проверки гипотезы

H0 : F (x) = F0(x); H1 : F (x) 6= F0(x)

5

выглядит следующим образом

 

 

(s 1; 1 ):

 

(H0

; X2

< 2

 

(X) = H1

; X2

2

(s 1; 1 );

:

Из теоремы Пирсона следует, что при больших n этот критерий имеет уровень : Этот критерий является также состоятельным критерием.

Критерий согласия Пирсона-Фишера для сложных гипотез

На практике задача о согласии данных наблюдений с некоторым совершенно конкретным распределением, рассмотренная ранее, встречается реже, чем задача проверки сложной гипотезы. Пусть X = (X1; :::; Xn) -

выборка из распределения с неизвестной функцией распределения F (x):

Поставим вопрос о том, согласуются ли данные наблюдений (X1; :::; Xn) со сложной гипотезой

H0 : F (x) 2 F ; F = fF (x; ); 2 g:

ãäå = ( 1; :::; q) (вообще говоря) векторный параметр. Например, нуле-

вая гипотеза состоит в том, что выборка взята из совокупности, распределение которой нормально.

Если теперь разбить всю числовую область на s интервалов A1; :::; As; то теперь вероятность попасть в l-ый интервал при нулевой гипотезе зависит от параметра = ( 1; :::; q)

pl( ) = pl( 1; :::; q):

Теперь вместо выборки X = (X1; :::; Xn) можно рассматривать последовательность n независимых испытаний с s исходами в каждом испытании и вероятность вероятность l-того испытания при нулевой гипотезе зависит от параметров 1; :::; q

p(Xj 2 Al) = pl( 1; :::; q):

Пусть, как и раньше, l (l = 1; :::; s) - число точек выборки, попавших в l- ый интервал. С помощью сгруппированных данных построим оценки мак- симального правдоподобия b= b( 1; :::; s) для параметров 1; :::; q:

Теперь определим

X2 = Xs ( l npl(b( 1; :::; s)))2 : l=1 npl(b( 1; :::; s))

По теореме Пирсона-Фишера распределение этой статистики при больших n имеет распределение хи-квадрат с (s q 1)-ой степенью свободы.

Выбираем теперь уровень значимости 0 < < 1 и критическое множество K = f(x1; :::; xn) : X2 > (s k 1; 1 )g получим критерий уровня значимости для проверки сложной гипотезы H0:

6

Этот критерий при больших размерах выборки имеет уровень и явялется состоятельным критерием.

Замечание. Теоремы Пирсона - теоремы о предельном поведении статистики X2: На практике, конечно, мы имеем дело лишь с выборками огра-

ниченного объема. Применение критерия хи-квадрат дает удовлетворительные результаты при больших объемах выборки и если в каждый интрвал группирования попадает не менее 5 точек выборки. Если же в какие-то интервалы попадает мало точек, то эти интервалы нужно укрупнять.

7

Соседние файлы в папке Лекции Мат.стат. (2007-2008)