
Лекции Мат.стат. (2007-2008) / stat14_07
.pdf
Лекция 14. Критерии согласия.
Критерий согласия Колмогорова.
Колмогоров Андрей Николаевич, (1903-1987)
Статистические критерии, применяемые для проверки гипотезы H0 ïðè альтернативе H1; являющейся отрицанием H0 называются критериями со- гласия. В такого рода задачах на самом деле решается вопрос о том, согласуются ли наблюдения с нашей гипотезой H0 о распределении исследуемой
генеральной совокупности.
Критерий Колмогорова, о котором идет речь ниже, применяется в слу- чае, когда H0 простая гипотеза
H0 : F (x) = F0(x)
и функция распределения F0(x) - непрерывна. При этом альтернативой является
H1 : F (x) 6= F0(x):
Основой всех методов построения критериев согласия является рассмотрение некоторой удачно выбранной меры расхождения между выборкой и гипотетическим распределением.
Для критерия Колмогорова выбор меры расхождения связан с выбороч- ной (эмпирической) функцией распределения Fn(x): А именно, рассматривается статистика Колмогорова
Dn = sup jFn(x) F0(x)j:
x2R
Особенностью статистики Dn является то, что ее распределение при гипотезе H0 не зависит от функции распределения F0(x):
Действительно, в определении Dn сделаем замену переменных u = F0(x):
Тогда
Dn = sup jFn(F0 1(u)) uj:
u
По выборке X1; :::; Xn построим новую последовательность независимых случайных величин Y1; :::; Yn: Каждое Yj = F0(Xj): Можно показать, что при гипотезе H0 случайные величины Yj распределены равномерно на от-
резке [0,1].
Теперь посмотрим на значение выборочной функции распределения в точке F0 1(u)
n
Fn(F0 1(u)) = n1 X (F0 1(u) Xj);
j=1
ãäå
((
(F 1 |
(u) |
|
X ) = 1; F0 1(u) Xj > 0 |
= 1; u Yj > 0 |
: |
|
0 |
|
j |
0; F0 1(u) Xj 0; |
0; u Yj 0 |
|
1

Поэтому
n
Fn(F0 1(u)) = n1 X (u Yj) = Rn(u);
j=1
ãäå Rn(u) - значение выборочной функции распределения выборки Y1; :::; Yn в точке u: Поэтому
D |
n |
x j |
n |
(x) |
|
0 |
(x) |
j = u j |
n |
(u) |
|
j |
: |
|
= sup |
F |
|
F |
sup |
R |
|
u |
Этот факт имеет принципиальное значение, так как достаточно полу- чить распределение величины Dn лишь для выборки из равномерного распределения R[0; 1] и использовать это распределение для выборки из сово-
купности с любой непрерывной функцией распределения F0(x): Аналитически получить распределение величины Dn - сложно, поэто-
му моделируя случайные выборки из равномерного распределения создают таблицы для этого распределения при разных n:
Вторым замечательным фактом является то, что при |
n ! 1 распреде- |
|||||||||
ление p |
|
|
|
|
||||||
nDn слабо сходится к пределу. В частности это означает, что при |
||||||||||
больших |
|
|
(óæå ïðè |
n 20) |
распределение статистики p |
|
|
практически |
||
n |
nDn |
|||||||||
|
|
|
|
|
от n не зависит. Более точно, верна теорема Колмогорова.
Теорема Колмогорова Если гипотеза H0 : F (x) = F0(x) верна и функ-
öèÿ F0(x) непрерывна, то |
|
|
|
|
|
|||
lim P (pnD |
|
< x) = K(x) = |
1 |
( 1)je 2j2x2 |
: |
|||
n |
!1 |
|
|
n |
|
X |
|
|
|
|
|
|
|
j=1
Итак, если выборка взята из совокупности с функцией распределения
F0(x); то распределение Dn не зависит от функции F0(x): Кроме того, по- следовательность pnDn имеет предельное распределение при n ! 1: Это
предельное распределение не совпадает ни с одним упоминавшемся здесь ранее и носит название распределения Колмогорова.
Теорема Колмогорова является основой для построения критерия согласия (при n > 20) проверки гипотезы H0 с критическим множеством
K |
p |
|
|
|
|
|
|
|
|
|
|
||
|
= f nDn > k1 g : |
|||||
|
(H0 |
|
p |
|
|
|
|
; pnDn < k1 |
|||||
(X) = H1 |
; |
nDn k1 |
Число k1 (квантиль уровня 1 для функции распределения Колмого-
рова) определяется по заданному уровню значимости из таблиц распределения Колмогорова.
Критерий Колмогорова является состоятельным критерием уровня :
2

Критерий согласия Пирсона.
Английский статистик К.Пирсон (1857-1936)
Предположим, что в результате эксперимента воэможно появление s исходов A1; :::; As с вероятностями p1; :::; ps: Пусть проводится n таких независимых экспериментов и 1; :::; s - число появлений событий A1; ::::; As соответственно. Тогда статистика
X2 = Xs ( j npj)2
j=1 npj
при n ! 1 слабо сходится к распределению хи-квадрат с s 1-ой степенью свободы.
Теорема Пирсона-Фишера. Проводится n независимых экспериментов и в результате каждого эксперимента воэможно появление s исходов
A1; :::; As с вероятностями p1( ); :::; ps( );
= ( 1; :::; q) 2 : Пусть j - число появлений события Aj в этих экспери- ментах j = 1; :::; s: Пусть также
( b1; :::; bq) = b - оценки максимального правдоподобия неизвестных параметров 1; :::; q: Тогда статистика
X2 = Xs ( j npj(b))2
j=1 npj(b)
при n ! 1 слабо сходится к распределению хи-квадрат с числом степеней свободы s q 1:
Эти две теоремы можно использовать при построении критериев согласия для проверки нулевой гипотезы
H0 : pj = p0j ( ); j = 1; :::; s
H1 : в противном случае
Если верна нулевая гипотеза, то распределение статистики
X2 = |
s |
( j npj0( ))2 |
|
Xj |
b |
|
|
np0( ) |
|
|
b |
|
=1 |
j |
при больших n аппроксимируется распределением хи-квадрат с s q 1 степенью свободы. Можно показать, что если гипотеза H0
для любого C
lim P (X2 > C) = 1
n!1
Поэтому критерий
(H0 |
: X2 |
< 2 |
(s q 1; 1 ) |
(X) = H1 |
: X2 |
2 |
(s q 1; 1 ) |
3

при больших n является критерием уровня и состоятельным критерием.
Пример. При n=4040 бросаниях монеты Бюффон получил выпадение
герба 2048 раз и решки 1992 раза. Совместимы ли эти данные с гипотезой о том, что монета симметрична. X2 = 0:776; 2(1; 0:95) = 3:841:
Пример. Исследовались 52 семьи с тремя детьми. X - число девочек в семье с тремя детьми. 0 = 5; 1 = 17; 2 = 24; 3 = 6: Проверить гипотезу о том, что число девочек в семье из трех детей распределено биномиально с параметрами 3, р. В этой задаче n = 52; s = 4;
pj = C3j j(1 )3 j; j = 0; 1; 2; 3; |
q = 1: Оценка максимального правдоподо- |
|||||||||||||
бия параметра = ( 1 + 2 2 + 3 3)=3 = 0:53: |
X |
|
< (2; 0:95) = |
|||||||||||
чения в |
|
|
b |
|
|
= Cj (1 |
X |
|
|
|
||||
|
Вычисляя значения p |
j |
|
3 j); j = 0; 1; 2; 3 и подставляя эти зна- |
||||||||||
|
|
|
|
|
|
3 |
|
2 |
|
|
2 |
2 |
||
5:99: Наши данные не b |
b |
|
|
b |
получаем значение |
|
|
|
||||||
|
|
формулу для вычисления |
|
|
|
|
|
|||||||
|
|
|
|
|
противоречат нулевой гипотезе. |
|
|
|
||||||
Проверка гипотезы о независимости признаков. |
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A1 |
|
Am |
|
|
|
|
|
|
|
|
|
|
B1 |
|
11 |
|
1m |
|
|
|
|
|
|
|
|
|
|
. |
|
. |
. |
. |
|
|
|
|
|
|
|
|
|
|
. |
|
. |
. |
. |
|
|
|
|
|
|
|
|
|
|
. |
|
. |
. |
. |
|
|
|
|
|
|
|
|
|
|
Br |
|
r1 |
|
rm |
|
|
|
|
|
|
|
|
|
|
P |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i;j ij = n: |
|
|
|
|
|
|
|
|
|
|
|||
Гипотеза о независимости признаков |
|
|
|
|||||||||||
|
|
H0 : pij = P (A = Ai; B = Bj) = P (A = Ai)P (B = Bj) = piqj: |
||||||||||||
Неизвестные параметры |
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
pi; |
qj; i = 1; :::; m; j = 1; :::; r: |
|
|
|
Число неизвестных параметров равно r + m 2: Оценки метода максимального правдоподобия для неизвестных параметров равны
pi = |
Pjn ij |
; qj = |
Pin ij |
: |
b |
|
b |
|
По теореме Пирсона
X2 = X ( ij npbiqbj)2 npbiqbj
ij
при n ! 1 имееет распределение хи-квадрат с числом степеней свободы rm 1 (r + m 2) = rm r m + 1 = (r 1)(m 1):
Пример. 140 студентов, которые приняли участие в психологическом эксперименте, были поделены на группы в соответствие с выбранными специальностями, которые подчеркивали способности левого полушария мозга (философия, физика, математика) или правого полушария (музыка, театр,
4

танцы и т.д). Студенты были также поделены в соответствие с тем, какой рукой они пишит подавляющее количество времени (П, ПЛ, Л)
|
Левое |
Правое |
|
|
|
Ï |
89 |
28 |
ÏË |
5 |
5 |
Ë |
5 |
8 |
Возможно ли на 5% уровне отвергнуть связь между выбором специаль-
ности и доминированием руки на основании этих данных?
X2 = 14:92 > 2(2; 0:95) = 5:99:
Предположим, как и раньше, что есть выборка X = (X1; :::; Xn) из совокупности с распределением F (x): Мы хотим выяснить согласуются ли значения выборки с простой гипотезой
H0 : F (x) = F0(x);
ãäå F0(x) - некоторая функция распределения.
Теорему Пирсона можно использовать для для построения критерия согласия для проверки нулевой гипотезы.
Разобъем всю числовую ось R на конечное число непересекающихся подмножеств A1; :::; As Ïðè ýòîì
Al = (al 1; al]; l = 1; :::; s; a0 = 1; as = 1:
Обозначим
p0l = F0(al) F0(al 1); l = 1; 2; :::; s
- вероятности того, что случайная величина Xj примет значения из мно- жества Al; если верна гипотеза H0: Мы можем теперь считать, что проводятся n независимых испытаний, каждое из которых имеет s исходов (если Xj 2 Al; то в j-ом испытании произошел l-ый исход).
Обозначим l - число точек выборки, попавших в интервал Al: Тогда по теореме Пирсона, если верна гипотеза H0 распределение статистики
X2 = Xs ( l np0l )2
np0
l=1 l
при больших n приближается к распределению хи-квадрат с (s 1)-ой степенью свободы
Критерий хи-квадрат Пирсона. Зададим некоторый уровень значи- мости > 0 и пусть 2(s 1; 1 ) - квантиль распределения хи-квадрат с
(s 1)-ой степенью свободы, т.е.
P ( 2(s 1) 2(s 1; 1 )) = :
Зададим критическое множество: K = f(x1; :::; xn) : X2 2(s 1; 1 )g: Тогда критерий согласия проверки гипотезы
H0 : F (x) = F0(x); H1 : F (x) 6= F0(x)
5

выглядит следующим образом |
|
|
(s 1; 1 ): |
|
(H0 |
; X2 |
< 2 |
|
|
(X) = H1 |
; X2 |
2 |
(s 1; 1 ); |
: |
Из теоремы Пирсона следует, что при больших n этот критерий имеет уровень : Этот критерий является также состоятельным критерием.
Критерий согласия Пирсона-Фишера для сложных гипотез
На практике задача о согласии данных наблюдений с некоторым совершенно конкретным распределением, рассмотренная ранее, встречается реже, чем задача проверки сложной гипотезы. Пусть X = (X1; :::; Xn) -
выборка из распределения с неизвестной функцией распределения F (x):
Поставим вопрос о том, согласуются ли данные наблюдений (X1; :::; Xn) со сложной гипотезой
H0 : F (x) 2 F ; F = fF (x; ); 2 g:
ãäå = ( 1; :::; q) (вообще говоря) векторный параметр. Например, нуле-
вая гипотеза состоит в том, что выборка взята из совокупности, распределение которой нормально.
Если теперь разбить всю числовую область на s интервалов A1; :::; As; то теперь вероятность попасть в l-ый интервал при нулевой гипотезе зависит от параметра = ( 1; :::; q)
pl( ) = pl( 1; :::; q):
Теперь вместо выборки X = (X1; :::; Xn) можно рассматривать последовательность n независимых испытаний с s исходами в каждом испытании и вероятность вероятность l-того испытания при нулевой гипотезе зависит от параметров 1; :::; q
p(Xj 2 Al) = pl( 1; :::; q):
Пусть, как и раньше, l (l = 1; :::; s) - число точек выборки, попавших в l- ый интервал. С помощью сгруппированных данных построим оценки мак- симального правдоподобия b= b( 1; :::; s) для параметров 1; :::; q:
Теперь определим
X2 = Xs ( l npl(b( 1; :::; s)))2 : l=1 npl(b( 1; :::; s))
По теореме Пирсона-Фишера распределение этой статистики при больших n имеет распределение хи-квадрат с (s q 1)-ой степенью свободы.
Выбираем теперь уровень значимости 0 < < 1 и критическое множество K = f(x1; :::; xn) : X2 > (s k 1; 1 )g получим критерий уровня значимости для проверки сложной гипотезы H0:
6
Этот критерий при больших размерах выборки имеет уровень и явялется состоятельным критерием.
Замечание. Теоремы Пирсона - теоремы о предельном поведении статистики X2: На практике, конечно, мы имеем дело лишь с выборками огра-
ниченного объема. Применение критерия хи-квадрат дает удовлетворительные результаты при больших объемах выборки и если в каждый интрвал группирования попадает не менее 5 точек выборки. Если же в какие-то интервалы попадает мало точек, то эти интервалы нужно укрупнять.
7