Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекции по ЧМ и ТВ

.pdf
Скачиваний:
13
Добавлен:
05.06.2015
Размер:
1.34 Mб
Скачать

2. ЭМПИРИЧЕСКИЕ ДАННЫЕ

151

M (X) =

 

=

 

n =

n Xk=n =

m x0 nk=n

X

X

ную практику приравнивания обозначенийP

äëÿP

переменных и для

 

 

 

 

 

1

1

k

Последнее равенство в этой формуле иллюстрирует распространен-

их постоянных значений. Здесь это потребовалось сделать, чтобы учесть при сложении кратные значения слагаемых. Эта оценка несмещена:

P P

M(X) = M(Xk)=n = M(X) 1=n = M(X)

Она состоятельна, действительно, из неравенства Чебышева следует, что всякая несмещенная оценка, дисперсия которой стремится к нулю, состоятельна:

P(jR(n) M(R)j ") D(R(n)) ! 0

А из свойств дисперсии следует, что

"2 n!1

D (PXk=n) = PD(Xk)=n2 = D(X)=n ! 0

n!1

Когда выборка совпадает со всей генеральной совокупностью, выборочное среднее называют генеральным.

2. Для оценки дисперсии можно взять выборочную дисперсию (дисперсию эмпирического распределеíèя вероятностеé).

 

 

 

 

 

n2 (X) = Sn2(X) =

 

1n(Xk Xn)2=n = (X X)2

2

Pîäíî

2âûðàæ2

 

Раскрыв скобки, получим еще

 

åíèå:

 

 

 

 

 

 

 

 

 

 

Sn(X) = X (X)

 

 

 

 

 

 

 

 

 

Так как выборочное среднее несмещено, формулы можно отцентри-

ровать:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

2

 

 

 

 

 

2

 

 

 

2

 

 

 

 

 

Эта статистика несмещена

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sn(X) = Sn X = X X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

лишь асимптотически:

 

 

 

 

 

 

M

2

 

 

M

 

 

2

 

 

 

 

 

2

 

=n =

 

 

 

 

 

 

 

 

 

(Sn(X)) =

 

X

 

M X

n 1

 

 

2

n

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M X =

 

 

 

D

(X)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

n

 

 

 

Состоятельность снова выводится из асимптотической малости

дисперсии: D(Sn2) = M(Sn4) (M(Sn2))2;

и в этой формуле M(Sn2) =

n 1

D(X)

!

D(X); à

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

!1

 

 

 

2

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M(Sn) =

 

M Pk Xk

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

152

 

 

 

 

 

 

 

 

 

 

Глава VI. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

1

 

 

4

 

1

 

 

 

 

 

 

2

 

2

 

 

 

 

 

 

=

 

M

k Xk

1

 

+

 

M4

k; m Xk

 

 

2Xm2

=

 

 

 

 

n2

n2

 

 

D

 

2

 

 

 

P

 

 

 

 

 

 

 

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

!

 

 

 

èñ-

Наравне с выборочной

 

 

 

 

 

 

 

=

n

M X

+

M

X

 

(

 

(X))

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

!1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

правленную дисперсию:

 

дисперсией используют несмещенную

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

sn2 (X) =

 

Sn2(X)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

 

 

 

 

 

3. Аналогично определяются выборочные моменты. Относительно ложного нуля C:

M0kn(X) = Pn(Xj C)k=n;

1

начальный Mkn = M0kn C=0, è центральный mkn = M0kn C=Xn.

Выборочный коэффициент асимметрии: Asn = m3n =s3n.

Выборочный коэффициент эксцесса: Ekn = m4n =s4n 3.

Статистики называются также точечными оценками. Кроме точечных, бывают еще интервальные, рандомизированные и другие оценки. В интервальной оценке выборке сопоставляется точеч- ная оценка параметра R и еще целый доверительный интервал

= [R(n) ; R(n) + ] вокруг нее. Вероятность попадания параметра в интервал, = P(R 2 ), называется доверительной

вероятностью èëè надежностью оценки, а величина точно-

стью. Главный вопрос в задаче интервального оценивания найти интервал с заданной надежностью.

Пример 41. Вычислим статистики выборки

(1

; ; 1; 1; 0) из примера 40.

K

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

0

2

 

 

 

 

 

 

 

 

 

 

 

 

 

X = 0:6,

 

 

 

 

 

 

 

 

 

 

число единиц в выборке.

 

 

Sn = 0:24,

 

sn

= 0:3, m3n = 0:18,

m4n = 0:10,

Asn = 1:1,

 

 

Ekn = 1:89.

 

 

 

 

 

 

 

 

 

 

 

 

2

 

Вычислим также точность интервальной оценки дисперсии Sn с надежностью

= 0:9.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

В данном случае S2

 

 

 

 

 

 

 

)2 + (n

 

 

 

 

 

 

 

 

 

 

= (

K

(1

 

X

K)

X

)

=n

= 0

:04

K

+ 0:36. Подставив

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

2

 

 

это выражение в формулу надежности: = P(0:24 Sn

0:24+ ), получим

= P(3 25 K 3+25 ). Взяв в качестве истинной вероятности выборочную

pn = 0:6 и постепенно увеличивая : 25 = 0;

1;

2; 3, вычисляем надежность

(25 ): (0) = p = n

 

p3

q2 = 0:346,

(1) = p + p + p = 0:835, (2) =

= 1 + + 5 = 0

 

 

n

 

n

 

 

 

 

 

 

 

 

2

 

 

3

 

 

4

 

 

 

 

3

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p

p

 

 

:99,

 

 

(3) = 1. Таким образом, = 2=25 = 0:08.

 

2.1.1Метод произведений

Этот способ вычисления оценок применялся в докомпьютерную эпоху. Суть его составляют несколько бухгалтерских приемов, которые облегчают проведение вычислительной процедуры. Подходящим выбором ложного нуля (C) уменьшают максимальные абсолютные зна- чения вариант выборки. От этого возникает задача выражения на-

x распределены нормально
(их называют

2. ЭМПИРИЧЕСКИЕ ДАННЫЕ

153

чального и центрального моментов через относительные. Она реша-

åòñÿ: Mkn =

1

 

 

j

(Xj

C + C)k =

1

 

P

jm

mk

(Xj C)mCk m =

n

n

 

1

 

 

P

 

 

 

 

 

 

=

m mk Mmn0 Ck m

mkn =

 

 

 

j

(Xj

C M10 n)

 

=

m m

Mmn0 (

 

 

10 n)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

действиям с целыми чис-

Вычисления по этим формулам сводятся к

 

 

 

 

 

 

 

 

 

 

P

 

 

 

 

 

P

 

 

 

 

 

 

лами путем выбора достаточно малого шага h и целой варианты uj взамен xj: xj = C + h uj. Поскольку значения xj случайны, их не

нужно знать с большой точностью, поэтому числа uj содержат не слишком много знаков. В силу однородности формул все вычисления можно провести с новыми вариантами uj услов-

íûìè) и затем умножить результаты (условные моменты) íà hk.

Варианты для вычисления моментов берут из вариационного ряда с кратностями:

Mkn = n1 Pnj(u0j)k

Так для вычисления первых двух моментов составляют таблицу, в которой для каждой варианты x0j вычисляют: nj, u0j, nj u0j, nj u0j2, è

åùå nj (u0j +1)2 для проверки. Результаты складывают по столбцам и получают условные моменты, а затем и настоящие.

2.2Оценки параметров нормального распределения

Предположим, что варианты выборки

с плотностью pX (x; m; ) и величина известна, а m нет. Покажем, чтоp âыборочное среднее имеет плотность распределения pX (x; m; = n).

Òàê êàê M(X) = m è D(X) = 2=n, то достаточно показать, что

сумма независимых нормальных величин Y1, Y2 нормальна. Соглас-

но предложению 34 плотность такой суммы равна свертке плотно-

стей слагаемых:

 

= 21 Z

exp

(x y m1)2 1 2+(y m2)2 2

2

 

dy. После

pY1+Y2 = pY1

pY2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

выделения в числителе под

 

 

 

 

 

 

 

 

y îí

 

 

 

 

 

 

 

 

 

 

 

экспонентой полного квадрата по

 

 

 

примет вид:

 

 

a(x

 

m )2

 

b(y

 

cx

 

d)2 + e, теперь нужно y

 

cx

 

d

принять за

 

 

3

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

новую переменную интегрирования вместо

 

 

и вынести

e a(x m3)2 из под знака интеграла, в результате получится нормаль-

ная плотность.

 

 

 

 

 

 

 

 

 

Следовательно, доверительная вероятность для X равна

 

=

P

 

 

p

 

 

(VI.1)

 

(jm Xj ) = 2 ( n= )

 

sn
X m p

154

Глава VI. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Эта формула означает, что если известно , то m попадает в доверительный интервал точности с надежностью .

Если же и не известна, можно взять вместо нее оценку со с.

151, однако, в статистике поступают иначе. Строится выборочная случайная величина T , распределение которой не зависит ни от m

ни от , и такая, что событие jm Xj может быть выражено в ее терминах:

T = n

Эта величина имеет распределение Стьюдента с n 1 степенью

свободы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Чтобы это доказать, необходимо установить, во-первых, что вели-

÷èíà s2

2(n

 

1) имеет распределение 2

ñ n

 

1 степенью свободы,

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и, во-вторых, что числитель X m независим от знаменателя.

 

 

 

 

 

Y1 = p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X,

Введем новые переменные случайные величины

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y2, . . . , Yn, связанные с переменными

X1, X2, . . . ,

Xn ортогональной

матрицей. В этих переменных, так как ортогональное преобразова-

ние сохраняет сумму квадратов, получèì:

 

 

 

 

 

 

 

 

 

 

 

 

2

 

2

 

 

 

,

 

 

2

 

 

2

 

 

n

2

 

 

 

 

что и требуется, и величины

Y

 

, . . . ,

 

независимы, посколь-

 

sn(n

 

 

1

Y2

 

Yn

 

 

P

j=2 Yj ,

 

 

 

 

 

1)=n = Sn(X) = X

 

 

X =

 

 

 

 

 

ку их совместное распределение равно произведению их отдельных

(0; )-нормальных распределений.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Событие

 

jm Xj

совпадает с

jT j t, ïðè

 

 

 

sn

 

 

 

 

 

 

 

= t

p

 

 

, поэтому доверительная вероятность для X может быть

n

 

выражена через t:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

= P(jT j t) = 2 Z

pT;n 1

(t) dt

 

(VI.2)

 

 

 

 

 

 

 

 

0

 

 

 

 

Зная доверительную вероятность можно (по таблице) найти t, но для определения точности доверительного интервала все равно

приходится пользоваться оценкой sn.

Аналогично, чтобы найти доверительный интервал для исполь-

зуют величину = sn pn 1;

квадрат которой, как только что было доказано, распределен по закону 2 ñ n 1 степенью свободы, а сама она, следовательно, имеет

2. ЭМПИРИЧЕСКИЕ ДАННЫЕ

155

распределение:

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

e

2

 

 

 

 

p (x) =

 

 

 

 

 

 

 

 

 

 

xn 2

 

x

=2

 

 

2(n 3)=2 ((n

 

 

 

 

 

 

 

 

1)=2)

 

 

 

 

 

 

Доверительныйp

интервал sn p

 

sn + отображается на

интервал

 

 

n 1

 

 

 

n 1

 

 

 

, ãäå

 

 

 

 

 

x1 =

 

 

 

 

 

= x2

q = sn .

 

1 + q

1

 

q

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x2

 

 

 

 

 

 

 

 

 

По заданной = P( 2 ) =

 

Z

 

p (x) dx из таблицы берется q

 

 

 

 

 

 

 

 

 

x1

 

 

 

 

 

 

 

 

 

 

и вычисляется = q sn.

Пример 42. Выборку (1; 0; 1; 1; 0) примера 40 можно рассматривать и как

выборку нормального распределения. Например, если взять 30-и сантиметровые ученические линейки изготовленные на разных фабриках, то расхождения в их размерах вполне может иметь вид такого ряда и достигать не только одного, но даже 3-х мм.

Выберем исходя из этого среднее квадратическое отклонение по правилу трех сигм: = 0:5. Тогда по формуле (VI.1) получается, что эталон m с надежностью

= 0:95 попадет в доверительный интервал точности = 0:44.

Считая неизвестным, используя формулу (VI.2) и соседние с ней получаем

при = 0:95 из таблицы t = 2:132 è = 0:52.

По заданной = 0:95 находим q = 1:37 и точность доверительного интервала для : = snq = 0:55 1:37 = 0:75, что совершенно нелепо.

2.3Метод максимального правдоподобия

В статистике плотность распределения случайной величины называют ее правдоподобием èëè функцией правдоподобия, а логарифм этой функции логарифмическим правдоподобием. Если математическое ожидание выражает наиболее вероятное усредненное значение случайной величины, то в точке максимума плотности (то есть в моде) наиболее вероятно попадание случайной величины в

промежуток dx. Для оценки r0 неслучайного параметра r семей- ства распределений pX (x; r). Р. Фишер предложил брать точку

максимума по r значений функции правдоподобия на выборке:

L(x; r) = L(r) = p (x1; r) p (xn; r), формально говоря,

X X

L(r0) = max L(r)

r

Пример 43. Рассмотрим выборку (1; 0; 1; 1; 0).

Предположим, что это значения двузначной величины с распределением p; q.

Тогда

L = p q p p q = p3(1 p)2

и наиболее правдоподобным значением параметра будет частота: p = 0:6; L(0:6) = 0:035.

156 Глава VI. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Выберем теперь нормальное распределение наиболее подходящее для этой вы-

борки. Тогда

 

 

 

 

1

 

 

 

1

 

 

2

2

 

 

 

 

L =

5(p

 

)5

e

2 2 (3(1 a)

+2a )

 

2

 

и самыми правpäоподобными значениями параметров будут: a = 0:6, = 6=5 = 0:49; L(0:6; 0:49) 0:3.

3Статистическая проверка статистических гипотез

Статистической гипотезой называют любое утверждение о распределении случайных величин на пространстве выборки x1; : : : ; xn.

Можно дать и более формальное определение: гипотеза H утвержда-

ет, что распределение величин X1; : : : ; Xn принадлежит подмноже- ñòâó H множества всевозможных вероятностных мер на простран-

ñòâå = Rx1;:::;xn. Не всегда необходимо высказанную гипотезу подводить под это определение, однако, когда она не подводится, вероятно, она и не статистична.

Простой гипотезой называется гипотеза, выделяющая всего одно распределение: H0 = P0, остальные называются сложными.

Вопрос: принять гипотезу или отвергнуть, решается посредством критерия, суть которого в том, что множество значений выборки разбивается на две части. Одна из частей называется критической областью и если выборка в нее попадает гипотеза отвергается. Выделять критическую область можно с помощью функции от выборки K(X): ïðè K(x) K0 гипотеза принимается, а при

K(x) > K0 отвергается. Функция K(X) называется критерием

проверки гипотезы H0, а число K0 критической точкой. Каждый критерий сопровождается возможностью оценить веро-

ятность совершения ошибки первого рода отвергнуть верную гипотезу, она называется уровнем значимости (èëè значимостью, в прсторечии) и равна размеру критической области, то есть, вероятно-

сти попадания выборки в критическую область = P(K(x) > K0), которую можно вычислить, если гипотеза H0 верна.

Замечание. Словосочетание "уровень значимости" в статистике принято употреблять без указания дополнения: уровень значимости чего? И, что еще

хуже, говорят: уровень значимости критерия . В то время как речь идет об

уровне значимости выборки для отвержения правильной гипотезы. Вследствие этого в прикладных работах уровень значимости путают с надежностью. Пользователи математической статистики, естественно, хотят, чтобы критерий был, по-возможности, и значим и надежен. Но если гипотеза верна, то опровергающая ее статистика маловероятна, поэтому уровень значимости выбирают из чисел:

0:01, 0:05, 0:1, в то время как доверительную вероятность (надежность) из

чисел 0:99, 0:95, 0:9. Уменьшая уровень значимости, мы уменьшаем вероятность

отвергнуть верную гипотезу и это хорошо, но, тем самым, мы сужаем критиче- скую область и увеличиваем вероятность согласия с неверной гипотезой это плохо.

то правильно будет применить и к гипотезе
Если гипотеза

3. СТАТИСТИЧЕСКАЯ ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

157

H0 ошибочна, то вычислить вероятность соверше-

íèÿ ошибки второго рода, = P(K(x) < K0), затруднительно, так как в этом случае нет никакой вероятностной меры. Для решения этой проблемы вводят альтернативную конкурирующую с H0 ãè-

потезу H1, которая тоже может быть и простой и сложной. Число 1 вероятность попадания выборки в критическую область,

когда верна конкурирующая гипотеза, называется мощностью критерия. Таким образом, мощность критерия это тоже размер критической области, только измеренный другой мерой.

Чем больше мощность, тем менее вероятно принять ошибочную гипотезу. Однако, отвергая гипотезу H0 не следует спешить с при-

нятием гипотезы H1. Мощность можно использовать для сравнения критериев, чтобы выбрать наиболее мощный. Если же ставится задача: какую из двух альтернативных гипотез H0 è H1 предпочесть,

H1 тот же самый крите-

рий и на том же уровне значимости, что применялся к гипотезе H0, и по результатам обоих применений уже судить о том, чье согласие с данными опыта лучше гипотезы H0 или гипотезы H1.

В формулировках статистических выводов принято подчеркивать случайность вероятностных умозаключений: не говорят, что гипоте- çà H0 верна или ошибочна, а говорят, что имеются статистические основания для ее принятия либо отвержения.

3.1Самый мощный критерий

Мощности критериев сравниваются, естественно, при условии равенства размеров критических областей. Критерием Неймана Пирсона называется отношение правдоподобия выборки x ïðè

альтернативной гипотезе к ее правдоподобию при нулевой гипотезе: K = p (xjH1)= p (xjH0). Критическая область имеет вид

X X

S0 = fxj K(x) cg.

Предложение 52. Лемма Неймана Пирсона. Критерий НейманаПирсона при фиксированных гипотезах H0 è H1 имеет наиболь- шую мощность.

Докажем чуть больше, что мощность любого другого критерия с критической областью S1, размера не большего размера области

S0: PH0(S1) PH0(S0), не превосходит мощности критерия K:

PH1(S1) PH1(S0).

Из соотношения размеров критических областей следует неравенство

PH0(S1 S0) PH0(S0 S1)

Òàê êàê pX (xjH1) c pX (xjH0), когда x 2 S0, òî

PH1(S0 S1) c PH0(S0 S1),

158 Глава VI. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

à òàê êàê pX (xjH1) c pX (xjH0), когда x 62S0, òî

PH1(S1 S0) c PH0(S1 S0)

Соединив полученные три неравенства, находим:

PH1(S1 S0) PH1(S0 S1)

Из этого неравенства выводится искомое соотношение между мощностями:

PH1(S1) = PH1(S0 \ S1) + PH1(S1 S0)

PH1(S0 \ S1) + PH1(S0 S1) = PH1(S0)

Пример 44. Для выборки (1; 0; 1; 1; 0) рассмотрим гипотезы примера но-

ìåð 43: H0 распределение Бернулли с вероятностью единицы p = 0:6 и H1 (0:6; 0:49)-нормальное распределение.

Найдем критическое значение c для критерия Неймана Пирсона с уровнем значимости 0:1. Требуется найти наибольшее c, для которого выполняется

неравенство 0:1 PH0 (fxj p(xjH1) c p(xjH0)g). Обе плотности здесь зависят только от числа единиц K, но не от их размещения:

p(x H

) = pK q5 K = q5 eK ln( p= q) = const e0:405 K

j 0

 

1

 

0:2

 

p(xjH1) = const e

 

(K(1 a)2

+(5 K)a2) = const e

 

K = const e0:416 K

2 2

2 2

Поэтому критическое значение можно искать у величины K вместо c. Так как

ãäå

 

 

 

 

 

0

 

0:416 > 0:405, то критическая область будет задаваться неравенством K

 

K

,

 

K0 ограничено уровнем значимости:

 

 

 

 

числе, не

5 0:1 PH0 (fxjK K0g) = pK0 + pK0+1 + : : :

 

 

 

 

H0

H1. Мощность критерия

Òàê êàê p4 =

4 0:640:4 = 0:26,

p5 = 0:078, òî K0

= 5 с уровнем значимости

0:078. Значит, все выборки с числом единиц не превосходящим 4-х, и наша в их

противоречат гипотезе

 

при альтернативе

 

1

 

 

5

 

2

равна PH1 (K = 5) =

5(p

 

)5

e 2 2

0:4

= 0:159.

 

2

 

Поменяем теперь гипотезы ролями, сохраняя обозначения. Теперь кри-

тическая область Неймана

Пирсона будет определяться неравенством

0:1

PH1 (fxj p(xjH0)

c p(xjH1)g). Ïðè

c

> 0 правдоподобие p(xjH0)

отлично

от нуля только

в дискретном числе

точек, вероятность PH1 этого

множества равна нулю. При c = 0

неравенство p

(xjH0) 0

выполняется тожде-

5 равна

 

ственно и вероятность PH1 множества R

 

1. Следовательно, критическое

множество состоит из всех пятерок нулей и единиц, мощность критерия равна 1. С гипотезой о нормальном распределении против распределения Бернулли не согласуется ни одна выборка из пяти нулей и единиц.

3.2Критерий согласия 2 Пирсона

Критерии согласия оценивают гипотезы не сравнивая их между собой и не противопоставляя альтернативам. В случае попадания выборки в некритическую область говорят, что гипотеза согласуется с данными опыта, отсюда и название. Отсутствие альтернативной гипотезы или малая мощность могут быть не самыми большими недо-

3. СТАТИСТИЧЕСКАЯ ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

159

статками критерия. Мы не будем углубляться в методы сравнения критериев, а просто приведем два из них.

Критерий Пирсона проверки гипотезы H0 строится по выборке объема n случайной величины X, разбитой на s частей отрезками

значений, длины которых выбираются по практическим соображениям. Пусть (nj) объемы частей (или эмпирические частоты) и n0j

теоретические абсолютные частоты, вычисленные по гипотетиче- скому распределению. Тогда критерий равен

s

 

 

2 = X1

(nj nj0 )2=nj0

(VI.3)

Этот критерий применим и для сложной гипотезы H0, когда про- веряемое распределение зависит от r параметров. В этом случае в качестве теоретических частот (n0j) берут частоты, вычисленные по

оценкам неизвестных параметров распределения. Оценки годятся не всякие, подходят, например, наиболее правдоподобные.

Для параметров m и нормального распределения такими оцен-

ками будут X è S.

Доказано, что при выборе подходящих оценок параметров распределение этой случайной величины с ростом n стремится к распреде-

лению 2 с числом степеней свободы k = s 1 r.

Зная число степеней свободы и уровень значимости, границу c = c(k; ) правосторонней критической области: 2(x1; : : : ; xn) c находят в таблице.

Замечание. Доказательство предельных теорем для статистики 2 анало-

гично доказательству центральной предельной теоремы, но еще более громоздко. К. Пирсон получил результат для простой гипотезы (1900), Р. Фишер (1922,

1924), Ю. Нейман и Е. Пирсон (1928) для параметрической.

Пример 45. Проверим согласие выборки (1; 0; 1; 1; 0) с гипотезами приме-

ðà 44: H0 распределение Бернулли с вероятностью единицы p = 0:6 и H1 (0:6; 0:49)-нормальное распределение.

Сгруппируем выборку в две группы по значениям вариант. В этом случае числа параметров rH0 = 1 è rH1 = 2 не пригодны для использования, так как соответствующие числа степеней свободы равны 0 и 1. Поэтому положим r = 0,

полагая значения параметров известными. Уровень значимости возьмем тот же= 0:1. Так как 5 0:6 = 3, то эмпирические частоты совпадают с теорети-

ческими и 2(x) = 0 в обоих случаях. c(k; ) = c(1; 0:1) = 2:7. Значит, выборка

согласна с обоими распределениями.

Другое решение получится если разбить прямую на 4 части точками: 0:5,

0:5, 1; 5 и сгруппировать варианты по этим отрезкам: (ni) = (0, 2, 3, 0). В случае

распределения Бернулли мало что изменится, так как теоретические и эмпири- ческие частоты опять совпадут. В случае нормального распределения теорети- ческие частоты будут следующими: (n0i) = (0:06, 2:03, 2:74, 0:17), 2(x) = 0:25,

няет набор разностей

160

Глава VI. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

s = 4, r = 2, k = 1, c = 2:7. Так как 0:25 < 2:7 выборка согласуется и с нормальным распределением.

3.3Критерий согласия Колмогорова

Колмогоров (1933) предложил измерять расстояние между гипоте-

тическим F(x) и эмпирическим Fn(x) распределениями статистикой, которая имеет более явный и интуитивно очевидный смысл (при n 2):

K = Dn(X) =

sup j Fn(x) F(x)j

1<x<1

Эмпирическая функция распределения имеет вид:

Fn =

#fxj < xg

n

Критическая область задаетсяp неравенством f nDn ng,

в котором n находится по таблице как функция от уровня значи- мости .

Замечание. При условии, что

F непрерывна, Колмогоров разложил пре-

дельный (при n ! 1) размер области согласия в быстро сходящийся ряд:

P(p

 

 

t) = 1

 

= K(t) =

1 ( 1)j e 2j2t2

nD

 

 

n

 

 

 

 

 

 

 

 

 

 

 

1

Dn не зависит от прове-

Распределение статистики критерия

Колмогорова

 

P

ряемого распределения F(x). В самом деле, монотонная замена переменных x = x(y), которая преобразует одно непрерывное распределение в другое, сохра-

Fn(x) F(x), x 2 R, поскольку в результате этот набор

просто нумеруется переменной y, а не x: Fn(x(y)) F(x(y)), y 2 R. Такие критерии называются непараметрическими, поскольку их нельзя прямо использовать для проверки сложных гипотез, содержащих параметры.

Можно применять этот критерий и к разрывным функциям распределения. Для этого нужно предварительно превратить распределение в равномерное на отрезке [0; 1] с помощью замены переменных x = F 1(y), при условии что обрат-

ная к разрывной функции F(x) функция F 1(y) получена транспонированием

графика.

В случае сложной нулевой гипотезы, когда проверяемое распределение зависит от параметров, критерий Колмогорова тоже можно применять, но эта процедура сложна и плохо разработана. Ясно лишь, что нельзя фиксировать значения параметров посредством какой-либо оценки и после этого применять критерий к фиксированной гипотезе как к нулевой, потому что фиксированное распределение уже будет случайным и распределение величины Dn станет совсем другим.

Пример 46. В условиях примера 45 проверим согласие выборки с распределениями.

По таблице находим ( ) = (0:1) = 1:25 В случае распределения Бернулли

функции распределения совпадают, K = 0 и имеется согласие. Во втором случае pn K = 2:24 0:5 = 1:12 < 1:25 и тоже получается согласие, хотя и не такое

убедительное.