Скачиваний:
17
Добавлен:
20.05.2014
Размер:
125.38 Кб
Скачать
SX2 =n + SY2 =m

Лекция 10.

Построение доверительного интервала для параметра p; åñëè

совокупность имеет распределение Бернулли.

Предположим, что каждый элемент выборки принимает лишь два зна- чения 0 и 1. При этом EXj = p(Xj = 1) = p; DXj = p(1 p); p 2 (0; 1): Â ýòîì

случае можно считать, что проводится последовательность

n независимых

испытаний с вероятностью успеха (появления 1)

p в каждом испытании.

Тогда

 

= =n = p;

 

 

 

 

 

 

X

 

 

- число успехов при n испытаниях, а выборочная

дисперсия

n

n

b

 

n

 

 

n

 

 

 

 

 

 

 

 

 

1

Xj

 

 

 

 

1

X

 

 

b

b

b

b

 

 

 

 

 

 

 

 

 

S2 = n

(Xj X)2 = n

 

 

 

=1

j=1

Xj2 (X)2 = p

(p)2 = p(1

p):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Асимптотический доверительный интервал с доверительной вероятностью 1 для параметра р равен

p

 

u(1

 

r

n

!

 

 

=2)

p(1 p)

:

b

 

 

 

 

b b

 

Асимптотический доверительный интервал для разности двух средних

Пусть теперь есть две выборки X = (X1; :::; Xn); Y = (Y1; :::; Ym) и эти выборки независимы. При этом EXj = aX; DX = X2 ; à EYj = aY ; DY = Y2 : Нужно построить доверительный интервал для разности средних aX aY :

Из центральной предельной теоремы следует, что X асимптотически нор-

мальна с параметрами aX; X; а Y - асимптотически нормальна с параметрами aY ; Y : Это означает, что при больших n

 

 

 

 

2

 

 

X N aX;

;

 

n

 

 

 

 

X

 

 

 

 

 

2

 

 

Y N aY ;

:

 

m

 

 

 

 

Y

 

 

Òàê êàê

 

 

p

p

 

SX2

 

! X2 ; SY2

! Y2 ;

то, используя аппарат характеристических функций, можно показать, что

X Y (aX aY ) d N(0; 1):

q nX + mY

!

S2

S2

Отсюда следует, что в качестве центральной статистики для построения асимптотического доверительного интервала для разности средних можно взять

G(X; Y; a

a ) =

X Y (aX aY )

:

X

Y

p

 

 

 

1

Так как предельное распределение симметрично относительно нуля, то можно взять квантили симметричные u =2 = u1 =2; u1 =2 и тогда асимп- тотический доверительный интервал с доверительной вероятностью 1

равен

q

(X Y u1 =2 SX2 =n + SY2 =m):

Частный случай. Асимптотический доверительный интервал для разности двух средних из совокупностей с распределением Бернулли.

Пусть теперь есть две независимые выборки X = (X1; :::; Xn); Y = (Y1; :::; Ym):

Каждый элемент этих выборок принимают значения лишь 0 и 1. При этом

P (Xj = 1) = pX; P (Yj = 1) = pY : В этом случае aX = pX; aY = pY ; SX2 =

pX(1 pX); SY2

= pY (1 pY ): Асимптотический доверительный интервал

b

b

b

b

 

 

 

 

для разности долей двух совокупностей равен

 

 

 

 

(pX pY u1 =2p

 

):

 

pX(1 pX)=n + pY (1 pY )=n

 

b

b

 

b

b

b

b

Построение доверительных интервалов с использованием свойств асимптотической нормальности.

Пусть X = (X1; :::; Xn) выборка из совокупности с распределением

F (x; ) 2 F : Пусть (X) - оценка параметра ; которая асимптотически

мальности следует

b

 

 

 

 

 

 

нормальна с параметрами ; ( ) (как мы помним из асимптотической нор-

 

состоятельность этой оценки). Предположим также, что

( ) - непрерывная функция по : Тогда по теореме Слуцкого ( )

p ( ):

И из свойств слабой сходимости следует, что статистика

b

!

 

G(X; ) =

p

 

( )

=

p

 

( )

( )

 

 

 

n

n

 

 

 

 

 

 

 

b( ) ( )

 

 

 

 

 

b( )

 

 

 

 

 

 

 

b

 

 

 

b

 

 

при n ! 1 слабо сходится к стандартному нормальному распределению.

Поэтому асимптотический доверительный интервал с доверительной вероятностью 1 равен

u1 =2

pn

!

:

 

( )

 

b

b

 

 

 

 

 

 

 

 

Пример. Рассмотрим в качестве примера выборку из пуассоновского распределения с параметром > 0: Оценка максимального правдоподобия

для параметра равна X: Оценка максимального правдоподобия асимпто-

тически нормальна с параметрами

 

( ) = : Поэтому ( ) = = X и

распределение

p;

 

(

 

 

 

 

)

b b

 

n

X

 

G(X; ) =

 

 

p

 

 

 

 

 

 

 

 

 

 

X

2

слабо сходится к стандартному нормальному распределению. Отсюда сразу следует, что интервал

0s 1

X

@X u1 =2 A: n

является асимптотическим доверительным интервалом с доверительной вероятностью 1 :

Еще один способ построения асимптотического доверительного интервала, использующий асимптотическую нормальность.

Метод выравнивания дисперсий.

Пусть X = (X1; :::; Xn) выборка из совокупности с распределением

F (x; ) 2 F : При довольно широких предположениях b(X) = (b) - оценка максимального правдоподобия функции ( ) параметра асимптотиче- ски нормальна с параметрами ( ); ( ) = j 0( )j=pi( ): Асимптотическая

дисперсия этой оценки равна ( 0( ))2=i( ): Это означает, что распределе- ние статистики pn(b ( )) слабо сходится к нормальному с параметрами

a= 0; 2( ) = ( 0( ))2=i( ):

Âкачестве функции ( ) можно взять такую функцию, чтобы асимптотическая дисперсия не зависела от : Эта функция от является решением

дифференциального уравнения

( 0( ))2 = C: i( )

Поэтому асимптотический доверительный интервал можно строить с помо-

щью статистики

 

p

 

 

 

 

 

 

)

 

 

 

 

G(X; ) =

 

n( (bC ( ))

;

которая при больших n имеет почти что стандартное нормальное распределение.

Пример. Вновь рассмотрим в качестве примера выборку из пуассоновского распределения с параметром > 0: Оценка максимального правдо-

подобия для параметра равна X: Информационное количество Фишера в

этом случае

i( ) = 1:

Найдем теперь функцию ( ); такую,что

( 0( ))2 = ( 0( ))2 = C: i( )

Пусть C = 1: Тогда одно из решений этого уравнения

0( ) =

1

 

; ( ) = 2p

 

:

 

 

 

p

3

p

Функция 2 на множестве = f : > 0g взаимнооднозначна. Для се-

мейства пуассоновских распределений выполнены всå условия, пðи которûõ

 

p равна 2

= 2p

 

 

è

оценка максимального правдоподобия функции

X

асимптотически нормальна с параметрами a( )p2

( ) =

p((2p

 

 

2

 

 

 

 

 

 

1: Это означает, что статистика

;

q b

)0)

 

 

=

p p p

G(X; ) = 2 n( X )

слабо сходится к стандартному нормальному распределению. Асимптотический доверительный интервал получается из соотношения

p p p

P u1 =2 < 2 n( X ) < u1 =2 1 :

Здесь, как и раньше, u1 =2 квантиль уровня 1 =2 для стандартного нормального распределения. Разрешая неравенство, стоящее под знаком вероятности, относительно ; получаем асимптотический доверительный интер-

вал для с доверительной вероятностью 1 :

4

Проверка статистических гипотез

Предположим, что имеется возможность наблюдать некоторое случайное явление. Любое предположение о распределении вероятностей, лежащем в основе наблюдаемого случайного явления называется статистической гипотезой.

Проверить статистическую гипотезу - это значит на основе имеющихся данных принять или отвергнуть сделанное предположение (статистическую гипотезу).

Мы, как и раньше, под случайным явлением будем понимать повторяющиеся в одних и тех же условиях независимые случайные эксперименты, результаты которых записываются в виде выборки X = (X1; :::; Xn): То есть, как и раньше, наблюдается последовательность независимых случайных величин с одной и той же функцией распределения P (Xj < x) = F (x):

Статистическая гипотеза формулируется в этом случае как предположение о принадлежности функции распределения наблюдаемых случайных величин к некоторому определенному классу распределений. Под статисти- ческой гипотезой подразумевается также сам этот класс распределений.

Если класс распределений, образующий статистическую гипотезу, состоит из одного распределения, то такая статистическая гипотеза называется простой, в противном случае статистическая гипотеза называется сложной. Статистические гипотезы обозначаются буквой Н.

Пример простой гипотезы:

H : данные являются выборкой из равномерного распределения в отрез-

êå [0,1].

Сложной гипотезой называют предположение о том, что неизвестная функция принадлежит некоторому множеству распределений, состоящему из более чем одного элемента. В качестве иллюстрации можно привести

Пример сложной гипотезы.

H : данные являются выборкой из нормального распределения.

В чем состоит рассматриваемая в дальнейшем задача проверки гипотез. Имеется выборка X = (X1; :::; Xn) и формулируются некоторые статистиче- ские гипотезы о распределении вероятностей H0; H1; :::Hk: Ставится задача

- принять решение о том, какая из сформулированных гипотез наиболее соответствует наблюдаемым данным. Эта задача и называется задачей проверки гипотез.

Правило принятия решения о том, какая из сформулированных гипотез наиболее соответствует наблюдаемым данным называется статистическим критерием.

Наиболее распространенными задачами проверки гипотез, которыми мы и будем заниматься, являются задачи с двумя гипотезами H0; H1: Это озна- чает, что семейство допустимых распределений F на два класса F0 è F1. Тогда гипотеза H0 принимается, если принимается решение, что наблюдения имеют распределение из класса F0, а гипотеза H1 принимается, если принимается решение, что наблюдения имеют распределения из класса F1.

5

При этом одна из гипотез называется основной (или нулевой) гипотезой H0; а вторая гипотеза H1 называется альтернативной гипотезой.

Для построения статистического критерия в этом случае используется подход, основанный на выборе так называемого критического множества K. Поступают следующим образом: если данные наблюдений попадают в критическое множество (то есть, если X 2 K ), то гипотеза H0 отвергается;

если же данные находятся вне критического множества (то есть, X 2 K ), то гипотеза H0 принимается.

(H0

; X = K

(X) = H1

; X 2 K;

 

2

Такое решающее правило будем называть критерием, основанным на критическом множестве.

Рассмотрим пример.

Пример. Фирма, производящая чипы с компьютерной памятью, обнаружила, что если все идет нормально, то 10% продукции оказывается дефектной. Если в производстве присутствуют неполадки, то число бракованных изделий увеличивается до 40%. Отдел по контролю качества тестирует 4 чипа каждый час. Если среди тестируемых чипов оказывается два или более дефектных, то производство останавливается и начинается поиск неполадки.

Каждый час производится выборка X = (X1; X2; X3; X4): Случайная величина Xj принимают значения 1, если j-ый чип бракованный и принимает значение 0, если чип небракованный. Относительно распределения случайных величин Xj имеются две простые гипотезы.

H0 : P (Xj = 1) = 0:4;

H1 : P (Xj = 1) = 0:1:

Статистический критерий в этом случае записывается так

(H0

; Pj=1 Xj

 

2:

H1

 

 

4

< 2;

;

 

j=1 Xj

(X) =

 

P

4

 

:

 

 

 

 

 

 

 

При таком решающем правиле мы можем совершить одну из двух ошибок. Первая ошибка - пропустить неполадку. Вторая ошибка - ложная остановка. Первая ошибка происходит, если мы принимаем гипотезу H1 (произ-

водство идет нормально), а на самом деле верна верна H0 (в производстве присутствуют неполадки). Вероятность этой ошибки равна

01

41

X X

PH0 (H1 ) = PH0 @ Xj < 2A = C4j(0:4)j(0:6)4 j = 0:4752

jj=0

6

Вторая ошибка происходит, если мы принимаем гипотезу H0 (в произ- водстве присутствуют неполадки), а на самом деле верна верна H1 (произ- водство идет нормально). Вероятность этой ошибки равна

0

 

1

 

 

4

 

A

 

4

@X

Xj 2

=

Xj

PH1 (H0 ) = PH1

 

C4j(0:1)j(0:9)4 j = 0:0523

j=1

 

 

 

=2

Определение. Если (X)(X = (X1; :::; Xn)) -критерий проверки простой гипотезы H0 при простой альтернативе H1, òî PH0 (H1 ) = PH0 (X 2

K) = называется вероятностью ошибки первого рода (или уровнем зна- чимости критерия), а PH1 (H0 ) = PH1 (X 2= K) = называется вероятностью ошибки второго рода.

Определение. Величина PH1 (H1 ) = PH1 (X 2 K) = 1 = w называется мощностью критерия (X): Мощность критерия - это вероятность

отвергнуть нулевую гипотезу, если она не верна.

Сразу возникает вопрос, как найти такое решающее правило (такой статистический критерий), чтобы минимизировать вероятности возможных ошибок (или минимизировать уровень значимости и максимизировать мощность).

Рассмотрим еще один пример.

Пример. Предположим, что мы хотим проверить простую гипотезу при простой альтернативе. Например, человек приходит к врачу. Врач измеряет температуру пациенту X и у врача есть две гипотезы. Гипотеза основная

H0 : пациент болен

и альтернативная гипотеза

H1 : пациент здоров:

На основании измерения X врач должен принять решение - пациент болен или пациент здоров. То есть на основании измерения X нужно принять ре-

шение какая из гипотез H0 èëè H1 верна. Как принимает решение врач?

Если температура больше некоторого порогового значения, то он объявляет пациента больным, в противном случае пациент объявляется здоровым. При этом врач может совершить одну из двух ошибок: больного человека объявить здоровым (отвергнуть гипотезу H0; если она верна) или же здо-

рового человека объявить больным (принять H0; если верна H1). В первом

случае ошибка называется ошибкой первого рода, а во втором - ошибкой второго рода.

Как подобрать вероятностную модель для решения этой задачи? Можно

считать, температура совокупности больных людей распределена нормально N(a0; 2); а температура совокупности здоровых людей распределена

нормально N(a1; 2): Измеренная температура X принадлежит одной из

7

этих совокупностей. При этом все параметры a0; a1; известны и a0 > a1: Итак имеется простая гипотеза

H0 : X имеет распределение N(a0; 2);

и простая альтернатива

H1 : X имеет распределение N(a1; 2):

Статистический критерий проверки простой гипотезы при простой альтер-

нативе запишем в виде

 

(H0

; X > C:

(X) = H1

; X C;

Для такого критерия можно подсчитать вероятности ошибок первого и второго рода:

 

H0

 

1

 

H0

 

 

 

 

H0

 

 

 

 

 

 

 

a0

;

 

 

 

 

 

 

 

P

 

(H ) = P

 

(X

 

 

C) = P

 

(X

 

C) =

 

 

2

(C) =

C a0

= ;

 

 

 

 

 

 

 

 

 

 

 

 

 

H1

0

 

 

H1

 

 

 

 

 

 

a1

;

 

 

 

 

 

 

 

 

 

 

 

 

P

 

(H ) = P

 

 

(X > C) = 1

 

 

 

 

2

(C) = 1

 

 

 

C a1

= :

 

 

 

 

 

 

 

 

 

 

 

(x) - функция распределения стандартного нормального закона.

Легко понять, что как только мы хотим уменьшить одну ошибку, вторая ошибка увеличивается. Нельзя выбрать константу С так, чтобы минимизировались обе ошибки.

Обычно поступают следующим образом: выбирают константу так, чтобы ошибка первого рода приняла гарантированно малое значение :

В нашем случае с врачом и пациентом выбираем пороговое значение так, чтобы вероятность объявить больного человека здоровым была равна: Если задана вероятность ошибки первого рода, то можно найти пороговое

значение для критической области. Это пороговое значение находится из уравнения

 

 

 

)

 

 

)

 

0

 

C a0

 

= =

C a0

= u

 

= C = u

 

+ a :

 

 

 

 

 

Итак критерий для проверки гипотезы в этом случае выглядит следующим образом

(

(X) = H1; X u + a0; H0; X > u + a0:

В этих формулах u квантиль уровня стандартного нормального распре-

деления.

Для нашего примера легко подсчитывается вероятность ошибки второго рода и соответственно мощность.

= P

 

(X > u + a

) = 1

 

 

 

 

2 ( u

 

+ a

) = 1

 

(u +

a0 a1

);

 

H1

0

 

 

a1

;

 

 

0

 

 

 

8

при гипотезе

w = 1 = (u + a0 a1 ):

Пример 3. Предположим, что имеется выборка X = (X1; :::; Xn) из cовокупности с равномерным распределением. При этом есть две гипотезы

H0 : Xj s R[0; 1];

H1 : Xj s R[0; 2]:

Это случай простой гипотезы и простой альтернативы. Мы уже раньше видели, что наибольшую информацию о неизвестном правом конце отрезка в равномерном распределении несет максимальное выборочное значение X(n): В этом случае функции распределения X(n) H0 è H1

равны соответственно

8

>0; x < 0

<

F0;(n)(x) = xn; x 2 [0; 1]

>

:1; x > 1;

8

>0; x < 0

<

F1;(n)(x) = (x=2)n; x 2 [0; 2] :

>

:1; x > 2;

Рассмотрим следующий критерий проверки простой гипотезы при простой альтернативе в этом случае

(

(X) = H1; X(n) 1

H0; X(n) < 1:

В этом случае можно посчитать вероятности ошибок первого и второго рода

= PH0 (H1) = PH0 (X(n) 1) = 0;

= PH1 (H0) = PH1 (X(n) < 1) = F1;(n)(1) = (1=2)n:

Вероятность ошибки второго рода стремится к нулю, когда число наблюдений растет, а мощность критерия стремиться к 1 с ростом объема выборки.

9

Соседние файлы в папке Лекции Мат.стат. (2007-2008)