
Лекции Мат.стат. (2007-2008) / stat10_07
.pdf
Лекция 10.
Построение доверительного интервала для параметра p; åñëè
совокупность имеет распределение Бернулли.
Предположим, что каждый элемент выборки принимает лишь два зна- чения 0 и 1. При этом EXj = p(Xj = 1) = p; DXj = p(1 p); p 2 (0; 1): Â ýòîì
случае можно считать, что проводится последовательность |
n независимых |
|||||||||||||||
испытаний с вероятностью успеха (появления 1) |
p в каждом испытании. |
|||||||||||||||
Тогда |
|
= =n = p; |
|
|
|
|
|
|
||||||||
X |
|
|
- число успехов при n испытаниях, а выборочная |
|||||||||||||
дисперсия |
n |
n |
b |
|
n |
|
|
n |
|
|
|
|
|
|
||
|
|
|
1 |
Xj |
|
|
|
|
1 |
X |
|
|
b |
b |
b |
b |
|
|
|
|
|
|
|
|
|||||||||
|
S2 = n |
(Xj X)2 = n |
|
|
||||||||||||
|
=1 |
j=1 |
Xj2 (X)2 = p |
(p)2 = p(1 |
p): |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Асимптотический доверительный интервал с доверительной вероятностью 1 для параметра р равен
p |
|
u(1 |
|
r |
n |
! |
|
|
=2) |
p(1 p) |
: |
||
b |
|
|
|
|
b b |
|
Асимптотический доверительный интервал для разности двух средних
Пусть теперь есть две выборки X = (X1; :::; Xn); Y = (Y1; :::; Ym) и эти выборки независимы. При этом EXj = aX; DX = X2 ; à EYj = aY ; DY = Y2 : Нужно построить доверительный интервал для разности средних aX aY :
Из центральной предельной теоремы следует, что X асимптотически нор-
мальна с параметрами aX; X; а Y - асимптотически нормальна с параметрами aY ; Y : Это означает, что при больших n
|
|
|
|
2 |
|
|
|
X N aX; |
; |
||||
|
n |
|||||
|
|
|
|
X |
|
|
|
|
|
|
2 |
|
|
|
Y N aY ; |
: |
||||
|
m |
|||||
|
|
|
|
Y |
|
|
Òàê êàê |
|
|
p |
p |
|
|
SX2 |
|
|||||
! X2 ; SY2 |
! Y2 ; |
то, используя аппарат характеристических функций, можно показать, что
X Y (aX aY ) d N(0; 1): |
||
q nX + mY |
! |
|
S2 |
S2 |
Отсюда следует, что в качестве центральной статистики для построения асимптотического доверительного интервала для разности средних можно взять
G(X; Y; a |
a ) = |
X Y (aX aY ) |
: |
||
X |
Y |
p |
|
|
|
1

Так как предельное распределение симметрично относительно нуля, то можно взять квантили симметричные u =2 = u1 =2; u1 =2 и тогда асимп- тотический доверительный интервал с доверительной вероятностью 1
равен
q
(X Y u1 =2 SX2 =n + SY2 =m):
Частный случай. Асимптотический доверительный интервал для разности двух средних из совокупностей с распределением Бернулли.
Пусть теперь есть две независимые выборки X = (X1; :::; Xn); Y = (Y1; :::; Ym):
Каждый элемент этих выборок принимают значения лишь 0 и 1. При этом
P (Xj = 1) = pX; P (Yj = 1) = pY : В этом случае aX = pX; aY = pY ; SX2 =
pX(1 pX); SY2 |
= pY (1 pY ): Асимптотический доверительный интервал |
|||||||
b |
b |
b |
b |
|
|
|
|
|
для разности долей двух совокупностей равен |
|
|
|
|||||
|
(pX pY u1 =2p |
|
): |
|||||
|
pX(1 pX)=n + pY (1 pY )=n |
|||||||
|
b |
b |
|
b |
b |
b |
b |
Построение доверительных интервалов с использованием свойств асимптотической нормальности.
Пусть X = (X1; :::; Xn) выборка из совокупности с распределением
F (x; ) 2 F : Пусть (X) - оценка параметра ; которая асимптотически |
|||||||||||
мальности следует |
b |
|
|
|
|
|
|
||||
нормальна с параметрами ; ( ) (как мы помним из асимптотической нор- |
|||||||||||
|
состоятельность этой оценки). Предположим также, что |
||||||||||
( ) - непрерывная функция по : Тогда по теореме Слуцкого ( ) |
p ( ): |
||||||||||
И из свойств слабой сходимости следует, что статистика |
b |
! |
|||||||||
|
G(X; ) = |
p |
|
( ) |
= |
p |
|
( ) |
( ) |
|
|
|
n |
n |
|
|
|||||||
|
|
|
|
|
b( ) ( ) |
|
|
||||
|
|
|
b( ) |
|
|
|
|||||
|
|
|
|
b |
|
|
|
b |
|
|
при n ! 1 слабо сходится к стандартному нормальному распределению.
Поэтому асимптотический доверительный интервал с доверительной вероятностью 1 равен
u1 =2 |
pn |
! |
: |
||
|
( ) |
|
|||
b |
b |
|
|
||
|
|
|
|
|
|
Пример. Рассмотрим в качестве примера выборку из пуассоновского распределения с параметром > 0: Оценка максимального правдоподобия
для параметра равна X: Оценка максимального правдоподобия асимпто-
тически нормальна с параметрами |
|
( ) = : Поэтому ( ) = = X и |
||||||||
распределение |
p; |
|
( |
|
|
|
|
) |
b b |
|
|
n |
X |
|
|||||||
G(X; ) = |
|
|
p |
|
|
|
||||
|
|
|
|
|
|
|
X
2

слабо сходится к стандартному нормальному распределению. Отсюда сразу следует, что интервал
0s 1
X
@X u1 =2 A: n
является асимптотическим доверительным интервалом с доверительной вероятностью 1 :
Еще один способ построения асимптотического доверительного интервала, использующий асимптотическую нормальность.
Метод выравнивания дисперсий.
Пусть X = (X1; :::; Xn) выборка из совокупности с распределением
F (x; ) 2 F : При довольно широких предположениях b(X) = (b) - оценка максимального правдоподобия функции ( ) параметра асимптотиче- ски нормальна с параметрами ( ); ( ) = j 0( )j=pi( ): Асимптотическая
дисперсия этой оценки равна ( 0( ))2=i( ): Это означает, что распределе- ние статистики pn(b ( )) слабо сходится к нормальному с параметрами
a= 0; 2( ) = ( 0( ))2=i( ):
Âкачестве функции ( ) можно взять такую функцию, чтобы асимптотическая дисперсия не зависела от : Эта функция от является решением
дифференциального уравнения
( 0( ))2 = C: i( )
Поэтому асимптотический доверительный интервал можно строить с помо-
щью статистики |
|
p |
|
|
|
|
|
|
) |
|
|
|
|
||||
|
G(X; ) = |
|
n( (bC ( )) |
; |
которая при больших n имеет почти что стандартное нормальное распределение.
Пример. Вновь рассмотрим в качестве примера выборку из пуассоновского распределения с параметром > 0: Оценка максимального правдо-
подобия для параметра равна X: Информационное количество Фишера в
этом случае
i( ) = 1:
Найдем теперь функцию ( ); такую,что
( 0( ))2 = ( 0( ))2 = C: i( )
Пусть C = 1: Тогда одно из решений этого уравнения
0( ) = |
1 |
|
; ( ) = 2p |
|
: |
|
|
||||
|
p |
3

p
Функция 2 на множестве = f : > 0g взаимнооднозначна. Для се-
мейства пуассоновских распределений выполнены всå условия, пðи которûõ |
|||||||||
|
p равна 2 |
= 2p |
|
|
è |
||||
оценка максимального правдоподобия функции |
X |
||||||||
асимптотически нормальна с параметрами a( )p2 |
( ) = |
p((2p |
|
|
2 |
|
|
||
|
|
|
|
||||||
1: Это означает, что статистика |
; |
q b |
)0) |
|
|
= |
p p p
G(X; ) = 2 n( X )
слабо сходится к стандартному нормальному распределению. Асимптотический доверительный интервал получается из соотношения
p p p
P u1 =2 < 2 n( X ) < u1 =2 1 :
Здесь, как и раньше, u1 =2 квантиль уровня 1 =2 для стандартного нормального распределения. Разрешая неравенство, стоящее под знаком вероятности, относительно ; получаем асимптотический доверительный интер-
вал для с доверительной вероятностью 1 :
4
Проверка статистических гипотез
Предположим, что имеется возможность наблюдать некоторое случайное явление. Любое предположение о распределении вероятностей, лежащем в основе наблюдаемого случайного явления называется статистической гипотезой.
Проверить статистическую гипотезу - это значит на основе имеющихся данных принять или отвергнуть сделанное предположение (статистическую гипотезу).
Мы, как и раньше, под случайным явлением будем понимать повторяющиеся в одних и тех же условиях независимые случайные эксперименты, результаты которых записываются в виде выборки X = (X1; :::; Xn): То есть, как и раньше, наблюдается последовательность независимых случайных величин с одной и той же функцией распределения P (Xj < x) = F (x):
Статистическая гипотеза формулируется в этом случае как предположение о принадлежности функции распределения наблюдаемых случайных величин к некоторому определенному классу распределений. Под статисти- ческой гипотезой подразумевается также сам этот класс распределений.
Если класс распределений, образующий статистическую гипотезу, состоит из одного распределения, то такая статистическая гипотеза называется простой, в противном случае статистическая гипотеза называется сложной. Статистические гипотезы обозначаются буквой Н.
Пример простой гипотезы:
H : данные являются выборкой из равномерного распределения в отрез-
êå [0,1].
Сложной гипотезой называют предположение о том, что неизвестная функция принадлежит некоторому множеству распределений, состоящему из более чем одного элемента. В качестве иллюстрации можно привести
Пример сложной гипотезы.
H : данные являются выборкой из нормального распределения.
В чем состоит рассматриваемая в дальнейшем задача проверки гипотез. Имеется выборка X = (X1; :::; Xn) и формулируются некоторые статистиче- ские гипотезы о распределении вероятностей H0; H1; :::Hk: Ставится задача
- принять решение о том, какая из сформулированных гипотез наиболее соответствует наблюдаемым данным. Эта задача и называется задачей проверки гипотез.
Правило принятия решения о том, какая из сформулированных гипотез наиболее соответствует наблюдаемым данным называется статистическим критерием.
Наиболее распространенными задачами проверки гипотез, которыми мы и будем заниматься, являются задачи с двумя гипотезами H0; H1: Это озна- чает, что семейство допустимых распределений F на два класса F0 è F1. Тогда гипотеза H0 принимается, если принимается решение, что наблюдения имеют распределение из класса F0, а гипотеза H1 принимается, если принимается решение, что наблюдения имеют распределения из класса F1.
5
При этом одна из гипотез называется основной (или нулевой) гипотезой H0; а вторая гипотеза H1 называется альтернативной гипотезой.
Для построения статистического критерия в этом случае используется подход, основанный на выборе так называемого критического множества K. Поступают следующим образом: если данные наблюдений попадают в критическое множество (то есть, если X 2 K ), то гипотеза H0 отвергается;
если же данные находятся вне критического множества (то есть, X 2 K ), то гипотеза H0 принимается.
(H0 |
; X = K |
(X) = H1 |
; X 2 K; |
|
2 |
Такое решающее правило будем называть критерием, основанным на критическом множестве.
Рассмотрим пример.
Пример. Фирма, производящая чипы с компьютерной памятью, обнаружила, что если все идет нормально, то 10% продукции оказывается дефектной. Если в производстве присутствуют неполадки, то число бракованных изделий увеличивается до 40%. Отдел по контролю качества тестирует 4 чипа каждый час. Если среди тестируемых чипов оказывается два или более дефектных, то производство останавливается и начинается поиск неполадки.
Каждый час производится выборка X = (X1; X2; X3; X4): Случайная величина Xj принимают значения 1, если j-ый чип бракованный и принимает значение 0, если чип небракованный. Относительно распределения случайных величин Xj имеются две простые гипотезы.
H0 : P (Xj = 1) = 0:4;
H1 : P (Xj = 1) = 0:1:
Статистический критерий в этом случае записывается так
(H0 |
; Pj=1 Xj |
|
2: |
||
H1 |
|
|
4 |
< 2; |
|
; |
|
j=1 Xj |
|||
(X) = |
|
P |
4 |
|
: |
|
|
|
|||
|
|
|
|
При таком решающем правиле мы можем совершить одну из двух ошибок. Первая ошибка - пропустить неполадку. Вторая ошибка - ложная остановка. Первая ошибка происходит, если мы принимаем гипотезу H1 (произ-
водство идет нормально), а на самом деле верна верна H0 (в производстве присутствуют неполадки). Вероятность этой ошибки равна
01
41
X X
PH0 (H1 ) = PH0 @ Xj < 2A = C4j(0:4)j(0:6)4 j = 0:4752
jj=0
6
Вторая ошибка происходит, если мы принимаем гипотезу H0 (в произ- водстве присутствуют неполадки), а на самом деле верна верна H1 (произ- водство идет нормально). Вероятность этой ошибки равна
0 |
|
1 |
|
|
4 |
|
A |
|
4 |
@X |
Xj 2 |
= |
Xj |
|
PH1 (H0 ) = PH1 |
|
C4j(0:1)j(0:9)4 j = 0:0523 |
||
j=1 |
|
|
|
=2 |
Определение. Если (X)(X = (X1; :::; Xn)) -критерий проверки простой гипотезы H0 при простой альтернативе H1, òî PH0 (H1 ) = PH0 (X 2
K) = называется вероятностью ошибки первого рода (или уровнем зна- чимости критерия), а PH1 (H0 ) = PH1 (X 2= K) = называется вероятностью ошибки второго рода.
Определение. Величина PH1 (H1 ) = PH1 (X 2 K) = 1 = w называется мощностью критерия (X): Мощность критерия - это вероятность
отвергнуть нулевую гипотезу, если она не верна.
Сразу возникает вопрос, как найти такое решающее правило (такой статистический критерий), чтобы минимизировать вероятности возможных ошибок (или минимизировать уровень значимости и максимизировать мощность).
Рассмотрим еще один пример.
Пример. Предположим, что мы хотим проверить простую гипотезу при простой альтернативе. Например, человек приходит к врачу. Врач измеряет температуру пациенту X и у врача есть две гипотезы. Гипотеза основная
H0 : пациент болен
и альтернативная гипотеза
H1 : пациент здоров:
На основании измерения X врач должен принять решение - пациент болен или пациент здоров. То есть на основании измерения X нужно принять ре-
шение какая из гипотез H0 èëè H1 верна. Как принимает решение врач?
Если температура больше некоторого порогового значения, то он объявляет пациента больным, в противном случае пациент объявляется здоровым. При этом врач может совершить одну из двух ошибок: больного человека объявить здоровым (отвергнуть гипотезу H0; если она верна) или же здо-
рового человека объявить больным (принять H0; если верна H1). В первом
случае ошибка называется ошибкой первого рода, а во втором - ошибкой второго рода.
Как подобрать вероятностную модель для решения этой задачи? Можно
считать, температура совокупности больных людей распределена нормально N(a0; 2); а температура совокупности здоровых людей распределена
нормально N(a1; 2): Измеренная температура X принадлежит одной из
7

этих совокупностей. При этом все параметры a0; a1; известны и a0 > a1: Итак имеется простая гипотеза
H0 : X имеет распределение N(a0; 2);
и простая альтернатива
H1 : X имеет распределение N(a1; 2):
Статистический критерий проверки простой гипотезы при простой альтер-
нативе запишем в виде |
|
(H0 |
; X > C: |
(X) = H1 |
; X C; |
Для такого критерия можно подсчитать вероятности ошибок первого и второго рода:
|
H0 |
|
1 |
|
H0 |
|
|
|
|
H0 |
|
|
|
|
|
|
|
a0 |
; |
|
|
|
|
|
|
|
||
P |
|
(H ) = P |
|
(X |
|
|
C) = P |
|
(X |
|
C) = |
|
|
2 |
(C) = |
C a0 |
= ; |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
H1 |
0 |
|
|
H1 |
|
|
|
|
|
|
a1 |
; |
|
|
|
|
|
|
|
|
|
|
|||
|
|
P |
|
(H ) = P |
|
|
(X > C) = 1 |
|
|
|
|
2 |
(C) = 1 |
|
|
|
C a1 |
= : |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
(x) - функция распределения стандартного нормального закона.
Легко понять, что как только мы хотим уменьшить одну ошибку, вторая ошибка увеличивается. Нельзя выбрать константу С так, чтобы минимизировались обе ошибки.
Обычно поступают следующим образом: выбирают константу так, чтобы ошибка первого рода приняла гарантированно малое значение :
В нашем случае с врачом и пациентом выбираем пороговое значение так, чтобы вероятность объявить больного человека здоровым была равна: Если задана вероятность ошибки первого рода, то можно найти пороговое
значение для критической области. Это пороговое значение находится из уравнения
|
|
|
) |
|
|
) |
|
0 |
|
|
C a0 |
|
= = |
C a0 |
= u |
|
= C = u |
|
+ a : |
|
|
|
|
|
Итак критерий для проверки гипотезы в этом случае выглядит следующим образом
(
(X) = H1; X u + a0; H0; X > u + a0:
В этих формулах u квантиль уровня стандартного нормального распре-
деления.
Для нашего примера легко подсчитывается вероятность ошибки второго рода и соответственно мощность.
= P |
|
(X > u + a |
) = 1 |
|
|
|
|
2 ( u |
|
+ a |
) = 1 |
|
(u + |
a0 a1 |
); |
|
H1 |
0 |
|
|
a1 |
; |
|
|
0 |
|
|
|
8

w = 1 = (u + a0 a1 ):
Пример 3. Предположим, что имеется выборка X = (X1; :::; Xn) из cовокупности с равномерным распределением. При этом есть две гипотезы
H0 : Xj s R[0; 1];
H1 : Xj s R[0; 2]:
Это случай простой гипотезы и простой альтернативы. Мы уже раньше видели, что наибольшую информацию о неизвестном правом конце отрезка в равномерном распределении несет максимальное выборочное значение X(n): В этом случае функции распределения X(n) H0 è H1
равны соответственно
8
>0; x < 0
<
F0;(n)(x) = xn; x 2 [0; 1]
>
:1; x > 1;
8
>0; x < 0
<
F1;(n)(x) = (x=2)n; x 2 [0; 2] :
>
:1; x > 2;
Рассмотрим следующий критерий проверки простой гипотезы при простой альтернативе в этом случае
(
(X) = H1; X(n) 1
H0; X(n) < 1:
В этом случае можно посчитать вероятности ошибок первого и второго рода
= PH0 (H1) = PH0 (X(n) 1) = 0;
= PH1 (H0) = PH1 (X(n) < 1) = F1;(n)(1) = (1=2)n:
Вероятность ошибки второго рода стремится к нулю, когда число наблюдений растет, а мощность критерия стремиться к 1 с ростом объема выборки.
9