
Лекции Мат.стат. (2007-2008) / stat5_07
.pdf
Лекция 5. Параметрическое семейство распределений.
Параметрическим семейством распределений F = fF (u; ); 2 g мы будем называть класс распределений, в котором каждое распределение целиком определяется значением скалярного или векторного параметра :
Примеры параметрических семейств распределений.
1.Пуассоновское семейство распределений F = f ( ); = ; 2 = (0; 1)g:
2.Множество распределений Бернулли F = fB(1; p); = p; = (0; 1)g:
3.Семейство равномерных распределений F = fR(a; b); = (a; b); = f(a; b); a < bgg:
4.Семейство нормальных распределений F = fN(a; 2); = (a; ); = f( 1; 1) (0; 1)g:
5.Семейство нормальных распределений с дисперсией 2 = 4: F = fN(a; 4); = a; = ( 1; 1)g:
Сравнение оценок.
Пусть X = (X1; :::; Xn) - выборка из совокупности с функцией распределения из параметрического семейства F : Любая числовая характеристика g является функцией от неизвестного параметра : Предположим, что мы хотим оценить функцию ( ) от неизвестного параметра и нашли две
оценки этой функции b1(X) è b2(X):
Определение. Оценка b1(X) эффективнее (лучше в среднем квадратичном) оценки b2(X); åñëè
E (b1(X) ( ))2 E (b2(X) ( ))2;
для любого 2 и хотя бы при одном 2 неравенство строгое.
Åñëè b1(X) è b2(X) несмещенные оценки функции ( ); то утверждение о том, что оценка b1(X) эффективнее b2(X) означает, что при всех
D b1(X) D b2(X)
и хотя бы при одном это неравенство строгое.
Вернемся к примеру, рассмотренному в предыдущей лекции. Там рассматривалось параметрическое семейтво распределений F = fR(0; ); >
0g: Было показано, что статистики b1(X) = 2X è b2(X) = n+1n X(n) - несме- щенные оценки параметра : При всех n > 1
Db1(X) > Db2(X)
ïðè âñåõ > 0: Так как обе эти оценки несмещенны, то оценка b2(X) ýô- фективнее оценки b1(X):
Пусть X = (X1; :::; Xn) выборка из совокупности, распределение которой принадлежит некоторому параметрическому семейству F :
Определение. Несмещенная оценка b(X) функции ( ) называется эффективной оценкой этой функции, если для любой другой несмещенной
оценки e(X)
D b(X) D e(X)
1

Теорема. Если существует эффективная оценка функции ( ); то эта оценка единственна.
Доказательство. Докажем, что если b1(X) è b2(X) две эффективные
оценки, то при любом
P (b1(X) = b2(X)) = 1:
Действительно, по определению эффективности при всех 2
D b1(X) D b2(X); D b2(X) D b1(X):
Поэтому при всех 2
D b1(X) = D b2(X):
Рассмотрим статистику
(X) = b1(X) + b2(X): 2
Легко видеть, что это несмещенная оценка функции ( )
E = 12E b1(X) + E 12 b2(X) = ( ):
Обозначим через
a = b1(X) ( ); b = b2(X) ( ):
Для любых чисел а, b справедливо тождество
|
|
|
|
|
|
|
|
|
|
|
|
a + b |
|
|
2 + |
a b |
|
|
2 |
= |
a2 + b2 |
: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
Для введенных выше чисел а и b это равенство превращается в следующее |
|
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||
равенство |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
1(X) + 2 |
(X) |
|
|
( ) |
|
|
2+ |
|
|
1(X) 2(X) |
|
|
2 |
= |
|
1 |
( |
|
(X) |
|
( ))2 |
+ |
1 |
( |
(X) |
|
|
( ))2 |
: |
|||||||||||||||||||||
b |
2 b |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||||
|
|
|
|
|
b |
|
2 b |
|
|
|
|
|
|
|
2 1 |
|
|
|
|
|
|
2 |
2 |
|
|
|
|
|
|||||||||||||||||||||||
Возьмем от обеих частей этого равенства математическоеb |
ожидание b |
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||||||||||
E |
( |
(X) |
|
( ))2+ |
1 |
E |
( |
(X) |
(X))2 = |
1 |
E |
|
( |
(X) |
|
( ))2+ |
1 |
E |
( |
(X) |
|
( ))2 |
: |
|
|||||||||||||||||||||||||||
|
|
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||
|
1 |
|
|
|
|
4 |
|
|
1 |
|
|
|
2 |
|
|
2 |
|
|
1 |
|
|
|
|
|
|
2 |
|
2 |
|
|
|
|
|
|
|||||||||||||||||
Òàê êàê (X); 1(X); 2(bX) - |
|
|
b |
|
|
|
|
|
|
|
|
|
b |
|
|
|
|
|
|
|
|
( ) è Db 1(X) = |
|
|
|||||||||||||||||||||||||||
D 2 |
(X); òî ýòîb |
|
|
b |
|
|
|
несмещенные оценки функции |
|
|
|
|
|
|
b |
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||
|
|
b |
|
|
|
|
|
неравенство означает, что |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
D (X) + 14E (b1(X) b2(X))2 = D b1(X);
2

èëè
D (X) = D b1(X) 14E (b1(X) b2(X))2:
По предположению b1(X) - эффективная оценка, поэтому при всех 2
E (b1(X) b2(X))2 = 0:
Из этого следует, что при всех 2
P (b1(X) = b2(X)) = 1:
Информационное количество Фишера, содержащееся в одном наблюдении.
Пусть X = (X1; :::; Xn) выборка объема n с функцией распределения F (x; ) из параметрического семейства распределений F :
Рассмотрим для примера случай, когда распределение Xj дискретно. Пусть p(x; ) = P (Xj = x): При изменении параметра меняется и значе- ние вероятности, с которой мы можем получит фиксированное значение x: Если вероятность p(x; ) одна и та же при всех значениях 2 ; то это зна- чит, что наблюдение не содержит никакой информации о параметре : Если при некоторых значениях параметра наблюдать значение x маловероятно, а при некоторых значениях вроятность наблюдать значение x велика,
то можно сказать, что получив при наблюдении за случайной величиной значение x; мы получаем некоторую информацию о возможных значениях
неизвестного параметра : Имеет значение даже не столько сама величина вероятности p(x; ); а сколько скорость ее изменения.
Скорость изменения значения некоторой функции при изменении зна- чения параметра измеряется с помощью производной.
Английским статистик Р.Фишер (1912.г) ввел числовую характеристику для параметрического семейства распределений
i( ) = |
8 |
|
|
|
|
|
|
|
|
|
@ ln f(x; ) |
|
|
2 |
|
|
- непрерывна |
|
|||
|
1 |
|
|
|
2 |
|
||||
|
<P |
@ ln p(x; ) |
|
|
|
: |
||||
|
( @ |
) |
|
f(x; )dx; Xj |
|
|||||
|
x |
|
@ |
|
|
|
|
p(x; ); Xj - дискретна |
|
|
|
|
|
|
|
|
|
|
|
R
:
1
Эта характеристика называется количеством информации Фишера, содержащемся в одном наблюдении. В этих формулах f(x; ) - плотность рас-
пределения случайных величин Xj: Если вместо значения x подставить в функцию f(x; ) (или p(x; )) случайную величину Xj; то из определения количества информации Фишера, содержащегося в одном наблюдении, сле-
äóåò, ÷òî |
8E |
|
p@( j |
|
|
2 |
; Xj - дискретна |
: |
i( ) = |
|
|
|
|||||
|
|
@ ln |
X |
; ) |
|
2 |
|
|
|
@ ln f(Xj; ) |
|
; Xj - непрерывна |
|
||||
|
>E |
|
@ |
|
|
|
|
|
|
< |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
> |
|
|
|
|
|
|
|
:
Пример вычисления информационного количества Фишера, содержащегося в одном наблюдении.
3

Пусть выборка X1; :::; Xn производится из совокупности с нормальным распределением N(a; 2): При этом параметр = a неизвестен, параметр
- известен. Тогда |
|
|
|
|
|
|
|
1 |
|
|
|
|
(x )2 |
|
|
|||
|
f(x; ) = |
p |
|
|
e |
|
|
|||||||||||
|
|
|
|
2 2 |
: |
|
|
|||||||||||
|
2 |
|
|
|
||||||||||||||
Поэтому |
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|||
|
1 |
@ ln |
f(x; ) |
|
|
|
||||||||||||
i( ) = Z 1 |
|
|
f(x; )dx = |
|||||||||||||||
|
@ |
|||||||||||||||||
= |
1 |
|
x |
|
|
2 f(x; )dx = |
1 |
: |
||||||||||
Z 1 2 |
|
2 |
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
Этот результат можно даже интерпретировать следующим образом: чем больше дисперсия 2; тем больше разброс в наблюденных значениях иссле-
дуемой случайной величины и тем меньше информации в одном наблюдении о среднем значении случайной величины.
Функция правдоподобия.
Пусть попрежнему имеется выборка X1; :::; Xn из параметрического се- мейства распределений F : Пусть x = (x1; :::; xn) некоторая реализация этой выборки.
Определение. Функцией правдоподобия L(x; ) для параметрического семейства распределений F называется при фиксированном x функция от
(
Qn
L(x; ) = j=1 P (xj; ); если распределение Xj - дискретно; :
Qn
j=1 f(xj; ); если распределение Xj - абсолютно непрерывно.
В дискретном случае значение функции правдоподобия в точке - это
âероятность того, что в результате эксперимента получится реализация x (распределение генеральной совокупности F (x; )). Если распределение
дискретно, то
X
L(x; ) = 1:
x
Если распределение F (x; ) абсолютно непрерывно, то значение функции правдоподобия при фиксированном
n
Y
L(x; ) = f(xj; )
j=1
это значение совместной плотности распределения случайных величин X1; :::; Xn
в точке x = (x1; :::; xn):
Из определения функции правдоподобия следует, что при любом 2
1 |
|
|
1 |
1 |
Z 1 L( |
x; )dx |
= |
Z 1 |
::: Z 1 L(xx; :::; xn; )dx1:::dxn = 1: |
Интеграл от плотности по всей области возможных значений равен 1.
4

Итак, для каждого параметðического семейства распределений мы ввели функцию правдоподобия L(x; ):
Количество информации Фишера, содержащееся в выборке.
Количеством инфомации Фишера о неизвестном параметре , содержащееся в выборке, называется число
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
L(x; |
|
|
|
L( |
|
|
|||||
|
I( ) = Z 1 |
@ ln |
|
|
|
) |
x; )dx |
= |
||||||||
|
|
@ |
|
|
|
|
|
|||||||||
1 |
1 |
|
@ ln L(xx; :::; xn |
; ) |
|
2 |
|
|
|
|||||||
= Z 1 |
::: Z 1 |
|
|
|
|
|
|
|
|
|
L(x1; :::; xn; )dx1:::dxn: |
|||||
|
@ |
|
|
|
|
|
Для дискретных распределений все интегралû заменяются суммами.
Если теперь в функцию правдоподобия L(x; ) вместо реализации x подставить случайную выборку X = (X1; ::; Xn); то количество информации Фишера, содержащееся в выборке X о неизвестном параметре равно
I( ) = E @ ln L(X; ) 2 : @
5