
Лекции Мат.стат. (2007-2008) / stat6_07
.pdf
Лекция 6 Регулярные семейства распределений.
В дальнейшем неоднократно придется дифференцировать по интегра-
лы (суммы) функций от плотности (или от вероятности) на пространстве всех реализаций выборок. Будем предполагать при этом, что порядок дифференцирования и интегрирования (суммирования) можно менять местами.
Параметрические семейства распределений, для которых можно менять порядок дифференцирования и интегрирования (суммирования), будем называть регулярными. Точные аналитические условия, обеспечивающие регулярность семейства распределений известны из математического анализа и вид их определяется в каждом конкретном случае. Отметим, в частности общее необходимое условие регулярного семейства распределений, состоящее в том, что при всех 2 множество
fx : f(x; ) > 0g(fx : p(x; ) > 0g)
не зависит от :
Приведем пример нерегулярного семейства распределений. Пусть F = fR(0; ); 2 = (0; 1)g: Плотность распределения из этого семейства не
равна нулю на отрезке [0; ]: Не выполнено необходимое условие регулярно-
сти семейства распределений.
Для регулярных семейств распределений получим еще одну формулу для информационного количества Фишера. Во-первых
Z 1
f(x; )dx = 1:
1
Поэтому, продифференцировав обе части этого равенства по ; получаем
Z f(x; )dx |
0 |
Z |
@f(x; ) |
1 |
|
||
= |
|
|
|
f(x; )dx = |
|||
@ |
f(x; ) |
||||||
= Z |
|
|
@ |
f(x; )dx = 0: |
|||
|
@ ln f(x; ) |
|
|
Или для любого элемента выборки Xj
E |
@ ln f(Xj; ) |
= 0: |
|
@ |
|||
|
|
Из равенства нулю математического ожидания случайной величины следует, что математическое ожидание квадрата этой случайной величины равно ее дисперсии или
i( ) = E |
X ; ) |
|
2 |
|
@f(X ; ) |
: |
||
@f( j |
|
= D |
j |
|
||||
@ |
@ |
Продифференцируем еще раз по равенство
Z
@ ln f(x; )f(x; )dx = 0: @
1

При этом поменяем порядок интегрирования и дифференцирования (дифференцируем под знаком интегала)
Z "@ |
|
ln@ 2 |
f(x; ) + @ ln @ |
|
f(x; )#dx = 0: |
||
|
|
2 |
f(x; ) |
|
f(x; ) |
|
2 |
Последнее равенство можно переписать в виде
|
@2 ln f(X |
; ) |
|
@ ln f(X |
; ) |
|
2 |
|
E |
j |
|
+ E |
|
j |
|
|
= 0: |
@ 2 |
|
@ |
|
Второе слагаемое по определению равно i( ): Поэтому для регулярного се-
мейства распределений верна еще одна формула для вычисления количе- ства информации, содержащееся в одном наблюдении i( ) :
i( ) = E @2 ln f(Xj; ): @ 2
Если теперь тождество
Z
L(x; )dx = 1
также продифференцировать по ; то получим
E @ ln L(X; ) = 0; X = (X1; X2; :::; Xn): @
Совершенно аналогично предыдущему
I( ) = D |
@ ln L(X; ) |
: |
||
@ |
|
|||
|
|
И так же для регулярного семейства распределений можно получить еще одну формулу для вычисления количества информации Фишера, содержащееся в выборке X = (X1; :::; Xn)
I( ) = E @2 ln L(X; ): @ 2
Для регулярных семейств распределений справедливо следующее утверждение.
Лемма. Если X = (X1; :::; Xn) выборка с распределением из регулярного семейства F ; то
I( ) = ni( ):
Это утверждение означает, что количество информации в выборке объема n в n раз больше, чем количество информации, содержащееся в одном
наблюдении.
Доказательство.
2

|
По определению |
|
|
|
|
|
I( ) = E |
@ ln |
L(X; ) |
|
2 |
|
|
: |
|||
|
|
@ |
|||
Íî |
n |
|
|
n |
|
|
|
|
YX
L(X; ) = f(Xj; ); ln L(X; ) = ln f(Xj; );
j=1 j=1
@ ln L(X; ) = |
n |
@ ln f(Xj; ): |
|||
|
|
Xj |
|
|
|
@ |
@ |
||||
=1 |
|||||
|
|
|
|
Случайные величины
@ln f(Xj; ); j = 1; 2; :::; n @
независимы, как функции от независимых случайных величин. Поэтому
I( ) = D |
@ ln L(X; ) |
= D |
n |
@ ln f(Xj; ) |
= |
n |
D |
@ ln f(Xj; ) |
= ni( ): |
|
X |
|
Xj |
|
|||||
|
@ |
@ |
|
@ |
|||||
|
j=1 |
=1 |
|
||||||
|
|
|
|
|
|
|
|
Для регулярного семейства распределений справедлива еще одна важная теорема.
Теорема (Неравенство Рао - Крамера).
Калиамруди Радхакришна Рао (1920), известный индийский математик, работающий в Америке.
Крамер (Cramer) Харальд (1893-1985г.г, Стокгольм), шведский математик. Профессор математики и математической статистики (с 1929), ректор (1950 58) Стокгольмского университета, канцлер шведских университетов (1958 61). Известен фундаментальными работами по теории вероятностей, математической статистике, математической теории страхования. Открыл замечательное свойство нормального закона: если сумма двух независимых случайных величин нормальна, то и каждое слагаемое имеет нормальный закон распределения.
Пусть X = (X1; :::; Xn) - выборка с распределением из регулярного се-
мейства распределений F : Пусть ( ) функция от неизвестного параметраи существует 0( ); 2 : Тогда для любой несмещенной оценки b(X)
функции ( )(E(b(X)) = ( ))
Db(X) ( 0( ))2 = ( 0( ))2 : ni( ) I( )
Доказательство.
Доказательство проведем для непрерывного случая. По условию теоремы (X) - несмещенная оценка функции ( ): Поэтому
Z
Eb(X) = b(x)L(x; )dx = ( ):
3

Возьмем производную по от обеих частей последнего равенства (поменяв при этом порядок интегрирования и дифференцирования)
Z
b(x)@ ln L(x; )L(x; )dx = 0( ); @
èëè |
(X) |
@ ln @ |
= 0( ): |
|
E |
||||
|
b |
L(X; ) |
|
|
|
|
|
|
Рассмотрим теперь случайные величины
Y= b(X); Z = @ ln L(X; ): @
Было показано, что EZ = 0: Поэтому,
cov(Y; Z) = E(Y EY )(Z EZ) = EY Z EY EZ = EY Z = 0( ):
Известно, что |
|
|
|
p |
|
|
|
p |
|
|
|
|
|
|
|
|
|
|
|
|
|
jcov(Y; Z)j |
DY |
|
DZ: |
|
|
|
|
|
|
|
|
|
|||||||
А это означает, что |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j 0( )j = jcov(b(X); |
@ ln @ |
)j pDb(X)s |
|
|
|
|
|
= pDb(X)pI( ): |
||||||||||||
D |
|
@ |
|
|||||||||||||||||
|
L(X; ) |
|
|
|
|
|
|
|
|
|
@ ln L(X; ) |
|
|
|
|
|
|
|||
После возведения в квадрат обеих частей этого равенства мы и получаем |
||||||||||||||||||||
|
|
|
( 0( ))2 |
( 0( ))2 |
|
|
|
|
|
|
||||||||||
|
Db(X) |
|
|
= |
|
|
|
: |
|
|
|
|
|
|
|
|||||
|
I( ) |
|
|
ni( ) |
|
|
|
|
|
|
|
|
Замечание. Неравенство Рао - Крамера означает, что для регулярного семейства распределений дисперсия несмещенной оценки не может быть сделана меньше, чем c( )=n: Если семейство распределений нерегулярно, то
дисперсия несмещенно оценки может убывать и быстрее, чем c=n с ростом n:
В качестве примера можно рассмотреть семейство F = fR[0; ]; 2 =
(0; 1)g: (X) = n+1 X(n) параметра является несмещенной, а ее Оценка b n
дисперсия
2
Db(X) = n(n + 2):
Пример доказательства эффективности оценки с помощью неравенства Рао - Крамера.
Пусть F - пуассоновское семейство распределений. Каждый элемент выборки Xj имеет пуассоновское распределений ( ); > 0: Известно, что
4

EXj = ; DXj = : В качестве оценки неизвестного параметра рассмотрим
выборочное среднее X: Как легко подсчитать
EX = ; DX = n:
Вычислим теперь инфоррмационное количество Фишера, содержащееся в одном наблюдении для пуассоновского семейства F :
f(x; ) = P (Xj
Отсюда
i( ) = E
= x) = e x ; ln f(x; ) = + x ln ln x!; x!
@ ln f(x; ) |
= |
|
1 + |
x |
|
= |
x |
: |
|
|
|
|||||||||
|
|
@ |
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
Xj |
|
|
2 |
|
|
1 |
|
|
|
|
|
|
1 |
|
1 |
|
||||
|
|
|
= |
|
E(Xj )2 = |
DXj = |
|
: |
||||||||||||
|
|
|
|
2 |
2 |
|
Поэтому нижняя граница неравенства Рао - Крамера равна |
1 |
= |
|
; êî- |
|||
ni( ) |
|||||||
|
|
|
|
n |
|
||
торая достигается как раз на оценке X: |
|
|
|
Критерий эффективности оценки для регулярного семейства распределений.
Если производная от логарифма функции правдоподобия распадается на множители, причем
@L(X; )
@
= ( )(b(X) ( )); ( ) 6= 0; 2 ;
òî b(X) - эффективная оценка функции ( ):
Приведем доказательство критерия эффективности. Во-первых, если взять математическое ожидание от обеих частей написанного выше равенства, то из равенства
E @L(X; ) = 0; @
сразу следует что для функции ( ) статистика b(X) - несмещенная оценка. Кроме того, из этого же равенства следует, что
D@L(X; ) = 2( )Db(X): @
При доказательстве неравенства Рао - Крамера было показано, что
0( ) = E (X) |
@ ln L(X; ) |
= E (X) ( )( (X) |
|
( )) = |
|||
@ |
|
||||||
b |
b |
b |
|
Если теперь из последнего уравнения выразить ( ) = 0( )
Db(X)
I( ) = D @L(X; ) = 0( )2 : @ Db
( )Db(X):
; то получим
5

Отсюда
Db(X) = ( 0( ))2 : I( )
А это означает, что дисперсия оценки b(X) равна нижней границе неравенства Рао-Крамера и поэтому эта оценка - эффективна.
Пример использования критерия эффективности. Пусть X =
(X1; :::; Xn) - выборка с распределением из параметрического семейства распределений F = fN(a; 2); 2 = (0; 1)g: Для этой выборки функция
правдоподобия равна
|
|
|
L(X; ) = |
p2 |
n |
|
n |
|
2 |
|
|
|
||||||||||||||||
|
|
|
|
e P |
|
|
2 2 |
|
: |
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
j=1(Xj a) |
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
n |
(Xj |
|
a)2 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
ln L(X; ) = n ln + n ln |
p |
|
|
|
|
Pj=1 |
2 2 |
|
: |
||||||||||||||||||
|
2 |
|
||||||||||||||||||||||||||
@ ln |
L(X; ) |
|
n |
n |
|
(Xj |
|
a)2 |
|
n 1 n |
|
|
|
|
||||||||||||||
@ |
= + |
Pj=1 |
3 |
|
|
= |
3 (n j=1(Xj a)2 2): |
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X |
|
|
Функция правдоподобия распадается на произведение двух сомножителей. Из критерия эффективности следует, что статистика
n
b(X) = n1 X(Xj a)2
j=1
- эффективная оценка 2:
Неравенство Рао - Крамера и измерение эффективности оценок. Пусть X = (X1; :::; Xn) - выборка из совокупности с распределением из параметрического семейства F :
Определение. Эффективностью несмещенной оценки b(X) - несмещенной оценки функции ( ) называется число
( 0( ))2 e(b) = ni( )D(b(X)):
Эффективность оценки принимает значения между нулем и единицей.
Замечание о параметрическим семействах распределений с векторным параметром
Пусть X = (X1; :::; Xn) - выборка из совокупности с распределением из параметрического семейства F = fF (x; ); = ( 1; :::; p) 2 g: Построим векторную статистику
b(X) = (b1(X); :::; bp(X)):
Эта статистика является несмещенной оценкой векторного параметра ; ес-
ëè
Eb(X) = (Eb1(X); :::; Ebp(X)) = ( 1; :::; p):
6

Для векторной случайной величины рассмотрим дисперсионную матрицу (или матрицу ковариаций)
Db(X) = (cov(bi(X); bj(X)); i; j = 1; :::; p):
По определению дисперсионная матрица случайного вектора b(X) - матри-
ца размера p p; у которой на диагонали стоят дисперсии кординат случайного вектора, элемент (j; k) равен ковариации j-ой и k-ой координаты этого
случайного вектора.
Введем матрицу, которую по аналогии с одномерным случаем будем называть матрицей инфомационного количества Фишера, содержащегося в одном наблюдении
i( ) = i( 1; :::; n) = |
E |
@ ln@ j |
) @ ln@ k |
j; k = 1; :::; p |
|||
|
|
|
f(x; |
|
|
f(x; ) |
|
Матрица i( ) - это квадратная матрица размера p p:
Если теперь параметрическое семейство распределений F допускает пе- рестановку операций дифференцирования плотности по каждому из пара- метров k и интегрирования плотностей распределения по всевозможным выборочным значениям, то это семейство распределений будем называть регулярным.
Для регулярного семейства распределений справедливо обобщение нера-
венство Рао - Крамера.
Если существует (i( )) 1; то для любой несмещенной оценки b(X) âåê- торного параметра
Db(X) n1 (i( )) 1:
Неравенство между двумя квадратными матрицами A B означает, что A B 0; то есть разность A B неотрицательно определена. А именно, для любого ненулевого вектора c = (c1; :::; cp)
p
X
c(A B)c0 = (ajk bjk)cjck 0:
j;k=1
В частности, если взять вектор c, k-ая координата которого равна 1, а все
остальные координаты - нули, то из предыдущего неравенства следует, что
akk bkk:
Обобщение неравенства Рао - Крамера на случай векторного параметра дает, в частности, нижнюю границу для дисперсий координат оценки векторного параметра.
7