Скачиваний:
20
Добавлен:
20.05.2014
Размер:
105.11 Кб
Скачать

Лекция 5. Параметрическое семейство распределений.

Параметрическим семейством распределений F = fF (u; ); 2 g мы будем называть класс распределений, в котором каждое распределение целиком определяется значением скалярного или векторного параметра :

Примеры параметрических семейств распределений.

1.Пуассоновское семейство распределений F = f ( ); = ; 2 = (0; 1)g:

2.Множество распределений Бернулли F = fB(1; p); = p; = (0; 1)g:

3.Семейство равномерных распределений F = fR(a; b); = (a; b); = f(a; b); a < bgg:

4.Семейство нормальных распределений F = fN(a; 2); = (a; ); = f( 1; 1) (0; 1)g:

5.Семейство нормальных распределений с дисперсией 2 = 4: F = fN(a; 4); = a; = ( 1; 1)g:

Сравнение оценок.

Пусть X = (X1; :::; Xn) - выборка из совокупности с функцией распределения из параметрического семейства F : Любая числовая характеристика g является функцией от неизвестного параметра : Предположим, что мы хотим оценить функцию ( ) от неизвестного параметра и нашли две

оценки этой функции b1(X) è b2(X):

Определение. Оценка b1(X) эффективнее (лучше в среднем квадратичном) оценки b2(X); åñëè

E (b1(X) ( ))2 E (b2(X) ( ))2;

для любого 2 и хотя бы при одном 2 неравенство строгое.

Åñëè b1(X) è b2(X) несмещенные оценки функции ( ); то утверждение о том, что оценка b1(X) эффективнее b2(X) означает, что при всех

D b1(X) D b2(X)

и хотя бы при одном это неравенство строгое.

Вернемся к примеру, рассмотренному в предыдущей лекции. Там рассматривалось параметрическое семейтво распределений F = fR(0; ); >

0g: Было показано, что статистики b1(X) = 2X è b2(X) = n+1n X(n) - несме- щенные оценки параметра : При всех n > 1

Db1(X) > Db2(X)

ïðè âñåõ > 0: Так как обе эти оценки несмещенны, то оценка b2(X) ýô- фективнее оценки b1(X):

Пусть X = (X1; :::; Xn) выборка из совокупности, распределение которой принадлежит некоторому параметрическому семейству F :

Определение. Несмещенная оценка b(X) функции ( ) называется эффективной оценкой этой функции, если для любой другой несмещенной

оценки e(X)

D b(X) D e(X)

1

Теорема. Если существует эффективная оценка функции ( ); то эта оценка единственна.

Доказательство. Докажем, что если b1(X) è b2(X) две эффективные

оценки, то при любом

P (b1(X) = b2(X)) = 1:

Действительно, по определению эффективности при всех 2

D b1(X) D b2(X); D b2(X) D b1(X):

Поэтому при всех 2

D b1(X) = D b2(X):

Рассмотрим статистику

(X) = b1(X) + b2(X): 2

Легко видеть, что это несмещенная оценка функции ( )

E = 12E b1(X) + E 12 b2(X) = ( ):

Обозначим через

a = b1(X) ( ); b = b2(X) ( ):

Для любых чисел а, b справедливо тождество

 

 

 

 

 

 

 

 

 

 

 

 

a + b

 

 

2 +

a b

 

 

2

=

a2 + b2

:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для введенных выше чисел а и b это равенство превращается в следующее

 

 

 

 

равенство

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1(X) + 2

(X)

 

 

( )

 

 

2+

 

 

1(X) 2(X)

 

 

2

=

 

1

(

 

(X)

 

( ))2

+

1

(

(X)

 

 

( ))2

:

b

2 b

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

 

2 b

 

 

 

 

 

 

 

2 1

 

 

 

 

 

 

2

2

 

 

 

 

 

Возьмем от обеих частей этого равенства математическоеb

ожидание b

 

 

 

 

 

 

 

E

(

(X)

 

( ))2+

1

E

(

(X)

(X))2 =

1

E

 

(

(X)

 

( ))2+

1

E

(

(X)

 

( ))2

:

 

 

 

 

 

 

 

1

 

 

 

 

4

 

 

1

 

 

 

2

 

 

2

 

 

1

 

 

 

 

 

 

2

 

2

 

 

 

 

 

 

Òàê êàê (X); 1(X); 2(bX) -

 

 

b

 

 

 

 

 

 

 

 

 

b

 

 

 

 

 

 

 

 

( ) è Db 1(X) =

 

 

D 2

(X); òî ýòîb

 

 

b

 

 

 

несмещенные оценки функции

 

 

 

 

 

 

b

 

 

 

 

 

 

 

 

 

b

 

 

 

 

 

неравенство означает, что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D (X) + 14E (b1(X) b2(X))2 = D b1(X);

2

èëè

D (X) = D b1(X) 14E (b1(X) b2(X))2:

По предположению b1(X) - эффективная оценка, поэтому при всех 2

E (b1(X) b2(X))2 = 0:

Из этого следует, что при всех 2

P (b1(X) = b2(X)) = 1:

Информационное количество Фишера, содержащееся в одном наблюдении.

Пусть X = (X1; :::; Xn) выборка объема n с функцией распределения F (x; ) из параметрического семейства распределений F :

Рассмотрим для примера случай, когда распределение Xj дискретно. Пусть p(x; ) = P (Xj = x): При изменении параметра меняется и значе- ние вероятности, с которой мы можем получит фиксированное значение x: Если вероятность p(x; ) одна и та же при всех значениях 2 ; то это зна- чит, что наблюдение не содержит никакой информации о параметре : Если при некоторых значениях параметра наблюдать значение x маловероятно, а при некоторых значениях вроятность наблюдать значение x велика,

то можно сказать, что получив при наблюдении за случайной величиной значение x; мы получаем некоторую информацию о возможных значениях

неизвестного параметра : Имеет значение даже не столько сама величина вероятности p(x; ); а сколько скорость ее изменения.

Скорость изменения значения некоторой функции при изменении зна- чения параметра измеряется с помощью производной.

Английским статистик Р.Фишер (1912.г) ввел числовую характеристику для параметрического семейства распределений

i( ) =

8

 

 

 

 

 

 

 

 

@ ln f(x; )

 

 

2

 

 

- непрерывна

 

 

1

 

 

 

2

 

 

<P

@ ln p(x; )

 

 

 

:

 

( @

)

 

f(x; )dx; Xj

 

 

x

 

@

 

 

 

 

p(x; ); Xj - дискретна

 

 

 

 

 

 

 

 

 

 

R

:

1

Эта характеристика называется количеством информации Фишера, содержащемся в одном наблюдении. В этих формулах f(x; ) - плотность рас-

пределения случайных величин Xj: Если вместо значения x подставить в функцию f(x; ) (или p(x; )) случайную величину Xj; то из определения количества информации Фишера, содержащегося в одном наблюдении, сле-

äóåò, ÷òî

8E

 

p@( j

 

 

2

; Xj - дискретна

:

i( ) =

 

 

 

 

 

@ ln

X

; )

 

2

 

 

 

@ ln f(Xj; )

 

; Xj - непрерывна

 

 

>E

 

@

 

 

 

 

 

<

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

>

 

 

 

 

 

 

 

:

Пример вычисления информационного количества Фишера, содержащегося в одном наблюдении.

3

Пусть выборка X1; :::; Xn производится из совокупности с нормальным распределением N(a; 2): При этом параметр = a неизвестен, параметр

- известен. Тогда

 

 

 

 

 

 

 

1

 

 

 

 

(x )2

 

 

 

f(x; ) =

p

 

 

e

 

 

 

 

 

 

2 2

:

 

 

 

2

 

 

 

Поэтому

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

1

@ ln

f(x; )

 

 

 

i( ) = Z 1

 

 

f(x; )dx =

 

@

=

1

 

x

 

 

2 f(x; )dx =

1

:

Z 1 2

 

2

 

 

 

 

 

 

 

 

 

 

Этот результат можно даже интерпретировать следующим образом: чем больше дисперсия 2; тем больше разброс в наблюденных значениях иссле-

дуемой случайной величины и тем меньше информации в одном наблюдении о среднем значении случайной величины.

Функция правдоподобия.

Пусть попрежнему имеется выборка X1; :::; Xn из параметрического се- мейства распределений F : Пусть x = (x1; :::; xn) некоторая реализация этой выборки.

Определение. Функцией правдоподобия L(x; ) для параметрического семейства распределений F называется при фиксированном x функция от

(

Qn

L(x; ) = j=1 P (xj; ); если распределение Xj - дискретно; :

Qn

j=1 f(xj; ); если распределение Xj - абсолютно непрерывно.

В дискретном случае значение функции правдоподобия в точке - это

âероятность того, что в результате эксперимента получится реализация x (распределение генеральной совокупности F (x; )). Если распределение

дискретно, то

X

L(x; ) = 1:

x

Если распределение F (x; ) абсолютно непрерывно, то значение функции правдоподобия при фиксированном

n

Y

L(x; ) = f(xj; )

j=1

это значение совместной плотности распределения случайных величин X1; :::; Xn

в точке x = (x1; :::; xn):

Из определения функции правдоподобия следует, что при любом 2

1

 

 

1

1

Z 1 L(

x; )dx

=

Z 1

::: Z 1 L(xx; :::; xn; )dx1:::dxn = 1:

Интеграл от плотности по всей области возможных значений равен 1.

4

Итак, для каждого параметðического семейства распределений мы ввели функцию правдоподобия L(x; ):

Количество информации Фишера, содержащееся в выборке.

Количеством инфомации Фишера о неизвестном параметре , содержащееся в выборке, называется число

 

 

 

1

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

L(x;

 

 

 

L(

 

 

 

I( ) = Z 1

@ ln

 

 

 

)

x; )dx

=

 

 

@

 

 

 

 

 

1

1

 

@ ln L(xx; :::; xn

; )

 

2

 

 

 

= Z 1

::: Z 1

 

 

 

 

 

 

 

 

 

L(x1; :::; xn; )dx1:::dxn:

 

@

 

 

 

 

 

Для дискретных распределений все интегралû заменяются суммами.

Если теперь в функцию правдоподобия L(x; ) вместо реализации x подставить случайную выборку X = (X1; ::; Xn); то количество информации Фишера, содержащееся в выборке X о неизвестном параметре равно

I( ) = E @ ln L(X; ) 2 : @

5

Соседние файлы в папке Лекции Мат.стат. (2007-2008)