Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

TeorVer / Лекция 15. Статистическое оценивание параметров распределения

.pdf
Скачиваний:
98
Добавлен:
01.03.2016
Размер:
265.45 Кб
Скачать
x1, x2 , , xn

Лекция 15

СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ

ЦЕЛЬ ЛЕКЦИИ: ввести понятие оценки неизвестного параметра распределения и дать классификацию таких оценок; получить точечные оценки математического ожидания и дисперсии.

На практике в большинстве случаев закон распределения случайной величины X неизвестен, и по результатам наблюдений необходимо оценить числовые характеристики (например, математическое ожидание, дисперсию или другие моменты) или неизвестный параметр a , который определяет закон распределения (плотность распределения) f (x, a) изучаемой случайной величины. Так, для показательного распре-

деления или распределения Пуассона достаточно оценить один параметр, а для нормального распределения подлежат оценке уже два параметра – математическое ожидание и дисперсия.

Виды оценок

Случайная величина X имеет плотность вероятности f (x, a) , где a – неизвестный параметр распределения. В результате эксперимента получены значения этой случайной величины: x1, x2 , , xn . Произвести

оценку по существу означает, что выборочным значениям случайной величины необходимо поставить в соответствие некоторое значение параметра a , т. е. создать некоторую функцию результатов наблюдений

u(x1, x2 , , xn ) , значение которой принимается за оценку aˆn параметра a .

Индекс n указывает на количество проведенных опытов.

Любая функция, зависящая от результатов наблюдений, называется статистикой. Так как результаты наблюдений являются случайными величинами, то и статистика тоже будет случайной величиной. Следовательно,

оценку aˆn u(x1 , x2 , , xn ) неизвестного параметра a следует рас-

сматривать как случайную величину, а ее значение, вычисленное по экспериментальным данным объемом n , – как одно из возможных значений этой случайной величины.

138

Оценки параметров распределений (числовых характеристик случайной величины) подразделяются на точечные и интервальные. Точечная

оценка параметра a определяется одним числом aˆn , и ее точность характеризуется дисперсией оценки. Интервальной оценкой называют оценку, которая определяется двумя числами, aˆ1 и aˆ2 – концами интервала, на-

крывающего оцениваемый параметр a с заданной доверительной вероятностью.

Классификация точечных оценок

Чтобы точечная оценка неизвестного параметра aˆn u(x1 , x2 , , xn )

была наилучшей с точки зрения точности, необходимо, чтобы она была состоятельной, несмещенной и эффективной.

Состоятельной называется оценка aˆn u(x1 , x2 , , xn ) параметра a , если она сходится по вероятности к оцениваемому параметру, т. е.

aˆn

p a .

(8.8)

 

n

 

На основании неравенства Чебышева можно показать, что достаточным условием выполнения соотношения (8.8) является равенство

 

limM [aˆn ] a .

 

n

Состоятельность является асимптотической характеристикой оценки

при n

.

Несмещенной называется оценка aˆn u(x1 , x2 , , xn ) (оценка без

систематической ошибки), математическое ожидание которой равно оцениваемому параметру, т. е.

M [aˆn ]

a .

(8.9)

Если равенство (8.9) не выполняется, то оценка называется смещен-

ной. Разность

a

M [aˆn ] a называется смещением или систематиче-

ской ошибкой оценки. Если же равенство (8.9) выполняется лишь при n , то соответствующая оценка называется асимптотически несмещенной.

139

Необходимо отметить, что если состоятельность – практически обязательное условие всех используемых на практике оценок (несостоятельные оценки используются крайне редко), то свойство несмещенности является лишь желательным. Многие часто применяемые оценки свойством несмещенности не обладают.

В общем случае точность оценки некоторого параметра a , полученная на основании опытных данных x1, x2 , , xn , характеризуется средним квадратом ошибки

 

2

M[(aˆ

a)2 ],

 

 

 

 

 

 

 

n

 

 

 

 

 

который можно привести к виду

 

 

 

 

2

D[aˆ

] ( a)2 ,

 

 

 

 

 

n

 

 

 

 

 

 

где D[aˆ

]

M[(aˆ

M[aˆ

])2

] – дисперсия, ( a)2 (M[aˆ

 

] a)2

n

 

 

n

n

 

n

 

квадрат смещения оценки.

 

 

 

 

Если оценка несмещенная, то

 

 

 

2

D[aˆ

] M[(aˆ

 

a)2 ].

 

 

 

 

n

 

n

 

 

 

При

конечных

n оценки

могут различаться средним

квадратом

ошибки

2 . Естественно, что, чем меньше эта ошибка, тем теснее группи-

руются значения оценки около оцениваемого параметра. Поэтому всегда желательно, чтобы ошибка оценки была по возможности наименьшей, т. е. выполнялось условие

2 M[(aˆ

a)2 ] min .

(8.10)

n

aˆn

 

 

 

Оценку aˆn , удовлетворяющую условию (8.10), называют оценкой с

минимальным квадратом ошибки.

 

Эффективной называется оценка aˆn

u(x1 , x2 , , xn ) , для которой

средний квадрат ошибки не больше среднего квадрата ошибки любой другой оценки, т. е.

 

 

M[(aˆ

a)2 ] M[(aˆ*

a)2 ] ,

 

 

n

n

 

где aˆ

*

– любая другая оценка параметра a .

 

n

 

 

 

 

 

 

 

140

Известно, что дисперсия любой несмещенной оценки одного параметра a удовлетворяет неравенству Крамера – Рао

D[aˆn ]

1

 

 

 

M

 

ln f (x1, , xn / a)

 

 

 

 

 

 

a

1

,

 

 

 

2

 

 

 

M

 

ln f (x1, , xn / a)

 

a2

 

где f (x1, , xn / a) – условная плотность распределения вероятностей полученных значений случайной величины при истинном значении параметра a .

Таким образом, несмещенная оценка aˆn u(x1, x2 , , xn ) , для ко-

торой неравенство Крамера – Рао обращается в равенство, будет эффективной, т. е. такая оценка имеет минимальную дисперсию.

Точечные оценки математического ожидания и дисперсии

Если рассматривается случайная величина X , имеющая математическое ожидание m и дисперсию D , то оба эти параметра считаются неизвестными. Поэтому над случайной величиной X производится n независимых опытов, которые дают результаты: x1, x2 , , xn . Необходимо найти состоятельные и несмещенные оценки неизвестных параметров m и D .

ˆ

ˆ

В качестве оценок m и D обычно выбираются соответственно ста-

тистическое (выборочное) среднее значение и статистическая (выборочная) дисперсия:

mˆ

m*

 

1

n

x ;

 

 

 

 

 

 

 

 

 

 

 

(8.11)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

*

 

1

n

 

 

*

 

2

1 n 2

 

*

 

2

 

 

D

D

 

 

 

 

 

(xi

m

 

)

 

 

xi

(m

 

)

 

.

(8.12)

 

 

 

n i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i 1

 

 

 

 

 

 

Оценка математического ожидания (8.11) является состоятельной со-

гласно закону больших чисел (теорема Чебышева):

 

 

 

 

 

 

1

 

n

 

 

p

 

 

 

 

 

 

 

 

 

 

 

 

 

m*

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

m .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i

1

n

 

 

 

 

 

 

 

 

 

 

 

 

141

Математическое ожидание случайной величины m*

M[m* ] M

 

 

1 n

xi

 

 

1

M

 

 

n

xi

 

1

nm m .

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

n i 1

 

 

n

 

i 1

 

 

 

 

 

 

 

 

 

 

 

Следовательно, оценка m* является несмещенной.

 

 

 

 

 

 

 

 

Дисперсия оценки математического ожидания:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

n

 

 

 

 

 

2

 

 

 

 

 

D[m* ]

M [(m*

 

m)2

] M

x m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

D

 

1

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

1

 

 

 

M

 

 

 

 

(x m)

 

M (x m)2

 

(nD)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n2

 

i 1

 

 

i

 

 

 

 

 

 

n2

 

 

 

 

 

i 1

 

i

 

 

 

 

n2

 

n

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если случайная величина

X распределена по нормальному закону,

то оценка m* является также и эффективной.

 

 

 

 

 

 

 

 

 

 

 

Математическое ожидание оценки дисперсии D*

 

 

 

 

 

M[D* ] M

 

 

1 n

(xi

m* )2

 

 

 

1

 

M

 

n

 

(xi

m* )2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

i

1

 

 

 

 

 

 

В то же время

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x m* )2

 

 

 

 

(x m m m* )2

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

i

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

(x m)2

2(m*

m)

(x m)

 

 

 

 

(m* m)2

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x m)2

2(m*

m) n (m*

 

 

m) n(m*

m)2

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x m)2

n(m*

 

m)2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D

 

 

 

 

 

 

 

Так как M[( xi

m)

2

 

 

 

 

 

 

*

 

 

 

 

2

]

 

, то получаем

 

 

] D , а M[(m

 

m)

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M[D* ]

1

(nD

 

D)

 

n 1

D .

 

 

 

 

 

 

 

 

 

 

 

(8.13)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

142

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом, D* – смещенная оценка, хотя является состоятельной и эффективной.

Из формулы (8.13) следует, что для получения несмещенной оценки

D* следует видоизменить выборочную дисперсию (8.12) следующим образом:

 

*

 

1 n

 

*

2

 

n 1 n

2

*

2

 

 

 

 

 

 

D

 

 

 

 

(xi

m )

 

 

 

 

 

 

xi

(m )

 

,

(8.14)

 

n

1 i 1

 

n

1 n i

 

 

 

 

 

 

1

 

 

 

 

которая считается "лучшей" по сравнению с оценкой (8.12), хотя при больших n эти оценки практически равны друг другу.

Методы получения оценок параметров распределения

Часто на практике на основании анализа физического механизма, порождающего случайную величину X , можно сделать вывод о законе распределения этой случайной величины. Однако параметры этого распределения неизвестны, и их необходимо оценить по результатам экспе-

римента, обычно представленных в виде конечной выборки x1, x2 , , xn .

Для решения такой задачи чаще всего применяются два метода: метод моментов и метод максимального правдоподобия.

Метод моментов. Метод состоит в приравнивании теоретических моментов соответствующим эмпирическим моментам того же порядка.

Эмпирические начальные моменты k -го порядка определяются формулами:

*

1

 

n

 

 

 

(x )k

,

k

 

 

n i

i

 

 

1

 

а соответствующие им теоретические начальные моменты k -го порядка – формулами:

n

k(xi )k p(x, a) для дискретных случайных величин,

i1

k

xk f (x, a)dx

для непрерывных случайных величин,

 

 

где a – оцениваемый параметр распределения.

143

Для получения оценок параметров распределения, содержащего два неизвестных параметра a1 и a2 , составляется система из двух уравнений

1 (aˆ1 , aˆ2 ) 1* (aˆ1, aˆ2 )

2 (aˆ1 , aˆ2 ) 2* (aˆ1, aˆ2 ) ,

где и * – теоретический и эмпирический центральные моменты вто-

2 2

рого порядка.

Решением системы уравнений являются оценки aˆ1 и aˆ2 неизвестных параметров распределения a1 и a2 .

Приравняв теоретический эмпирический начальные моменты первого порядка, получаем, что оценкой математического ожидания случайной

величины X , имеющей произвольное распределение, будет выборочное

 

n

среднее, т. е. M [ X ] m* 1 n

xi . Затем, приравняв теоретический и

i 1

эмпирический центральные моменты второго порядка, получим, что оцен-

ка дисперсии случайной величины X , имеющей произвольное распределение, определяется формулой

 

1

n

D[ X ] D*

 

(x m* ) .

 

 

n

i

 

i 1

Подобным образом можно найти оценки теоретических моментов любого порядка.

Метод моментов отличается простотой и не требует сложных вычислений, но полученные этим методом оценки часто являются неэффективными.

Метод максимального правдоподобия. Метод максимального правдоподобия точечной оценки неизвестных параметров распределения сводится к отысканию максимума функции одного или нескольких оцениваемых параметров.

Пусть X – непрерывная случайная величина, которая в результате n испытаний приняла значения x1, x2 , , xn . Для получения оценки неиз-

вестного параметра a необходимо найти такое значение aˆ , при котором вероятность реализации полученной выборки была бы максимальной. Так

как x1, x2 , , xn представляют собой взаимно независимые величины с

144

одинаковой плотностью вероятности f (x) , то функцией правдоподобия называют функцию аргумента a :

L(x1, x2 , , xn ; a) f (x1; a) f (x2; a) f (xn ; a) .

Оценкой максимального правдоподобия параметра a называется такое

значение aˆ , при котором функция правдоподобия достигает максимума, т. е. является решением уравнения

dL(a)

da a aˆ

0 ,

которое явно зависит от результатов испытаний x1, x2 , , xn .

Поскольку функции L(a) и ln L(a) достигают максимума при одних и тех же значениях aˆ u(x1, x2 , , xn ) , то часто для упрощения

расчетов используют логарифмическую функцию правдоподобия и ищут корень соответствующего уравнения

d ln L(a)

0

,

 

da

a aˆ

 

 

 

которое называется уравнением правдоподобия.

Если необходимо оценить несколько параметров a1, a2 , , ak распределения f (x; a1, a2 , , ak ) , то функция правдоподобия будет зависеть от этих параметров. Для нахождения оценок aˆ1, aˆ2 , , aˆk парамет-

ров распределения необходимо решить систему k уравнений правдоподобия

d

ln L(a , a

 

, , a

 

, )

 

0, i 1, 2, , k .

 

2

k

da

1

 

 

 

 

 

 

 

 

 

ai

aˆi

 

 

 

 

 

 

Метод максимального правдоподобия дает состоятельные и асимптотически эффективные оценки. Однако получаемые методом максимального правдоподобия оценки бывают смещенными, и, кроме того, для нахождения оценок часто приходится решать достаточно сложные системы уравнений.

Соседние файлы в папке TeorVer