
Глава 2.2. Статистические оценки
Понятие оценки как функции выборки.
Виды оценок
Точечные оценки. Свойства несмещенности, состоятельности и эффективности.
Неравенство Рао-Крамера
Отыскание оценок методом моментов.
Метод максимального правдоподобия.
Интервальные оценки. Доверительные интервалы и области.
Понятие оценки. Виды оценок
Пусть
=
(Х1…
,Хn
) выборка из распределения P
и F(x) и Fn(х)
соответственно теоретическая и
эмпирическая функции распределения.
На
Fn(х) можно смотреть как на функцию распределения некоторой дискретной
случайной величины, принимающей n значений: Х1… ,Хn c вероятностями, равными 1/n (если какое-либо значение встретится в выборке k
раз, то этому значению соответствует вероятность k/n). Об этом распределении говорят как об эмпирическом или выборочном распределении (отсюда
и термин эмпирическая
функция распределения для Fn(х)
) Как для исходного распределения P
вводятся различные числовые характеристики
(математическое ожидание, или среднее,
дисперсия, моменты и т. д.), так и для
эмпирическогo распределения, связанного
с выборкой
,
вводятся аналогичные характеристики,
называемые эмпирическими (или выборочными):
выборочное среднее, выборочная дисперсия
и т.д. Таким образом, эмпирическая (или
выборочная) характеристика является
статистическим аналогом соответствующей
теоретической характеристики, аналогично
тому, как эмпирическая функция
распределения Fn(х)
является статистическим аналогом
теоретической функции распределения
F(x). В общем случае, если g
= Eg(X)
есть некоторая теоретическая характеристика
наблюдаемой случайной величины, то
ее статистический аналог, т. е.
соответствующая эмпирическая (или
выборочная) характеристика, вычисляется
по формуле
Оценка неизвестных
параметров.
Задача оценивания неизвестных параметров
возникает в тех случаях, когда функция
распределения генеральной совокупности
известна с точностью до параметра θ
(тета: обозначение параметра) .
В этом случае необходимо найти такую
статистику (функцию)
,
выборочное значение
которой для рассматриваемой реализации
случайной выборки можно было бы считать
приближенным значением параметра
.
Статистику
,
выборочное значение
которой для любой реализации
принимают за приближенное значение
неизвестного параметра θ,
называют его точечной
оценкой или просто оценкой,
а
— значением
точечной оценки (просто оценки).
Возможным является
и иной подход к решению рассматриваемой
задачи: найти такие статистики
и
чтобы с вероятностью α выполнялось
неравенство P
(
≤ θ
≤
)
= α, то есть с заданной вероятностью
значение параметра попадало бы в
полученный интервал.
В этом случае говорят об интервальной оценке для θ. Интервал
( , )называют доверительным интервалом для θ с коэффициентом (уровнем) доверия α
Точечные оценки
Замечание. Термин «точечная» связан с тем, что в качестве заменителя неизвестного параметра предлагается конкретное число. Это «хорошо», поскольку позволяет поставить конкретное значение в формулу распределения и тем самым полностью его восстановить, и «плохо», поскольку мы не знаем, насколько хорошо наше приближение. Соответствующие формулы являются асимптотическими и является ли наше (точное) n (точно) достаточным для такого вывода неочевидно. Более того (как будет показано далее) существует непреодолимый «зазор» между оценкой и истинным значением параметра (информационное неравенство) о-
Итак, оценка - это функция от нашей выборки. Но функций от выборки можно придумать великое множество. Очевидно, что эта функция должна еще «хорошо приближать» оцениваемый параметр. Поэтому оценка должна удовлетворять нескольким условиям:
Определение. Оценка называется состоятельной оценкой параметра θ, если → θ по вероятности при n→∞
Определение. Оценка называется несмещенной, если Е ( ) = θ
Замечание. Несмещенность и состоятельность – это лишь два из требований, предъявляемых к оценкам. Также существенными являются (не рассматриваемые здесь) инвариантность относительно сдвига, асимптотическая нормальность и др.
Определение.
Выборочное
среднее
=
.
Выборочное среднее является средним
значением (математическим ожиданием)
для эмпирической функции распределения.
Пример. Выборочное среднее является несмещенной состоятельной оценкой для математического ожидания.
Определение.
Выборочная
дисперсия
.
Выборочная дисперсия характеризует
среднеквадратичное отклонение выборочных
величин от выборочного среднего.
Замечание. В
определении выборочной дисперсии должен
бы использоваться множитель
(смещенная оценка) , а не
,
но тогда не соблюдается условие
несмещенности. Выборочную дисперсию с
множителем
называют
еще исправленной выборочной
дисперсией.
Пример. Выборочная дисперсия является несмещенной состоятельной оценкой для дисперсии
Замечание. Так же как и для дисперсии (см. свойства дисперсии) для выборочной дисперсии для удобства вычислений нередко пользуются таким равенством :
Определение. Выборочный (начальный) момент порядка k
.
Выборочный момент является моментом
порядка k
для эмпирической функции распределения.
Пример. Выборочный момент порядка k является несмещенной состоятельной оценкой начального момента k-го порядка.
Замечание. Аналогично случаю начальных моментов случайной величины Х, выборочное среднее (выборочное математическое ожидание) является выборочным начальным моментом 1 порядка
Определение. Выборочный (центральный) момент порядка k
Пример. Выборочный центральный момент k-го порядка является состоятельной оценкой центрального момента k-го порядка.
Замечание. Аналогично случаю центральных моментов случайной величины Х, выборочная дисперсия является выборочным центральным моментом 2
порядка
Определение. Случайной выборкой объема n, отвечающей паре случайных величин (X,Y) называется набор n независимых, одинаково распределенных пар случайных величин (X1 , Y1 ), (X2 , Y2 ), … (Xn , Yn ), каждая из которых имеет такое же совместное распределение как и пара величин (X,Y)
Определение.
Выборочная
ковариация
Определение. Выборочный коэффициент корреляции
Пример. Выборочная ковариация является несмещенной состоятельной оценкой ковариации
Пример. Выборочный коэффициент корреляции является состоятельной оценкой коэффициента корреляции
Предположим, что имеются две несмещенные оценки параметра θ : и
и они удовлетворяют
условию D
≤
D
,
то из рассматриваемых оценок выбирают
,
поскольку ее разброс относительно
исследуемого параметра θ меньше, чем
.
Про выбранную оценку в таком случае
говорят, что она является более
эффективной. Таким образом, из группы
оценок, удовлетворяющих несмещенности,
состоятельности и пр., выбирают наиболее
эффективную, то есть оценку с наименьшей
дисперсией
Рассмотренные выше оценки являются наиболее эффективными (в своих классах).
Замечание. Иногда вместо термина „эффективная оценка" „несмещенная оценка с минимальной дисперсией", „оптимальная оценка".
Итак, дисперсия оценки – часто используемая мера качества оценки. Чем она меньше, тем оценка лучше. Однако, при определенных условиях существует нижняя граница для величины этой дисперсии, которую уже нельзя улучшить. То есть, даже самая лучшая оценка будет иметь дисперсию не меньшую некоторой величины. Соответствующее утверждение носит название Неравенства Рао-Крамера.
D
,
где
-
количество информации по Фишеру
(информация Фишера) – частная производная
логарифма плотности (в случае непрерывной
модели, или вероятности – дискретной)
по параметру, а
-
несмещенная оценка неизвестного
параметра θ.
Определение. Оценка называется асимптотически нормальной с дисперсией Δ2, если
(
–θ)
сходится при n
→∞ по распределению к стандартному
нормальному закону (нормальное
распределение при нулевом математическом
ожидании и дисперсии, равной 1)