
Конспект лекций Глазова / 12. Регул методы оцен-ния
.doc12. Регулярные методы оценивания параметров.
До сих пор, при необходимости сформировать оценку параметра распределения, мы действовали наугад, используя в качестве подсказки смысл параметра в распределении генеральной СВ. Тот факт, что в ряде примеров взятые наугад оценки оказывались несмещенными и даже эффективными, объясняется не тем, что такой «метод» отыскания оценок часто приводит к хорошим результатам, а всего лишь тщательным подбором примеров. Разумеется, было бы хорошо, если бы существовали регулярные методы формирования оценок, подчиняющиеся определенным алгоритмам действий и гарантирующие определенное качество получаемых оценок. Такие методы существуют, однако, ни один из них не является идеальным, т. е. гарантирующим наилучшее качество оценки в конкретной ситуации. Для того чтобы понять, на какое качество оценки можно рассчитывать, используя тот или иной регулярный метод, необходимо познакомиться с некоторыми результатами общей теории оценивания; краткое изложение этих результатов приводится в следующем пункте.
12.1. Экспоненциальное семейство и достаточная статистика.
Будем для простоты по-прежнему считать, что генеральная СВ непрерывна, подлежит оцениванию один параметр (остальные или отсутствуют, или известны), выборка простая.
Определение 1.
Класс
распределений с параметром
называется экспоненциальным
семейством
тогда и только тогда, когда плотность
вероятности этого класса может быть
представлена в виде
|
(12.1.1) |
или, что то же самое, логарифмическая функция правдоподобия одного выборочного значения - в виде
|
(12.1.2) |
где
- некоторые функции переменной
,
но не х;
- некоторые функции переменной х,
но не
.
Далеко не каждый класс распределений образует экспоненциальное семейство, это зависит от вида распределения и того, какой именно параметр подлежит оцениванию; как класс функций экспоненциальное семейство довольно узко, поэтому большинство распределений вместе с оцениваемым параметром это семейство не образуют. Может случится так, что распределение образует экспоненциальное семейство с одним параметром, но не образует с другим; или так, что параметр, имеющий определенный смысл, образует экспоненциальное семейство с одним распределением, но не образует с другим. Наконец, может случится, что данное распределение не образует экспоненциального семейства ни с каким параметром.
Заметим, что если класс распределений образует экспоненциальное семейство, то распределение выборки имеет вид
,
где, как и раньше, х=(х1, x2, ..., xn) - вектор выборки;
функции n
переменных, не зависящие от
;
не зависит от выборочных значений.
При этом логарифмическая функция правдоподобия выборки имеет вид
,
а ее производная
по
имеет вид
|
(12.1.3) |
т. е. выражается
через выборочные значения только через
функцию
,
и при том линейно.
Как видим, в случае экспоненциального семейства производную логарифмической функции правдоподобия выборки можно представить в виде (12.1.3), где выборочные данные сосредоточены только в однородной по отношению к ним функции
|
(12.1.4) |
Эта функция выборочных данных называется достаточной статистикой. Если класс распределений образует экспоненциальное семейство, то в этом классе достаточная статистика обязательно существует. Обратное, вообще говоря, неверно: множество классов распределений, имеющих достаточную статистику, несколько шире, чем множество экспоненциальных семейств. Рассмотрим вопрос о достаточной статистике несколько более подробно.
Достаточная статистика. Понятие достаточной статистики введено Р. Фишером в 1921 г. задолго до открытия неравенства Крамера-Рао; это понятие имеет важное значение в обоих разделах математической статистики: при испытании статистических гипотез и при оценивании параметров распределений.
Пусть имеется
класс распределений с параметром а,
подлежащим оценке. Мы знаем, что существует
бесчисленное количество статистик (т.
е. функций выборочных данных), которые
можно использовать как оценки а;
мы ищем такую статистику, которая давала
бы в определенном смысле лучшую оценку.
Пусть имеются две функционально-независимые
статистики t1
и t2
, т. е. не существует ни явной функции
,
ни неявной функции
,
связывающей их. Поскольку они функции
выборочных значений, статистики являются
случайными величинами, в общем случае
статистически (но не функционально!)
связанными друг с другом. Их статистические
свойства наиболее полно описываются
двумерной плотностью вероятности
,
параметрически зависящей от а
(мы по-прежнему ограничиваемся случаем
непрерывной генеральной СВ). Всегда
можно записать
.
А теперь пусть имеет место особый случай: второй множитель справа не зависит от а, т. е.
|
(12.1.5) |
Это равенство означает, что если t1 найдена, то нахождение t2 уже не прибавляет информации о параметре а; т. е. имея t1, мы не нуждаемся в t2.
Определение 2.
Если статистика
t1
такова,
что для любой функционально с ней не
связанной статистики t
условная плотность вероятности
)
не зависит
от оцениваемого параметра а,
то t1
называется
достаточной
статистикой.
Замечание 1. Достаточность какой-то статистики - это свойство данной модели, т. е. класса распределений вместе с оцениваемым параметром. Если взять другое распределение или другой параметр, та же статистика может уже не быть достаточной.
Замечание 2.
Можно показать, что если в данной модели
t
- достаточная статистика, то и любая
взаимно-однозначная функция от нее -
достаточная статистика. Т. о. если
статистика t
достаточна для параметра а,
то она достаточна для любого параметра
b=,
где
и обратная ей функции однозначны.
Замечание 3. Если в данной модели существует достаточная статистика, то она единственна с точностью до взаимно-однозначного функционального преобразования от нее.
Замечание 4. Если класс распределений вместе с параметром есть экспоненциальное семейство, то в силу (12.1.3) достаточная статистика существует и производная логарифмической функции правдоподобия выборки связана с ней линейно.
Замечание 5. Любая достаточная статистика есть однородная функция выборочных величин вида (12.1.4).
Признак существования достаточной статистики. Определение 2 не дает конструктивного метода ответа на вопрос, имеется ли в данной модели достаточная статистика. Оказывается, что на этот вопрос можно ответить по виду распределения выборки: если его можно представить в виде
,
или, что то же самое,
,
то достаточная статистика существует, ею является t и любая взаимно-однозначная функция от нее.
Теорема 1. Если класс распределений с параметром суть экспоненциальное семейство, то НГД достижима, существует достаточная статистика, НГД-оценка есть однозначная функция достаточной статистики.
Теорема 2. Если класс распределений с параметром не является экспоненциальным семейством, но достаточная статистика существует, то НГД-оценка не существует, МД-оценка существует и является однозначной функцией достаточной статистики.
Эти теоремы показывают, что если условия регулярности выполнены, то могут представиться следующие случаи.
1) Класс распределений с параметром есть экспоненциальное семейство; тогда существует НГД-оценка (если она состоятельна и несмещенна, то и эффективна), ее нужно искать как функцию достаточной статистики; какую именно функцию взять - подскажет смысл параметра.
2) Класс распределений с параметром не есть экспоненциальное семейство; тогда нужно проверить, имеется ли достаточная статистика; если она имеется, то нужно искать оценку как функцию достаточной статистики, какую именно функцию взять - подскажет смысл параметра; полученная оценка будет МД-оценкой; если достаточной статистики нет, то остается сформировать несколько вариантов состоятельных оценок регулярными методами (два из них будут изложены ниже) или наугад, и выбрать ту из них, которая имеет меньшую дисперсию; в этом случае мы не уверены, что нет оценки с еще меньшей дисперсией.
Хотя выше рассмотрен только случай оценивания параметра в классе непрерывных распределений, все выводы справедливы и в случае дискретных распределений.
Вернемся к примерам, разобранным в п. 11.4. В примерах 1-4 имелись экспоненциальное семейство и достаточная статистика (там она обозначалась S), и были найдены состоятельные, несмещенные НГД-оценки, т. е. эффективные. В примере 4 показано, что тот же класс распределений, который при одном параметре является экспоненциальным семейством, при другом параметре им не является, и эффективная оценка этого параметра не существует. В примере 5 нарушены условия регулярности, неравенство Крамера-Рао несправедливо, остается сравнивать свойства непосредственно сформированных оценок. В примерах 7, 8 рассматривались оценки параметров в классах дискретных распределений. В этих примерах было экспоненциальное семейство и найдены эффективные оценки.