Статистические оценки параметров распределения
4.1. Точечная оценка параметров распределения
Сущность задачи точечного оценивания параметров.
Точечная оценка предполагает нахождение единственной числовой величины, которая и принимается за значение параметра. Такую оценку целесообразно определять в тех случаях, когда объем ЭД достаточно велик. Причем не существует единого понятия о достаточном объеме ЭД, его значение зависит от вида оцениваемого параметра (к этому вопросу предстоит вернуться при изучении методов интервальной оценки параметров, а предварительно будем считать достаточной выборку, содержащую не менее чем 10 значений). При малом объеме ЭД точечные оценки могут значительно отличаться от истинных значений параметров, что делает их непригодными для использования.
Задача точечной оценки параметров в типовом варианте постановки состоит в следующем.
Имеется: выборка наблюдений (x1, x2, …, xn) за случайной величиной Х. Объем выборки n фиксирован.
Известен вид закона распределения величины Х, например, в форме плотности распределения f(T, x), где T – неизвестный (в общем случае векторный) параметр распределения. Параметр является неслучайной величиной.
Требуется найти оценку q параметра T закона распределения.
Ограничения: выборка представительная.
Существует несколько методов решения задачи точечной оценки параметров, наиболее употребительными из них являются методы максимального (наибольшего) правдоподобия, моментов и квантилей.
Метод максимального правдоподобия
Метод предложен Р. Фишером в 1912 г. Метод основан на исследовании вероятности получения выборки наблюдений (x1, x2, …, xn). Эта вероятность равна f(х1, T) f(х2, T) … f(хп, T) dx1 dx2 … dxn.
Совместная плотность вероятности
L(х1, х2 …, хn ; T) = f(х1, T) f(х2, T) … f(хn, T), (4.1)
рассматриваемая как функция параметра T, называется функцией правдоподобия.
Метод моментов
Метод предложен К. Пирсоном в 1894 г. Сущность метода:
выбирается столько эмпирических моментов, сколько требуется оценить неизвестных параметров распределения. Желательно применять моменты младших порядков, так как погрешности вычисления оценок резко возрастают с увеличением порядка момента;
вычисленные по ЭД оценки моментов приравниваются к теоретическим моментам;
параметры распределения определяются через моменты, и составляются уравнения, выражающие зависимость параметров от моментов, в результате получается система уравнений. Решение этой системы дает оценки параметров распределения генеральной совокупности.
Метод квантилей
Сущность метода квантилей схожа с методом моментов: выбирается столько квантилей, сколько требуется оценить параметров; неизвестные теоретические квантили, выраженные через параметры распределения, приравниваются к эмпирическим квантилям. Решение полученной системы уравнений дает искомые оценки параметров.
Дисперсия D(xa ) выборочной квантили обратно пропорциональна квадрату плотности распределения D(xa )=[a (1–a )]/[nf 2(xa )] в окрестностях точки xa . Поэтому следует выбирать квантили вблизи тех значений х, в которых плотность вероятности максимальна.
Примеры
Пример 4.1. Будем считать, что случайная величина Х, выборка значений которой представлена в табл. 2.3, имеет нормальное распределение. Необходимо найти оценки максимального правдоподобия параметров m и s этого распределения.
Решение. Функция правдоподобия для выборки ЭД объемом n
.
Логарифм функции правдоподобия
Система уравнений для нахождения оценок параметров
Из первого уравнения следует:
т
.е.
среднее арифметическое является оценкой
максимального правдоподобия для
математического ожидания.
Из второго уравнения можно найти
Эмпирическая дисперсия является смещенной. После устранения смещения
.
Фактические значения оценок параметров: m =27,51, s 2 = 0,91.
Для проверки того, что полученные оценки максимизируют значение функции правдоподобия, возьмем вторые производные
Вторые производные от функции ln L(m , s ) независимо от значений параметров меньше нуля, следовательно, найденные значения параметров являются оценками максимального правдоподобия.
Пример 4.2. Предположим, что случайная величина Х, выборка значений которой представлена в табл. 2.3, имеет гамма-распределение. Необходимо найти оценки параметров этого распределения (можно отметить, что нормальное распределение является частным случаем гамма-распределения).
Решение. Функция плотности гамма-распределения имеет вид
Распределение характеризуется двумя параметрами n и l , поэтому следует выразить один параметр через оценку математического ожидания, а другой – через оценку дисперсии. Математическое ожидание и дисперсия этого распределения равны n /l и n /l 2 соответственно. Их оценки определены в примере 2.3: m 1= 27,51, m 2 = 0,91;. Тогда получим систему уравнений для оцениваемых параметров
Разделив оценку математического ожидания на оценку дисперсии, получим l =m 1/m 2 =30,12, следовательно, n = l m 1 = 828,61.
Пример 4.3. Оценить методом квантилей параметры нормального распределения случайной величины, выборочные значения которой представлены в табл. 2.3.
Решение. Так как требуется определить два параметра распределения m и s , то выберем из вариационного ряда две эмпирические квантили. Например, можно взять
a 1 =5/44 =0,114;
хa 1 = 26,13;
a 2 =31/44=0,705;
хa 2 = 28,01
Используя стандартные функции математических пакетов, для выбранных значений a 1 и a 2 определим значения аргументов теоретической функции распределения для стандартизованной переменной ua 1 = – 1, 207; ua 2 = 0,538.
Составим систему из двух уравнений
ua 1 =( хa 1 – m )/s ;
ua 1 =( хa 2 – m )/s .
Решение системы позволит найти искомые оценки параметров
m =( ua 2 хa 1 – ua 1 хa 2)/( ua 2 – ua 1) = 27,42; s = (хa 1 – m )/ua 1 = 1,07.
4.2. Интервальная оценка параметров распределения
Сущность задачи интервального оценивания параметров
Интервальный метод оценивания параметров распределения случайных величин заключается в определении интервала (а не единичного значения), в котором с заданной степенью достоверности будет заключено значение оцениваемого параметра. Интервальная оценка характеризуется двумя числами – концами интервала, внутри которого предположительно находится истинное значение параметра. Иначе говоря, вместо отдельной точки для оцениваемого параметра можно установить интервал значений, одна из точек которого является своего рода "лучшей" оценкой. Интервальные оценки являются более полными и надежными по сравнению с точечными, они применяются как для больших, так и для малых выборок. Совокупность методов определения промежутка, в котором лежит значение параметра Т, получила название методов интервального оценивания. К их числу принадлежит метод Неймана.
Постановка задачи интервальной оценки параметров заключается в следующем .
Имеется: выборка наблюдений (x1, x2, …, xn) за случайной величиной Х. Объем выборки n фиксирован.
Необходимо с доверительной вероятностью g = 1– a определить интервал t0 – t1 (t0 < t1), который накрывает истинное значение неизвестного скалярного параметра Т (здесь, как и ранее, величина Т является постоянной, поэтому некорректно говорить, что значение Т попадает в заданный интервал).
Ограничения: выборка представительная, ее объем достаточен для оценки границ интервала.
Эта задача решается путем построения доверительного утверждения, которое состоит в том, что интервал от t0 до t1 накрывает истинное значение параметра Т с доверительной вероятностью не менее g . Величины t0 и t1 называются нижней и верхней доверительными границами (НДГ и ВДГ соответственно). Доверительные границы интервала выбирают так, чтобы выполнялось условие P(t0 Ј q Ј t1) = g . В инженерных задачах доверительную вероятность g назначают в пределах от 0,95 до 0,99. В доверительном утверждении считается, что статистики t0 и t1 являются случайными величинами и изменяются от выборки к выборке. Это означает, что доверительные границы определяются неоднозначно, существует бесконечное количество вариантов их установления.
На практике применяют два варианта задания доверительных границ:
устанавливают симметрично относительно оценки параметра, т.е. t0 = q – Еg , t1 = q + Еg , где Еg выбирают так, чтобы выполнялось доверительное утверждение. Следовательно, величина абсолютной погрешности оценивания Еg равна половине доверительного интервала;
устанавливают из условия равенства вероятностей выхода за верхнюю и нижнюю границу Р(Т > q + Е1,g )=Р(Т < q – Е2,g )=a /2. В общем случае величина Е1,g не равна Е2,g . Для симметричных распределений случайного параметра q в целях минимизации величины интервала значения Е1,g и Е2,g выбирают одинаковыми, следовательно, в таких случаях оба варианта эквивалентны.
Нахождение доверительных интервалов требует знания вида и параметров закона распределения случайной величины q . Для ряда практически важных случаев этот закон можно определить из теоретических соображений.
Примеры
Пример 4.4. Построить доверительный интервал с надежностью g =1– a для оценки m 1 математического ожидания m1 случайной величины х, имеющей экспоненциальное распределение с функцией плотности f(x, l) = lехр(– lх).
Решение. Известно, что для экспоненциального закона распределения математическое ожидание т1 = 1/l, а дисперсия т2 = 1/l2. Обозначим через l оценку параметра l. Определим оценку математического ожидания m 1, вспомогательную переменную у, производную от логарифма функции правдоподобия:
m 1 = (х1+ х2+ … + хп)/п = 1/l ; М(l ) = l; т1 = М(1/l );
у =
Оценка m 1 параметра т1 является состоятельной и несмещенной, следовательно: М(у)=М(l –1 – х) = 0; значение А2 = М(l –1 – х)2 =l –2 конечно. Тогда случайная величина
распределена нормально с параметрами 0 и 1.
Нормальное распределение симметрично, поэтому границы интервала следует выбрать симметрично относительно нулевой точки. Вероятность g =1 – a того, что модуль величины w не превысит некоторого заданного значения d , составит
где Ф(d ) – значение функции нормального распределения в точке d .
Величина d равна квантили u1–a /2 стандартного нормального распределения уровня 1– a /2. Значение абсолютной погрешности оценивания E = | m1 – m 1| =d /(l n0,5) = u1– a /2 /(l n0,5). Итак, имея достаточный объем выборки ЭД и задаваясь определенным уровнем надежности g можно определить доверительный интервал t0 = m 1 – Е, t1 = m 1 + Е, который с заданной вероятностью содержит неизвестный параметр т1.
Аналогичные результаты для некоторых параметров распределения можно получить, используя более простые рассуждения.
