
ТВиМС / Стат_Лекц / Стат_Примитивы / СтаТО_2_Пр
.doc3.2.2. Методы построения ОФ.
Рассматривая оценку как элемент спектра ОФ, можно сказать, что каждому такому элементу соответствует точка на числовой оси. В связи с этим, её часто называют точечной оценкой параметра.
Методы построения ОФ для нахождения точечных оценок могут учитывать закон распределения ГС или нет. В первом случае будут получены ОФ, применимые лишь для того распределения, которое было задействовано в преобразованиях, а во втором – более общие ОФ, которыми можно будет пользоваться более широко.
3.2.2.1 Метод максимального правдоподобия.
Метод максимального правдоподобия (ММП) впервые был применен еще Д.Бернулли и позднее К.Ф.Гауссом, а затем подвергся фундаментальной разработке в трудах Р.Фишера и его школы. Суть ММП [13] состоит в том, что выборка x1, x2,…, xn рассматривается (по принципу статистической копии) как случайный вектор X1nT = (X1 X2 … Xn). При этом генеральная совокупность, из которой получена выборка, и генеральные совокупности случайных компонентов Xi полагаются идентичными, т.е. имеют одинаковые оцениваемые параметры a1, a2,…, am (m < n).
Предполагая известным закон распределения ГС в форме плотности вероятности выборки как плотности вероятности ССВ, Фишер составляет функцию максимального правдоподобия (МП-функцию):
L = f(X1 X2 … Xn; a1, a2,…,am) = max. (199)
и отыскивает такие ОФ параметров ã1, ã2, … , ãm, которые доставляют функции L максимум. Эта задача на отыскание абсолютного экстремума функции решается с использованием необходимого условия его существования:
∂L / ∂ã j = 0, (j = 1,2,…,m). (200)
Задача 3.2. Оценить, используя ММП, параметры нормальной ГС E(X) и 2 по данным простой выборки x1, x2,…, xn.
Дано:
x1,
x2,…,
xn
– простая выборка из ГС X;
каждый i-ый
элемент выборки xi
N(a1
= E(X);
a2
= 2);
i
= 1, 2, …, n.
Найти:
и
.
Решение: Составим МП-функцию для простой выборки, которая трансформируется в силу условия стохастической несвязанности в совокупности (94) в произведение нормальных плотностей (66) компонентов случайного вектора X1nT:
L
=
=
= (2-n/2*exp(–∑(xi – E(X))2/(2max (201)
Поскольку, плотность вероятности всегда положительна, а дифференцирование произведения (201) очень трудоемко, прологарифмируем эту функцию по натуральному основанию, что не изменит местоположения ее максимума по аргументам:
lnL = – n / 2 * ln (22) –∑(xi – E(X))2/(2max. (202)
Теперь
составим систему уравнений, определяемую
частными производными логарифма
МП-функции по искомым оценкам:
=
=
= 0
.(203)
=
=
- n
/ 2 *
+
= 0
Из решения системы (203) получаем обе ОФ:
=
(
)
/ n
=
– среднее
арифметическое; (204)
2
= (
)
/ n
= s2
– выборочная дисперсия. (205)
Полученные в примере ОФ формально применимы только для работы с простой выборкой из нормальной ГС, т.к. при их выводе использована плотность вероятности нормального распределения. Они являются состоятельными и асимптотически несмещенными нормальными ОФ [13].
3.2.2.2. Метод моментов.
Метод моментов
введен К.Пирсоном и очень прост для
получения ОФ основных числовых
характеристик распределений. Упрощенно,
его суть состоит в том, что приравниваются
друг другу соответствующие теоретические
и выборочные моменты. Формулы последних
и применяются в качестве ОФ. Например,
МО является начальным моментом первого
порядка. Следовательно, его ОФ служит
выборочный начальный момент первого
порядка. Дисперсия – это центральный
момент второго порядка. Её ОФ – центральный
выборочный момент второго порядка.
Соответствующие соотношения вновь
приводят нас к ранее полученным
выборочному среднему
и выборочной дисперсии s2:
=
=
=
(
)
/
n =
;
=
=
=
(
)
/
n =
s2.
Метод моментов
применим и при построения ОФ для
многомерных СВ. Например, ковариация
пары СВ X
и Y
определится из соотношения, связывающего
смешанный центральный момент второго
порядка KXY
с соответствующим выборочным моментом
(179), называемым выборочная
ковариация:
=
=
=
=
-
*
=
=()
/ (n2)
= (
)
/ (n2)
-
=
. (206)
ОФ, найденные по методу моментов, асимптотически нормальны и характеризуются дисперсией порядка 1 / n [13].
3.2.2.3. Метод наименьших квадратов.
Метод наименьших квадратов (МНК) широко используется для получения ОФ параметров многомерных распределений. МНК практически одновременно был внедрен А.Лежандром и К.Ф.Гауссом в самом начале XIX века при обработке астрономических наблюдений. Суть метода заключается в следующем.
Пусть y1, y2,…, yn – простая выборка из многомерной генеральной совокупности Y. Каждый из элементов выборки yi является функцией от общей системы параметров a1,a2,…,ak (такая функция называется параметрическим уравнением связи или уравнением наблюдения):
yi = fi(a1,a2,…,ak), i = 1, 2, ... n. (207)
Объем выборки n больше числа искомых параметров k. В связи с этим, система уравнений (207) дополнительно ограничивается функционалом наименьших квадратов, в котором параметры aj заменены соответствующими оценками ãj, чтобы подчеркнуть единственность получаемого решения и его отличие от истинных значений:
=
= min. (208)
Необходимые условия существования экстремума этого функционала образуют систему k уравнений с k неизвестными:
=
0,
j
=
1,
2,
…,
k, (209)
из решения которой и находят оценки искомых параметров.
МНК имеет несколько обоснований. Первое, вероятностное, связывает его с нормальным распределением, когда МНК является частным случаем ММП. Второе, статистическое, доказывает (теорема Гаусса-Маркова [9]), что для случая, когда уравнения (207) линейны, МНК-оценки параметров ã1, ã2, … ãk будут несмещенными МД-оценками при любом распределении ГС, из которой получена выборка. Третье, алгебраическое, даёт решение, обеспечивающее минимальность длины вектора остатков en1=yn1–fn1(ãk1), т.е.
||en1||2 = min. (210)
Задача 3.3. Получить, используя МНК, оценку для МО одномерной ГС по данным простой выборки, полученной по измерениям одной и той же величины X.
Дано: x1, x2,…, xn – простая выборка из ГС X; E(X) = a – параметр, подлежащий оценке; E(xi) = E(X) – по принципу статистической копии, так как измеряется одна и та же величина.
Найти:
МНК-оценку
параметра
a.
Решение: Составим уравнения связи для нашей задачи (мы перешли от переменной «y» к переменной «x», так как имеем дело не с многомерной, как в общем описании МНК, а с одномерной ГС X):
xi = a = E(X). (211)
МНК-функционал (208) принимает вид:
=
(xi
–
ã)2
= min. (212)
Производная этого функционала по единственному аргументу ã
= – 2
=
0,
приравненная к нулю, позволяет получить выражение для искомой ОФ:
= (
)
/ n
=
.
# (213)
Найденная ОФ – уже знакомое нам среднее арифметическое, которое было получено в предположении нормальности выборки. В данном же примере нормальность не предполагалась, т.е. закон распределения знать не нужно. Поскольку уравнения (211) линейны, то среднее арифметическое будет несмещенной МД-оценкой МО при любом распределении ГС, из которой была получена простая выборка.
3.2.2.4 Исследование точечных оценок.
В предыдущих параграфах мы получили ОФ для МО, дисперсии и ковариации:
среднее арифметическое:
= (
)
/ n, (174)
выборочную дисперсию:
s2
= ()
/ n
= (
)
/ n
-
(176)
и выборочную ковариацию:
=
(
)/(
)
-
. (179)
Там же было показано, что для простой выборки среднее арифметическое удовлетворяет всем требованиям, предъявляемым к ОФ и сформулированным в разделе 3.2.1. В отношении остальных ОФ можно говорить лишь об их состоятельности, асимптотической несмещенности и асимптотической нормальности [13]. Для выборок малого объема важную роль играет несмещенность ОФ, так как асимптотичность не успевает проявиться. В связи с этим, исследуем на несмещённость выборочную дисперсию (176).
Исследование выборочной дисперсии на несмещенность.
Применим условие несмещённости ОФ (193) ко второму варианту записи выборочной дисперсии (176).
Дано:
x1,
x2,…,
xn
– простая выборка из ГС X;
E(xi)
= E(X),
и, естественно,
= E(X2)
по принципу статистической копии;
= 2
> 0 –
следствие равноточности измерений; s2
= (
)
/ n
-
– второй вариант формулы (176) для
выборочной дисперсии.
Определить: E(s2) – ?
Решение: Найдем МО правой части ОФ для выборочной дисперсии:
E(s2)
= E(()
/ n
–
)
= (
)
/ n
–
=
(n
*
–
=
=
–
= 2
+
–
2
/ n
–
=
2
(1 – 1 / n)
2.
Таким образом, выборочная дисперсия s2 является смещённой (искажённой) оценкой генеральной дисперсии. Для устранения искажения достаточно умножить выборочную дисперсию на величину, ему обратную:
s2
*n
/ (n
– 1) = m2
= ()
/ (n
– 1).
# (214)
Естественно, что теперь E(m2) = 2, т.е. m2 – несмещённая (не искажённая) оценка генеральной дисперсии. Величина m в геодезии и смежных науках называется средней квадратической ошибкой (СКО), а формула (213) носит имя Бесселя, впервые получившего её:
m
=
, (215)
где [v2]
=
+
+…+
,
а vi
=
- xi.
Исследование оценки ДЕВ на несмещённость.
Дано:
x1,
x2,…,
xn
– выборка из ГС X;
E(xi)
= E(X)
– по принципу статистической копии;
p1,
p2,…,
pn
– веса
элементов выборки;
=(
)
/ n
= [pv2]
/ n=
- оценка ДЕВ.
Определить:
– ?
Решение: Заменим элементы выборки xi соответствующими центрированными значениями (см.2.2.5.2)
= xi
– E(X), (192)
характеризующимися теми же дисперсиями (см.2.2.5.3):
D(xi)
=
=
.
Среднее весовое для центрированных значений и оценка ДЕВ по этим же данным будут равны:
= (
)
/
, (193)
=
(
)
/ n. (194)
Найдем МО ОФ (194):
= (
)
/ n
= (
-
- 2+
/ n. (195)
По определению (см.2.2.5.3 и 2.3.4):
1)
=
= 2
/ pi;
2)
=
)
= (
)
/
= 2
/ [p],
т.к.
= 0 для всех
и
= 2/pj
для остальных i
= j;
3)
=
2/[p].
(Предлагаем убедится в последнем в качестве Упражнения 2.7).
Подставим в (195) найденные выше МО :
=
(
*2
/ pi
-
2
*2
/ [p]
+
2
/ [p])
/
n =
=
(n2
-
22
+
2)
/
n =
2
(1 –
1
/
n)2. (196)
Итак, оценка ДЕВ, вычисляемая по формуле (184), представляет собой смещенную ОФ генеральной ДЕВ. Её смещение устраняется так же, как это было сделано для выборочной дисперсии:
=
*n
/
(n
-
1)
=
[pv2]
/
(n
-
1). # (197)
Теперь E( = 2 и является несмещённой ОФ ДЕВ. В геодезии величину называют средней квадратической ошибкой единицы веса (СКО ЕВ), а формулу (198)- обобщенной формулой Бесселя:
=.
(198)