Churakov_Mat_met_obr_exp_dan_v_ekon
.pdfта с (2.9) и (2.76) следует К^^ = Ф~^ что и является доказательст вом эффективности максимально правдоподобной оценки при линейной гауссовской модели экспериментальных данных.
Если Ае = cT^i?nxn? но дисперсия а^ неизвестна, метод макси мального правдоподобия позволяет легко решить проблему оце нивания неизвестной дисперсии, совместив соответствующую процедуру с поиском оценки в. В этом случае функция правдо подобия максимизируется в (т + 2)-мерном пространстве по пе ременным в, а^. Уравнения правдоподобия приобретают вид
\^^1пЦу\В) = 0, —г1пД>^|в) = 0 и в случае (2.4) конкретизиру-
дс
ются следующим образом:
су-2ч'Т(^-Ч'в) = 0, -«0^ + ^-4^911^ = 0.
Решая совместно эту систему, находим в = (Ч'^\Р)~^Ч'^3^,
й = —11з^-^в|| . Оценка в вектора в, как следует из этих ре зультатов, совпадает с МНК-оценкой (2.24), однако оценка а^ дисперсии а^, оптимальная по критерию максимального правдо
подобия, в отличие от ее аналога (2.37), оказывается смещенной.
Максимально правдоподобные оценки и в общем случае, особенно при малых объемах экспериментальных данных, имеют некоторое смещение и неминимальную дисперсию. Однако они обладают рядом достоинств, особенно проявляющихся при ста тистически независимых ошибках ei, Е2,..., e« эксперимента и за ключающихся в следующем.
1. Если для вектора в существует эффективная оценка, то уравнение максимального правдоподобия имеет единственное решение.
2.Если для вектора в существует достаточная оценка, то каж дый корень уравнения правдоподобия является функцией доста точной оценки.
3.Максимально правдоподобная оценка является состоя тельной и асимптотически, т.е. при стремлении объема экспери ментальной выборки к бесконечности (п —> ©о), эффективной и гауссовской (в смысле ее плотности вероятностей). На практике эта асимптотика проявляется достаточно хорошо уже при десяти независимых наблюдениях на один скалярный параметр, подле жащий оцениванию.
90
Эти свойства максимально правдоподобных оценок делают их весьма привлекательными при решении многих прикладных задач.
2.5. Метод максимума апостериорной плотности вероятностей
в регрессионных моделях, параметры которых оценивались в соответствии с методами наименьших квадратов и максималь ного правдоподобия, вектор параметров в классифицировался как неизвестный. И это было принципиально в том смысле, что никакая априорная информация об этом векторе при построе нии процедур оценивания не использовалась. Вместе с тем воз можны ситуации, в которых опыт предшествующей работы с ре грессионной моделью в аналогичных исследуемой прикладных задачах позволяет считать вектор параметров в принадлежащим некоторой генеральной совокупности с известной плотностью вероятностей сов(в). В подобных случаях вектор в классифици руется как случайный с известной плотностью вероятностей, ко торая совместно с плотностью вероятностей сое(е) эксперимен тальных ошибок и структурой модели отражает наши априорные представления о свойствах регрессионной модели. Этой инфор мацией теперь надо рационально распорядиться, с тем чтобы по высить эффективность оценивания. Одним из способов, позво ляющих это сделать, является метод максимума апостериорной плотности вероятностей. Существо метода заключается в следу ющем.
В рассмотрение вводится условная плотность вероятностей )я(в|>') вектора параметров в, полученная в предположении, что результаты эксперимента приняли некоторое фиксированное значение у. Найти эту плотность формально можно в соответст вии с формулой Байеса:
\1(е\у) = (^е(в)1(у\в)/(х)у{у),
где o^yiy) — безусловная плотность вероятностей наблюдений у. Так как
сю
co,,(j;)= /а)в(в)Д>'|в)с1в,
91
то условная плотность |11(в | у) выражается непосредственно через функции (Ов(в) и L(y I в):
ц(в|у) = сов(в)Х(>;|в)/ 7 (Oe(e)L(y\e)de, |
(2.77) |
Таким образом, если известны априорные плотности вероят ностей сов(в), (Ое(е) и модель экспериментальных данных у, на пример, в форме (2.4) или (2.67), то условная плотность |11(в|>^) принципиально вычислена.
Определение 2.17. Пусть проведен эксперимент, в котором вектор значений эндогенной переменной принял конкретное численное значение}?. Если именно этот конкретный вектор под ставить в условную плотность |Li(e|j?), то получим функцию ц(в|з?), зависящую только от вектора в . Эту функцию называют
апостериорной плотностью вероятностей вектора регрессионных параметров в .
Таким образом, отличие апостериорной плотности вероятно стей ii(Q I у) от условной плотности |1(в I у) проявляется в том,- что у первой вектор у принимает не любое фиксированное значение, а именно то, которое соответствует проведенному эксперименту. При этом обе плотности традиционно обозначаются единообраз но и из контекста ясно, о какой из них идет речь.
Определение 2.18. Пусть известна апостериорная плотность вероятностей ц(в|>?). Тогда значение в вектора в, при котором апостериорная плотность |1(в|>') или, что то же самое, 1п|11(в|>^) достигает максимума, называется оценкой, оптимальной по крите рию максимума апостериорной плотности вероятностей.
Итак, оценка, оптимальная по критерию максимума апосте риорной плотности вероятностей, находится из условия
в = arg max In |л(в | у).
е
Так как знаменатель в (2.77) не зависит от в, то практически этот критерий принимает вид
e = argmax(lna)e(e) + lnl(>?|e)). |
(2.78) |
е |
|
Снова ограничим рассмотрение случаем линейной гауссовской модели (2.4), положив в ней в ~ М{т^, KQ), г ~ N(0, К^).
92
Векторы в н е принимаются некоррелированными. Задача (2.78) при этих ограничениях конкретизируется следующим образом:
e = argmax(const-0,5(e-me)^i:e^(e-we)-0,5(j;-4'e)'^i:e"^(3^-4'(e)),
0
где, как и выше, под const понимается не зависящее от в слагае мое. Необходимое условие экстремума
VgCconst - 0,5(6 - те^Ке~\в - те) -
-0,5(у ~ WefK^~^(y - Ув)) = О^н
вэтой задаче приобретает форму уравнения
Ке\^ - те) - Ч'^Л:е"'(У - ^в) = 0^+1, |
|
из которого следует искомая оценка |
|
в = (Ч'^ЛГе-^Ч' + Хв"У кЧ^'^^е"V + ЛГв"W ) . |
(2.79) |
Таким образом, оценка (2.79), в отличие от максимально правдоподобной оценки (2.75), существенно определяется апри орной информацией об оцениваемом векторе в в объеме ковари ационной матрицы ^0 и математического ожидания шеОднако если эта информация оказывается «расплывчатой» в том смысле, что диагональные элементы матрицы К^ чрезмерно велики, то оценка (2.79) практически вырождается в максимально правдо подобную. Диагональные элементы матрицы Ае являются дис персиями компонентов вектора в, и если они велики, влияние априорной информации значительно снижается, и по своим свойствам случайный вектор приближается к неизвестному. Фор мально неограниченно большие диагональные элементы матри цы /Те порождают нулевую обратную матрицу Aв~^ что и превра щает оценку (2.79) в оценку (2.75).
С другой стороны, если априорная информация достаточно содержательная, алгоритм (2.79) перестает «доверять» апостери орным данным и в большей степени ориентируется на априор ные сведения. Так, если допустить, что К^ -^ 0(m-u)x(m+i)? то Ле~^ -^ оо и в (2.79) можно слагаемыми Y^Ae~^Y и Т Ae~V пре небречь, откуда следует в = т^- В этом предельном случае, таким образом, алгоритм (2.79) вообще не использует эксперименталь ные данные и полагается только на априорную информацию. Это
93
вполне объяснимый результат: устремляя матрицу KQ К нулевой, мы тем самым превращаем гауссовскую плотность Щт^, KQ) В дельта-функцию 5(в - /ие) с «центром» в точке т^. Но это, в свою очередь, означает, что априори известно в = т^ и нет необ ходимости не только в доверии к экспериментальным данным, но и в самом эксперименте.
Оценку (2.79) часто оказывается удобным представлять в ином виде, поступая следующим образом. Представим
в = те + (W^K^-^W + Ke-Y\W^^K^-^y + Ке~^те) ~ шв =
откуда следует
в = шв •+ (Ч'^К^'^Ч? + Ke-Y^W^K^-^(y - 4fme). (2.8
Это выражение имеет определенный «философский» смысл: оценка определяется как сумма двух слагаемых, первое из кото рых отображает наши априорные представления о среднем зна чении параметра в, а второе формирует апостериорную поправ ку к этому среднему значению. Сама поправка содержит сомно житель >? - Ywe, который представляет собой отклонение резуль татов проведенного эксперимента от ориентированного только на априорные представления прогнозируемого исхода экспери мента. «Вес» поправки определяется априорными свойствами ре грессионной модели.
Выявим основные свойства оценки (2.80). Покажем прежде всего, что она является несмещенной. Действительно, при в - М(те,Ке), е ~ N(0, KQ) ИЗ (2.4) следует М{у} = WntQ. Но тогда непосредственное усреднение оценки (2.80) приводит к очевид ному результату М{в} = /ие, т.е. оценка по максимуму апостери орной плотности вероятностей как безусловная оценка оказыва ется несмещенной.
Далее находим ковариационную магрицу ошибки оценива ния Т1 = в — е. Используя соотношения (2.80) и (2.4), получаем
•'F^Jfe-'e--(E-D' 'Y^JfeГ'^(в--тв) = Y^ife"' e - D-\D- Y^ite" •Y) (в - тв) =
= z>-•F^Ae'' -'e - D -'Jfe-''(в - me),
94
где для упрощения записей использовано обозначение D = Y^ifTe" X + KQ"^. Следовательно, ковариационная матрица Х^ ошибки при условии некоррелированных векторов в н е нахо дится в результате следующей последовательности операций:
- (в - mef KQ-^D-^)} = Z>-V^Xe~^Y/)"^ + D-^ Ke ^D'^ = |
DK |
При этом выводе учитывается симметричность матрицы D. |
|
Итак, окончательно: |
|
Ку^ = D'^ = (4f^K^^4f + Ke~Y^' |
(2.81) |
Интересно сопоставить этот результат с аналогичной форму лой (2.76) метода максимального правдоподобия. Принципиаль ным является присутствие в (2.81) ковариационной матрицы KQ вектора в, которая может существенно влиять на матрицу К^^. До статочно наглядно это проявляется при скалярном параметре
e = 0 G R ( w + l = l). В этом случае Ч^е R'^^^ W^K^'^'V ~ скаляр ная величина и Cj^ = {^^К^'^Ч^ + сг©"^)"^ где а^^^, ае^ - соответ ствующие дисперсии. Отсюда следует, что максимально правдо подобная оценка скалярного параметра всегда по точности хуже аналогичной оценки, найденной по методу максимума апостери орной плотности вероятностей. Преимущество последней обус ловлено именно априорной информацией — в данном случае дис персией а0^. Чем она меньше, т.е. чем меньше разброс реализа ций параметра 0 относительно его математического ожидания, тем это преимущество существеннее. При а©^ ~> О, что, как уже отмечалось, соответствует, по существу, детерминированной си туации, дисперсия а,^^ ошибки оценивания по методу максимума апостериорной плотности вероятностей также стремится к нулю. В методе максимального правдоподобия это свойство, разумеет ся, не проявляется. Если же GQ^ —> ©о, что практически соответст вует полному отсутствию априорной информации об оценивае мом параметре, точности обеих оценок равны. Выявленные зако номерности, естественно, проявляются таким же образом и при векторном регрессионном параметре в. Однако следует иметь в виду, что за выявленное преимущество приходится платить до полнительными усилиями, направленными на приобретение и обоснование априорной информации.
95
2.6. Байесовские оценки регрессионных параметров
Среди большого числа методов, рекомендуемых современной те орией статистических решений для поиска оценок параметров, наиболее универсальным является байесовский метод. Условия его применимости те же, что и в методе максимума апостериор ной плотности вероятностей: задана модель экспериментальных данных, векторы рефессионных параметров в и эксперимен тальных ошибок е классифицируются как случайные, известна соответствующая априорная информация в объеме плотностей вероятностей сое(в), сое(е). Содержательное существо метода за ключается в следующем.
Использование любого метода оценивания сопровождается ошибкой г\(у, в) =0(у) — в, которая зависит от конкретной реа лизации экспериментальных данных у, будучи при одних реали зациях малой, при других — большой. Естественным является стремление с большими ошибками встречаться как можно реже. Это намерение можно попытаться реализовать, если процедуру оценивания «наказывать» за большие ошибки. С этой целью в рассмотрение вводят некоторую функцию С(в, в), которая, как правило, зависит от ошибки г\(у, в) и называется функцией стои мости, или функцией потерь. Выбор этой функции в значительной степени субъективен. Однако структура С{г\(у, в)) обычно тако ва, что функция возрастает (или, по крайней мере, не убывает) с ростом любого компонента аргумента и достигает наименьшего значения при TiO;, в) = 0. Такой характер функции обеспечивает возрастающую стоимость больших ошибок оценивания, за кото рые система должна подвергаться «наказанию». Среди функций с указанным свойством наиболее часто применяющимися оказы ваются следующие.
Функция потерь, зависящая от модулей ошибок,
т
с(л)=1|е,-0,|.
Квадратичная функция потерь
С(л)=Е(0/-©,Г=11в-вГ
(=0
96
Прямоугольная функция потерь
т |
С:, |
fi,|e,-e,|>A, |
С(Г|) = S |
С/ = \ |
где А — некоторая константа.
Находит применение и простая функция потерь
С(л) = с - 15(0, - 0,),
/=0
где с > О — константа, 5(0/ — 0/) - дельта-функция Дирака. Функция стоимости является неслучайной функцией случай
ного аргумента Т] и на множестве значений аргумента принимает случайные значения. Среднее значение функции стоимости, по лученное усреднением ее по всем возможным значениям векто ров Qay, называют средними потерями или средним риском (бай есовским риском):
J = il С(ц(у,в)Му,е)йвйу, |
(2.82) |
ув
где \;(у, в) — совместная плотность вероятностей векторов у и в.
Индексы у интегралов символически отражают тот факт, что интегрирование ведется по всем пространствам существования векторов J? и е. Так как ошибка оценивания ц(у, в) = в (у) - в за висит от оценки в, т.е. от способа оценивания, то и средний бай есовский риск зависит от алгоритма оценивания. Очевидно, можно допустить существование такого алгоритма, при котором средние потери окажутся наименьшими по сравнению с потеря ми, сопутствующими другим алгоритмам.
Определение 2.19. Функция в(у) экспериментальных данных, при которой средние потери достигают минимума, называется
оптимальной по Байесу оценкой, или байесовской оценкой регрес сионных параметров.
Таким образом, байесовская оценка определяется условием
e(>^) = argmin/.
е
Если воспользоваться представлением v(y, в) = {\)у(у)\л{&\у), то сформулированная оптимизационная задача примет вид
97
/ = \(^y(y)(f СЫу,в)Ые |
I у)йв)йу -^ min. |
(2.83) |
|
у |
e |
^(y) |
|
Так как плотность вероятностей (£>у(у) неотрицательна, то ус ловие (2.83) выполняется, если минимального значения достигает внутренний интеграл в (2.83) при любом значении вектора >?, те.
J С{г\(у,е)Ые I >^)de -> min. |
(2.84) |
|
е |
^iy) |
|
Последующее решение задачи (2.84) требует конкретизации функции стоимости. В настоящее время из всех вышеприведен ных функций наибольшее распространение в прикладных зада чах получила квадратичная функция стоимости. Это обусловлено относительной простотой математического аппарата, сопровож дающего связанные с этой функцией преобразования, и хоро шим соответствием функции требованиям задачи оценивания: с возрастанием ошибки оценивания «наказание» существенно воз растает.
Утверждение 2.14. При квадратичной функции стоимости байесовская оценка регрессионных параметров представляет со бой апостериорное среднее оцениваемых параметров.
Действительно, при квадратичной функции стоимости задача (2.84) принимает вид
JII в - в |р \х(е I >;)de -^ mill. е ^(у)
Воспользовавшись необходимым условием минимума
/Ув11в-в|рц(в|д;)с1в-^0^+1,
е
получим уравнение
/||e-eilV(e|y)de = 0^^i,
е
из которого с учетом независимости величин в и в и нормиров ки условной плотности |Li(e I у) получим
e(y) = jevi{e\y)ue. |
(2.85) |
е
98
Если в (2.85) под >? понимать конкретный результат проведен ного эксперимента, то выражение в правой части (2.85) принято называть апостериорным средним вектора в.
Итак, байесовская оценка при квадратичной функции стои мости является апостериорным средним оцениваемого парамет ра. И это очень важный для приложений результат. Для ряда ап риорных плотностей вероятностей сое(в) и сое(е) и рефессионных моделей (2.67) интегрирование в (2.85) удается провести ана литически и получить оценку в(у) в виде явной зависимости от экспериментальных данных >?. Можно вычислить и минимальное значение байесовского риска, соответствующее оптимальной оценке (2.85). Для этого байесовский риск (2.82) при квадратич ной функции стоимости представим в виде
/= J J в'^(в -e)v(3;,e)dedj; -J J в'^(в - e)v(>^,e)ded>; =
=/S^i^y{y)\(в-в)^1(вIy)dedy-/ /e'^ev(>;,e)ded>; +
у |
S |
уВ |
+Je'^eJv(>;,e)d>^de.
eу
Всилу необходимого условия минимума первое слагаемое в правой части этого выражения обращается в нуль и после не сложных преобразований получаем
min/ = J e'^ea)e(e)de -1J в^ц(в | y)useiiiу{у)Ау = |
|
е |
д^е |
=/ e'^ea)e(e)de-/e'^ea)3;(3^)dj;.
ву
Полезно обратить внимание на структуру полученного выра жения. Первое слагаемое в нем определяет ту часть средних по терь, которая обусловлена априорными сведениями об оценива емых параметрах. Второе слагаемое (вычитаемое) показывает, на сколько уменьшаются средние потери в связи с проведенной
операцией оценивания. Так как в в = Х®/) после усреднения
в первом слагаемом по в выражение для минимального риска можно представить так:
99