Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Churakov_Mat_met_obr_exp_dan_v_ekon

.pdf
Скачиваний:
30
Добавлен:
26.03.2016
Размер:
5.46 Mб
Скачать

та с (2.9) и (2.76) следует К^^ = Ф~^ что и является доказательст­ вом эффективности максимально правдоподобной оценки при линейной гауссовской модели экспериментальных данных.

Если Ае = cT^i?nxn? но дисперсия а^ неизвестна, метод макси­ мального правдоподобия позволяет легко решить проблему оце­ нивания неизвестной дисперсии, совместив соответствующую процедуру с поиском оценки в. В этом случае функция правдо­ подобия максимизируется в (т + 2)-мерном пространстве по пе­ ременным в, а^. Уравнения правдоподобия приобретают вид

\^^1пЦу\В) = 0, —г1пД>^|в) = 0 и в случае (2.4) конкретизиру-

дс

ются следующим образом:

су-2ч'Т(^-Ч'в) = 0, -«0^ + ^-4^911^ = 0.

Решая совместно эту систему, находим в = (Ч'^\Р)~^Ч'^3^,

й = —11з^-^в|| . Оценка в вектора в, как следует из этих ре­ зультатов, совпадает с МНК-оценкой (2.24), однако оценка а^ дисперсии а^, оптимальная по критерию максимального правдо­

подобия, в отличие от ее аналога (2.37), оказывается смещенной.

Максимально правдоподобные оценки и в общем случае, особенно при малых объемах экспериментальных данных, имеют некоторое смещение и неминимальную дисперсию. Однако они обладают рядом достоинств, особенно проявляющихся при ста­ тистически независимых ошибках ei, Е2,..., e« эксперимента и за­ ключающихся в следующем.

1. Если для вектора в существует эффективная оценка, то уравнение максимального правдоподобия имеет единственное решение.

2.Если для вектора в существует достаточная оценка, то каж­ дый корень уравнения правдоподобия является функцией доста­ точной оценки.

3.Максимально правдоподобная оценка является состоя­ тельной и асимптотически, т.е. при стремлении объема экспери­ ментальной выборки к бесконечности (п —> ©о), эффективной и гауссовской (в смысле ее плотности вероятностей). На практике эта асимптотика проявляется достаточно хорошо уже при десяти независимых наблюдениях на один скалярный параметр, подле­ жащий оцениванию.

90

Эти свойства максимально правдоподобных оценок делают их весьма привлекательными при решении многих прикладных задач.

2.5. Метод максимума апостериорной плотности вероятностей

в регрессионных моделях, параметры которых оценивались в соответствии с методами наименьших квадратов и максималь­ ного правдоподобия, вектор параметров в классифицировался как неизвестный. И это было принципиально в том смысле, что никакая априорная информация об этом векторе при построе­ нии процедур оценивания не использовалась. Вместе с тем воз­ можны ситуации, в которых опыт предшествующей работы с ре­ грессионной моделью в аналогичных исследуемой прикладных задачах позволяет считать вектор параметров в принадлежащим некоторой генеральной совокупности с известной плотностью вероятностей сов(в). В подобных случаях вектор в классифици­ руется как случайный с известной плотностью вероятностей, ко­ торая совместно с плотностью вероятностей сое(е) эксперимен­ тальных ошибок и структурой модели отражает наши априорные представления о свойствах регрессионной модели. Этой инфор­ мацией теперь надо рационально распорядиться, с тем чтобы по­ высить эффективность оценивания. Одним из способов, позво­ ляющих это сделать, является метод максимума апостериорной плотности вероятностей. Существо метода заключается в следу­ ющем.

В рассмотрение вводится условная плотность вероятностей )я(в|>') вектора параметров в, полученная в предположении, что результаты эксперимента приняли некоторое фиксированное значение у. Найти эту плотность формально можно в соответст­ вии с формулой Байеса:

\1(е\у) = (^е(в)1(у\в)/(х)у{у),

где o^yiy) — безусловная плотность вероятностей наблюдений у. Так как

сю

co,,(j;)= /а)в(в)Д>'|в)с1в,

91

то условная плотность |11(в | у) выражается непосредственно через функции (Ов(в) и L(y I в):

ц(в|у) = сов(в)Х(>;|в)/ 7 (Oe(e)L(y\e)de,

(2.77)

Таким образом, если известны априорные плотности вероят­ ностей сов(в), (Ое(е) и модель экспериментальных данных у, на­ пример, в форме (2.4) или (2.67), то условная плотность |11(в|>^) принципиально вычислена.

Определение 2.17. Пусть проведен эксперимент, в котором вектор значений эндогенной переменной принял конкретное численное значение}?. Если именно этот конкретный вектор под­ ставить в условную плотность |Li(e|j?), то получим функцию ц(в|з?), зависящую только от вектора в . Эту функцию называют

апостериорной плотностью вероятностей вектора регрессионных параметров в .

Таким образом, отличие апостериорной плотности вероятно­ стей ii(Q I у) от условной плотности |1(в I у) проявляется в том,- что у первой вектор у принимает не любое фиксированное значение, а именно то, которое соответствует проведенному эксперименту. При этом обе плотности традиционно обозначаются единообраз­ но и из контекста ясно, о какой из них идет речь.

Определение 2.18. Пусть известна апостериорная плотность вероятностей ц(в|>?). Тогда значение в вектора в, при котором апостериорная плотность |1(в|>') или, что то же самое, 1п|11(в|>^) достигает максимума, называется оценкой, оптимальной по крите­ рию максимума апостериорной плотности вероятностей.

Итак, оценка, оптимальная по критерию максимума апосте­ риорной плотности вероятностей, находится из условия

в = arg max In |л(в | у).

е

Так как знаменатель в (2.77) не зависит от в, то практически этот критерий принимает вид

e = argmax(lna)e(e) + lnl(>?|e)).

(2.78)

е

 

Снова ограничим рассмотрение случаем линейной гауссовской модели (2.4), положив в ней в ~ М{т^, KQ), г ~ N(0, К^).

92

Векторы в н е принимаются некоррелированными. Задача (2.78) при этих ограничениях конкретизируется следующим образом:

e = argmax(const-0,5(e-me)^i:e^(e-we)-0,5(j;-4'e)'^i:e"^(3^-4'(e)),

0

где, как и выше, под const понимается не зависящее от в слагае­ мое. Необходимое условие экстремума

VgCconst - 0,5(6 - те^Ке~\в - те) -

-0,5(у ~ WefK^~^(y - Ув)) = О^н

вэтой задаче приобретает форму уравнения

Ке\^ - те) - Ч'^Л:е"'(У - ^в) = 0^+1,

 

из которого следует искомая оценка

 

в = (Ч'^ЛГе-^Ч' + Хв"У кЧ^'^^е"V + ЛГв"W ) .

(2.79)

Таким образом, оценка (2.79), в отличие от максимально правдоподобной оценки (2.75), существенно определяется апри­ орной информацией об оцениваемом векторе в в объеме ковари­ ационной матрицы ^0 и математического ожидания шеОднако если эта информация оказывается «расплывчатой» в том смысле, что диагональные элементы матрицы К^ чрезмерно велики, то оценка (2.79) практически вырождается в максимально правдо­ подобную. Диагональные элементы матрицы Ае являются дис­ персиями компонентов вектора в, и если они велики, влияние априорной информации значительно снижается, и по своим свойствам случайный вектор приближается к неизвестному. Фор­ мально неограниченно большие диагональные элементы матри­ цы /Те порождают нулевую обратную матрицу Aв~^ что и превра­ щает оценку (2.79) в оценку (2.75).

С другой стороны, если априорная информация достаточно содержательная, алгоритм (2.79) перестает «доверять» апостери­ орным данным и в большей степени ориентируется на априор­ ные сведения. Так, если допустить, что К^ -^ 0(m-u)x(m+i)? то Ле~^ -^ оо и в (2.79) можно слагаемыми Y^Ae~^Y и Т Ae~V пре­ небречь, откуда следует в = т^- В этом предельном случае, таким образом, алгоритм (2.79) вообще не использует эксперименталь­ ные данные и полагается только на априорную информацию. Это

93

вполне объяснимый результат: устремляя матрицу KQ К нулевой, мы тем самым превращаем гауссовскую плотность Щт^, KQ) В дельта-функцию 5(в - /ие) с «центром» в точке т^. Но это, в свою очередь, означает, что априори известно в = т^ и нет необ­ ходимости не только в доверии к экспериментальным данным, но и в самом эксперименте.

Оценку (2.79) часто оказывается удобным представлять в ином виде, поступая следующим образом. Представим

в = те + (W^K^-^W + Ke-Y\W^^K^-^y + Ке~^те) ~ шв =

откуда следует

в = шв •+ (Ч'^К^'^Ч? + Ke-Y^W^K^-^(y - 4fme). (2.8

Это выражение имеет определенный «философский» смысл: оценка определяется как сумма двух слагаемых, первое из кото­ рых отображает наши априорные представления о среднем зна­ чении параметра в, а второе формирует апостериорную поправ­ ку к этому среднему значению. Сама поправка содержит сомно­ житель >? - Ywe, который представляет собой отклонение резуль­ татов проведенного эксперимента от ориентированного только на априорные представления прогнозируемого исхода экспери­ мента. «Вес» поправки определяется априорными свойствами ре­ грессионной модели.

Выявим основные свойства оценки (2.80). Покажем прежде всего, что она является несмещенной. Действительно, при в - М(те,Ке), е ~ N(0, KQ) ИЗ (2.4) следует М{у} = WntQ. Но тогда непосредственное усреднение оценки (2.80) приводит к очевид­ ному результату М{в} = /ие, т.е. оценка по максимуму апостери­ орной плотности вероятностей как безусловная оценка оказыва­ ется несмещенной.

Далее находим ковариационную магрицу ошибки оценива­ ния Т1 = в — е. Используя соотношения (2.80) и (2.4), получаем

•'F^Jfe-'e--(E-D' 'Y^JfeГ'^(в--тв) = Y^ife"' e - D-\D- Y^ite" •Y) (в - тв) =

= z>-•F^Ae'' -'e - D -'Jfe-'' - me),

94

где для упрощения записей использовано обозначение D = Y^ifTe" X + KQ"^. Следовательно, ковариационная матрица Х^ ошибки при условии некоррелированных векторов в н е нахо­ дится в результате следующей последовательности операций:

- (в - mef KQ-^D-^)} = Z>-V^Xe~^Y/)"^ + D-^ Ke ^D'^ =

DK

При этом выводе учитывается симметричность матрицы D.

Итак, окончательно:

 

Ку^ = D'^ = (4f^K^^4f + Ke~Y^'

(2.81)

Интересно сопоставить этот результат с аналогичной форму­ лой (2.76) метода максимального правдоподобия. Принципиаль­ ным является присутствие в (2.81) ковариационной матрицы KQ вектора в, которая может существенно влиять на матрицу К^^. До­ статочно наглядно это проявляется при скалярном параметре

e = 0 G R ( w + l = l). В этом случае Ч^е R'^^^ W^K^'^'V ~ скаляр­ ная величина и Cj^ = {^^К^'^Ч^ + сг©"^)"^ где а^^^, ае^ - соответ­ ствующие дисперсии. Отсюда следует, что максимально правдо­ подобная оценка скалярного параметра всегда по точности хуже аналогичной оценки, найденной по методу максимума апостери­ орной плотности вероятностей. Преимущество последней обус­ ловлено именно априорной информацией — в данном случае дис­ персией а0^. Чем она меньше, т.е. чем меньше разброс реализа­ ций параметра 0 относительно его математического ожидания, тем это преимущество существеннее. При а©^ ~> О, что, как уже отмечалось, соответствует, по существу, детерминированной си­ туации, дисперсия а,^^ ошибки оценивания по методу максимума апостериорной плотности вероятностей также стремится к нулю. В методе максимального правдоподобия это свойство, разумеет­ ся, не проявляется. Если же GQ^ —> ©о, что практически соответст­ вует полному отсутствию априорной информации об оценивае­ мом параметре, точности обеих оценок равны. Выявленные зако­ номерности, естественно, проявляются таким же образом и при векторном регрессионном параметре в. Однако следует иметь в виду, что за выявленное преимущество приходится платить до­ полнительными усилиями, направленными на приобретение и обоснование априорной информации.

95

2.6. Байесовские оценки регрессионных параметров

Среди большого числа методов, рекомендуемых современной те­ орией статистических решений для поиска оценок параметров, наиболее универсальным является байесовский метод. Условия его применимости те же, что и в методе максимума апостериор­ ной плотности вероятностей: задана модель экспериментальных данных, векторы рефессионных параметров в и эксперимен­ тальных ошибок е классифицируются как случайные, известна соответствующая априорная информация в объеме плотностей вероятностей сое(в), сое(е). Содержательное существо метода за­ ключается в следующем.

Использование любого метода оценивания сопровождается ошибкой г\(у, в) =0(у) — в, которая зависит от конкретной реа­ лизации экспериментальных данных у, будучи при одних реали­ зациях малой, при других — большой. Естественным является стремление с большими ошибками встречаться как можно реже. Это намерение можно попытаться реализовать, если процедуру оценивания «наказывать» за большие ошибки. С этой целью в рассмотрение вводят некоторую функцию С(в, в), которая, как правило, зависит от ошибки г\(у, в) и называется функцией стои­ мости, или функцией потерь. Выбор этой функции в значительной степени субъективен. Однако структура С{г\(у, в)) обычно тако­ ва, что функция возрастает (или, по крайней мере, не убывает) с ростом любого компонента аргумента и достигает наименьшего значения при TiO;, в) = 0. Такой характер функции обеспечивает возрастающую стоимость больших ошибок оценивания, за кото­ рые система должна подвергаться «наказанию». Среди функций с указанным свойством наиболее часто применяющимися оказы­ ваются следующие.

Функция потерь, зависящая от модулей ошибок,

т

с(л)=1|е,-0,|.

Квадратичная функция потерь

С(л)=Е(0/-©,Г=11в-вГ

(=0

96

Прямоугольная функция потерь

т

С:,

fi,|e,-e,|>A,

С(Г|) = S

С/ = \

где А — некоторая константа.

Находит применение и простая функция потерь

С(л) = с - 15(0, - 0,),

/=0

где с > О — константа, 5(0/ — 0/) - дельта-функция Дирака. Функция стоимости является неслучайной функцией случай­

ного аргумента Т] и на множестве значений аргумента принимает случайные значения. Среднее значение функции стоимости, по­ лученное усреднением ее по всем возможным значениям векто­ ров Qay, называют средними потерями или средним риском (бай­ есовским риском):

J = il С(ц(у,в)Му,е)йвйу,

(2.82)

ув

где \;(у, в) — совместная плотность вероятностей векторов у и в.

Индексы у интегралов символически отражают тот факт, что интегрирование ведется по всем пространствам существования векторов J? и е. Так как ошибка оценивания ц(у, в) = в (у) - в за­ висит от оценки в, т.е. от способа оценивания, то и средний бай­ есовский риск зависит от алгоритма оценивания. Очевидно, можно допустить существование такого алгоритма, при котором средние потери окажутся наименьшими по сравнению с потеря­ ми, сопутствующими другим алгоритмам.

Определение 2.19. Функция в(у) экспериментальных данных, при которой средние потери достигают минимума, называется

оптимальной по Байесу оценкой, или байесовской оценкой регрес­ сионных параметров.

Таким образом, байесовская оценка определяется условием

e(>^) = argmin/.

е

Если воспользоваться представлением v(y, в) = {\)у(у)\л{&\у), то сформулированная оптимизационная задача примет вид

97

/ = \(^y(y)(f СЫу,в)Ые

I у)йв)йу -^ min.

(2.83)

у

e

^(y)

 

Так как плотность вероятностей (£>у(у) неотрицательна, то ус­ ловие (2.83) выполняется, если минимального значения достигает внутренний интеграл в (2.83) при любом значении вектора >?, те.

J С{г\(у,е)Ые I >^)de -> min.

(2.84)

е

^iy)

 

Последующее решение задачи (2.84) требует конкретизации функции стоимости. В настоящее время из всех вышеприведен­ ных функций наибольшее распространение в прикладных зада­ чах получила квадратичная функция стоимости. Это обусловлено относительной простотой математического аппарата, сопровож­ дающего связанные с этой функцией преобразования, и хоро­ шим соответствием функции требованиям задачи оценивания: с возрастанием ошибки оценивания «наказание» существенно воз­ растает.

Утверждение 2.14. При квадратичной функции стоимости байесовская оценка регрессионных параметров представляет со­ бой апостериорное среднее оцениваемых параметров.

Действительно, при квадратичной функции стоимости задача (2.84) принимает вид

JII в - в |р \х(е I >;)de -^ mill. е ^(у)

Воспользовавшись необходимым условием минимума

/Ув11в-в|рц(в|д;)с1в-^0^+1,

е

получим уравнение

/||e-eilV(e|y)de = 0^^i,

е

из которого с учетом независимости величин в и в и нормиров­ ки условной плотности |Li(e I у) получим

e(y) = jevi{e\y)ue.

(2.85)

е

98

Если в (2.85) под >? понимать конкретный результат проведен­ ного эксперимента, то выражение в правой части (2.85) принято называть апостериорным средним вектора в.

Итак, байесовская оценка при квадратичной функции стои­ мости является апостериорным средним оцениваемого парамет­ ра. И это очень важный для приложений результат. Для ряда ап­ риорных плотностей вероятностей сое(в) и сое(е) и рефессионных моделей (2.67) интегрирование в (2.85) удается провести ана­ литически и получить оценку в(у) в виде явной зависимости от экспериментальных данных >?. Можно вычислить и минимальное значение байесовского риска, соответствующее оптимальной оценке (2.85). Для этого байесовский риск (2.82) при квадратич­ ной функции стоимости представим в виде

/= J J в'^(в -e)v(3;,e)dedj; -J J в'^(в - e)v(>^,e)ded>; =

=/S^i^y{y)\(в-в)^1(вIy)dedy-/ /e'^ev(>;,e)ded>; +

у

S

уВ

+Je'^eJv(>;,e)d>^de.

eу

Всилу необходимого условия минимума первое слагаемое в правой части этого выражения обращается в нуль и после не­ сложных преобразований получаем

min/ = J e'^ea)e(e)de -1J в^ц(в | y)useiiiу{у)Ау =

е

д^е

=/ e'^ea)e(e)de-/e'^ea)3;(3^)dj;.

ву

Полезно обратить внимание на структуру полученного выра­ жения. Первое слагаемое в нем определяет ту часть средних по­ терь, которая обусловлена априорными сведениями об оценива­ емых параметрах. Второе слагаемое (вычитаемое) показывает, на­ сколько уменьшаются средние потери в связи с проведенной

операцией оценивания. Так как в в = Х®/) после усреднения

в первом слагаемом по в выражение для минимального риска можно представить так:

99

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]