Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Churakov_Mat_met_obr_exp_dan_v_ekon

.pdf
Скачиваний:
30
Добавлен:
26.03.2016
Размер:
5.46 Mб
Скачать

x2)^^^)~^V/(e^^^), ajc = 0,5 = const. Покажем, что в первом прибли­ жении этот алгоритм определяет минимизирующую последова­ тельность. С этой целью сопоставим значения функции / в точках ©v^^^) и в^ \ снова использовав частичную сумму ряда Тейлора:

- 0,5 (V/(e^^>))'^((i>^^>)'^/>^^>)-V/(e^^>).

Так как матрица (D^^^)^D^^^ является положительно опреде­ ленной [26], получаем /(в^^^^^) - /(в^^^) < О, т.е. в рамках исполь­ зуемых допущений последовательность величин, найденных в соответствии с (2.71), действительно является минимизирующей. Заметим, что факт выполнения этого неравенства можно непо­ средственно контролировать в процессе проведения расчетов в соответствии с (2.71) и в случае его нарушения коэффициент 0,5 в (2.71) может быть уменьшен до значения, обеспечивающего получение минимизирующей последовательности. Вычисления прекращаются на некотором s-u шаге, если на этом шаге сраба­ тывает выбранное правило останова, имеющее, например, вид ЦУДв^"^^)!! < V, где V — назначенная малая величина. В этом случае принимается в « 6^*^^ Полезно обратить внимание на следующее: если минимизирующая последовательность оказывается и сходя­ щейся, то в точке в, как следует из (2.71), должно выполняться условие V/(e) = О, т.е. точка в является стационарной точкой функции (2.68). Это означает, что в случае сходимости алгоритм (2.71) определяет одну из точек локального минимума целевой функции (2.68). Эта функция в силу ее нелинейной структуры может оказаться многоэкстремальной, и алгоритм (2.71) приво­ дит к одному из экстремумов, ближайшему в некотором смысле к начальной точке в^ . Поиск глобального минимума в задаче (2.68) требует привлечения дополнительных методов многоэкст­ ремальной оптимизации.

Прежде чем обсуждать проблему сходимости алгоритма (2.71), обратим внимание на различие смыслового содержания внешне одинаковых обозначений в алгоритмах (2.50) и (2.71): в рекуррентном методе наименьших квадратов (2.50) символ д^^^ означает оптимальную оценку вектора в, найденную по экспери­ ментальным данным у\, У2, ..., Ук- В то же время в (2.71) символ в^^^ представляет собой /:-е приближение к оценке в, которая ищется по всем наблюдениям у\,У2, ..., Уп-

80

Существующие пакеты прикладных программ, о которых упоминалось во введении, позволяют решать задачи нелинейно­ го оценивания параметров в подобных (2.68) задачах без глубоко­ го проникновения в существо используемого алгоритмического обеспечения и его математических особенностей. Но чтобы об­ щение с этими пакетами было не механистическим, а созидатель­ ным процессом, пользователь должен обладать определенной ма­ тематической культурой, позволяющей ему осознанно восприни­ мать существо используемых вычислительных процедур и сопут­ ствующих им математических закономерностей. Поэтому корот­ ко остановимся на одной важной характеристике алгоритма (2.71), определяющей его принципиальную «жизнеспособность» и известной как сходимость последовательности точек в^ \в^^\ в^^^ ..., определяемых средствами этого алгоритма, к некоторой точке е.

При обсуждении сходимости алгоритма (2.71) возможны два концептуально различных взгляда на эту проблему. При первом из них вектор у экспериментальных данных, участвующий в фор­ мировании градиента функции /, рассматривается как конкрет­ ный числовой вектор, соответствующий результатам проведен­ ного эксперимента. И в этом случае можно найти условия, обес­ печивающие сходимость последовательности полученных с по­ мощью правила (2.71) точек Q^^\&^^\&^^\ ... к некоторой точкев именно при этом конкретном векторе у. Однако если теперь про­ вести другой эксперимент при тех же значениях экзогенных пе­ ременных, то в силу случайной природы эндогенной переменной получим новую реализацию у экспериментальных данных, и ра­ нее полученные условия сходимости при этой реализации, вооб­ ще говоря, могут не выполняться. Поэтому нужны такие условия сходимости, которые будут обеспечивать сходимость при всех п- мерных реализациях эндогенной переменной, образуемых в со­ ответствии с (2.67). В первом случае принято говорить о детерми­

нированной сходимости, во втором — о стохастической. Для нас больший интерес представляют условия стохастической сходи­ мости, так как именно они гарантируют успешную работоспо­ собность алгоритма (2.71) при всех возможных исходах проводи­ мого эксперимента.

Проблема стохастической сходимости или, по иной термино­ логии, стохастической устойчивости решений разностных урав­ нений интенсивно развивается в последние десятилетия (напри-

81

мер, [18]). Не ставя перед собой задачи детального проникнове­ ния в существо проблемы, кратко остановимся на ряде основопо­ лагающих понятий.

Прежде всего отметим, что понятие стохастической сходимо­ сти не является однозначным (впрочем, как и детерминирован­ ным) — бывают сходимость по вероятности, р-сходимость и част­ ный ее вариант среднеквадратическая сходимость, экспоненци­ альная сходимость, сходимость с вероятностью единица (почти наверное сходимость) и др. Из всех этих видов сходимости наи­ более сильной является сходимость с вероятностью единица, так как при выполнении соответствующих условий все реализации случайных последовательностей, получаемые по правилу (2.71) на множестве значений случайного вектора;?, кроме, быть может, реализаций с нулевой вероятностью, сходятся к вектору в в

обычном понимании сходимости, соответствующем определе­ нию (2.11). Поэтому нас будут интересовать именно условия схо­ димости с вероятностью единица.

Для последующего изложения удобно алгоритм (2.71) пере­ писать в отклонениях относительно стационарной точки в. С этой целью введем обозначение ц^^^ = в^^^— в. Тогда можем запи­ сать

^ik^l) ^^(к) _o,5JQ(e-f Y|i^^^)|i^^MY,

(2.72)

о

 

где матрица 0(в) является матрицей Якоби вектора (/)'^(в)1)(в))"^/(в), вычисленной в точке (в + yji^^^), т.е.

Q(e + уц^^^) = -^((/)'^(в)2)(в))-^ V/(e)), ав

в = в + уц^^^ A(e) = ^ V ( e ) .

Интеграл в (2.72) формирует отклонение вектора (j5W)T^W^-i v/(e^^^) из (2.71) от его значения в стационарной точке в, т.е. относительно O^+i [14]. В обозначениях (2.72) про­ блема поиска условий стохастической сходимости последова­ тельности векторов S^^\ Q^^\ S^^\ ... к точке в эквивалентна за­ даче поиска аналогичных условий сходимости последовательно­ сти \1^^\ \1^^\ \1^^'\ ... к точке 0;;,+1- Дадим теперь определение по­ нятию стохастической сходимости с вероятностью единица.

82

Определение 2.12. Будем говорить, что последовательность ц(0)^ цО)^ j|(2)^ ^ вероятностью единица сходится к точке O^^j+i, если при V5 > О Зр(5) > О такое, что для всех \\\i^^^\\ < р(5) выполня­

ется Ит

p]sup|||i^^V5[ = 0, где Р{...}, как обычно, - вероят-

^->°°

[k>N

J

ность соответствующего события.

По существу, это определение означает следующее: в случае сходимости с вероятностью единица почти все реализации слу­ чайной последовательности векторов {р.^^^} (за исключением множества реализаций меры нуль), образованные по правилу (2.72) при различных значениях вектора >? и начальных значениях из некоторой окрестности точки О^+х, сходятся к этой точке в

обычном детерминированном смысле. Величина sup|||i^ ^||

k>N

представляет собой наибольшее уклонение реализаций от нуле­ вого значения, начиная с (7V + 1)-го элемента последовательнос­ ти и до бесконечного. Если указанное наибольшее уклонение для всех реализаций при N -^ оо стремится к нулю, то это означает сходимость к нулю всех реализаций. Неравенство в определении 2.12 означает, что доля несходящихся реализаций стремится к нулю.

Проблема выявления условий сходимости с вероятностью 1 весьма сложна. Наиболее общим математическим подходом к ее решению в настоящее время является применение стохастиче­ ских функций Ляпунова с использованием свойств супермартин­ галов.

Определение 2,13. Положительно определенная непрерывная функция V{x) векторного аргумента дс, обладающая свойствами К(0) = О, V{x) конечна при всех х с конечной нормой ||jc|| и V(x) -> —> оо при |(х||—>оо, называется функцией Ляпунова.

Определение 2.14. Пусть случайная последовательность век­ торов zo, Z\, Z2, ... обладает свойствами: M{z/c} < ^, M{zfJi zo, Z\, ..., Zk-i) ^ Zk-\- Тогда эта последовательность называется супермар­ тингалом.

Применение введенных понятий для выявления условий схо­ димости с вероятностью 1 последовательности векторов [1^^\ ii^^\ |Li^^\ ..., образованных в соответствии с (2.72), к точке O^+i осно­ вывается на следующем утверждении.

83

Утверждение 2.13- Пусть К(ц) — функция Ляпунова и последо­ вательность V(\i^^^), V(\i^^^), V{\i^'^b, ... значений этой функции вычисленная на элементах случайной последовательности {ц^^П, является супермартингалом. Тогда последовательность ц^^\ [1^^\ li^^\ ... с вероятностью 1 сходится к точке O^+j.

Мы не будем останавливаться на доказательстве этой теоремы и ограничимся некоторыми комментариями к ее физическому содержанию. С этой точки зрения величину К(ц^^^) можно интер­ претировать как «обобщенную энергию» некоторой динамичес­ кой системы, описываемой разностным уравнением (2.72). То об­ стоятельство, что функция Ляпунова оказывается супермартин­ галом, означает уменьшение в среднем энергии в точке ц^^^ по сравнению с ее значением в предыдущей точке li^^'^K а это влечет за собой соответствующее уменьшение величины \\iv^\

Применим утверждение 2.13 для анализа стохастической схо­ димости последовательности (2.72). С этой целью введем в рас­ смотрение стохастическую функцию Ляпунова V(\i) = \\1л\\ и рас­ смотрим условное математическое ожидание

= М{\\ |1<^> - 0,51 Q(e + Y|i^^^)|i^^>dY 11=

О

1

= A/{liJ(^m+I -0,5Q(e + Y|i^^^))l*^^Wl|.

О

Из этого соотношения следует

О

 

Пусть выполняется условие

 

тахМ{\\£^^^ ~0,5(2(в)||}<1,

(2.73)

е

т.е. наибольшее значение математического ожидания нормы слу­ чайной матрицы Efn+\ 0,5Q(e) меньше единицы. Тогда

84

или же M{F<^^^> I fi<^>, \i^^\ ji^2>, ..., JA<^>} < И^>, где И^> = \\ii^% Из последнего неравенства следует, что последовательность V^^\ у(\)^ у(2)^ образует супермартингал. Но тогда последователь­ ность \i^^\ [i^^\ \i^^\ ...в силу утверждения (2.13) оказывается схо­ дящейся с вероятностью I. Следовательно, условие (2.73) являет­ ся достаточным для того, чтобы последовательность приближе­ ний в^^^,в^^^ в^^\ ..., вычисляемых по правилу (2.71), при лю­ бом векторе наблюдений у, удовлетворяющем определению (2.67), с вероятностью 1 сходилась к стационарной точке в. Практическая проверка этих условий требует дополнительных усилий.

Рассмотрим ряд частных случаев. Пусть функция Т(в) являет­

ся линейной: Т(в) = YO, Y G R'^^^'^''^^ Тогда D{e) = ^i4Fe) = W, de

V/= -T¥^(y-4fe), Q = ^((/>^i>)~W) = 2E^+i и условие (2.73)

вырождается в тривиальное maxA/{||0(^^.i)x(w+i) 11}<Ь где

0(/w+i)x(w+i)" нулевая квадратная матрица, т.е. алгоритм (2.71) ус­ тойчив при любой матрице Т и любой начальной точке 0^^\ При­ рода этого результата совершенно очевидна: из (2.71) в этом слу­

чае уже при к =

1 следует в^^^ = в^^^ +

(Т'^^)-^Т'^(д; ~ "Гв^^^) =

= (If^W) Ч^^у

= в, т.е. алгоритм (2.71)

при линейной модели на­

блюдений за одну итерацию определяет МНК-оценку, что и отра­ жается в тривиальности условий сходимости.

Пусть теперь с целью уменьшения вычислительных затрат в алгоритме (2.71) используется постоянная матрица весовых ко­ эффициентов, т.е. положим 0,5((/)^^^)^D^^^)~^ = G = const, где G — некоторая положительно определенная постоянная матрица. Пусть, как и выше, функция Т(в) = Y&, т.е. является линейной. В этом случае Q = 4GT^4^ и условия (2.73) приобретают форму неравенства

т.е. сводятся к ограничению на норму стационарной матрицы. Если это условие выполняется, алгоритм (2.71) сходится при лю-

85

бом начальном условии в^^^ и любом векторе наблюдений у, со­ ответствующем модели (2.4). Известно [26], что при любой норме квадратной матрицы С справедливо неравенство ||C||>max|?iy |,

где Xj, у = 1, 2,... — собственные числа матрицы С. Но тогда усло­ вия сходимости алгоритма (2.71) при постоянной матрице весо­ вых коэффициентов и линейной модели наблюдений можно сформулировать так: для того, чтобы в указанных условиях алго­ ритм (2.71) сходился с вероятностью 1 при любых начальных ус­ ловиях в^^ (в таком случае говорят о сходимости в целом), доста­ точно, чтобы собственные числа матрицы Ещ+х—'^ G^^^ по абсо­ лютному значению были меньше единицы. Можно показать, что эти достаточные условия в данном случае являются и необходи­ мыми. Действительно, положив в (2.71) 0,5((D^^^)^/)^^^)"* = G, V/(e^^O = -2Y'^(V - Тв^^^), запишем алгоритм (2.71) в форме

Это соотношение представляет собой линейное неоднород­ ное разностное уравнение, для устойчивости решений которого, как известно (например, [10]), необходимо и достаточно, чтобы собственные числа матрицы Е^^+х 2GV^^ по абсолютным зна­ чениям были меньше единицы. Легко найти установившееся зна­ чение в решения этого уравнения. В случае сходимости должно выполняться равенство

в= {Ет+х - 2GV^'¥)Q + IGV^y => GV^We =

=CPV'^y => в = (Ч'^Т)" V V

т.е. установившимся значением по-прежнему оказывается МНКоценка.

2А. Максимально правдоподобные оценки регрессионных параметров

Большим достоинством метода наименьших квадратов, в значи­ тельной степени определившим его широкое применение в эконометрических приложениях, являются Офаниченные «претен­ зии» к объему априорной информации. По существу, эта инфор­ мация ограничивается моделью экспериментальных данных и

86

предположением о центрированности и некоррелированности ошибок эксперимента. Вместе с тем если исследователь распола­ гает большим объемом априорных сведений о переменных, уча­ ствующих в постановке проблемы, их нужно пытаться рацио­ нально использовать в надежде добиться более высоких по точ­ ности результатов, нежели это регламентировано методом наи­ меньших квадратов. Одним из источников потенциального про­ гресса может явиться более глубокое проникновение в природу влияния латентных переменных и измерительных технологий на эндогенную переменную. Если соответствующий анализ пока­ жет, что вектор е, участвующий в формировании апостериорных данных, не является гауссовским или является гауссовским, но с коррелированными компонентами, имеет смысл методу наи­ меньших квадратов предпочесть нечто иное, способное исполь­ зовать выявленные особенности экспериментальных ошибок. Методом, рационально учитывающим априорную информацию об ошибках эксперимента в предположении, что регрессионные параметры по-прежнему классифицируются как неизвестные, является метод максимального правдоподобия.

Основой метода является совместная плотность вероятностей экспериментальных данных у, полученная при фиксированном значении регрессионных параметров в , т.е. условная плотность вероятностей LO^I в). Чтобы ее найти, необходимо знать модель вектора 3? и статистические свойства вектора е. Будем для опреде­ ленности ориентироваться на регрессионную модель (2.67) как более полную. Пусть щ{г) - плотность вероятностей вектора е и эта плотность известна. Проблема ее поиска здесь не обсуждает­ ся. При фиксированных параметрах в причиной «случайности» вектора J' в (2.67), как уже отмечалось, является вектор е. Поэто­ му знания плотности соЕ(е) вполне достаточно для вычисления ус­ ловной плотности Ыу I в). Векторы J? и е в этом случае различают­ ся только математическими ожиданиями М{у \ в} = Т(в) + Л/{е}, и можем записать Z/(j^|e)=C0g(e). _^.^.. Таким образом, условная

плотность L(y 1 в) получается из совместной плотности вероятно­ стей сое(е) ошибок е заменой аргумента е на д^ — ^(в).

Определение 2.15. Пусть в процессе проведения эксперимен­ та эндогенная переменная У приняла значения д? = \ух, У2,..., Уп]^ и построена условная плотность вероятностей L(y\&). Если те­ перь в выражении условной плотности аргумент у заменить на

87

конкретные результаты проведенного эксперимента, получим функцию, зависящую только от вектора в . Эту функцию называ­ ют функцией правдоподобия.

В последующем по традиции функцию правдоподобия будем обозначать так же, как и условную плотность, — L{y \ в). Однако следует иметь в виду, что условная плотность 1(у\в) является {тЛ-1 )-параметрической функцией вектора j ; ; в то же время функ­ ция правдоподобия, в составе которой вектор >^ фиксирован, рас­ сматривается как функция вектора в.

Определение 2.16. Значение в вектора в, при котором функ­ ция правдоподобия Ь{у\&) или, что то же самое, функция InLO^Ie) достигает наибольшего значения, называется макси­ мально правдоподобной оценкой вектора в регрессионных параме­ тров.

Таким образом, максимально правдоподобная оценка нахо­

дится из условия

 

e = arg тах1пД>;|в).

(2.74)

в

 

Смысл этого условия таков: если в результате проведения экс­ перимента эндогенная переменная Y приняла конкретные значе­ ния у, то в качестве оценки в следует принять то значение векто­ ра в, при котором вероятность наблюдать в эксперименте имен­ но этот вектор J? оказывается наибольшей.

Вычислительная процедура поиска максимально правдопо­ добных оценок в случае модели наблюдений (2.67) может быть организована с использованием тех же принципов, что и при по­ иске МНК-оценок. Для этого достаточно общий подход (2.69) «адаптировать» к задаче максимизации логарифма функции правдоподобия.

Рассмотрим более детально случай линейной рефессионной модели (2.4) и гауссовского вектора е. Пусть е ~ Л^(0, К^, т.е.

^Е(е) =

/

ехр] ---^^Kl^z

\,

Как следствие, получаем

 

 

In 1(у\в)

= const -

0,5(у- Ч?в)^К^-^(у- ^ в ) ,

где const = In .

= ,

т.е. не зависящее от в

слагаемое.

V(2^)"l^el

88

Воспользовавшись необходимым условием экстремума VlnZ/(y I в) = О, которое обычно называют уравнением правдоподо­ бия, получим уравнение

Y^ii:e-^(y-Te) = o,

из которого следует максимально правдоподобная оценка векто­ ра в при линейной гауссовской модели

в = Cr^Kf^^r^-^W^Ki^^y.

(2.75)

Если сопоставить эту оценку с МНК-оценкой (2.24), легко обнаружить ее отличительную особенность: оценка (2.75) учиты­ вает коррелированность экспериментальных ошибок в объеме ковариационной матрицы К^. Если эти ошибки не коррелированы, т.е. К^ = a^iS'nxn? то максимально правдоподобная оценка (2.75) вырождается в МНК-оценку (2.24), что является вполне ожидаемым и естественным результатом. Заметим, что иногда оценку (2.75) получают не в терминах правдоподобия, а путем модификации метода наименьших квадратов, сопровождае­ мой заменой целевой функции (2.20) / = |1у — Тв|р на функцию / = (у — yPQ)^K^~^(y — Тв) с последуюш.ей ее минимизацией. При подобном подходе оценку (2.75) принято называть обобщенной МНК-оценкой.

Изучим основные свойства оценки (2.75). Прежде всего пока­ жем, что она является несмещенной. Действительно,

М{в} = (4f'^Ke~^4r)-^W^Ke-^M{y} = = CV^K^-^^Ti-^^f^K^-^Milfe + е} = е.

Далее найдем ковариационную матрицу К^^ ошибки Tj = в - в. Имеем Т) = CV^K^~^4f)~^4^^K^~^ и, следовательно,

Kr. = M{W} = C¥'^K-^4f)-\

(2.76)

При некоррелированных ошибках получаем уже известный результат (2.27). Несложно убедиться, что соотношение (2.76) при условиях (2.4) и е ~ N(0, К^) соответствует эффективной оценке. Действительно, матрица Фишера, определяемая в соот­ ветствии с (2.10), в данном случае оказывается равной Ф = -V^ lnL(y\&) = W^K^'^W. Из сопоставления этого результа-

89

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]