Churakov_Mat_met_obr_exp_dan_v_ekon
.pdfx2)^^^)~^V/(e^^^), ajc = 0,5 = const. Покажем, что в первом прибли жении этот алгоритм определяет минимизирующую последова тельность. С этой целью сопоставим значения функции / в точках ©v^^^) и в^ \ снова использовав частичную сумму ряда Тейлора:
- 0,5 (V/(e^^>))'^((i>^^>)'^/>^^>)-V/(e^^>).
Так как матрица (D^^^)^D^^^ является положительно опреде ленной [26], получаем /(в^^^^^) - /(в^^^) < О, т.е. в рамках исполь зуемых допущений последовательность величин, найденных в соответствии с (2.71), действительно является минимизирующей. Заметим, что факт выполнения этого неравенства можно непо средственно контролировать в процессе проведения расчетов в соответствии с (2.71) и в случае его нарушения коэффициент 0,5 в (2.71) может быть уменьшен до значения, обеспечивающего получение минимизирующей последовательности. Вычисления прекращаются на некотором s-u шаге, если на этом шаге сраба тывает выбранное правило останова, имеющее, например, вид ЦУДв^"^^)!! < V, где V — назначенная малая величина. В этом случае принимается в « 6^*^^ Полезно обратить внимание на следующее: если минимизирующая последовательность оказывается и сходя щейся, то в точке в, как следует из (2.71), должно выполняться условие V/(e) = О, т.е. точка в является стационарной точкой функции (2.68). Это означает, что в случае сходимости алгоритм (2.71) определяет одну из точек локального минимума целевой функции (2.68). Эта функция в силу ее нелинейной структуры может оказаться многоэкстремальной, и алгоритм (2.71) приво дит к одному из экстремумов, ближайшему в некотором смысле к начальной точке в^ . Поиск глобального минимума в задаче (2.68) требует привлечения дополнительных методов многоэкст ремальной оптимизации.
Прежде чем обсуждать проблему сходимости алгоритма (2.71), обратим внимание на различие смыслового содержания внешне одинаковых обозначений в алгоритмах (2.50) и (2.71): в рекуррентном методе наименьших квадратов (2.50) символ д^^^ означает оптимальную оценку вектора в, найденную по экспери ментальным данным у\, У2, ..., Ук- В то же время в (2.71) символ в^^^ представляет собой /:-е приближение к оценке в, которая ищется по всем наблюдениям у\,У2, ..., Уп-
80
Существующие пакеты прикладных программ, о которых упоминалось во введении, позволяют решать задачи нелинейно го оценивания параметров в подобных (2.68) задачах без глубоко го проникновения в существо используемого алгоритмического обеспечения и его математических особенностей. Но чтобы об щение с этими пакетами было не механистическим, а созидатель ным процессом, пользователь должен обладать определенной ма тематической культурой, позволяющей ему осознанно восприни мать существо используемых вычислительных процедур и сопут ствующих им математических закономерностей. Поэтому корот ко остановимся на одной важной характеристике алгоритма (2.71), определяющей его принципиальную «жизнеспособность» и известной как сходимость последовательности точек в^ \в^^\ в^^^ ..., определяемых средствами этого алгоритма, к некоторой точке е.
При обсуждении сходимости алгоритма (2.71) возможны два концептуально различных взгляда на эту проблему. При первом из них вектор у экспериментальных данных, участвующий в фор мировании градиента функции /, рассматривается как конкрет ный числовой вектор, соответствующий результатам проведен ного эксперимента. И в этом случае можно найти условия, обес печивающие сходимость последовательности полученных с по мощью правила (2.71) точек Q^^\&^^\&^^\ ... к некоторой точкев именно при этом конкретном векторе у. Однако если теперь про вести другой эксперимент при тех же значениях экзогенных пе ременных, то в силу случайной природы эндогенной переменной получим новую реализацию у экспериментальных данных, и ра нее полученные условия сходимости при этой реализации, вооб ще говоря, могут не выполняться. Поэтому нужны такие условия сходимости, которые будут обеспечивать сходимость при всех п- мерных реализациях эндогенной переменной, образуемых в со ответствии с (2.67). В первом случае принято говорить о детерми
нированной сходимости, во втором — о стохастической. Для нас больший интерес представляют условия стохастической сходи мости, так как именно они гарантируют успешную работоспо собность алгоритма (2.71) при всех возможных исходах проводи мого эксперимента.
Проблема стохастической сходимости или, по иной термино логии, стохастической устойчивости решений разностных урав нений интенсивно развивается в последние десятилетия (напри-
81
мер, [18]). Не ставя перед собой задачи детального проникнове ния в существо проблемы, кратко остановимся на ряде основопо лагающих понятий.
Прежде всего отметим, что понятие стохастической сходимо сти не является однозначным (впрочем, как и детерминирован ным) — бывают сходимость по вероятности, р-сходимость и част ный ее вариант среднеквадратическая сходимость, экспоненци альная сходимость, сходимость с вероятностью единица (почти наверное сходимость) и др. Из всех этих видов сходимости наи более сильной является сходимость с вероятностью единица, так как при выполнении соответствующих условий все реализации случайных последовательностей, получаемые по правилу (2.71) на множестве значений случайного вектора;?, кроме, быть может, реализаций с нулевой вероятностью, сходятся к вектору в в
обычном понимании сходимости, соответствующем определе нию (2.11). Поэтому нас будут интересовать именно условия схо димости с вероятностью единица.
Для последующего изложения удобно алгоритм (2.71) пере писать в отклонениях относительно стационарной точки в. С этой целью введем обозначение ц^^^ = в^^^— в. Тогда можем запи сать
^ik^l) ^^(к) _o,5JQ(e-f Y|i^^^)|i^^MY, |
(2.72) |
о |
|
где матрица 0(в) является матрицей Якоби вектора (/)'^(в)1)(в))"^/(в), вычисленной в точке (в + yji^^^), т.е.
Q(e + уц^^^) = -^((/)'^(в)2)(в))-^ V/(e)), ав
в = в + уц^^^ A(e) = ^ V ( e ) .
Интеграл в (2.72) формирует отклонение вектора (j5W)T^W^-i v/(e^^^) из (2.71) от его значения в стационарной точке в, т.е. относительно O^+i [14]. В обозначениях (2.72) про блема поиска условий стохастической сходимости последова тельности векторов S^^\ Q^^\ S^^\ ... к точке в эквивалентна за даче поиска аналогичных условий сходимости последовательно сти \1^^\ \1^^\ \1^^'\ ... к точке 0;;,+1- Дадим теперь определение по нятию стохастической сходимости с вероятностью единица.
82
Определение 2.12. Будем говорить, что последовательность ц(0)^ цО)^ j|(2)^ ^ вероятностью единица сходится к точке O^^j+i, если при V5 > О Зр(5) > О такое, что для всех \\\i^^^\\ < р(5) выполня
ется Ит |
p]sup|||i^^V5[ = 0, где Р{...}, как обычно, - вероят- |
|
^->°° |
[k>N |
J |
ность соответствующего события.
По существу, это определение означает следующее: в случае сходимости с вероятностью единица почти все реализации слу чайной последовательности векторов {р.^^^} (за исключением множества реализаций меры нуль), образованные по правилу (2.72) при различных значениях вектора >? и начальных значениях из некоторой окрестности точки О^+х, сходятся к этой точке в
обычном детерминированном смысле. Величина sup|||i^ ^||
k>N
представляет собой наибольшее уклонение реализаций от нуле вого значения, начиная с (7V + 1)-го элемента последовательнос ти и до бесконечного. Если указанное наибольшее уклонение для всех реализаций при N -^ оо стремится к нулю, то это означает сходимость к нулю всех реализаций. Неравенство в определении 2.12 означает, что доля несходящихся реализаций стремится к нулю.
Проблема выявления условий сходимости с вероятностью 1 весьма сложна. Наиболее общим математическим подходом к ее решению в настоящее время является применение стохастиче ских функций Ляпунова с использованием свойств супермартин галов.
Определение 2,13. Положительно определенная непрерывная функция V{x) векторного аргумента дс, обладающая свойствами К(0) = О, V{x) конечна при всех х с конечной нормой ||jc|| и V(x) -> —> оо при |(х||—>оо, называется функцией Ляпунова.
Определение 2.14. Пусть случайная последовательность век торов zo, Z\, Z2, ... обладает свойствами: M{z/c} < ^, M{zfJi zo, Z\, ..., Zk-i) ^ Zk-\- Тогда эта последовательность называется супермар тингалом.
Применение введенных понятий для выявления условий схо димости с вероятностью 1 последовательности векторов [1^^\ ii^^\ |Li^^\ ..., образованных в соответствии с (2.72), к точке O^+i осно вывается на следующем утверждении.
83
Утверждение 2.13- Пусть К(ц) — функция Ляпунова и последо вательность V(\i^^^), V(\i^^^), V{\i^'^b, ... значений этой функции вычисленная на элементах случайной последовательности {ц^^П, является супермартингалом. Тогда последовательность ц^^\ [1^^\ li^^\ ... с вероятностью 1 сходится к точке O^+j.
Мы не будем останавливаться на доказательстве этой теоремы и ограничимся некоторыми комментариями к ее физическому содержанию. С этой точки зрения величину К(ц^^^) можно интер претировать как «обобщенную энергию» некоторой динамичес кой системы, описываемой разностным уравнением (2.72). То об стоятельство, что функция Ляпунова оказывается супермартин галом, означает уменьшение в среднем энергии в точке ц^^^ по сравнению с ее значением в предыдущей точке li^^'^K а это влечет за собой соответствующее уменьшение величины \\iv^\
Применим утверждение 2.13 для анализа стохастической схо димости последовательности (2.72). С этой целью введем в рас смотрение стохастическую функцию Ляпунова V(\i) = \\1л\\ и рас смотрим условное математическое ожидание
= М{\\ |1<^> - 0,51 Q(e + Y|i^^^)|i^^>dY 11=
О
1
= A/{liJ(^m+I -0,5Q(e + Y|i^^^))l*^^Wl|.
О
Из этого соотношения следует
О |
|
Пусть выполняется условие |
|
тахМ{\\£^^^ ~0,5(2(в)||}<1, |
(2.73) |
е
т.е. наибольшее значение математического ожидания нормы слу чайной матрицы Efn+\ — 0,5Q(e) меньше единицы. Тогда
84
или же M{F<^^^> I fi<^>, \i^^\ ji^2>, ..., JA<^>} < И^>, где И^> = \\ii^% Из последнего неравенства следует, что последовательность V^^\ у(\)^ у(2)^ образует супермартингал. Но тогда последователь ность \i^^\ [i^^\ \i^^\ ...в силу утверждения (2.13) оказывается схо дящейся с вероятностью I. Следовательно, условие (2.73) являет ся достаточным для того, чтобы последовательность приближе ний в^^^,в^^^ в^^\ ..., вычисляемых по правилу (2.71), при лю бом векторе наблюдений у, удовлетворяющем определению (2.67), с вероятностью 1 сходилась к стационарной точке в. Практическая проверка этих условий требует дополнительных усилий.
Рассмотрим ряд частных случаев. Пусть функция Т(в) являет
ся линейной: Т(в) = YO, Y G R'^^^'^''^^ Тогда D{e) = ^i4Fe) = W, de
V/= -T¥^(y-4fe), Q = ^((/>^i>)~W) = 2E^+i и условие (2.73)
вырождается в тривиальное maxA/{||0(^^.i)x(w+i) 11}<Ь где
0(/w+i)x(w+i)" нулевая квадратная матрица, т.е. алгоритм (2.71) ус тойчив при любой матрице Т и любой начальной точке 0^^\ При рода этого результата совершенно очевидна: из (2.71) в этом слу
чае уже при к = |
1 следует в^^^ = в^^^ + |
(Т'^^)-^Т'^(д; ~ "Гв^^^) = |
= (If^W) Ч^^у |
= в, т.е. алгоритм (2.71) |
при линейной модели на |
блюдений за одну итерацию определяет МНК-оценку, что и отра жается в тривиальности условий сходимости.
Пусть теперь с целью уменьшения вычислительных затрат в алгоритме (2.71) используется постоянная матрица весовых ко эффициентов, т.е. положим 0,5((/)^^^)^D^^^)~^ = G = const, где G — некоторая положительно определенная постоянная матрица. Пусть, как и выше, функция Т(в) = Y&, т.е. является линейной. В этом случае Q = 4GT^4^ и условия (2.73) приобретают форму неравенства
т.е. сводятся к ограничению на норму стационарной матрицы. Если это условие выполняется, алгоритм (2.71) сходится при лю-
85
бом начальном условии в^^^ и любом векторе наблюдений у, со ответствующем модели (2.4). Известно [26], что при любой норме квадратной матрицы С справедливо неравенство ||C||>max|?iy |,
где Xj, у = 1, 2,... — собственные числа матрицы С. Но тогда усло вия сходимости алгоритма (2.71) при постоянной матрице весо вых коэффициентов и линейной модели наблюдений можно сформулировать так: для того, чтобы в указанных условиях алго ритм (2.71) сходился с вероятностью 1 при любых начальных ус ловиях в^^ (в таком случае говорят о сходимости в целом), доста точно, чтобы собственные числа матрицы Ещ+х—'^ G^^^ по абсо лютному значению были меньше единицы. Можно показать, что эти достаточные условия в данном случае являются и необходи мыми. Действительно, положив в (2.71) 0,5((D^^^)^/)^^^)"* = G, V/(e^^O = -2Y'^(V - Тв^^^), запишем алгоритм (2.71) в форме
Это соотношение представляет собой линейное неоднород ное разностное уравнение, для устойчивости решений которого, как известно (например, [10]), необходимо и достаточно, чтобы собственные числа матрицы Е^^+х — 2GV^^ по абсолютным зна чениям были меньше единицы. Легко найти установившееся зна чение в решения этого уравнения. В случае сходимости должно выполняться равенство
в= {Ет+х - 2GV^'¥)Q + IGV^y => GV^We =
=CPV'^y => в = (Ч'^Т)" V V
т.е. установившимся значением по-прежнему оказывается МНКоценка.
2А. Максимально правдоподобные оценки регрессионных параметров
Большим достоинством метода наименьших квадратов, в значи тельной степени определившим его широкое применение в эконометрических приложениях, являются Офаниченные «претен зии» к объему априорной информации. По существу, эта инфор мация ограничивается моделью экспериментальных данных и
86
предположением о центрированности и некоррелированности ошибок эксперимента. Вместе с тем если исследователь распола гает большим объемом априорных сведений о переменных, уча ствующих в постановке проблемы, их нужно пытаться рацио нально использовать в надежде добиться более высоких по точ ности результатов, нежели это регламентировано методом наи меньших квадратов. Одним из источников потенциального про гресса может явиться более глубокое проникновение в природу влияния латентных переменных и измерительных технологий на эндогенную переменную. Если соответствующий анализ пока жет, что вектор е, участвующий в формировании апостериорных данных, не является гауссовским или является гауссовским, но с коррелированными компонентами, имеет смысл методу наи меньших квадратов предпочесть нечто иное, способное исполь зовать выявленные особенности экспериментальных ошибок. Методом, рационально учитывающим априорную информацию об ошибках эксперимента в предположении, что регрессионные параметры по-прежнему классифицируются как неизвестные, является метод максимального правдоподобия.
Основой метода является совместная плотность вероятностей экспериментальных данных у, полученная при фиксированном значении регрессионных параметров в , т.е. условная плотность вероятностей LO^I в). Чтобы ее найти, необходимо знать модель вектора 3? и статистические свойства вектора е. Будем для опреде ленности ориентироваться на регрессионную модель (2.67) как более полную. Пусть щ{г) - плотность вероятностей вектора е и эта плотность известна. Проблема ее поиска здесь не обсуждает ся. При фиксированных параметрах в причиной «случайности» вектора J' в (2.67), как уже отмечалось, является вектор е. Поэто му знания плотности соЕ(е) вполне достаточно для вычисления ус ловной плотности Ыу I в). Векторы J? и е в этом случае различают ся только математическими ожиданиями М{у \ в} = Т(в) + Л/{е}, и можем записать Z/(j^|e)=C0g(e). _^.^.. Таким образом, условная
плотность L(y 1 в) получается из совместной плотности вероятно стей сое(е) ошибок е заменой аргумента е на д^ — ^(в).
Определение 2.15. Пусть в процессе проведения эксперимен та эндогенная переменная У приняла значения д? = \ух, У2,..., Уп]^ и построена условная плотность вероятностей L(y\&). Если те перь в выражении условной плотности аргумент у заменить на
87
конкретные результаты проведенного эксперимента, получим функцию, зависящую только от вектора в . Эту функцию называ ют функцией правдоподобия.
В последующем по традиции функцию правдоподобия будем обозначать так же, как и условную плотность, — L{y \ в). Однако следует иметь в виду, что условная плотность 1(у\в) является {тЛ-1 )-параметрической функцией вектора j ; ; в то же время функ ция правдоподобия, в составе которой вектор >^ фиксирован, рас сматривается как функция вектора в.
Определение 2.16. Значение в вектора в, при котором функ ция правдоподобия Ь{у\&) или, что то же самое, функция InLO^Ie) достигает наибольшего значения, называется макси мально правдоподобной оценкой вектора в регрессионных параме тров.
Таким образом, максимально правдоподобная оценка нахо
дится из условия |
|
e = arg тах1пД>;|в). |
(2.74) |
в |
|
Смысл этого условия таков: если в результате проведения экс перимента эндогенная переменная Y приняла конкретные значе ния у, то в качестве оценки в следует принять то значение векто ра в, при котором вероятность наблюдать в эксперименте имен но этот вектор J? оказывается наибольшей.
Вычислительная процедура поиска максимально правдопо добных оценок в случае модели наблюдений (2.67) может быть организована с использованием тех же принципов, что и при по иске МНК-оценок. Для этого достаточно общий подход (2.69) «адаптировать» к задаче максимизации логарифма функции правдоподобия.
Рассмотрим более детально случай линейной рефессионной модели (2.4) и гауссовского вектора е. Пусть е ~ Л^(0, К^, т.е.
^Е(е) = |
/ |
ехр] ---^^Kl^z |
\, |
|
Как следствие, получаем |
|
|
||
In 1(у\в) |
= const - |
0,5(у- Ч?в)^К^-^(у- ^ в ) , |
||
где const = In . |
= , |
т.е. не зависящее от в |
слагаемое. |
V(2^)"l^el
88
Воспользовавшись необходимым условием экстремума VlnZ/(y I в) = О, которое обычно называют уравнением правдоподо бия, получим уравнение
Y^ii:e-^(y-Te) = o,
из которого следует максимально правдоподобная оценка векто ра в при линейной гауссовской модели
в = Cr^Kf^^r^-^W^Ki^^y. |
(2.75) |
Если сопоставить эту оценку с МНК-оценкой (2.24), легко обнаружить ее отличительную особенность: оценка (2.75) учиты вает коррелированность экспериментальных ошибок в объеме ковариационной матрицы К^. Если эти ошибки не коррелированы, т.е. К^ = a^iS'nxn? то максимально правдоподобная оценка (2.75) вырождается в МНК-оценку (2.24), что является вполне ожидаемым и естественным результатом. Заметим, что иногда оценку (2.75) получают не в терминах правдоподобия, а путем модификации метода наименьших квадратов, сопровождае мой заменой целевой функции (2.20) / = |1у — Тв|р на функцию / = (у — yPQ)^K^~^(y — Тв) с последуюш.ей ее минимизацией. При подобном подходе оценку (2.75) принято называть обобщенной МНК-оценкой.
Изучим основные свойства оценки (2.75). Прежде всего пока жем, что она является несмещенной. Действительно,
М{в} = (4f'^Ke~^4r)-^W^Ke-^M{y} = = CV^K^-^^Ti-^^f^K^-^Milfe + е} = е.
Далее найдем ковариационную матрицу К^^ ошибки Tj = в - в. Имеем Т) = CV^K^~^4f)~^4^^K^~^ и, следовательно,
Kr. = M{W} = C¥'^K-^4f)-\ |
(2.76) |
При некоррелированных ошибках получаем уже известный результат (2.27). Несложно убедиться, что соотношение (2.76) при условиях (2.4) и е ~ N(0, К^) соответствует эффективной оценке. Действительно, матрица Фишера, определяемая в соот ветствии с (2.10), в данном случае оказывается равной Ф = -V^ lnL(y\&) = W^K^'^W. Из сопоставления этого результа-
89