Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ЭКОНОМЕТРИКА и математическая экономика / Эконометрика. Учебник продвинутый (2005)

.pdf
Скачиваний:
512
Добавлен:
20.04.2015
Размер:
4.02 Mб
Скачать

11.7. Лаговый оператор

373

меньше единицы. В данном случае естественно использовать двусторонний критерий (поскольку мы априорно не знаем, растет дисперсия или падает). Это, конечно, не совсем обычно для критериев, основанных на F -статистике. Для уровня θ можно взять в качестве критических границ такие величины, чтобы вероятность попадания и в левый, и в правый хвост была одной и той же — θ 2 .

Нулевая гипотеза состоит в том, что дисперсия однородна. Если дисперсионное отношение попадает в один из двух хвостов, то нулевая гипотеза отклоняется.

Мощность критерия можно увеличить, исключив часть центральных наблюдений. Этот подход оправдан в случае монотонного поведения дисперсии временного ряда, тогда дисперсионное отношение покажет больший разброс значений.

Если же временной ряд не монотонен, например имеет U-образную форму, то мощность теста в результате исключения центральных наблюдений существенно уменьшается.

Как и в случае сравнения средних, критерий применим только в случае, когда проверяемый процесс является белым шумом. Если же, например, ряд является стационарным, но автокоррелированным, то данный критерий применять не следует.

11.7. Лаговый оператор

Одним из основных понятий, употребляемых при моделировании временных рядов, является понятие лага. В буквальном смысле в переводе с английского лаг — запаздывание. Под лагом некоторой переменной понимают ее значение в предыдущие периоды времени. Например, для переменной xt лагом в k периодов будет xt−k .

При работе с временными рядами удобно использовать лаговый оператор L, т.е. оператор запаздывания, сдвига назад во времени. Хотя часто использование этого оператора сопряжено с некоторой потерей математической строгости, однако это окупается значительным упрощением вычислений.

Если к переменной применить лаговый оператор, то в результате получится лаг этой переменной:

Lxt = xt−1.

Использование лагового оператора L обеспечивает сжатую запись разностных уравнений и помогает изучать свойства целого ряда процессов.

Удобство использования лагового оператора состоит в том, что с ним можно обращаться как с обычной переменной, т.е. операторы можно преобразовывать сами по себе, без учета тех временных рядов, к которым они применяются. Основное

374

Глава 11. Основные понятия в анализе временных рядов

отличие лагового оператора от обычной переменной состоит в том, что оператор должен стоять перед тем рядом, к которому применяется, т.е. нельзя переставлять местами лаговый оператор и временной ряд.

Как и для обычных переменных, существуют функции от лагового оператора, они, в свою очередь, тоже являются операторами. Простейшая функция — степенная.

По определению, для целых m

Lmxt = xt−m,

т.е. Lm, действующий на xt, означает запаздывание этой переменной на m периодов.

Продолжая ту же логику, можно определить многочлен от лагового оператора, или лаговый многочлен:

m

α(L) = αiLt−k = α0 + α1L + · · · + αmLm.

i=0

Если применить лаговый многочлен к переменной xt , то получается

α(L)xt = (α0 + α1L + · · · + αmLm)xt = α0xt + α1xt−1 + · · · + αmxt−m.

Нетрудно проверить, что лаговые многочлены можно перемножать как обычные многочлены. Например,

(α0 + α1L)(β0 + β1L) = α0β0 + (α1β0 + α0β1)L + α1β1L2.

При m → ∞ получается бесконечный степенной ряд от лагового оператора:

αiLi xt = (α0 + α1L + α2L2 + · · · )xt =

i=0

= α0xt + α1xt−1 + α2xt−2 + · · · = αixt−i.

i=0

Полезно помнить следующие свойства лаговых операторов:

1)Лаг константы есть константа: LC = C.

2)Дистрибутивность: (Li + Lj )xt = Lixt + Lj xt = xt−i + xt−j .

3)Ассоциативность: LiLj xt = Li(Lj xt) = Lixt−j = xt−i−j . Заметим, что: L0xt = xt, т.е. L0 = I .

11.8. Модели регрессии с распределенным лагом

375

4)L, возведенный в отрицательную степень, — опережающий оператор:

L−ixt = xt+i .

5)При |α| < 1 бесконечная сумма

(1 + αL + α2L2 + α3L3 + . . . )xt = (1 − αL)1xt.

Для доказательства умножим обе части уравнения на (1 − αL):

(1 − αL)(1 + αL + α2L2 + α3L3 + . . . )xt = xt, поскольку при |α| < 1 выражение αnLnxt 0 при n → ∞.

Кроме лагового оператора в теории временных рядов широко используют разностный оператор ∆, который определяется следующим образом:

∆ = 1 L,

так что ∆xt = (1 L)xt = xt − xt−1 .

Разностный оператор превращает исходный ряд в ряд первых разностей.

Ряд d-х разностей (разностей d-го порядка) получается как степень разност-

ного оператора, то есть применением разностного оператора d раз.

 

 

 

При

d =

2

получается ∆2 = (1

L)2 = 1

2L + L2, поэтому

2x

t

=

 

2

 

 

 

= (1 2L + L )xt = xt 2xt−1 + xt−2 .

Для произвольного порядка d следует использовать формулу бинома Ньютона:

 

 

d

 

d!

 

 

d = (1 L)d =

 

(1)k CdkLk , где Cdk =

 

,

 

 

 

 

k=0

k!(d

k)!

 

 

 

 

 

 

d

d

d

k k

 

 

 

 

так что ∆ xt = (1

L) xt =

k=0(1) Cd xt−k .

 

 

 

 

11.8. Модели регрессии с распределенным лагом

Часто при моделировании экономических процессов на изучаемую переменную xt влияют не только текущие значения объясняющего фактора zt, но и его лаги. Типичным примером являются капиталовложения: они всегда дают результат с некоторым лагом.

Модель распределенного лага можно записать следующим образом:

q

xt = µ + αj zt−j + εt = µ + α(L)zt + εt.

(11.18)

j=0

 

376

Глава 11. Основные понятия в анализе временных рядов

где q — величина наибольшего лага, α(B) =

q

 

αj Lj

— лаговый многочлен,

 

 

 

j=0

j

задают структуру лага

εt — случайное возмущение, ошибка. Коэффициенты αj

и называются весами. Конструкцию

q

 

часто называют «скользящим

j=0 αj zt−j

средним» переменной zt 10.

Рассмотрим практические проблемы получения оценок коэффициентов αj в модели (11.18). Модель распределенного лага можно оценивать обычным методом наименьших квадратов, если выполнены стандартные предположения регрессионного анализа. В частности, количество лагов не должно быть слишком большим, чтобы количество регрессоров не превышало количество наблюдений,

ивсе лаги переменной zt , т.е. zt−j (j = 0, . . . , q), не должны быть коррелированы

сошибкой εt.

Одна из проблем, возникающих при оценивании модели распределенного лага, найти величину наибольшего лага q. При этом приходится начать с некоторого предположения, то есть взять за основу число Q, выше которого q быть не может. Выбор такого числа осуществляется на основе некоторой дополнительной информации, например, опыта человека, который оценивает модель. Можно предложить следующие способы практического определения величины q.

1)Для каждого конкретного q оценивается модель (11.18), и из нее берется t-статистика для последнего коэффициента, т.е. αq . Эти t-статистики рассматриваются в обратном порядке, начиная с q = Q (и заканчивая q = 0). Как только t-статистика оказывается значимой при некотором наперед заданном уровне, то следует остановиться и выбрать соответствующую величину q.

2)Следует оценить модель (11.18) при q = Q. Из этой регрессии берутся F -статистики для проверки нулевой гипотезы о том, что коэффициенты при по-

следних Q − q + 1 лагах, т.е. αq , . . . , αQ, одновременно равны нулю:

H0 : αj = 0, j = q, . . . , Q.

Соответствующие F -статистики рассчитываются по формулам:

Fq = (RSSQ RSSq−1)/(Q q + 1) ,

RSSQ/(T − Q − 2)

где RSSr — сумма квадратов остатков из модели распределенного лага при q = r,

T— количество наблюдений. При этом при проведении расчетов для сопоставимости во всех моделях надо использовать одни и те же наблюдения — те, которые использовались при q = Q (следовательно, при всех q используется одно и то же

T). Эти F -статистики рассматриваются в обратном порядке от q = Q до q = 0 (в последнем случае в модели переменная z отсутствует). Как только F -статистика

10Другое часто используемое название — «линейный фильтр».

11.9. Условные распределения

377

оказывается значимой при некотором наперед заданном уровне, то следует остановиться и выбрать соответствующую величину q.

3) Для всех q от q = 0 до q = Q рассчитывается величина информационного критерия, а затем выбирается модель с наименьшим значением этого информационного критерия. Приведем наиболее часто используемые информационные критерии.

Информационный критерий Акаике:

AIC = ln( RSS ) + 2(n + 1) ,

TT

где RSS сумма квадратов остатков в модели, T — фактически использовавшееся количество наблюдений, n — количество факторов в регрессии (не считая константу). В рассматриваемом случае n = q + 1, а T = T0 −q, где T0 — количество наблюдений при q = 0.

Байесовский информационный критерий (информационный критерий Шварца):

BIC = ln(

RSS

) +

(n + 1) ln T

.

 

 

 

T

T

Как видно из формул, критерий Акаике благоприятствует выбору более короткого лага, чем критерий Шварца.

11.9. Условные распределения

Условные распределения играют важную роль в анализе временных рядов, особенно при прогнозировании. Мы не будем вдаваться в теорию условных распределений, это предмет теории вероятностей (определения и свойства условных распределений см. в Приложении A.3.1). Здесь мы рассмотрим лишь основные правила, по которым можно проводить преобразования. При этом будем использовать следующее стандартное обозначение: если речь идет о распределении случайной величины X , условном по случайной величине Y (условном относительно Y ), то это записывается в виде X|Y .

Основное правило работы с условными распределениями, которое следует запомнить, состоит в том, что если рассматривается распределение, условное относительно случайной величины Y , то с Y и ее функциями следует поступать так же, как с детерминированными величинами. Например, для условных математических ожиданий и дисперсий выполняется

E (α(Y ) + β(Y )X|Y ) = α(Y ) + β(Y )E(X|Y ), var (α(Y ) + β(Y )X|Y ) = β2(Y )var(X|Y ).

378

Глава 11. Основные понятия в анализе временных рядов

Как и обычное безусловное математическое ожидание, условное ожидание представляет собой линейный оператор. В частности, ожидание суммы есть сумма ожиданий:

E (X1 + X2|Y ) = E(X1|Y ) + E(X2|Y ).

Условное математическое ожидание E(X|Y ) в общем случае не является детерминированной величиной, т.е. оно является случайной величиной, которая может иметь свое математическое ожидание, характеризоваться положительной дисперсией и т.п.

Если от условного математического ожидания случайной величины X еще раз взять обычное (безусловное) математическое ожидание, то получится обычное (безусловное) математическое ожидание случайной величины X . Таким образом, действует следующее правило повторного взятия ожидания:

E (E(X|Y )) = E(X).

В более общей форме это правило имеет следующий вид:

E (E(X|Y, Z)|Y ) = E(X|Y ),

что позволяет применять его и тогда, когда второй раз ожидание берется не полностью, т.е. не безусловное, а лишь условное относительно информации, являющейся частью информации, относительно которой ожидание бралось первый раз.

Если случайные величины X и Y статистически независимы, то распределение X , условное по Y , совпадает с безусловным распределением X . Следовательно, для независимых случайных величин X и Y выполнено, в частности,

E(X|Y ) = E(X), var(X|Y ) = var(X).

11.10.Оптимальное в среднеквадратическом смысле прогнозирование: общая теория

11.10.1.Условное математическое ожидание как оптимальный прогноз

Докажем в абстрактном виде, безотносительно к моделям временных рядов, общее свойство условного математического ожидания, заключающееся в том, что оно минимизирует средний квадрат ошибки прогноза.

Предположим, что строится прогноз некоторой случайной величины x на основе другой случайной величины, z, и что точность прогноза при этом оценивается

11.10 Оптимальное в среднеквадратическом смысле прогнозирование 379

на основе среднего квадрата ошибки прогноза η = x − xp(z), где xp(z) — прогнозная функция. Таким образом, требуется получить прогноз, который бы минимизировал

E η2 = E (x − xp(z))2 .

Оказывается, что наилучший в указанном смысле прогноз дает математическое ожидание x, условное относительно z, т.е. E (x|z), которое мы будем обозначать x¯(z). Докажем это. Возьмем произвольный прогноз xp(z) и представим ошибку прогноза в виде:

x − xp(z) = η = (x − x¯(z)) + (¯x(z) − xp(z)) .

Найдем сначала математическое ожидание квадрата ошибки, условное относительно z:

E η2|z = E (x − x¯(z))2 |z +

+ 2E [(x − x¯(z))(¯x(z) − xp(z))|z] + E (¯x(z) − xp(z)t)2|z .

При взятии условного математического ожидания с функциями z можно обращаться как с константами. Поэтому

E (¯x(z) − xp(z))2 |z = (¯x(z) − xp(z))2

и

E [(x − x¯(z))(¯x(z) − xp(z))|z] = E (x − x¯(z)|z) (¯x(z) − xp(z)) =

= (¯x(z) − x¯(z))(¯x(z) − xp(z)) = 0.

Используя эти соотношения, получим

E η2|z = E (x − x¯(z))2 |z + (¯x(z) − xp(z))2 .

Если теперь взять от обеих частей безусловное математическое ожидание, то (по правилу повторного взятия ожидания) получится

E η2 = E (x − x¯(z))2 + E (x¯(z) − xp(z))2 .

Поскольку второе слагаемое неотрицательно, то

E (x − xp(z))2 = E η2 E (x − x¯(z))2 .

380

Глава 11. Основные понятия в анализе временных рядов

Другими словами, средний квадрат ошибки прогноза достигает минимума при xp(z) = x¯(z) = E (x|z).

Оптимальный прогноз xp(z) = x¯(z) = E (x|z) является несмещенным. Действительно, по правилу повторного взятия ожидания

E (E (x|z)) = E (x) .

Поэтому

Eη = E (x − xp(z)) = E (x) E (E (x|z)) = 0.

11.10.2. Оптимальное линейное прогнозирование

Получим теперь формулу для оптимального (в смысле минимума среднего квадрата ошибки) линейного прогноза. Пусть случайная переменная z, на основе которой делается прогноз x, представляет собой n-мерный вектор: z = (z1 , . . . , zn) . Без потери общности можно предположить, что x и z имеют нулевое математическое ожидание. Будем искать прогноз x в виде линейной комбинации zj :

xp(z) = α1z1 + . . . + αnzn = z α,

где α = (α1, . . . , αn) — вектор коэффициентов. Любой прогноз такого вида является несмещенным, поскольку, как мы предположили, Ex = 0 и Ez = 0.

Требуется решить задачу минимизации среднего квадрата ошибки (в данном случае это эквивалентно минимизации дисперсии ошибки):

E (x − xp(z))2 min!

α

Средний квадрат ошибки можно представить в следующем виде:

E (x − xp(z))2 = E x2 2α zx + α zz α = σx2 2α Mzx + α Mzz α,

где σx2 = Ex2 — дисперсия x, Mzx = E [zx] — вектор, состоящий из ковариаций zj и x, а Mzz = E [zz ] — ковариационная матрица z. (Напомним, что мы рассматриваем процессы с нулевым математическим ожиданием.) Дифференцируя по α, получим следующие нормальные уравнения:

2Mzx + 2Mzz α = 0,

откуда

α = Mzz1Mzx.

11.10 Оптимальное в среднеквадратическом смысле прогнозирование 381

Очевидна аналогия этой формулы с оценками МНК, только матрицы вторых моментов здесь не выборочные, а теоретические.

Таким образом, оптимальный линейный прогноз имеет вид:

xp(z) = z Mzz1Mzx.

(11.19)

Ошибка оптимального линейного прогноза равна

η = x − xp(z) = x − z Mzz1Mzx.

Эта ошибка некоррелирована с z, то есть с теми переменными, по которым делается прогноз. Действительно, умножая на z и беря математическое ожидание, получим

E () = E zx − zz Mzz1Mzx = Mzx − Mzz Mzz1Mzx,

т.е.

E () = 0.

Средний квадрат ошибки оптимального прогноза равен

E η2 = E (x − xp(z))2 = σx2 2Mxz Mzz1Mzx + Mxz Mzz1Mzz Mzz1Mzx.

После преобразований получаем

E η2 = σx2 − Mxz Mzz1Mzx.

(11.20)

Несложно увидеть аналогии между приведенными формулами и формулами МНК. Таким образом, данные рассуждения можно считать одним из возможных теоретических обоснований линейного МНК.

Для того чтобы применить приведенные формулы, требуется, чтобы матрица Mzz была обратимой. Если она вырождена, то это означает наличие мультиколлинеарности между переменными z.

Проблема вырожденности решается просто. Во-первых, можно часть «лишних» компонент z не использовать — оставить только такие, которые линейно независимы между собой. Во-вторых, в вырожденном случае прогноз можно получить по той же формуле xp(z) = z α, взяв в качестве коэффициентов α любое решение системы линейных уравнений Mzz α = Mzx (таких решений будет бесконечно много). Средний квадрат ошибки прогноза рассчитывается по формуле:

E η2 = σx2 − Mxz α.

382

Глава 11. Основные понятия в анализе временных рядов

В общем случае оптимальный линейный прогноз (11.19) не совпадает с условным математическим ожиданием E (x|z). Другими словами, он не является оптимальным среди всех возможных прогнозов. Пусть, например, z имеет стандартное нормальное распределение: z N (0, 1), а x связан с z формулой x = z2 1. Тогда, поскольку x и z некоррелированы, то α = 0, и оптимальный линейный прогноз имеет вид xp(z) = 0 при среднем квадрате ошибки прогноза равном E (z2 1)2 = 2. В то же время прогноз по нелинейной формуле xp(z) = z2 1 будет безошибочным (средний квадрат ошибки прогноза равен 0).

В частном случае, когда совместное распределение x и z является многомерным нормальным распределением:

x

0

σx2

Mxz

,

N

,

 

 

z

0n

Mzx

Mzz

 

оптимальный линейный прогноз является просто оптимальным. Это связано с тем, что по свойствам многомерного нормального распределения (см. Приложение A.3.2) условное распределение x относительно z будет иметь следующий вид:

x z

N

z M 1M , σ2

M M 1M .

|

 

zz zx x

xz zz zx

Таким образом, E (x|z) = z Mzz1Mzx, что совпадает с формулой оптимального линейного прогноза (11.19).

11.10.3.Линейное прогнозирование стационарного временного ряда

Пусть xt — слабо стационарный процесс с нулевым математическим ожиданием. Рассмотрим проблему построения оптимального линейного прогноза этого процесса, если в момент t известны значения ряда, начиная с момента 1, т.е. только конечный ряд x = (x1, . . . , xt). Предположим, что делается прогноз на τ шагов вперед, т.е. прогноз величины xt+τ . Для получения оптимального линейного (по x) прогноза можно воспользоваться формулой (11.19). В случае стационарного временного ряда ее можно переписать в виде:

xt(τ ) = x Γt1γt,τ ,

(11.21)