- •Введение
- •Глава 1 Основная модель линейной регрессии
- •1.4. Прогнозирование
- •Рекомендуемаялитература
- •Глава 2 Нарушениегипотезосновной линейноймодели
- •2.1. Обобщенныйметоднаименьшихквадратов (взвешеннаярегрессия)
- •2.2. Гетероскедастичностьошибок
- •2.3. Автокорреляцияошибок
- •2.4. Ошибкиизмеренияфакторов
- •2.5. Методинструментальныхпеременных
- •1.2 Оценка Надарии-Уотсон
1.4. Прогнозирование
Пусть получены оценки параметров уравнения (1.11). Задача прогнозирования заключается в определении возможного значения (прогноза) переменной x, объясняемой этой моделью, при некоторых заданных значениях факторов z, которые не совпадают ни с одним из наблюдений в матрице Z. Более того, как правило, z лежит вне области, представляемой матрицей Z. При этом предполагается, что гипотезы g1−g3 по-прежнему выполняются.
Обычно термин «прогнозирование» используется в случае, когда наблюдения i = 1, ..., N в матрице Z даны по последовательным моментам (периодам) времени, и заданные значения факторов z, для которых требуется определить прогноз x, относятся к какому-то будущему моменту времени, большему N (т.е. z лежит вне области, представляемой матрицей Z).
Методы прогнозирования могут быть различными. Если применяются относительно простые статистические методы, как в данном случае, то часто используют термин «экстраполирование». Если аналогичная задача решается для z, лежащих внутри области, представляемой наблюдениями в матрице Z (например, для «пропущенных» по каким-то причинам наблюдений), то используют термин «интерполирование». Процедуры экстраполирования и интерполирования с использованием модели (1.11) с формальной точки зрения одинаковы.
Итак, задан некоторый который отличается от всехzi,
=1,…,N(если i — обозначает момент времени r>N),
xr = zrα + εr — истинное значение искомой величины,
x0r = zrα — ожидаемое значение,
xpr = zra — искомый (точечный) прогноз.
Предполагаем, что гипотезы g1−g4 выполнены как для i = 1, ..., N, так и для
r > N.
Это линейный (относительно случайных величин X) прогноз: он не смещен относительно ожидаемого значения вслед за несмещенностьюa:
E(xpr) = x0r. Его ошибка εpr = xr − xpr имеет нулевое математическое ожидание и дисперсию
, (1.63)
которая минимальна на множестве всех возможных линейных несмещенных прогнозов.
Действительно:
εpr = zr (α − a) + εr.
Поскольку случайные величины a и εr не зависят друг от друга,
. Эта дисперсия минимальна среди всех возможных дисперсий линейных несмещенных прогнозов вслед за аналогичным свойством оценок a. Это является прямым следствием того, что оценки МНК относятся к классу BLUE. Для того чтобы в этом убедиться, достаточно в доказательстве данного свойства оценок a, которое приведено в п. 1.2, заменить c’ на zr. Следует иметь в виду, что ошибка любого расчетного по модели значения xci, являясь формально такой же: εci = xi − xci, имеет также нулевое математическое ожидание, но принципиально другую, существенно меньшую, дисперсию:
σi2 = σ2 (1 − zi 0Z!Z1−1 zi!).
Видно, что эта дисперсия даже меньше остаточной.
Действительно, как и прежде: εci := zi (α − a) + εi. Но теперь случайные величины a и εi коррелированы и поэтому
Величины 1−zi (Z"Z)−1 zi" (i = 1, ..., N),естественно,неотрицательны,
поскольку они являются диагональными элементами матрицы B из (1.32), которая положительно полуопределена.
Структуру дисперсии ошибки прогноза (1.63) можно пояснить на примере
n = 1. В этом случае (используются обозначения исходной формы уравнения регрессии, и все z — одномерные величины):
. (1.64)
В этом легко убедиться, если перейти к обозначениям исходной формы уравнения регрессии, подставить в (1.63) вместо zr и Z, соответственно и сделать необходимые реобразования (правило обращения матрицы
(2 × 2) см. в Приложении A.1.2), учитывая, что
:
Что и требовалось доказать.
Это выражение показывает «вклады» в дисперсию ошибки прогноза собственно остаточной дисперсии, ошибки оценки свободного члена и ошибки оценки углового коэффициента. Первыедве составляющие постоянны и независят от горизонта прогнозирования, т.е. от того, насколько сильно условия прогноза (в частности, значение zr) отличаются от условий, в которых построена модель (в частности, значение z¯). Третья составляющая — ошибка оценки углового коэффициента — определяет расширяющийся конус ошибки прогноза.
Мы рассмотрели точечный прогноз. Если дополнительно к гипотезам g1−g4 предположить выполнение гипотезы g5 для i = 1, ..., N и для r > N, то можно построить также интервальный прогноз. По формуле (1.27) ошибка прогноза имеет вид:
εpr = zr(α − a) + εr = zrLε + εr.
Таким образом, она имеет нормальное распределение:
Если бы дисперсия ошибки σ2 была известна, то на основе того, что
,
для xr можно было бы построить: (1 − θ)100-процентный прогнозный интервал:
Вместо неизвестной дисперсии берется несмещенная оценка.
По аналогии с (1.44) можно вывести, что
.
Тогда в приведенной формуле прогнозного интервала необходимо заменить