- •Линейная регрессия
- •1.2. Простая регрессия
- •6.3. Ортогональная регрессия
- •6.4. Многообразие оценок регрессии
- •6.5. Упражнения и задачи
- •Глава 7
- •Основная модель линейной регрессии
- •7.1. Различные формы уравнения регрессии
- •7.2. Основные гипотезы, свойства оценок
- •7.3. Независимые факторы: спецификация модели
- •7.4. Прогнозирование
- •7.5. Упражнения и задачи
- •Глава 8
- •Нарушение гипотез основной линейной модели
- •8.3. Автокорреляция ошибок
- •8.4. Ошибки измерения факторов
- •8.5. Метод инструментальных переменных
- •8.6. Упражнения и задачи Упражнение 1
7.4. Прогнозирование
Пусть получены оценки параметров уравнения (7.11). Задача прогнозирования заключается в определении возможного значения (прогноза) переменной x, объ- ясняемой этой моделью, при некоторых заданных значениях факторов z, которые не совпадают ни с одним из наблюдений в матрице Z . Более того, как прави- ло, z лежит вне области, представляемой матрицей Z . При этом предполагается,
что гипотезы g1−g3 по-прежнему выполняются.
Обычно термин «прогнозирование» используется в случае, когда наблюдения i = 1, . . . , N в матрице Z даны по последовательным моментам (периодам) вре- мени, и заданные значения факторов z, для которых требуется определить прогноз x, относятся к какому-то будущему моменту времени, большему N (т.е. z лежит вне области, представляемой матрицей Z ).
Методы прогнозирования могут быть различными. Если применяются отно- сительно простые статистические методы, как в данном случае, то часто исполь- зуют термин «экстраполирование». Если аналогичная задача решается для z, лежащих внутри области, представляемой наблюдениями в матрице Z (например, для «пропущенных» по каким-то причинам наблюдений), то используют термин
«интерполирование». Процедуры экстраполирования и интерполирования с ис- пользованием модели (7.11) с формальной точки зрения одинаковы.
Итак, задан некоторый zr = [zr1 ··· zrn 1], который отличается от всех zi ,
i = 1, . . . , N (если i — обозначает момент времени, то r > N ).
xr = zr α + εr — истинное значение искомой величины,
x0
xp
Предполагаем, что гипотезы g1−g4 выполнены как для i = 1, . . . , N , так и для r > N .
Это линейный (относительно случайных величин X ) прогноз: xp (7.26) z LX ,
r = r
он не смещен относительно ожидаемого значения вслед за несмещенностью a:
E (xp) = x0. Его ошибка εp = xr − xp
имеет нулевое математическое ожидание
r r r r
и дисперсию
σ2
2 1+ zr .ZtZ.−1
z
r
Прогнозирование 245
которая минимальна на множестве всех возможных линейных несмещенных про- гнозов.
εp
r = zr (α − a)+ εr .
Поскольку случайные величины a и εr не зависят друг от друга,
σ2 p 2.
r r 2
p = E .(εr )
= E (zr (α − a)(α − a) zr )+ E .εr . =
= zr Mazr + σ2
(7.29)
2
zr (ZrZ)−1 zr .
r 1+ r
Эта дисперсия минимальна среди всех возможных дисперсий линейных несмещен- ных прогнозов вслед за аналогичным свойством оценок a. Это является прямым следствием того, что оценки МНК относятся к классу BLUE. Для того чтобы в этом
убедиться, достаточно в доказательстве данного свойства оценок a, которое приве- дено в п. 7.2, заменить cr на zr .
i
i i
ожидание, но принципиально другую, существенно меньшую, дисперсию:
σ2
2 1 − zi .ZtZ.−1 t
z
.
i
i
a и εi
коррелированы и поэтому:
σ2
2 1+ zi (ZrZ)−1 r
←−−−→
(7.27)
= −Lε
g4
2
где oi — i-й орт
=
z
i
i i i
i
Структуру дисперсии ошибки прогноза (7.63) можно пояснить на примере n = 1. В этом случае (используются обозначения исходной формы уравнения ре- грессии, и все z — одномерные величины):
.
σ2 2
1 (zr − z¯)2 .
i
1+ +
N
zˆ2
. (7.64)
246 Глава 7. Основная модель линейной регрессии
В этом легко убедиться, если перейти к обозначениям исходной формы урав- нения регрессии, подставить в (7.63) вместо zr и Z , соответственно, .zr 1.
и .Z 1N . и сделать необходимые преобразования (правило обращения матрицы
(2 × 2) см. в Приложении A.1.2), учитывая, что
−1
ξ ξ
1 ξ −ξ
1 2
= 4
i
2 и ZrZ = zˆ2 + N z¯2 :
ξ3 ξ4
−ξ3 ξ1
−1
σ2 2
. . ZrZ N z¯
zr =
p = σ
1+
zr 1
N z¯
N 1
z
= σ2 1+ 1 .
. 1 z¯
−
r =
ZrZ − N z¯
zr 1
. 2 1
−z¯
2
1 ZrZ 1
N
= σ2
zr − 2z¯zr + N . zˆi + N z¯
i
= σ2
1
1+ +
N
(zr − z¯) .
i
Что и требовалось доказать.
Это выражение показывает «вклады» в дисперсию ошибки прогноза собствен- но остаточной дисперсии, ошибки оценки свободного члена и ошибки оценки угло- вого коэффициента. Первые две составляющие постоянны и не зависят от горизон- та прогнозирования, т.е. от того, насколько сильно условия прогноза (в частности, значение zr ) отличаются от условий, в которых построена модель (в частности,
значение
z¯). Третья составляющая — ошибка оценки углового коэффициента —
определяет расширяющийся конус ошибки прогноза.
Мы рассмотрели точечный прогноз. Если дополнительно к гипотезам g1−g4 предположить выполнение гипотезы g5 для i = 1, . . . , N и для r > N , то можно построить также интервальный прогноз.
По формуле (7.27) ошибка прогноза имеет вид:
εp
Таким образом, она имеет нормальное распределение:
εp p 2
r = xr − xr ∼ N (0, σp ).
Если бы дисперсия ошибки σ2 была известна, то на основе того, что
xr − xp
r
σp ∼
N (0, 1),
Упражнения и задачи 247
для xr можно было бы построить (1 − θ)100-процентный прогнозный интервал:
Таблица 7.1
xr ∈ [xp ± σpεˆ1
θ ] .
X
Z1
Z2
65.7
26.8
541
74.2
25.3
616
74
25.3
610
66.8
31.1
636
64.1
33.3
651
67.7
31.2
645
70.9
29.5
653
69.6
30.3
682
67
29.1
604
68.4
23.7
515
70.7
15.6
390
69.6
13.9
364
63.1
18.8
411
48.4
27.4
459
55.1
26.9
517
55.8
27.7
551
58.2
24.5
506
64.7
22.2
538
73.5
19.3
576
68.4
24.7
697
2 2 t
−1 t
Вместо неизвестной дисперсии σp = σ
берется несмещенная оценка
(1+ zr (Z Z)
zr )
s2 2
t −1 t
p = sˆe (1 + zr (Z Z)
zr ).
По аналогии с (7.44) можно вывести, что
xr − xp
r
sp ∼
tN −n
−1.
Тогда в приведенной формуле прогнозного интервала необ- ходимо заменить σp на sp и εˆ1−θ на tˆN −n−1, 1−θ :
xr ∈ . p ..
xr ± sptˆN −n−1, 1−θ