ЭКОНОМЕТРИКА и математическая экономика / Эконометрика. Учебник продвинутый (2005)
.pdf7.3. Независимые факторы: спецификация модели |
243 |
Информация, используемая в шаговой регрессии, расположена в 1-й строке первой матрицы: остаточная дисперсия в текущей регрессии (в столбце x), коэффициенты a1 текущей регрессии при переменных z1 (в столбцах z1 ), коэффициенты ce2 ковариации текущих остатков e с переменными z2 , не включенными в текущую регрессию (в столбцах z2 ).
Для введения очередного фактора в регрессию (шаг вперед) следует его строку в первой матрице преобразовать в орт, для исключения фактора из регрессии (шаг назад) следует преобразовать в орт его строку во второй матрице. Шаг вперед увеличивает количество элементов в векторе z1 на единицу и сокращает на единицу количество элементов в векторе z2 . Шаг назад приводит к обратным изменениям. Последствия любого из этих шагов можно оценить по F -критерию, рассчитав показатель pv F c-статистики (информацию для такого расчета дает остаточная дисперсия — первый элемент первой строки первой матрицы).
На текущем шаге процесса проверяются последствия введения всех ранее не введенных факторов z2 и исключения всех введенных факторов z1 . Выбирается тот вариант, который дает минимальное значение показателя pv. Процесс заканчивается, как только этот показатель перестает падать. В результате определяется наилучшая регрессия. Такой процесс не приводит, как правило, к включению в регрессию сильно коррелированных факторов, т.е. позволяет решить проблему мультиколлинеарности.
Если бы расчеты проводились в стандартизированной шкале (по коэффициентам корреляции, а не ковариации), «кандидатом» на введение был бы фактор с максимальным значением показателя в множестве ce2 (как было показано выше), а на исключение — фактор с минимальным значением показателя в множестве a1 . Но даже в этом случае для окончательного выбора (вводить-исключать) и решения вопроса о завершении процесса требуется использование F -критерия. При «работе» с коэффициентами ковариации использование F -критерия необходимо.
На последних шагах процесса, при приближении к минимуму критериального показателя pv, его величина меняется, как правило, весьма незначительно. Поэтому один из возможных подходов к использованию шаговой регрессии заключается в определении некоторого множества регрессий, получаемых на последних шагах процесса, которые практически одинаковы по своему качеству. И на этом множестве следует делать окончательный выбор, пользуясь содержательными критериями.
Иногда процесс шаговой регрессии предлагают строить на основе t-критерия: фактор вводится в уравнение, если его t-статистика больше некоторой заданной величины t1 , выводится из уравнения, если эта статистика меньше заданной величины t2 ; как правило, t1 > t2 . Такой процесс не гарантирует получение наилучшей
244 |
Глава 7. Основная модель линейной регрессии |
регрессии, его использовали в то время, когда вычислительные возможности были еще слабо развиты, и, в частности, точные значения показателя pv было трудно определить.
7.4. Прогнозирование
Пусть получены оценки параметров уравнения (7.11). Задача прогнозирования заключается в определении возможного значения (прогноза) переменной x, объясняемой этой моделью, при некоторых заданных значениях факторов z, которые не совпадают ни с одним из наблюдений в матрице Z. Более того, как правило, z лежит вне области, представляемой матрицей Z. При этом предполагается, что гипотезы g1−g3 по-прежнему выполняются.
Обычно термин «прогнозирование» используется в случае, когда наблюдения i = 1, . . . , N в матрице Z даны по последовательным моментам (периодам) времени, и заданные значения факторов z, для которых требуется определить прогноз x, относятся к какому-то будущему моменту времени, большему N (т.е. z лежит вне области, представляемой матрицей Z).
Методы прогнозирования могут быть различными. Если применяются относительно простые статистические методы, как в данном случае, то часто используют термин «экстраполирование». Если аналогичная задача решается для z, лежащих внутри области, представляемой наблюдениями в матрице Z (например, для «пропущенных» по каким-то причинам наблюдений), то используют термин «интерполирование». Процедуры экстраполирования и интерполирования с использованием модели (7.11) с формальной точки зрения одинаковы.
Итак, задан некоторый zr = [zr1 · · · zrn 1], который отличается от всех zi , i = 1, . . . , N (если i — обозначает момент времени, то r > N ).
xr = zr α + εr — истинное значение искомой величины, x0r = zr α — ожидаемое значение,
xpr = zr a — искомый (точечный) прогноз.
Предполагаем, что гипотезы g1−g4 выполнены как для i = 1, . . . , N , так и для r > N .
p (7.26)
Это линейный (относительно случайных величин X ) прогноз: xr = zr LX , он не смещен относительно ожидаемого значения вслед за несмещенностью a: E (xpr ) = x0r . Его ошибка εpr = xr − xpr имеет нулевое математическое ожидание и дисперсию
σ2 |
= σ2 |
1 + zr |
Z Z |
−1 z |
, |
(7.63) |
p |
|
|
|
r |
|
|
7.4. Прогнозирование |
245 |
которая минимальна на множестве всех возможных линейных несмещенных прогнозов.
Действительно:
εpr = zr (α − a) + εr .
Поскольку случайные величины a и εr не зависят друг от друга,
σ2 |
= E (εp)2 |
= E (z |
(α |
− |
a)(α |
− |
a) z ) + E ε2 |
= |
|
|
|
||
p |
r |
r |
|
|
r |
|
r |
(7.29) |
|
|
|
||
|
|
|
|
|
|
= zr Maz |
+ σ |
2 |
2 |
−1 |
z . |
||
|
|
|
|
|
|
|
= σ |
|
1 + zr (Z Z) |
||||
|
|
|
|
|
|
|
r |
|
|
|
|
|
r |
Эта дисперсия минимальна среди всех возможных дисперсий линейных несмещенных прогнозов вслед за аналогичным свойством оценок a. Это является прямым следствием того, что оценки МНК относятся к классу BLUE. Для того чтобы в этом убедиться, достаточно в доказательстве данного свойства оценок a, которое приведено в п. 7.2, заменить c на zr .
Следует иметь в виду, что ошибка любого расчетного по модели значения xci , являясь формально такой же: εci = xi − xci , имеет также нулевое математическое ожидание, но принципиально другую, существенно меньшую, дисперсию:
σi2 = σ2 1 − zi Z Z −1 zi .
Видно, что эта дисперсия даже меньше остаточной.
Действительно, как и прежде: εic |
= zi (α − a) + εi . Но теперь случайные величины |
||||||||||||||||||
a и εi коррелированы и поэтому: |
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
g4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
E(εεi ) = σ2 oi , |
|
||
σ2 = σ2 |
1 + z |
|
(Z Z)−1 z + 2z |
E((α |
|
|
a) ε |
где oi — i-й орт |
|
||||||||||
i |
− |
) |
= |
|
|
||||||||||||||
i |
|
|
|
|
|
|
i |
i |
|
|
|
i |
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
←−−−→ |
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
(7.27) |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
= |
|
−Lε |
|
|
|
|
|||
= σ2 |
|
1 + zi |
(Z |
Z)−1 z |
− 2σ |
2z |
i |
(Z |
Z)−1 z |
= σ2 |
1 − zi |
(Z Z)−1 z |
|||||||
|
|
|
|
|
i |
|
|
|
|
i |
|
i . |
|||||||
Величины 1 |
− |
z |
i |
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
(Z Z)−1 z (i = 1, . . . , N ), естественно, неотрицательны, посколь- |
ку они являются диагональными элементами матрицы B из (7.32), которая положительно полуопределена.
Структуру дисперсии ошибки прогноза (7.63) можно пояснить на примере n = 1. В этом случае (используются обозначения исходной формы уравнения регрессии, и все z — одномерные величины):
σ2 |
= σ2 |
1 + |
1 |
+ |
(zr − z¯)2 |
. |
(7.64) |
N |
|
||||||
p |
|
|
|
zˆ2 |
|
||
|
|
|
|
|
i |
|
246 |
|
|
|
|
|
Глава 7. Основная модель линейной регрессии |
|||||||||||||||||
В этом легко убедиться, если перейти к обозначениям исходной формы урав- |
|||||||||||||||||||||||
нения регрессии, подставить в (7.63) вместо zr |
и Z , соответственно, zr 1 |
||||||||||||||||||||||
и Z |
1N |
и сделать необходимые преобразования (правило обращения матрицы |
|||||||||||||||||||||
(2 × 2) см. в Приложении A.1.2), учитывая, что |
|
|
|
|
|
|
|||||||||||||||||
|
|
−1 |
1 |
|
|
|
|
|
|
−ξ2 |
|
|
|
|
|
|
|||||||
|
ξ1 |
ξ2 |
= |
|
|
|
|
ξ4 |
|
и Z Z = |
zˆi2 + N z¯2 : |
||||||||||||
|
|
|
|
ξ1ξ4 − ξ2ξ3 −ξ3 |
|
||||||||||||||||||
|
ξ3 |
ξ4 |
|
|
|
ξ1 |
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
−1 |
|
|
|
|
|
|
|
|
|
|
|
|
σ2 |
= σ2 |
1 + |
|
|
Z Z |
|
N z¯ |
|
|
zr |
= |
|
|
|
|
|
|||||||
|
zr |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
p |
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
N z¯ |
|
N |
|
|
|
|
|
|
|
|
|
|
|
|||||
|
= σ2 |
1 + |
|
|
1 |
|
|
|
1 |
1 |
|
|
−z¯ |
zr |
= |
|
|
|
|||||
|
Z Z − N z¯ zr |
|
z¯ |
|
|
|
|
||||||||||||||||
|
|
|
|
− |
|
1 |
Z Z 1 |
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N |
|
|
|
|
(zr − z¯)2 |
|
|||
|
= σ2 |
1 + |
zr2 − 2¯zzr + |
1 |
|
|
|
zˆi2 + N z¯2 |
= σ2 |
1 + |
1 |
+ |
. |
||||||||||
|
N |
|
|
||||||||||||||||||||
|
|
|
|
zˆ2 |
|
|
|
|
|
|
|
N |
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
zˆ2 |
||||
|
|
|
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
i |
Что и требовалось доказать.
Это выражение показывает «вклады» в дисперсию ошибки прогноза собственно остаточной дисперсии, ошибки оценки свободного члена и ошибки оценки углового коэффициента. Первые две составляющие постоянны и не зависят от горизонта прогнозирования, т.е. от того, насколько сильно условия прогноза (в частности, значение zr ) отличаются от условий, в которых построена модель (в частности, значение z¯). Третья составляющая — ошибка оценки углового коэффициента — определяет расширяющийся конус ошибки прогноза.
Мы рассмотрели точечный прогноз. Если дополнительно к гипотезам g1−g4 предположить выполнение гипотезы g5 для i = 1, . . . , N и для r > N , то можно построить также интервальный прогноз.
По формуле (7.27) ошибка прогноза имеет вид:
εpr = zr (α − a) + εr = zr Lε + εr .
Таким образом, она имеет нормальное распределение:
εpr = xr − xpr N (0, σp2 ).
Если бы дисперсия ошибки σ2 была известна, то на основе того, что
xr − xpr N (0, 1), σp
248 |
|
Глава 7. Основная модель линейной регрессии |
|
M + z¯ z¯ z¯ |
и m = |
m + z¯ x¯ |
|
б) M = |
|
. |
|
z¯ |
1 |
|
x¯ |
1.3.Найдите оценку a, рассчитайте s2x = N1 X X − x¯2 и s2q = m a − x¯2 и убедитесь, что результат совпадает с результатом пункта 1 упражнения 1.
1.4.Рассчитайте несмещенную оценку остаточной дисперсии
sˆ2 |
= |
N |
|
|
s2 |
||
|
|||
e |
|
N − n − 1 e |
и оцените матрицу ковариации параметров уравнения регрессии
sˆ2
Ma = e M −1 . N
1.5.Используя уровень значимости θ = 0.05, вычислите доверительные интервалы для коэффициентов уравнения регрессии и проверьте значимость факторов.
1.6. Рассчитайте статистику F c = |
R2(N − n − |
1) |
и, используя уровень значи- |
|
|||
(1 − R2)n |
|
||
|
|
|
мости θ = 0.05, проверьте гипотезу о том, что модель некорректна и все факторы введены в нее ошибочно.
1.7.Рассчитайте коэффициент детерминации, скорректированный на число сте-
пеней свободы ˜2.
R
1.8.По найденному уравнению регрессии и значениям
а) |
z = (min Z1, min Z2); |
|
б) |
¯ |
¯ |
z = (Z1 |
, Z2); |
|
в) |
z = (max Z1, max Z2); |
вычислите предсказанное значение для x и соответствующую интервальную оценку при θ = 0.05.
Упражнение 2
Дано уравнение регрессии: X = Zα + ε = −1.410z1 + 0.080z2 + 56.962 120 + ε, где X — вектор-столбец 20 наблюдений за объясняемой переменной (20 × 1), ε — вектор-столбец случайных ошибок (20 × 1) с нулевым средним и ковариационной матрицей σ2I20 = 21.611I20 и Z — матрица размерности (20 × 3) наблюдений за объясняющими переменными. Используя нормальное распределение
7.5. Упражнения и задачи |
249 |
с независимыми наблюдениями, со средним 0 и ковариационной матрицей σ2I20 = = 21.611I20 , получите 100 выборок вектора ε (N × 1), k = 1, . . . , 100, где N = = 20. Эти случайные векторы потом используйте вместе с известным вектором α = (−1.410, 0.080, 56.962) и матрицей Z = (Z1, Z2, 1) из таблицы 7.1. Сначала получите ожидаемое значения X0 = Zα, затем, чтобы получить 100 выборок вектора X (20 × 1), добавьте случайные ошибки: X0 + ε = X .
2.1.Используйте 10 из 100 выборок, чтобы получить выборочные оценки для α1 ,
α2 , β , σ и R2.
2.2.Вычислите матрицу ковариаций параметров уравнения регрессии Ma для каждого элемента выборки и сравните с истинным значением ковариационной матрицы:
σ2 Z Z |
−1 |
= |
0.099813 |
−0.004112 |
−0.233234 |
|
−0.004112 |
0.000290 |
−0.057857 |
. |
|||
|
|
|
|
|||
|
|
|
−0.233234 |
−0.057857 |
39.278158 |
|
Дайте интерпретацию диагональных элементов ковариационных матриц.
2.3.Вычислите среднее и дисперсию для 10 выборок для каждого из параметров, полученных в упражнении 2.1, и сравните эти средние значения с истинными параметрами. Обратите внимание, подтвердилась ли ожидаемые теоретические результаты.
2.4.Используя уровень значимости θ = 0.05, вычислите и сравните интервальные оценки для α1 , α2 , β и σ для 10 выборок.
2.5.Объедините 10 выборок, по 20 наблюдений каждая, в 5 выборок по 40 наблюдений и повторите упражнения 2.1 и 2.2. Сделайте выводы о результатах увеличения объема выборки.
2.6.Повторите упражнения 2.1 и 2.5 для всех 100 и для 50 выборок и проанализируйте разницу в результатах.
2.7.Постройте распределения частот для оценок, полученных в упражнении 2.6, сравните и прокомментируйте результаты.
250 |
Глава 7. Основная модель линейной регрессии |
Задачи
1. В регрессии X = Za + 1N b + e матрица вторых начальных моментов ре-
9 |
2 |
грессоров равна |
. Найдите дисперсию объясняющей переменной. |
21
2.На основании ежегодных данных за 10 лет с помощью МНК была сделана оценка параметров производственной функции типа Кобба—Дугласа. Чему равна несмещенная оценка дисперсии ошибки, если сумма квадратов остатков равна 32?
3.В регрессии X = Za + 1N b + e с факторами Z = (1, 2, 3) сумма квадратов остатков равна 6. Найдите ковариационную матрицу оценок параметров регрессии.
4.Какие свойства МНК-оценок коэффициентов регрессии теряются, если ошибки по наблюдениям коррелированы и/или имеют разные дисперсии?
5.Что обеспечивает гипотеза о нормальности распределения ошибок при построения уравнения регрессии? Ответ обоснуйте.
6.Какие ограничения на параметры уравнения проверяются с помощью t-кри- терия (написать ограничения с расшифровкой обозначений)?
7.Четырехфакторное уравнение регрессии оценено по 20-ти наблюдениям.
Вкаком случае отношение оценки коэффициента регрессии к ее стандартной ошибке имеет распределение t-Стьюдента? Сколько степенией свободы в этом случае имеет эта статистика?
8.Оценки МНК в регрессии по 20-ти наблюдениям равны (2, −1), а ковариа-
9 |
2 |
ционная матрица этих оценок равна |
. Найти статистики t-Стьюдента |
2 |
1 |
для этих коэффициентов. |
|
9.По 10 наблюдениям дана оценка 4 одному из коэффициентов двухфакторной регрессии. Дисперсия его ошибки равна 4. Построить 99%-ный доверительный интервал для этого коэффициента.
10.МНК-оценка параметра регрессии, полученная по 16 наблюдениям, равна 4, оценка его стандартной ошибки равна 1. Можно ли утверждать с вероятностью ошибки не более 5%, что истинное значение параметра равно 5.93? Объяснить почему.
7.5. Упражнения и задачи |
251 |
11.Оценка углового коэффициента регрессии равна 4, а дисперсия этой оценки равна 4. Значим ли этот коэффициент, если табличные значения:
tN −n−1, 0.95 = 2.4, tN −n−1, 0.90 = 1.9?
12.В результате оценивания регрессии x = zα + 1N β + ε на основе N = 30 наблюдений получены следующие результаты:
x = |
1.2z1 + |
1.0z2− 0.5z3+ |
25.1 |
||||
Стандартные ошибки оценок |
( ) |
(1.3) |
(0.06) |
(2.1) |
|||
t-статистика |
(0.8) |
( |
) |
( |
) |
( |
) |
95% доверительные интервалы |
(−1.88; 4.28) |
( |
) |
( |
) |
( |
) |
Заполните пропуски в скобках.
13. На основе годовых отчетов за 1973–1992 годы о затратах на продукты питания Q, располагаемом доходе Y , индексе цен на продукты питания P F и индексе цен на непродовольственные товары P N F , группа исследователей получила различные регрессионные уравнения для функции спроса на продукты питания:
ln Q = 3.87 |
− 1.34 ln P F |
|
|||
|
|
(1.45) |
(−4.54) |
|
|
R2 |
= |
0.56 |
|
|
|
ln Q = 2.83 |
− 0.92 ln P F + 1.23 ln Y |
||||
|
|
(1.25) |
(−2.70) |
(2.99) |
|
R2 |
= |
0.76 |
|
|
|
ln Q = |
2.35 |
− 0.52 ln P F + 0.95 ln Y + 1.54 ln P N F |
||
|
(1.54) |
(−1.80) |
(0.79) |
(2.45) |
R2 = |
0.84 |
|
|
|
В скобках приведены значения t-статистики.
Прокомментируйте полученные оценки коэффициентов и t-статистики, объясните, почему значения могут различаться в трех уравнениях. Можете ли вы предложить решение проблемы статистической незначимости коэффициентов в последнем уравнении?
252 |
Глава 7. Основная модель линейной регрессии |
14.Используя приведенные ниже данные, оцените параметры модели xt = β + + α1z1t + α2z2t + εt и, делая все необходимые предположения, проверьте статистическую значимость коэффициента α1 .
а) |
zˆ12t = 10, |
zˆ22t = 8, |
zˆ1tzˆ2t = 8, |
zˆ1txˆt = −10, |
zˆ2txˆt = −8, |
xˆ2 |
= 20, t = 1, . . . , 5; |
|
|
|
|
t |
|
|
|
|
|
б) |
z2 = 55, |
z2 = 28, |
z1tz2t = 38, |
z1txt = 35, |
z2txt = 22, |
|
1t |
2t |
|
|
|
xt = 15, z1 = 15, z2 = 10, N = 5, |
x2 = 65. |
|
15.Анализ годовых данных (21 наблюдение) о спросе на некоторый товар привел к следующим результатам:
Средние |
Стандартные |
Парные коэффициенты |
|
отклонения |
корреляции |
|
|
|
z¯ = 51.843 |
sz = 9.205 |
rxz = 0.9158 |
x¯ = 8.313 |
sx = 1.780 |
rxt = 0.8696 |
¯ |
st = 6.055 |
rzt = 0.9304 |
t = 0 |
z — потребление на душу населения, x — цена с учетом дефлятора, t — время (годы).
а) Найдите коэффициент при времени в оцененной регрессии x по z и t. б) Проверьте, будет ли этот коэффициент значимо отличен от нуля.
в) Кратко объясните экономический смысл включения в регрессию времени в качестве объясняющей переменной.
16.Какие ограничения на параметры уравнения можно проверить с помощью F -критерия? Написать ограничения с расшифровкой обозначений.
17.Пяти-факторное уравнение линейной регрессии для переменной x оценено по 31 наблюдению. При этом объясненная и смещенная остаточная дисперсии соответственно равны 8 и 2. Вычислить коэффициент детерминации и расчетное значение F -статистики.
18.В регрессии x = z1α1 +z2α2 +β +ε по 5-ти наблюдениям смещенная оценка остаточной дисперсии равна 1, а дисперсия зависимой переменной равна 2. Значима ли эта зависимость?
19.По 10 наблюдениям оценено двухфакторное уравнение линейной регрессии, коэффициент детерминации составляет 90%. При каком уровне доверия это уравнение статистически значимо? Записать уравнение для нахождения этого уровня значимости.