Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ЭКОНОМЕТРИКА и математическая экономика / Эконометрика. Учебник продвинутый (2005)

.pdf
Скачиваний:
512
Добавлен:
20.04.2015
Размер:
4.02 Mб
Скачать

7.3. Независимые факторы: спецификация модели

243

Информация, используемая в шаговой регрессии, расположена в 1-й строке первой матрицы: остаточная дисперсия в текущей регрессии (в столбце x), коэффициенты a1 текущей регрессии при переменных z1 (в столбцах z1 ), коэффициенты ce2 ковариации текущих остатков e с переменными z2 , не включенными в текущую регрессию (в столбцах z2 ).

Для введения очередного фактора в регрессию (шаг вперед) следует его строку в первой матрице преобразовать в орт, для исключения фактора из регрессии (шаг назад) следует преобразовать в орт его строку во второй матрице. Шаг вперед увеличивает количество элементов в векторе z1 на единицу и сокращает на единицу количество элементов в векторе z2 . Шаг назад приводит к обратным изменениям. Последствия любого из этих шагов можно оценить по F -критерию, рассчитав показатель pv F c-статистики (информацию для такого расчета дает остаточная дисперсия — первый элемент первой строки первой матрицы).

На текущем шаге процесса проверяются последствия введения всех ранее не введенных факторов z2 и исключения всех введенных факторов z1 . Выбирается тот вариант, который дает минимальное значение показателя pv. Процесс заканчивается, как только этот показатель перестает падать. В результате определяется наилучшая регрессия. Такой процесс не приводит, как правило, к включению в регрессию сильно коррелированных факторов, т.е. позволяет решить проблему мультиколлинеарности.

Если бы расчеты проводились в стандартизированной шкале (по коэффициентам корреляции, а не ковариации), «кандидатом» на введение был бы фактор с максимальным значением показателя в множестве ce2 (как было показано выше), а на исключение — фактор с минимальным значением показателя в множестве a1 . Но даже в этом случае для окончательного выбора (вводить-исключать) и решения вопроса о завершении процесса требуется использование F -критерия. При «работе» с коэффициентами ковариации использование F -критерия необходимо.

На последних шагах процесса, при приближении к минимуму критериального показателя pv, его величина меняется, как правило, весьма незначительно. Поэтому один из возможных подходов к использованию шаговой регрессии заключается в определении некоторого множества регрессий, получаемых на последних шагах процесса, которые практически одинаковы по своему качеству. И на этом множестве следует делать окончательный выбор, пользуясь содержательными критериями.

Иногда процесс шаговой регрессии предлагают строить на основе t-критерия: фактор вводится в уравнение, если его t-статистика больше некоторой заданной величины t1 , выводится из уравнения, если эта статистика меньше заданной величины t2 ; как правило, t1 > t2 . Такой процесс не гарантирует получение наилучшей

244

Глава 7. Основная модель линейной регрессии

регрессии, его использовали в то время, когда вычислительные возможности были еще слабо развиты, и, в частности, точные значения показателя pv было трудно определить.

7.4. Прогнозирование

Пусть получены оценки параметров уравнения (7.11). Задача прогнозирования заключается в определении возможного значения (прогноза) переменной x, объясняемой этой моделью, при некоторых заданных значениях факторов z, которые не совпадают ни с одним из наблюдений в матрице Z. Более того, как правило, z лежит вне области, представляемой матрицей Z. При этом предполагается, что гипотезы g1g3 по-прежнему выполняются.

Обычно термин «прогнозирование» используется в случае, когда наблюдения i = 1, . . . , N в матрице Z даны по последовательным моментам (периодам) времени, и заданные значения факторов z, для которых требуется определить прогноз x, относятся к какому-то будущему моменту времени, большему N (т.е. z лежит вне области, представляемой матрицей Z).

Методы прогнозирования могут быть различными. Если применяются относительно простые статистические методы, как в данном случае, то часто используют термин «экстраполирование». Если аналогичная задача решается для z, лежащих внутри области, представляемой наблюдениями в матрице Z (например, для «пропущенных» по каким-то причинам наблюдений), то используют термин «интерполирование». Процедуры экстраполирования и интерполирования с использованием модели (7.11) с формальной точки зрения одинаковы.

Итак, задан некоторый zr = [zr1 · · · zrn 1], который отличается от всех zi , i = 1, . . . , N (если i — обозначает момент времени, то r > N ).

xr = zr α + εr — истинное значение искомой величины, x0r = zr α — ожидаемое значение,

xpr = zr a — искомый (точечный) прогноз.

Предполагаем, что гипотезы g1g4 выполнены как для i = 1, . . . , N , так и для r > N .

p (7.26)

Это линейный (относительно случайных величин X ) прогноз: xr = zr LX , он не смещен относительно ожидаемого значения вслед за несмещенностью a: E (xpr ) = x0r . Его ошибка εpr = xr − xpr имеет нулевое математическое ожидание и дисперсию

σ2

= σ2

1 + zr

Z Z

1 z

,

(7.63)

p

 

 

 

r

 

 

7.4. Прогнозирование

245

которая минимальна на множестве всех возможных линейных несмещенных прогнозов.

Действительно:

εpr = zr (α − a) + εr .

Поскольку случайные величины a и εr не зависят друг от друга,

σ2

= E (εp)2

= E (z

(α

a)(α

a) z ) + E ε2

=

 

 

 

p

r

r

 

 

r

 

r

(7.29)

 

 

 

 

 

 

 

 

 

= zr Maz

+ σ

2

2

1

z .

 

 

 

 

 

 

 

= σ

 

1 + zr (Z Z)

 

 

 

 

 

 

 

r

 

 

 

 

 

r

Эта дисперсия минимальна среди всех возможных дисперсий линейных несмещенных прогнозов вслед за аналогичным свойством оценок a. Это является прямым следствием того, что оценки МНК относятся к классу BLUE. Для того чтобы в этом убедиться, достаточно в доказательстве данного свойства оценок a, которое приведено в п. 7.2, заменить c на zr .

Следует иметь в виду, что ошибка любого расчетного по модели значения xci , являясь формально такой же: εci = xi − xci , имеет также нулевое математическое ожидание, но принципиально другую, существенно меньшую, дисперсию:

σi2 = σ2 1 − zi Z Z 1 zi .

Видно, что эта дисперсия даже меньше остаточной.

Действительно, как и прежде: εic

= zi (α − a) + εi . Но теперь случайные величины

a и εi коррелированы и поэтому:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

g4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

E(εεi ) = σ2 oi ,

 

σ2 = σ2

1 + z

 

(Z Z)1 z + 2z

E((α

 

 

a) ε

где oi i-й орт

 

i

)

=

 

 

i

 

 

 

 

 

 

i

i

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

←−−−→

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(7.27)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

−Lε

 

 

 

 

= σ2

 

1 + zi

(Z

Z)1 z

2σ

2z

i

(Z

Z)1 z

= σ2

1 − zi

(Z Z)1 z

 

 

 

 

 

i

 

 

 

 

i

 

i .

Величины 1

z

i

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

(Z Z)1 z (i = 1, . . . , N ), естественно, неотрицательны, посколь-

ку они являются диагональными элементами матрицы B из (7.32), которая положительно полуопределена.

Структуру дисперсии ошибки прогноза (7.63) можно пояснить на примере n = 1. В этом случае (используются обозначения исходной формы уравнения регрессии, и все z — одномерные величины):

σ2

= σ2

1 +

1

+

(zr − z¯)2

.

(7.64)

N

 

p

 

 

 

zˆ2

 

 

 

 

 

 

i

 

246

 

 

 

 

 

Глава 7. Основная модель линейной регрессии

В этом легко убедиться, если перейти к обозначениям исходной формы урав-

нения регрессии, подставить в (7.63) вместо zr

и Z , соответственно, zr 1

и Z

1N

и сделать необходимые преобразования (правило обращения матрицы

(2 × 2) см. в Приложении A.1.2), учитывая, что

 

 

 

 

 

 

 

 

1

1

 

 

 

 

 

 

−ξ2

 

 

 

 

 

 

 

ξ1

ξ2

=

 

 

 

 

ξ4

 

и Z Z =

zˆi2 + N z¯2 :

 

 

 

 

ξ1ξ4 ξ2ξ3 −ξ3

 

 

ξ3

ξ4

 

 

 

ξ1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

σ2

= σ2

1 +

 

 

Z Z

 

N z¯

 

 

zr

=

 

 

 

 

 

 

zr

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

N z¯

 

N

 

 

 

 

 

 

 

 

 

 

 

 

= σ2

1 +

 

 

1

 

 

 

1

1

 

 

−z¯

zr

=

 

 

 

 

Z Z − N z¯ zr

 

z¯

 

 

 

 

 

 

 

 

 

1

Z Z 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

(zr − z¯)2

 

 

= σ2

1 +

zr2 zzr +

1

 

 

 

zˆi2 + N z¯2

= σ2

1 +

1

+

.

 

N

 

 

 

 

 

 

zˆ2

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

zˆ2

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

i

Что и требовалось доказать.

Это выражение показывает «вклады» в дисперсию ошибки прогноза собственно остаточной дисперсии, ошибки оценки свободного члена и ошибки оценки углового коэффициента. Первые две составляющие постоянны и не зависят от горизонта прогнозирования, т.е. от того, насколько сильно условия прогноза (в частности, значение zr ) отличаются от условий, в которых построена модель (в частности, значение z¯). Третья составляющая — ошибка оценки углового коэффициента — определяет расширяющийся конус ошибки прогноза.

Мы рассмотрели точечный прогноз. Если дополнительно к гипотезам g1g4 предположить выполнение гипотезы g5 для i = 1, . . . , N и для r > N , то можно построить также интервальный прогноз.

По формуле (7.27) ошибка прогноза имеет вид:

εpr = zr (α − a) + εr = zr Lε + εr .

Таким образом, она имеет нормальное распределение:

εpr = xr − xpr N (0, σp2 ).

Если бы дисперсия ошибки σ2 была известна, то на основе того, что

xr − xpr N (0, 1), σp

7.5. Упражнения и задачи

для xr можно было бы построить (1 θ)100-процентный прогнозный интервал:

xr [xpr ± σpεˆ1−θ ] .

Вместо неизвестной дисперсии σp2 = σ2(1+ zr (Z Z)1zr ) берется несмещенная оценка

s2p = sˆ2e (1 + zr (Z Z)1zr ).

По аналогии с (7.44) можно вывести, что

xr − xpr tN −n−1.

sp

Тогда в приведенной формуле прогнозного интервала необ-

ходимо заменить σp на sp

и εˆ1−θ на

ˆ

tN −n−1, 1−θ :

xr

p

 

ˆ

 

xr

± sptN −n−1, 1−θ .

7.5. Упражнения и задачи

Упражнение 1

По наблюдениям за объясняемой переменной X и за объясняющими переменными Z = (Z1, Z2) из таблицы 7.1:

1.1. Вычислите ковариационную матрицу переменных z

1 ˆ ˆ , вектор ковариаций переменных с пе-

(M = N Z Z) z

ременной ( 1 ˆ ˆ ), дисперсию объясняемой x m = N Z X

переменной s2x. Для регрессии X = Za + 1N b + e найдите оценки a и b, объясненную дисперсию s2q = m a и остаточную дисперсию s2e = s2x − s2q , а также коэффициент детерминации R2.

 

 

247

Таблица 7.1

 

 

 

 

X

Z1

Z2

 

 

 

 

 

65.7

26.8

541

 

 

 

 

 

74.2

25.3

616

 

 

 

 

 

74

25.3

610

 

 

 

 

 

66.8

31.1

636

 

 

 

 

 

64.1

33.3

651

 

 

 

 

 

67.7

31.2

645

 

 

 

 

 

70.9

29.5

653

 

 

 

 

 

69.6

30.3

682

 

 

 

 

 

67

29.1

604

 

 

 

 

 

68.4

23.7

515

 

 

 

 

 

70.7

15.6

390

 

 

 

 

 

69.6

13.9

364

 

 

 

 

 

63.1

18.8

411

 

 

 

 

 

48.4

27.4

459

 

 

 

 

 

55.1

26.9

517

 

 

 

 

 

55.8

27.7

551

 

 

 

 

 

58.2

24.5

506

 

 

 

 

 

64.7

22.2

538

 

 

 

 

 

73.5

19.3

576

 

 

 

 

 

68.4

24.7

697

 

 

 

 

 

1.2.Запишите для данной модели уравнение регрессии в форме со скрытым свободным членом X = Za + e. Рассчитайте для переменных начальные моменты второго порядка двумя способами:

а)

M =

1

Z Z и m =

1

Z X

N

N

 

 

 

 

248

 

Глава 7. Основная модель линейной регрессии

M + z¯ z¯ z¯

и m =

m + z¯ x¯

б) M =

 

.

z¯

1

 

x¯

1.3.Найдите оценку a, рассчитайте s2x = N1 X X − x¯2 и s2q = m a − x¯2 и убедитесь, что результат совпадает с результатом пункта 1 упражнения 1.

1.4.Рассчитайте несмещенную оценку остаточной дисперсии

sˆ2

=

N

 

s2

 

e

 

N − n − 1 e

и оцените матрицу ковариации параметров уравнения регрессии

sˆ2

Ma = e M 1 . N

1.5.Используя уровень значимости θ = 0.05, вычислите доверительные интервалы для коэффициентов уравнения регрессии и проверьте значимость факторов.

1.6. Рассчитайте статистику F c =

R2(N − n −

1)

и, используя уровень значи-

 

(1 − R2)n

 

 

 

 

мости θ = 0.05, проверьте гипотезу о том, что модель некорректна и все факторы введены в нее ошибочно.

1.7.Рассчитайте коэффициент детерминации, скорректированный на число сте-

пеней свободы ˜2.

R

1.8.По найденному уравнению регрессии и значениям

а)

z = (min Z1, min Z2);

б)

¯

¯

z = (Z1

, Z2);

в)

z = (max Z1, max Z2);

вычислите предсказанное значение для x и соответствующую интервальную оценку при θ = 0.05.

Упражнение 2

Дано уравнение регрессии: X = + ε = 1.410z1 + 0.080z2 + 56.962 120 + ε, где X — вектор-столбец 20 наблюдений за объясняемой переменной (20 × 1), ε — вектор-столбец случайных ошибок (20 × 1) с нулевым средним и ковариационной матрицей σ2I20 = 21.611I20 и Z — матрица размерности (20 × 3) наблюдений за объясняющими переменными. Используя нормальное распределение

7.5. Упражнения и задачи

249

с независимыми наблюдениями, со средним 0 и ковариационной матрицей σ2I20 = = 21.611I20 , получите 100 выборок вектора ε (N × 1), k = 1, . . . , 100, где N = = 20. Эти случайные векторы потом используйте вместе с известным вектором α = (1.410, 0.080, 56.962) и матрицей Z = (Z1, Z2, 1) из таблицы 7.1. Сначала получите ожидаемое значения X0 = , затем, чтобы получить 100 выборок вектора X (20 × 1), добавьте случайные ошибки: X0 + ε = X .

2.1.Используйте 10 из 100 выборок, чтобы получить выборочные оценки для α1 ,

α2 , β , σ и R2.

2.2.Вычислите матрицу ковариаций параметров уравнения регрессии Ma для каждого элемента выборки и сравните с истинным значением ковариационной матрицы:

σ2 Z Z

1

=

0.099813

0.004112

0.233234

 

0.004112

0.000290

0.057857

.

 

 

 

 

 

 

 

0.233234

0.057857

39.278158

 

Дайте интерпретацию диагональных элементов ковариационных матриц.

2.3.Вычислите среднее и дисперсию для 10 выборок для каждого из параметров, полученных в упражнении 2.1, и сравните эти средние значения с истинными параметрами. Обратите внимание, подтвердилась ли ожидаемые теоретические результаты.

2.4.Используя уровень значимости θ = 0.05, вычислите и сравните интервальные оценки для α1 , α2 , β и σ для 10 выборок.

2.5.Объедините 10 выборок, по 20 наблюдений каждая, в 5 выборок по 40 наблюдений и повторите упражнения 2.1 и 2.2. Сделайте выводы о результатах увеличения объема выборки.

2.6.Повторите упражнения 2.1 и 2.5 для всех 100 и для 50 выборок и проанализируйте разницу в результатах.

2.7.Постройте распределения частот для оценок, полученных в упражнении 2.6, сравните и прокомментируйте результаты.

250

Глава 7. Основная модель линейной регрессии

Задачи

1. В регрессии X = Za + 1N b + e матрица вторых начальных моментов ре-

9

2

грессоров равна

. Найдите дисперсию объясняющей переменной.

21

2.На основании ежегодных данных за 10 лет с помощью МНК была сделана оценка параметров производственной функции типа Кобба—Дугласа. Чему равна несмещенная оценка дисперсии ошибки, если сумма квадратов остатков равна 32?

3.В регрессии X = Za + 1N b + e с факторами Z = (1, 2, 3) сумма квадратов остатков равна 6. Найдите ковариационную матрицу оценок параметров регрессии.

4.Какие свойства МНК-оценок коэффициентов регрессии теряются, если ошибки по наблюдениям коррелированы и/или имеют разные дисперсии?

5.Что обеспечивает гипотеза о нормальности распределения ошибок при построения уравнения регрессии? Ответ обоснуйте.

6.Какие ограничения на параметры уравнения проверяются с помощью t-кри- терия (написать ограничения с расшифровкой обозначений)?

7.Четырехфакторное уравнение регрессии оценено по 20-ти наблюдениям.

Вкаком случае отношение оценки коэффициента регрессии к ее стандартной ошибке имеет распределение t-Стьюдента? Сколько степенией свободы в этом случае имеет эта статистика?

8.Оценки МНК в регрессии по 20-ти наблюдениям равны (2, −1), а ковариа-

9

2

ционная матрица этих оценок равна

. Найти статистики t-Стьюдента

2

1

для этих коэффициентов.

 

9.По 10 наблюдениям дана оценка 4 одному из коэффициентов двухфакторной регрессии. Дисперсия его ошибки равна 4. Построить 99%-ный доверительный интервал для этого коэффициента.

10.МНК-оценка параметра регрессии, полученная по 16 наблюдениям, равна 4, оценка его стандартной ошибки равна 1. Можно ли утверждать с вероятностью ошибки не более 5%, что истинное значение параметра равно 5.93? Объяснить почему.

7.5. Упражнения и задачи

251

11.Оценка углового коэффициента регрессии равна 4, а дисперсия этой оценки равна 4. Значим ли этот коэффициент, если табличные значения:

tN −n−1, 0.95 = 2.4, tN −n−1, 0.90 = 1.9?

12.В результате оценивания регрессии x = + 1N β + ε на основе N = 30 наблюдений получены следующие результаты:

x =

1.2z1 +

1.0z20.5z3+

25.1

Стандартные ошибки оценок

( )

(1.3)

(0.06)

(2.1)

t-статистика

(0.8)

(

)

(

)

(

)

95% доверительные интервалы

(1.88; 4.28)

(

)

(

)

(

)

Заполните пропуски в скобках.

13. На основе годовых отчетов за 1973–1992 годы о затратах на продукты питания Q, располагаемом доходе Y , индексе цен на продукты питания P F и индексе цен на непродовольственные товары P N F , группа исследователей получила различные регрессионные уравнения для функции спроса на продукты питания:

ln Q = 3.87

1.34 ln P F

 

 

 

(1.45)

(4.54)

 

R2

=

0.56

 

 

 

ln Q = 2.83

0.92 ln P F + 1.23 ln Y

 

 

(1.25)

(2.70)

(2.99)

R2

=

0.76

 

 

 

ln Q =

2.35

0.52 ln P F + 0.95 ln Y + 1.54 ln P N F

 

(1.54)

(1.80)

(0.79)

(2.45)

R2 =

0.84

 

 

 

В скобках приведены значения t-статистики.

Прокомментируйте полученные оценки коэффициентов и t-статистики, объясните, почему значения могут различаться в трех уравнениях. Можете ли вы предложить решение проблемы статистической незначимости коэффициентов в последнем уравнении?

252

Глава 7. Основная модель линейной регрессии

14.Используя приведенные ниже данные, оцените параметры модели xt = β + + α1z1t + α2z2t + εt и, делая все необходимые предположения, проверьте статистическую значимость коэффициента α1 .

а)

zˆ12t = 10,

zˆ22t = 8,

zˆ1tzˆ2t = 8,

zˆ1txˆt = 10,

zˆ2txˆt = 8,

xˆ2

= 20, t = 1, . . . , 5;

 

 

 

t

 

 

 

 

 

б)

z2 = 55,

z2 = 28,

z1tz2t = 38,

z1txt = 35,

z2txt = 22,

 

1t

2t

 

 

 

xt = 15, z1 = 15, z2 = 10, N = 5,

x2 = 65.

 

15.Анализ годовых данных (21 наблюдение) о спросе на некоторый товар привел к следующим результатам:

Средние

Стандартные

Парные коэффициенты

 

отклонения

корреляции

 

 

 

z¯ = 51.843

sz = 9.205

rxz = 0.9158

x¯ = 8.313

sx = 1.780

rxt = 0.8696

¯

st = 6.055

rzt = 0.9304

t = 0

z — потребление на душу населения, x — цена с учетом дефлятора, t — время (годы).

а) Найдите коэффициент при времени в оцененной регрессии x по z и t. б) Проверьте, будет ли этот коэффициент значимо отличен от нуля.

в) Кратко объясните экономический смысл включения в регрессию времени в качестве объясняющей переменной.

16.Какие ограничения на параметры уравнения можно проверить с помощью F -критерия? Написать ограничения с расшифровкой обозначений.

17.Пяти-факторное уравнение линейной регрессии для переменной x оценено по 31 наблюдению. При этом объясненная и смещенная остаточная дисперсии соответственно равны 8 и 2. Вычислить коэффициент детерминации и расчетное значение F -статистики.

18.В регрессии x = z1α1 +z2α2 +β +ε по 5-ти наблюдениям смещенная оценка остаточной дисперсии равна 1, а дисперсия зависимой переменной равна 2. Значима ли эта зависимость?

19.По 10 наблюдениям оценено двухфакторное уравнение линейной регрессии, коэффициент детерминации составляет 90%. При каком уровне доверия это уравнение статистически значимо? Записать уравнение для нахождения этого уровня значимости.