Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ведение в социально - экономическую статистику. Учебник. Новосибирск, 2004. 739 с

.pdf
Скачиваний:
43
Добавлен:
22.08.2013
Размер:
4.02 Mб
Скачать

7.5. Упражнения и задачи

253

20. Используя следующие данные:

X = (5, 1, −2, 5, −4) , Z = (1, 2, 3, 4, 5) ,

и делая все необходимые предположения

а) для X = + 1N β + ε оценить 95-процентные доверительные интервалы для параметров регрессии;

б) проверить значимость коэффициентов регрессии и оценить качество регрессии с вероятностью ошибки 5%.

21. Пусть

X = α1Z1 + α2Z2 + ε, X = (4, −2, 4, 0) , Z1 = (1, 1, 2, 2)

и Z2

= 2Z1 . Постройте систему нормальных уравнений и покажите, что

существует бесконечное множество решений для a1

и a2 . Выберите любые

два решения, покажите, что они дают одинаковые расчетные значения X и,

таким образом, одинаковые значения суммы квадратов ошибок.

22. Для уравнения регрессии X = + 15β + ε имеются следующие данные:

4

1.03 2.08

0.41

8

1.46 2.80

2.03

X = 5.5 , Z = (Z1 Z2 Z3) =

1.14

2.30 0.98 .

5.8

1.71

3.05

0.81

7.0

1.06

2.17

1.17

а) Являются ли факторы линейно зависимыми?

б) Найти матрицу коэффициентов корреляции факторных переменных, рассчитать определитель данной матрицы и сделать вывод о мультиколлинеарности факторов.

в) Рассчитать определитель матрицы коэффициентов корреляции факторных переменных в случае, если из уравнения выводится фактор Z2.

г) Учесть дополнительную внешнюю информацию: α1 = 1.5α2 (с помощью подстановки в уравнение регрессии) и найти определитель матрицы коэффициентов корреляции факторных переменных.

д) Построить точечный прогноз x (xpr ) для значений экзогенных переменных zr = (z1r , z2r , z3r ) = (0.8, 1.6, 0.6):

при использовании исходного уравнения;

при исключении из уравнения фактора Z2;

254

Глава 7. Основная модель линейной регрессии

при использовании внешней информации из пункта (г).

23.Пусть цены сильно коррелируют с денежной массой и неплатежами. Ко-

эффициент корреляции между денежной массой и неплатежами равен 0.975 R2 = 0.95 . Имеет ли смысл строить регрессию цен на эти два (сильно мультиколлинеарных) фактора?

24.Модель

x = α1z1 + α2z2 + β + ε

(1)

была оценена по МНК, и был получен коэффициент детерминации R12, а для преобразованной модели

x = α1z1 + α2z2 + α3z3 + β + ε

(2)

был получен коэффициент детерминации R22 .

а) Объясните, почему R21 не может быть больше, чем R22 . При каких условиях они равны?

б) Объясните последствия оценки модели (1), если верной является модель (2).

25.В регрессии x = α1z1 + β + ε остатки равны (2, 1, 0, 1). Оценивается регрессия x = α1z1 + α2z2 + β + ε. Привести пример переменной z2 , чтобы коэффициенты детерминации в обеих регрессиях совпадали.

26.В регрессию x = α1z1 + β + ε добавили переменную z2 . Переменная z2 оказалась совершенно незначимой. Как изменились обычный и скорректированный коэффициенты детерминации?

27.Коэффициент детерминации в регрессии выпуска продукции по численности занятых в производстве, оцененной по 12 наблюдениям, равен 0.8. После введения в регрессию дополнительного фактора — основного капитала — он вырос до 0.819. Имело ли смысл вводить этот дополнительный фактор? Ответ обосновать без применения статистических критериев.

28.Дана модель регрессии xi = α1zi + β + εi .

а) Как оценивается точечный прогноз xN +1 , если известно, что β = 0?

 

z2

Покажите, что дисперсия ошибок прогноза будет равна σ2 1 +

N +1

.

 

 

N

 

z2

 

i

 

i=1

7.5. Упражнения и задачи

 

255

б) Как оценивается точечный прогноз xN +1 , если известно, что α = 0?

Покажите, что дисперсия ошибок прогноза будет равна σ2

1 +

1

.

 

 

 

N

29.Почему ошибки прогнозирования по линейной регрессии увеличиваются с ростом горизонта прогноза?

30.Была оценена регрессия x = α1z + β + ε по 50 наблюдениям. Делается прогноз x в точке z51 . При каком значении z51 доверительный интервал прогноза будет самым узким?

31.Вычислите предсказанное значение для x и соответствующую интервальную оценку прогноза при θ = 0.05 в точке z26 = 14, если регрессионная модель x = 3z + 220 + e построена по 25 наблюдениям, остаточная дисперсия равна 25 и средняя по z равна 14.

Рекомендуемая литература

1.Айвазян С.А. Основы эконометрики. Т.2. — М.: Юнити, 2001. (Гл. 2).

2.Демиденко Е.З. Линейная и нелинейная регрессия. — М.: «Финансы и статистика», 1981. (Гл. 1, 2, 6).

3.Джонстон Дж. Эконометрические методы. — М.: «Статистика», 1980. (Гл. 2, 5).

4.Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х книгах. Кн.1 — М.: «Финансы и статистика», 1986, (Гл. 1, 2).

5.Кейн Э. Экономическая статистика и эконометрия. Вып. 2. — М.: «Статистика», 1977. (Гл. 10, 11, 14).

6.Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика — начальный курс. — М.: «Дело», 2000. (Гл. 3, 4, 8).

7.(*) Маленво Э. Статистические методы эконометрии. Вып. 1. — М.: «Статистика», 1975. (Гл. 3, 6).

8.Себер Дж. Линейный регрессионый анализ. — М.: Мир, 1980.

9.Тинтер Г. Введение в эконометрию. — М.: «Статистика», 1965. (Гл. 5).

10.Davidson, Russel, Mackinnon, James. Estimation and Inference in Econometrics, N 9, Oxford University Press, 1993. (Ch. 2).

256

Глава 7. Основная модель линейной регрессии

11.Greene W.H. Econometric Analysis, Prentice-Hall, 2000. (Ch. 6, 7).

12.Judge G.G., Hill R.C., Griffiths W.E., Luthepohl H., Lee T. Introduction to the Theory and Practice of Econometric. John Wiley & Sons, Inc., 1993. (Ch. 5, 21).

13.(*) William E., Griffiths R., Carter H., George G. Judge. Learning and Practicing econometrics, N 9 John Wiley & Sons, Inc., 1993. (Ch. 8).

Глава 8

Нарушение гипотез основной линейной модели

8.1.Обобщенный метод наименьших квадратов (взвешенная регрессия)

Пусть нарушена гипотеза g4 и матрица ковариации ошибок по наблюдениям равна не σ2IN , а σ2Ω, где Ω — вещественная симметричная положительно полуопределенная матрица (см. Приложение A.1.2), т.е. ошибки могут быть коррелированы по наблюдениям и иметь разную дисперсию. В этом случае обычные МНК-оценки параметров регрессии (7.26) остаются несмещенными и состоятельными, но перестают быть эффективными в классе линейных несмещенных оценок.

Ковариационная матрица оценок МНК в этом случае приобретает вид

Ma = σ2 Z Z 1 Z Z Z Z 1 .

Действительно, a

E (a) = a

α = (Z

Z)1 Z ε, поэтому

 

 

 

E (a

E(a)) (a

E(a))

= (Z Z)1

Z E (εε ) Z (Z Z)1 =

 

 

 

 

 

 

 

 

= σ2 (Z Z)1 Z Z (Z Z)1 .

(Ср. с выводом формулы (7.28), где Ω = σ2I .)

258 Глава 8. Нарушение гипотез основной линейной модели

Обычная оценка ковариационной матрицы s2e (Z Z)1 при этом является смещенной и несостоятельной. Как следствие, смещенными и несостоятельными оказываются оценки стандартных ошибок оценок параметров (7.35): чаще всего они преуменьшаются (т.к. ошибки по наблюдениям обычно коррелированы положительно), и заключения о качестве построенной регрессии оказываются неоправданно оптимистичными.

По этим причинам желательно применять обобщенный МНК (ОМНК), заключающийся в минимизации обобщенной остаточной дисперсии

N1 e 1e.

В обобщенной остаточной дисперсии остатки взвешиваются в соответствии со структурой ковариационной матрицы ошибок. Минимизация приводит к получению следующего оператора ОМНК-оценивания (ср. с (7.13), где Ω = IN ):

a = (Z 1Z)1Z 1X.

(8.1)

Для обоснования ОМНК проводится преобразование в пространстве наблюдений (см. параграф 6.4) с помощью невырожденной матрицы D размерности N × N , такой, что D1D1 = Ω (такое представление допускает любая вещественная симметричная положительно определенная матрица, см. Приложение A.1.2):

DX = DZα + Dε.

(8.2)

Такое преобразование возвращает модель в «штатную» ситуацию, поскольку новые остатки удовлетворяют гипотезе g4:

E(Dεε D ) = 2D = σ2DD1D1D = σ2IN .

Остаточная дисперсия теперь записывается как N1 e D De, а оператор оценивания — как a = (Z D DZ)1Z D DX .

Что и требовалось доказать, поскольку D D = Ω1 .

Обычно ни дисперсии, ни тем более ковариации ошибок по наблюдениям не известны. В классической эконометрии рассматриваются два частных случая.

8.2. Гетероскедастичность ошибок

Пусть ошибки не коррелированы по наблюдениям, и матрица Ω (а вслед за ней и матрица D) диагональна. Если эта матрица единична, т.е. дисперсии ошибок

8.2. Гетероскедастичность ошибок

259

одинаковы по наблюдениям (гипотеза g4 не нарушена), то имеет место гомоскедастичность или однородность ошибок по дисперсии — «штатная» ситуация. В противном случае констатируют гетероскедастичность ошибок или их неоднородность по дисперсии.

Пусть var(εi) = σi2 — дисперсия ошибки i-го наблюдения. Гомоскедастичность означает, что все числа σi2 одинаковы, а гетероскедастичность — что среди них есть несовпадающие.

Факт неоднородности остатков по дисперсии мало сказывается на качестве оценок регрессии, если эти дисперсии не коррелированы с независимыми факторами. Это — случай гетероскедастичности «без негативных последствий».

Данное утверждение можно проиллюстрировать в случае, когда в матрице Z всего один столбец, т.е. n = 1 и свободный член отсутствует. Тогда формула (7.33) приобретает вид:

 

 

 

 

 

 

 

1

 

 

 

σ2z2

 

 

 

 

 

 

 

 

 

E(se2) =

 

 

i

i

i

 

 

 

 

 

 

 

 

 

 

σi2

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

z2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если ситуация штатная и σ2

= σ2

, то правая часть этой формулы преобразуется к ви-

 

N − 1

 

N

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

ду

σ2 , и

s2

оказывается несмещенной оценкой σ2 , как и было пока-

 

N − 1

 

N

e

 

 

 

 

 

 

 

 

 

 

 

 

1

 

зано в параграфе 7.2. Если σi и zi не коррелированы, то, обозначив σ2 =

σ2 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

i

можно утверждать, что

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ2z2

 

 

 

σ2 z2

 

 

 

 

 

 

 

 

 

 

 

 

i

i

 

zi2

i

 

= σ

2

,

 

 

 

 

 

 

i

 

 

 

i

zi2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

i

 

 

 

 

 

 

т.е. ситуация остается прежней. И только если σi и zi положительно (или отрицательно) коррелированы, факт гетероскедастичности имеет негативные последствия.

 

 

 

 

 

 

σ2z2

 

Действительно, в случае положительной корреляции

i

i

> σ2 и, следова-

z

2

 

 

N

 

 

 

i

 

тельно,

E

s2

< σ2 . Обычная «несмещенная» оценка остаточной диспер-

 

 

N − 1

 

 

e

 

 

 

 

сии оказывается по математическому ожиданию меньше действительного значения остаточной дисперсии, т.е. она (оценка остаточной дисперсии) дает основания для неоправданно оптимистичных заключений о качестве полученной оценки модели.

Следует заметить, что факт зависимости дисперсий ошибок от независимых факторов в экономике весьма распространен. В экономике одинаковыми по дисперсии скорее являются относительные (ε z ), а не абсолютные (ε) ошибки. Поэтому, когда оценивается модель на основе данных по предприятиям, которые могут иметь

260

Глава 8. Нарушение гипотез основной линейной модели

и, как правило, имеют различные масштабы, гетероскедастичности с негативными последствиями просто не может не быть.

Если имеет место гетероскедастичность, то, как правило, дисперсия ошибки связана с одной или несколькими переменными, в первую очередь — с факторами регрессии. Пусть, например, дисперсия может зависеть от некоторой переменной yi , которая не является константой:

σi2 = σ2(yi), i = 1, . . . , N.

Как правило, в качестве переменной yi берется один из независимых факторов или математическое ожидание изучаемой переменной, т.е. x0 = (в качестве его оценки используют расчетные значения изучаемой переменной Za).

В этой ситуации желательно решить две задачи: во-первых, определить, имеет ли место предполагаемая зависимость, а во-вторых, если зависимость обнаружена, получить оценки с ее учетом. При этом могут использоваться три группы методов. Методы первой группы позволяют работать с гетероскедастичностью, которая задается произвольной непрерывной функцией σ2(·). Для методов второй группы функция σ2(·) должна быть монотонной. В методах третьей группы функция σ2(·) предполагается известной с точностью до конечного числа параметров.

Примером метода из первой группы является критерий Бартлетта, который заключается в следующем.

Пусть модель оценена и найдены остатки ei, i = 1, . . . , N . Для расчета bc — статистики, лежащей в основе применения этого критерия, все множество наблюдений делится по какому-либо принципу на k непересекающихся подмножеств. В частности, если требуется выявить, имеется ли зависимость от некоторой переменной yi, то все наблюдения упорядочиваются по возрастанию yi, а затем в соответствии с этим порядком делятся на подмножества. Пусть

k

Nl — количество элементов в l-м подмножестве, Nl = N ;

l=1

s2l — оценка дисперсии остатков в l-м подмножестве, найденная на основе остатков ei ;

 

 

1

k

2

 

 

 

 

 

bs =

 

N

l=1

Nlsl

— отношение средней арифметической дисперсий к сред-

 

 

 

 

 

 

1

 

 

k

/N

s2l Nl

l=1

ней геометрической; это отношение в соответствии со свойством мажорантности средних (см. п. 2.2) больше или равно единице, и чем сильнее различаются дисперсии по подмножествам, тем оно выше.

8.2. Гетероскедастичность ошибок

261

ei2

s2

 

2

 

s2

2

1

s4

s2

s2

5

3

yi

 

Рис. 8.1

Тогда статистика Бартлетта равна

bc =

 

N

 

 

 

 

ln bs.

 

k 1

1

 

 

 

l=1

 

 

 

 

 

1 +

Nl

N

 

3(k − 1)

 

 

 

 

При однородности наблюдений по дисперсии (нулевая гипотеза) эта статистика распределена как χ2k−1. Проверка нулевой гипотезы проводится по обычному алгоритму.

Если нулевую гипотезу отвергнуть не удалось, т.е. ситуация гомоскедастична, то исходная оценка модели удовлетворительна. Если же нулевая гипотеза отвергнута, то ситуация гетероскедастична.

Принцип построения статистики Бартлетта иллюстрирует рисунок 8.1.

Классический метод второй группы заключается в следующем. Все наблюдения упорядочиваются по возрастанию некоторой переменной yi. Затем оцениваются две вспомогательные регрессии: по K «малым» и по K «большим» наблюдениям (с целью повышения мощности критерия средние N − 2K наблюдения в расчете не участвуют, а K можно, например, выбрать равным приблизительно трети N ). Пусть s21 — остаточная дисперсия в первой из этих регрессий, а s22 — во второй. В случае гомоскедастичности ошибок (нулевая гипотеза) отношение двух дисперсий распределено как

s2

s22 FK−n−1, K−n−1.

1

Здесь следует применять обычный F -критерий. Нулевая гипотеза о гомоскедастичности принимается, если рассчитанная статистика превышает 95%-ный квантиль F -распределения.

262

Глава 8. Нарушение гипотез основной линейной модели

ei2

s22

s2

yi

1

 

Рис. 8.2

Такой подход применяется, если ожидается, что дисперсия может быть только положительно коррелирована с переменной yi . Если неизвестно, положительно или отрицательно коррелирована дисперсия с рассматриваемым фактором, то следует отклонять нулевую гипотезу как при больших, так и при малых значениях ста-

тистики s22 s21 . Можно применить следующий прием: рассчитать статистику как

отношение максимальной из дисперсий s21 и s22 к минимальной. Такая статистика будет иметь усеченное F -распределение, где усечение происходит на уровне медианы, и берется правая половина распределения. Отсюда следует, что для достижения, например, 5%-го уровня ошибки, следует взять табличную критическую границу, соответствующую, 2.5%-му правому хвосту обычного (не усеченного) F -распределения. Если указанная статистика превышает данную границу, то нулевая гипотеза о гомоскедастичности отвергается.

Данный метод известен под названием метода Голдфельда—Квандта.

Можно применять упрощенный вариант этого критерия, когда дисперсии s22 и s22 считаются на основе остатков из проверяемой регрессии. При этом s21 и s22 не будут независимы, и их отношение будет иметь F -распределение только приближенно. Этот метод иллюстрирует рисунок 8.2.

Для того чтобы можно было применять методы третьей группы, требуется обладать конкретной информацией о том, какой именно вид имеет гетероскедастичность.

Так, например, если остатки прямо пропорциональны значениям фактора (n = 1):

x = + β + zε,

и ε удовлетворяет необходимым гипотезам, то делением обеих частей уравнения на z ситуация возвращается в «штатную»:

Zx = α + Z1 β + ε,

Соседние файлы в предмете Политология