Ведение в социально - экономическую статистику. Учебник. Новосибирск, 2004. 739 с
.pdf7.5. Упражнения и задачи |
253 |
20. Используя следующие данные:
X = (5, 1, −2, 5, −4) , Z = (1, 2, 3, 4, 5) ,
и делая все необходимые предположения
а) для X = Zα + 1N β + ε оценить 95-процентные доверительные интервалы для параметров регрессии;
б) проверить значимость коэффициентов регрессии и оценить качество регрессии с вероятностью ошибки 5%.
21. Пусть |
X = α1Z1 + α2Z2 + ε, X = (4, −2, 4, 0) , Z1 = (1, 1, 2, 2) |
и Z2 |
= 2Z1 . Постройте систему нормальных уравнений и покажите, что |
существует бесконечное множество решений для a1 |
и a2 . Выберите любые |
||
два решения, покажите, что они дают одинаковые расчетные значения X и, |
|||
таким образом, одинаковые значения суммы квадратов ошибок. |
|||
22. Для уравнения регрессии X = Zα + 15β + ε имеются следующие данные: |
|||
4 |
1.03 2.08 |
0.41 |
|
8 |
1.46 2.80 |
2.03 |
|
X = 5.5 , Z = (Z1 Z2 Z3) = |
1.14 |
2.30 0.98 . |
|
5.8 |
1.71 |
3.05 |
0.81 |
7.0 |
1.06 |
2.17 |
1.17 |
а) Являются ли факторы линейно зависимыми?
б) Найти матрицу коэффициентов корреляции факторных переменных, рассчитать определитель данной матрицы и сделать вывод о мультиколлинеарности факторов.
в) Рассчитать определитель матрицы коэффициентов корреляции факторных переменных в случае, если из уравнения выводится фактор Z2.
г) Учесть дополнительную внешнюю информацию: α1 = 1.5α2 (с помощью подстановки в уравнение регрессии) и найти определитель матрицы коэффициентов корреляции факторных переменных.
д) Построить точечный прогноз x (xpr ) для значений экзогенных переменных zr = (z1r , z2r , z3r ) = (0.8, 1.6, 0.6):
–при использовании исходного уравнения;
–при исключении из уравнения фактора Z2;
254 |
Глава 7. Основная модель линейной регрессии |
–при использовании внешней информации из пункта (г).
23.Пусть цены сильно коррелируют с денежной массой и неплатежами. Ко-
эффициент корреляции между денежной массой и неплатежами равен 0.975 R2 = 0.95 . Имеет ли смысл строить регрессию цен на эти два (сильно мультиколлинеарных) фактора?
24.Модель
x = α1z1 + α2z2 + β + ε |
(1) |
была оценена по МНК, и был получен коэффициент детерминации R12, а для преобразованной модели
x = α1z1 + α2z2 + α3z3 + β + ε |
(2) |
был получен коэффициент детерминации R22 .
а) Объясните, почему R21 не может быть больше, чем R22 . При каких условиях они равны?
б) Объясните последствия оценки модели (1), если верной является модель (2).
25.В регрессии x = α1z1 + β + ε остатки равны (−2, 1, 0, 1). Оценивается регрессия x = α1z1 + α2z2 + β + ε. Привести пример переменной z2 , чтобы коэффициенты детерминации в обеих регрессиях совпадали.
26.В регрессию x = α1z1 + β + ε добавили переменную z2 . Переменная z2 оказалась совершенно незначимой. Как изменились обычный и скорректированный коэффициенты детерминации?
27.Коэффициент детерминации в регрессии выпуска продукции по численности занятых в производстве, оцененной по 12 наблюдениям, равен 0.8. После введения в регрессию дополнительного фактора — основного капитала — он вырос до 0.819. Имело ли смысл вводить этот дополнительный фактор? Ответ обосновать без применения статистических критериев.
28.Дана модель регрессии xi = α1zi + β + εi .
а) Как оценивается точечный прогноз xN +1 , если известно, что β = 0?
|
z2 |
|
Покажите, что дисперсия ошибок прогноза будет равна σ2 1 + |
N +1 |
. |
|
||
|
N |
|
|
z2 |
|
|
i |
|
|
i=1 |
7.5. Упражнения и задачи |
|
255 |
|
б) Как оценивается точечный прогноз xN +1 , если известно, что α = 0? |
|||
Покажите, что дисперсия ошибок прогноза будет равна σ2 |
1 + |
1 |
. |
|
|||
|
|
N |
29.Почему ошибки прогнозирования по линейной регрессии увеличиваются с ростом горизонта прогноза?
30.Была оценена регрессия x = α1z + β + ε по 50 наблюдениям. Делается прогноз x в точке z51 . При каком значении z51 доверительный интервал прогноза будет самым узким?
31.Вычислите предсказанное значение для x и соответствующую интервальную оценку прогноза при θ = 0.05 в точке z26 = 14, если регрессионная модель x = 3z + 220 + e построена по 25 наблюдениям, остаточная дисперсия равна 25 и средняя по z равна 14.
Рекомендуемая литература
1.Айвазян С.А. Основы эконометрики. Т.2. — М.: Юнити, 2001. (Гл. 2).
2.Демиденко Е.З. Линейная и нелинейная регрессия. — М.: «Финансы и статистика», 1981. (Гл. 1, 2, 6).
3.Джонстон Дж. Эконометрические методы. — М.: «Статистика», 1980. (Гл. 2, 5).
4.Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х книгах. Кн.1 — М.: «Финансы и статистика», 1986, (Гл. 1, 2).
5.Кейн Э. Экономическая статистика и эконометрия. Вып. 2. — М.: «Статистика», 1977. (Гл. 10, 11, 14).
6.Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика — начальный курс. — М.: «Дело», 2000. (Гл. 3, 4, 8).
7.(*) Маленво Э. Статистические методы эконометрии. Вып. 1. — М.: «Статистика», 1975. (Гл. 3, 6).
8.Себер Дж. Линейный регрессионый анализ. — М.: Мир, 1980.
9.Тинтер Г. Введение в эконометрию. — М.: «Статистика», 1965. (Гл. 5).
10.Davidson, Russel, Mackinnon, James. Estimation and Inference in Econometrics, N 9, Oxford University Press, 1993. (Ch. 2).
256 |
Глава 7. Основная модель линейной регрессии |
11.Greene W.H. Econometric Analysis, Prentice-Hall, 2000. (Ch. 6, 7).
12.Judge G.G., Hill R.C., Griffiths W.E., Luthepohl H., Lee T. Introduction to the Theory and Practice of Econometric. John Wiley & Sons, Inc., 1993. (Ch. 5, 21).
13.(*) William E., Griffiths R., Carter H., George G. Judge. Learning and Practicing econometrics, N 9 John Wiley & Sons, Inc., 1993. (Ch. 8).
Глава 8
Нарушение гипотез основной линейной модели
8.1.Обобщенный метод наименьших квадратов (взвешенная регрессия)
Пусть нарушена гипотеза g4 и матрица ковариации ошибок по наблюдениям равна не σ2IN , а σ2Ω, где Ω — вещественная симметричная положительно полуопределенная матрица (см. Приложение A.1.2), т.е. ошибки могут быть коррелированы по наблюдениям и иметь разную дисперсию. В этом случае обычные МНК-оценки параметров регрессии (7.26) остаются несмещенными и состоятельными, но перестают быть эффективными в классе линейных несмещенных оценок.
Ковариационная матрица оценок МНК в этом случае приобретает вид
Ma = σ2 Z Z −1 Z ΩZ Z Z −1 .
Действительно, a |
− |
E (a) = a |
− |
α = (Z |
Z)−1 Z ε, поэтому |
|||||
|
|
|
||||||||
E (a |
− |
E(a)) (a |
− |
E(a)) |
= (Z Z)−1 |
Z E (εε ) Z (Z Z)−1 = |
||||
|
|
|
|
|
|
|
|
= σ2 (Z Z)−1 Z ΩZ (Z Z)−1 .
(Ср. с выводом формулы (7.28), где Ω = σ2I .)
8.2. Гетероскедастичность ошибок |
259 |
одинаковы по наблюдениям (гипотеза g4 не нарушена), то имеет место гомоскедастичность или однородность ошибок по дисперсии — «штатная» ситуация. В противном случае констатируют гетероскедастичность ошибок или их неоднородность по дисперсии.
Пусть var(εi) = σi2 — дисперсия ошибки i-го наблюдения. Гомоскедастичность означает, что все числа σi2 одинаковы, а гетероскедастичность — что среди них есть несовпадающие.
Факт неоднородности остатков по дисперсии мало сказывается на качестве оценок регрессии, если эти дисперсии не коррелированы с независимыми факторами. Это — случай гетероскедастичности «без негативных последствий».
Данное утверждение можно проиллюстрировать в случае, когда в матрице Z всего один столбец, т.е. n = 1 и свободный член отсутствует. Тогда формула (7.33) приобретает вид:
|
|
|
|
|
|
|
1 |
|
|
|
σ2z2 |
|
|
|
|
||||
|
|
|
|
|
E(se2) = |
|
|
i |
i |
i |
|
|
|
|
|||||
|
|
|
|
|
|
σi2 − |
|
|
. |
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
N |
|
z2 |
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
i |
i |
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Если ситуация штатная и σ2 |
= σ2 |
, то правая часть этой формулы преобразуется к ви- |
|||||||||||||||||
|
N − 1 |
|
N |
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ду |
σ2 , и |
s2 |
оказывается несмещенной оценкой σ2 , как и было пока- |
||||||||||||||||
|
N − 1 |
||||||||||||||||||
|
N |
e |
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|||
зано в параграфе 7.2. Если σi и zi не коррелированы, то, обозначив σ2 = |
σ2 , |
||||||||||||||||||
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N |
i |
|
можно утверждать, что |
|
|
|
|
|
|
|
|
|
|
|
|
i |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
σ2z2 |
|
|
|
σ2 z2 |
|
|
|
|
|
|
|
|||
|
|
|
|
|
i |
i |
|
zi2 ≈ |
i |
|
= σ |
2 |
, |
|
|
||||
|
|
|
|
i |
|
|
|
i |
zi2 |
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
i |
|
|
|
|
|
i |
|
|
|
|
|
|
т.е. ситуация остается прежней. И только если σi и zi положительно (или отрицательно) коррелированы, факт гетероскедастичности имеет негативные последствия.
|
|
|
|
|
|
σ2z2 |
|
||
Действительно, в случае положительной корреляции |
i |
i |
> σ2 и, следова- |
||||||
z |
2 |
||||||||
|
|
N |
|
|
|
i |
|
||
тельно, |
E |
s2 |
< σ2 . Обычная «несмещенная» оценка остаточной диспер- |
||||||
|
|
||||||||
N − 1 |
|||||||||
|
|
e |
|
|
|
|
сии оказывается по математическому ожиданию меньше действительного значения остаточной дисперсии, т.е. она (оценка остаточной дисперсии) дает основания для неоправданно оптимистичных заключений о качестве полученной оценки модели.
Следует заметить, что факт зависимости дисперсий ошибок от независимых факторов в экономике весьма распространен. В экономике одинаковыми по дисперсии скорее являются относительные (ε z ), а не абсолютные (ε) ошибки. Поэтому, когда оценивается модель на основе данных по предприятиям, которые могут иметь
8.2. Гетероскедастичность ошибок |
261 |
ei2
s2 |
|
2 |
|
s2 |
2 |
1 |
s4 |
s2 |
s2 |
5 |
|
3 |
yi |
|
Рис. 8.1
Тогда статистика Бартлетта равна
bc = |
|
N |
|
|
|
|
ln bs. |
|
|
k 1 |
1 |
|
|
||||
|
l=1 |
|
− |
|
|
|
|
|
1 + |
Nl |
N |
|
|||||
3(k − 1) |
|
|||||||
|
|
|
При однородности наблюдений по дисперсии (нулевая гипотеза) эта статистика распределена как χ2k−1. Проверка нулевой гипотезы проводится по обычному алгоритму.
Если нулевую гипотезу отвергнуть не удалось, т.е. ситуация гомоскедастична, то исходная оценка модели удовлетворительна. Если же нулевая гипотеза отвергнута, то ситуация гетероскедастична.
Принцип построения статистики Бартлетта иллюстрирует рисунок 8.1.
Классический метод второй группы заключается в следующем. Все наблюдения упорядочиваются по возрастанию некоторой переменной yi. Затем оцениваются две вспомогательные регрессии: по K «малым» и по K «большим» наблюдениям (с целью повышения мощности критерия средние N − 2K наблюдения в расчете не участвуют, а K можно, например, выбрать равным приблизительно трети N ). Пусть s21 — остаточная дисперсия в первой из этих регрессий, а s22 — во второй. В случае гомоскедастичности ошибок (нулевая гипотеза) отношение двух дисперсий распределено как
s2
s22 FK−n−1, K−n−1.
1
Здесь следует применять обычный F -критерий. Нулевая гипотеза о гомоскедастичности принимается, если рассчитанная статистика превышает 95%-ный квантиль F -распределения.
262 |
Глава 8. Нарушение гипотез основной линейной модели |
ei2
s22
s2 |
yi |
|
1 |
||
|
Рис. 8.2
Такой подход применяется, если ожидается, что дисперсия может быть только положительно коррелирована с переменной yi . Если неизвестно, положительно или отрицательно коррелирована дисперсия с рассматриваемым фактором, то следует отклонять нулевую гипотезу как при больших, так и при малых значениях ста-
тистики s22 s21 . Можно применить следующий прием: рассчитать статистику как
отношение максимальной из дисперсий s21 и s22 к минимальной. Такая статистика будет иметь усеченное F -распределение, где усечение происходит на уровне медианы, и берется правая половина распределения. Отсюда следует, что для достижения, например, 5%-го уровня ошибки, следует взять табличную критическую границу, соответствующую, 2.5%-му правому хвосту обычного (не усеченного) F -распределения. Если указанная статистика превышает данную границу, то нулевая гипотеза о гомоскедастичности отвергается.
Данный метод известен под названием метода Голдфельда—Квандта.
Можно применять упрощенный вариант этого критерия, когда дисперсии s22 и s22 считаются на основе остатков из проверяемой регрессии. При этом s21 и s22 не будут независимы, и их отношение будет иметь F -распределение только приближенно. Этот метод иллюстрирует рисунок 8.2.
Для того чтобы можно было применять методы третьей группы, требуется обладать конкретной информацией о том, какой именно вид имеет гетероскедастичность.
Так, например, если остатки прямо пропорциональны значениям фактора (n = 1):
x = zα + β + zε,
и ε удовлетворяет необходимым гипотезам, то делением обеих частей уравнения на z ситуация возвращается в «штатную»:
Zx = α + Z1 β + ε,