
- •050507 «Менеджмент», 050511 «Маркетинг»
- •Тема 1 - Предмет и задачи дисциплины «Эконометрика»
- •Тема 2 - Сведения из теории вероятностей и математической статистики
- •В частности, из свойств дисперсии следует, что
- •Тема 3 - Метод наименьших квадратов
- •Тема 4 - Модель множественной линейной регрессии
- •Тема 5 - Классическая модель множественной линейной регрессии
- •Тема 6 - Коэффициент детерминации
- •Тема 7- Спецификация переменных. Частная корреляция
- •Тема 8 - Нелинейные эконометрические модели
- •Виды нелинейных регрессионных моделей, расчет их параметров
- •8.1 Виды нелинейных регрессионных моделей, расчет их параметров
- •Тема 9 - Мультиколлинеарность
- •Тема 10 – Гетероскедастичность
- •Тема 11 - Динамический ряд
Тема 7- Спецификация переменных. Частная корреляция
План лекции:
1. Спецификация переменных и частная корреляция.
2. Спецификация уравнения регрессии и ошибки спецификации
7.1 Спецификация переменных и частная корреляция.
Возникновение паразитной линейной связи между двумя переменными часто можно объяснить тем, что хотя эти переменные и не связаны друг с другом причинным образом, изменение каждой из них достаточно хорошо объясняется изменением значений некоей третьей переменной, «координирующей» динамику изменения первых двух переменных. Проиллюстрируем это на примере.
Пример: Рассмотрим динамику изменений в период с 1957 по 1966 годы трех совершенно различных по природе показателей: E — суммарного производства электроэнергии в США (в млрд. квт-час), C — совокупных потребительских расходов в Тайланде (в млрд. бат) и H — мирового рекорда на конец года в прыжках в высоту с шестом среди мужчин (в см). Значения этих показателей приведены в таблице:
-
Год
Потребление
Тайланд
млрд бат
Эл. энергия США
млрд квт-час
Мир. рекорд
(прыжки с шестом) см
1957
34.9
716
478
1958
35.9
724
478
1959
37.9
797
478
1960
41.1
844
481
1961
43.5
881
483
1962
46.7
946
493
1963
48.9
1011
520
1964
52.0
1083
528
1965
56.1
1157
528
1966
62.6
1249
534
Динамика изменений показателей показана на графике:
По этим данным мы можем формально, используя метод наименьших квадратов, подобрать модели линейной зависимости каждого из трех показателей от каждого из остальных показателей. Это приводит, например, к моделям
При рассмотрении указанного примера подобрана модель линейной связи между значениями суммарного производства электроэнергии в США (E) и мирового рекорда на конец года в прыжках в высоту с шестом среди мужчин (H). Коэффициент детерминации для этой модели оказался весьма высоким, равным 0.900.
Поскольку динамика изменения этих двух показателей на периоде наблюдений обнаруживает видимый положительный тренд, попытаемся приблизить каждый из них линейной функцией от времени. Подбор методом наименьших квадратов приводит к моделям:
где t обозначает t-й год на периоде наблюдений. При этом, в первом случае коэффициент детерминации равен 0.9812, а во втором коэффициент детерминации равен 0.8705. Иначе говоря, наблюдаемая изменчивость переменных E и H достаточно хорошо «объясняется» изменением переменной t, фактически являющейся здесь выразителем «технического и спортивного прогресса».
Чтобы найти «объективную» связь между показателями E и H, «очищенную» от влияния на эти показатели фактора времени, естественно поступить следующим образом.
Возьмем ряд остатков
получаемых при подборе первой модели, и ряд остатков, получаемых при подборе второй модели.
Тогда переменные
и
,
принимающие значения
и
соответственно,
,
можно интерпретировать, как результат
«очистки» переменных E и H от
линейного тренда во времени. Соответственно,
«истинная» линейная связь между
переменными E и H, если таковая
имеется, должна, скорее всего, измеряться
коэффициентом корреляции
между «очищенными» переменными
и
.
Подобранная линейная связь между и имеет вид
при этом получаем значение
против значения
в модели с «неочищенными» переменными.
Kоэффициент корреляции между «очищенными»
переменными
и
почти вдвое меньше коэффициента
корреляции
между «неочищенными» переменными E
и H.
Коэффициент корреляции
между «очищенными» переменными
и
называется частным коэфициентом
корреляции между переменными E и
H при исключении влияния на них
переменной
.
В дальнейшем мы покажем, что значение
при
«слишком мало» для того, чтобы можно
было отвергнуть гипотезу о том, что
коэффициент при
в линейной модели связи
в действительности равен нулю.
7.2. Спецификация уравнения регрессии и ошибки спецификации
При построении эконометрической модели исследователь специфицирует составляющие ее соотношения, выбирает переменные, входящие в эти соотношения, а также определяет вид математической функции, представляющей каждое соотношение. Остановимся на вопросе выбора переменных, которые должны быть включены в модель. До сих пор мы неявно считали, что имеем правильную спецификацию модели.
На практике никогда не получается правильная спецификация модели, возникают так называемые ошибки спецификации. Экономическая теория, положения которой используются при выборе регрессоров, не может быть совершенной. Поэтому исследователь может включить в эконометрическую модель переменные, которых там не должно быть, и может не включить другие переменные, которые должны там присутствовать.
Т.е. изучим две ситуации.
Случай 1. Исключены существенные переменные.
Процесс, порождающий данные:
(7.1a)
Модель:
(7.1б)
Случай 2. Включены несущественные переменные.
Процесс, порождающий данные:
(7.2а)
Модель:
(7.2б)
Часто регрессию (7.1а) называют длинной, а регрессию (7.16) - короткой.
В первом случае, если опущены переменные,
которые должны быть включены в регрессию,
оценки коэффициентов βj,j=l,...,k
являются, вообще говоря, смещенными
(но обладают меньшей дисперсией) за
исключением двух случаев, когда
=0,j=1,...,l
или регрессоры Xi,...,
Хk и Z1...,
Zl ортогональны.
Смещенной является и оценка дисперсии случайной ошибки , а, следовательно, стандартные ошибки и многие статистические тесты, в которых используется значение , становятся некорректными.
Во втором случае, если включены переменные, которые не должны присутствовать в модели, оценки коэффициентов , j=l,...,k будут несмещенными, но неэффективными. Поскольку несмещенность оценок и величины дисперсии σги сохраняется, возникает иллюзия, что надо включать в модель как можно больше регрессоров. Но в этом случае падает точность оценок, и может возникнуть проблема мультиколлинеарности объясняющих переменных.
На практике, однако, нам неизвестен процесс, порождающий данные, т.е. мы не знаем истинную модель. Поэтому, как правило, возникает проблема - какую модель выбрать: короткую или длинную, т.е. включать дополнительные регрессоры в модель или не включать: в первом случае мы получим смещенные оценки коэффициентов регрессии, а во втором случае - неэффективные оценки. Решение этой проблемы может быть найдено на основе критерия минимума среднеквадратичного отклонения значений коэффициентов.
Часто случается также, что исследователь не может использовать данные по переменным, которые включены в модель. Некоторые переменные, например, невозможно измерить, другие поддаются измерению, но это достигается большими затратами времени и ресурсов. В таких случаях вместо отсутствующих переменных полезно использовать некоторые их заменители (proxy).
Например, если вы не имеете данных о качестве образования, вы можете использовать показатель качества образования как отношение числа преподавателей к числу студентов или денежные расходы на одного студента.
Причин использования "прокси"-переменных две: во-первых, если пропущена важная для модели переменная, то оценки будут смещены (случай 1 выше), а, во-вторых, результаты оценки регрессии с включением замещающих переменных могут дать косвенную информацию о тех переменных, которые замещены данными переменными.
Список рекомендуемой литературы:/1, 2, 4, 6, 8, 9/