- •Модуль 5. Развитие регрессионной модели
- •5.1. Мультиколлинеарность
- •5.2. Проверка значимости исключенных и добавленных переменных
- •5.3. Линейные регрессионные модели с переменной структурой (фиктивные переменные)
- •Пример 5.1
- •Конец примера
- •5.4. Проверка гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений (критерий Чоу)
- •Лабораторная работа № 5.4. Фиктивные переменные
- •Выполнение
- •5.5. Нелинейная регрессия
- •Пример 5.2.
- •5.5.1. Подбор линеаризующего преобразования (подход Бокса – Кокса)
- •5. Вопросы
Модуль 5. Развитие регрессионной модели
5.1. Мультиколлинеарность
Мультиколлинеарность - это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии.Проблема мультиколлинеарности возникает только для случая множественной регрессии, поскольку в парной регрессии лишь одна объясняющая переменная. Оценка коэффициента регрессии может оказаться незначимой не только из-за несущественности данного фактора, но и из-за того, что трудно разграничить воздействие на зависимую переменную двух или нескольких факторов. Это бывает в том случае, когда какие-то факторы линейно связаны между собой (коррелированы) и меняются синхронно. Связь зависимой переменной с изменениями каждого из них можно определить, только если в число объясняющих переменных включается лишь один из этих факторов.
Природа мультиколлинеарности нагляднее всего может быть продемонстрирована на примере совершенной мультиколлинеарности, то есть строгой линейной связи между объясняющими переменными. Например, если в уравнении
Y=0+1x1+2x2+
объясняющие переменные x1иx2связаны линейным соотношениемx2=x1, то исходное уравнение сводится к уравнению простой линейной регрессии
Y=0+1x1+2x1+ = 0+1/x1+
в котором могут быть получены оценки коэффициентов 0и1/ = 1+2. Последнее уравнение представляет собой одно уравнении с двумя неизвестными1 и2, которые найдены по отдельности естественно быть не могут. Таким образом, совершенная мультиколлинеарность не позволяет определить коэффициенты регрессии (в данном примере1 и2) и разделить вклады переменныхx1иx2в объяснение поведения переменнойу.
Несовершенная мультиколлинеарность, то есть стохастическая связь переменных x1иx2, характеризуется величиной коэффициента корреляцииrx1x2между ними. Чем ближе по абсолютной величин значение коэффициента корреляции к единице, тем ближе мультиколлинеарность к совершенной и тем труднее разделить влияние объясняющих переменныхx1иx2, на поведение переменнойуи тем менее надежными будут оценки коэффициентов регрессии при этих переменных.
В общем случае, если при оценке уравнения регрессии несколько факторов оказались незначимыми, то нужно выяснить, нет ли среди них сильно коррелированных между собой. Для этого используются различные методы.
Самое простое - проанализировать корреляционную матрицу(ее расчет предусмотрен стандартными статистическими программными пакетами), проверить статистическую значимость коэффициентов парной корреляции. При наличии корреляции один из пары связанных между собой факторов исключается, либо в качестве объясняющего фактора берется какая-то их функция. Если же незначимым оказался только один фактор, то можно его исключить или заменить другим (хотя, возможно, на каком-то более коротком промежутке времени данный фактор оказался бы значимым).
Корреляционная матрица позволяет лишь в первом приближении судить о наличии или отсутствии мультиколлинеарности. Более детальное изучение достигается с помощью расчета множественных коэффициентов корреляциикаждой из объясняющих переменных по всем остальным переменным.
3) Существование тесных линейных связей между объясняющими переменными приводит к тому, что определитель матрицы объясняющих переменных (см. п. 4.1.1)det XTX 0, так как в случае мультиколлинеарности столбцы матрицы Х линейно зависимы между собой.
4) О присутствии мультиколлинеарности сигнализируют также следующие признаки построенной модели:
некоторые из оценок параметров aiимеют неправильные с точки зрения экономической теории знаки или неоправданно большие по абсолютной величине их значения;
добавление или изъятие небольшой порции наблюдений приводит к существенному изменению оценок параметров модели вплоть до изменения их знаков;
оценки параметров оказываются незначимыми, тогда как модель в целом статистически значима.