- •Тема 3. Прогноз. Сравнение моделей Точечный и интервальный прогноз
- •Отбор множества объясняющих переменных
- •Проблема мультиколлинеарности факторов в регрессионных моделях
- •Показатели силы связи для множественной регрессии
- •Фиктивные переменные
- •Скорректированный коэффициент детерминации как критерий выбора модели
Проблема мультиколлинеарности факторов в регрессионных моделях
Явление мультиколлинеарности в случае линейной модели регрессии – это нарушение одной из ее предпосылок, т.е. наличие линейной зависимости между факторами.
_______________________________________________________________________
Мультиколлинеарность – это высокая взаимная коррелированность объясняющих переменных.
_______________________________________________________________________
Мультиколлинеарность может проявляться в двух формах:
1) при функциональной / явной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными являются линейной функциональной зависимостью.
2) стохастическая / скрытая форма в экономических исследованиях проявляется чаще, когда между двумя объясняющими переменными существует тесная корреляционная связь.
Для того, чтобы регрессионный анализ,
основанный на МНК, давал наилучшие
результаты, предполагается, что значения
х не являются случайными величинами
и что
не коррелированы, т.е. каждая переменная
содержит уникальную информацию о у,
которая не содержит в других
.
Когда такая идеальная ситуация существует,
то мультиколлинеарность отсутствует.
Полная коллинеарность появляется в
случае, если одна из
может быть точно выражена в терминах
другой переменной для всех элементов
набора данных.
Причины мультиколлинеарности:
1) способ сбора данных и отбора переменных в модель без учета их смысла и природы (учета возможных взаимосвязей между ними). Например, при оценке влияния на размер жилья доходов семьи и размера семьи если мы соберем данные только среди семей большого размера и с высокими доходами и не включим в модель семьи малого размера и с небольшими доходами, то в результате получится модель с эффектом мультиколлинеарности. Решение проблемы – улучшение схемы выборки. В случае, если переменные взаимодополняют друг друга, подгонка выборки не поможет. Решением будет исключение одной из переменных;
2) высокая мощность переменной.
Например, для изменения вида модели
может быть введен дополнительный термин
в модель, уже содержащую
$
3) регрессоры, измеряющие примерно одно и то же: валютный курс на начало и на конец дня;
4) естественные соотношения между регрессорами: возраст, стаж и количество лет обучения.
Последствия мультиколлинеарности:
1) при проверке нулевой гипотезы о незначимости коэффициентов регрессии с помощью t-критерия в большинстве случаев она принимается, однако само уравнение регрессии по проверке с помощью F-критерия оказывается значимым, что говорит о завышенной оценке коэффициента регрессии; доверительные интервалы имеют слишком широкие границы;
2) полученные оценки параметров уравнения в основном неоправданно завышены или имеют неправильные знаки;
3) добавление или исключение из исходных данных 1-2 наблюдений оказывает сильное влияние на оценки коэффициентов;
4) наличие мультиколлинеарности в модели может сделать ее непригодной для дальнейшего применения.
Основная проблема мультиколлинеарности
– обесценение дисперсии оценок
коэффициентов регрессии. Для измерения
эффекта мультиколлинеарности используется
показатель VIF
(variation
inflation
factor) –
коэффициент вздутия дисперсии по
сравнению с той дисперсией, которая
была бы, если бы
не
имел коллинеарности с другими независимыми
переменными в регрессии:
,
где
–
значение коэффициента множественной
детерминации для регрессора
на
все остальные.
Например, значение VIF=6 означает, что дисперсия коэффициентов в 6 раз больше той, что должна была бы быть при полном отсутствии коллинеарности. Считается, что критическое значение составляет VIF=10 – слишком большая корреляция между факторами.
Пример.
для
регрессии
на
остальные регрессоры
для
регрессии
для
регрессии
Есть ли мультиколлинеарность?
довольно плохо объясняется остальными
переменными, переменная линейно
независима.
Переменные линейно зависимы,
высокий.
