
- •Лабораторная работа №4. Множественный линейный регрессионный анализ в условиях мультиколлинеарности
- •1. Теоретические сведения
- •1.1. Механизм возникновения проблемы мультиколлинеарности
- •1.2. Симптомы мультиколлинеарности:
- •1.4. Борьба с мультиколлинеарностью путем изменения состава факторов
- •1.4.1. Алгоритм пошагового включения:
- •1.4.2. Алгоритм пошагового исключения
- •2. Практическое задание: множественная регрессионная модель в условиях мультиколлинеарности
- •3. Практическое задание: Проверка выполнения расчетов в программе Statistica 6.0.
Лабораторная работа №4. Множественный линейный регрессионный анализ в условиях мультиколлинеарности
1. Теоретические сведения
1.1. Механизм возникновения проблемы мультиколлинеарности
Проблема мультиколлинеарности возникает, если между факторами, включенными в регрессионную модель, существует тесная линейная зависимость. Механизм возникновения проблемы:
1.). Для нахождения вектора регрессионных коэффициентов используется формула b=(XTX)-1XTY, поэтому для нахождения вектора b необходимо найти матрицу (XTX)-1. Операция обращения матрицы предусматривает: 1- нахождение определителя матрицы XTX, 2- нахождение алгебраических дополнений каждого из элементов матрицы XTX, 3- транспонирование матрицы алгебраических дополнений, 4- деление транспонированной матрицы алгебраических дополнений на определитель матрицы XTX.
2). При наличии тесной линейной связи между факторами определитель матрицы XTX близок к 0, следовательно, элементы матрицы (XTX)-1- большие числа.
3). При выполнении теста Стьюдента используются следующие формулы: . Так как элементы матрицы (XTX)-1- большие числа, то sbj- также большие числа, следовательно, tj- маленькие числа и гипотезу H0: βj=0 нужно принимать. Таким образом, многие факторы в модели будут незначимы, следовательно, результаты, полученные по выборке о влиянии факторов на результативный показатель, нельзя распространять на всю генеральную совокупность, следовательно, полученная модель практически бесполезна.
1.2. Симптомы мультиколлинеарности:
- незначимость большинства регрессионных коэффициентов (по результатам тестов Стьюдента в большинстве случаев нулевую гипотезу принимаем) при значимости уравнения в целом (по результату теста Фишера нулевую гипотезу отвергаем);
- значительные изменения регрессионных коэффициентов при незначительных изменениях объема выборки или состава факторов, включенных в модель;
- чрезмерно высокие или противоречащие по знакам экономической теории значения регрессионных коэффициентов.
1.3. Методы диагностики проблемы мультиколлинеарности:
- Анализ матрицы парных коэффициентов корреляции между факторами, включаемыми в модель. Если между какими- либо парами факторов парный коэффициент корреляции по модулю больше 0,7, то в модели будет проблема мультиколлинеарности;
- Расчет коэффициентов увеличения, или разбухания дисперсии , где - коэффициент детерминации, подсчитанный по уравнению регрессии (в правой части уравнения присутствуют все факторы, кроме j-го фактора). Коэффициент VIFj показывает, во сколько раз возрастает дисперсия j-го регрессионного коэффициента по сравнению со случаем отсутствия линейной связи между j-м фактором и остальными факторами модели. На практике считается, что если существуют VIFj ≥3, то в модели будет проблема мультиколлинеарности.
- Расчет частных и получастных коэффициентов корреляции. Для этого находят остатки e(Xj) регрессии (в правой части уравнения присутствуют все факторы, кроме j-го фактора) и остатки e(Y\Xj) регрессии (в правой части уравнения присутствуют все факторы, кроме j-го фактора).
Коэффициент корреляции, подсчитанный между e(Xj) и e(Y\Xj), называется частным коэффициентом корреляции между Xj и Y. Частный коэффициент корреляции оценивает направление и тесноту линейной связи между Xj и Y при исключении влияния остальных факторов на оба показателя. Если частный коэффициент корреляции по модулю большой, то фактор должен присутствовать в модели.
Коэффициент корреляции, подсчитанный между e(Xj) и Y, называется получастным коэффициентом корреляции между Xj и Y. Получастный коэффициент корреляции оценивает направление и тесноту линейной связи между Xj и Y при исключении влияния остальных факторов на показатель Xj. Получастные коэффициенты корреляции позволяют ответить на вопрос о вкладе каждого фактора в множественный коэффициент корреляции. Квадрат j- го получастного коэффициента корреляции показывает, насколько уменьшится величина коэффициента детерминации, если j-й фактор исключить из модели.