Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
1.Аширов УМК Эконометр ЛК,Термины ПГАТИ 2007.doc
Скачиваний:
6
Добавлен:
01.05.2025
Размер:
2.42 Mб
Скачать

2.3. Подходы к устранению мультиколлинеарности в моделях множественной регрессии

Существует ряд подходов преодоления мультиколлинеарности:

  1. Самый простой путь – исключение из модели одного или нескольких факторов, ответственных за мультиколлинеарность.

  2. Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними. Основным методом такого рода является метод главных компонент (компонентный анализ)

  3. Путем учета внутренней корреляции факторов является также переход к совмещенным уравнениям регрессии, то есть к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Например, для возможно построение совмещенного уравнения вида . Эта зависимость включает взаимодействия первого порядка. При большом числе переменных возможно включение в модель взаимодействий более высокого порядка. Проблема: возникают трудности с интерпретацией параметров. Выбор формы уравнения регрессии производится исходя из содержательного анализа явлений и имеющегося фактического материала. Чаще всего используются линейные модели множественной регрессии.

2.4. Компонентный анализ

С его помощью преобразуется система m исходных признаков x в систему m комбинированных признаков f, которые называются главными компонентами и которые упорядочены по величине их дисперсии, то есть по их влиянию на результативную переменную. При этом первая главная компонента имеет наибольшую дисперсию, а последняя – наименьшую. Тем самым можно снизить размерность уравнения регрессии, используя только первые компоненты, так как влияние компонент с малыми дисперсиями на результирующую переменную очень мало. На практике ограничиваются таким числом компонент, которые объясняют 70-80 % общей дисперсии. Компонентный анализ разработан в начале XX века К. Пирсоном.

Пример

Пусть мы имеем 3 фактора, от которых зависит результатная переменная. Обозначим их через . Значения факторов приведены в таблице.

Матрица парных коэффициентов имеет вид:

,

т. е. имеет место высокая корреляция между . Кроме того, т. е. имеет место значительная мультиколлинеарность факторов.

Выясним, какой из факторов в наибольшей степени ответственен за мультиколлинеарность. Для этого определим коэффициент детерминации, выделяя каждый фактор в качестве зависимой переменной:

А) ,

;

Б) ,

;

В) ,

.

Таким образом, мультиколлинеарность вносится 1 и 2 признаками в равной степени и в меньшей степени – третьим признаком. Однако отбросить первый и второй признаки в данном случае нельзя.

Применим метод главных компонент.

Решение задачи в программе STATGRAPHICS

Special-Multyvariative methods – Principal Components

Analysis. Summary

Component number

Eigenvalue ()

Percent of variance

Cumulative Percentage

1

1,9303

64,344

64,344

Это матрица собствен. значений 

2

1,0356

34,521

98,865

3

0,0340

1,135

100

Т. е. 98,865 % общей дисперсии содержится в двух первых компонентах х. Следовательно, третья компонента может быть отброшена.

Component Weights

Главные компоненты

Признаки

f1

f2

X1

-0,095

0,97

X2

-0,696

-0,215

X3

-0,711

0,08

Это матрица факторных нагрузок А. Из нее видно, что главная компонента связана с и , а компонента - связана с .

Data Table

Row

Component 1

Component 2

1

0,156245

1,18691

2

0,532782

0,690533

3

-1,48884

0,487154

4

2,24722

-0,22817

5

-1,44105

-0,46866

6

-0,00636

1,66866

Коэффициент корреляции между :

, таким образом, три признака преобразованы в 2 главные компоненты, не коррелированные между собой.

Рассмотрим более простой пример.

1

5

2

4

3

3

4

2

5

1

Переменные полностью коррелированы, .

Матрица собственных значений:

Матрица парных коэффициентов корреляции

Из уравнения получим

обозначим .

Получим: т. е.

т. е. вся дисперсия в первой компоненте.