
- •Отбор факторов в уравнение множественной регрессии. Приемы анализа корреляционной матрицы. Мультиколлинеарность.
- •Корреляционная матрица
- •Линейные регрессионные модели с переменной структурой (фиктивные переменные)
- •Проверка гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений (критерий Чоу)
Отбор факторов в уравнение множественной регрессии. Приемы анализа корреляционной матрицы. Мультиколлинеарность.
Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:
1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов).
2. Каждый фактор должен быть достаточно тесно связан с результатом (т.е. коэффициент парной линейной корреляции между фактором и результатом должен существенно отличаться от нуля.
3. Факторы не должны быть сильно коррелированы друг с другом, тем более находиться в строгой функциональной связи (т.е. они не должны быть интеркоррелированы). Разновидностью интеркоррелированности является мультиколлинеарность.
Мультиколлинеарность - это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. Проблема мультиколлинеарности возникает только для случая множественной регрессии, поскольку в парной регрессии лишь одна объясняющая переменная. Оценка коэффициента регрессии может оказаться незначимой не только из-за несущественности данного фактора, но и из-за того, что трудно разграничить воздействие на зависимую переменную двух или нескольких факторов. Это бывает в том случае, когда какие-то факторы линейно связаны между собой (коррелированы) и меняются синхронно. Связь зависимой переменной с изменениями каждого из них можно определить, только если в число объясняющих переменных включается лишь один из этих факторов.
Природа мультиколлинеарности нагляднее всего может быть продемонстрирована на примере совершенной мультиколлинеарности, то есть строгой линейной связи между объясняющими переменными. Например, если в уравнении
y=b0+b1x1+b2x2+u
объясняющие переменные x1 и x2 связаны линейным соотношением x2=x1, то исходное уравнение сводится к уравнению простой линейной регрессии
y=b0+ b1x1+b2x1+u = b0+b1/x1+u в котором могут быть получены оценки коэффициентов b0 и b1/ = b1+b2. Последнее уравнение представляет собой одно уравнении с двумя неизвестными b1 и b2, которые найдены по отдельности естественно быть не могут. Таким образом, совершенная мультиколлинеарность не позволяет определить коэффициенты регрессии (в данном примере b1 и b2) и разделить вклады переменных x1 и x2 в объяснение поведения переменной у.
Несовершенная мультиколлинеарность, то есть стохастическая связь переменных x1 и x2, характеризуется величиной коэффициента корреляции rx1x2 между ними. Чем ближе по абсолютной величин значение коэффициента корреляции к единице, тем ближе мультиколлинеарность к совершенной и тем труднее разделить влияние объясняющих переменных x1 и x2, на поведение переменной у и тем менее надежными будут оценки коэффициентов регрессии при этих переменных.
В общем случае, если при оценке уравнения регрессии несколько факторов оказались незначимыми, то нужно выяснить, нет ли среди них сильно коррелированных между собой. Для этого используются различные методы.
-
Самое простое - проанализировать корреляционную матрицу, проверить статистическую значимость коэффициентов парной корреляции. При наличии корреляции один из пары связанных между собой факторов исключается, либо в качестве объясняющего фактора берется какая-то их функция.
2)
Корреляционная матрица позволяет лишь
в первом приближении судить о наличии
или отсутствии мультиколлинеарности.
Более детальное изучение достигается
с помощью расчета множественных
коэффициентов корреляции (или детерминации)
каждой из объясняющих переменных по
всем остальным переменным -
Rxj(x1,...,xj-1,xj+1,...,xm).
Данные показатели характризуют
зависимость объясняющей переменной хj
от других объясняющих переменных модели
х1,...,хj-1,
хj+1,...,хm.
Чем ближе значение коэффициента
множественной корреляции (детерминации)
к единице, тем больше ответственность
за мультиколлинеарность переменной
хj,
выступающего в роли зависимой переменной.
Сравнивая между собой коэффициенты
множественной корреляции (детерминации)
для различных объясняющих переменных
можно проранжировать их по степени
ответственности за мультиколлинеарность.
Степень мультиколлинеарности измеряется
показателемVIFj
– фактором роста дисперсии оценки
параметра
:
.
Если фактор хj
не ответственен
за мультиколлинеарность, т.е. не
мультиколлинеарен, то VIFj1
(Rxj(x1,...,xj-1,xj+1,...,xm)0).
Если хjмультиколлинеарен,
то VIFj
много больше 1.
3) Существование тесных линейных связей между объясняющими переменными приводит к тому, что определитель матрицы объясняющих переменных det XTX 0, так как в случае мультиколлинеарности столбцы матрицы Х линейно зависимы между собой.
Наличие мультиколлинеарности приводит к нарушению 1-ой предпосылке нормальной линейной множественной регрессионной модели о независимости факторных признаков (x1, x2,…, xj,…, xm)), которая может привести к следующим нежелательным последствиям:
-
некоторые из оценок параметров bi имеют неправильные с точки зрения экономической теории знаки или неоправданно большие по абсолютной величине их значения;
-
добавление или изъятие небольшой порции наблюдений приводит к существенному изменению оценок параметров модели вплоть до изменения их знаков;
- оценки параметров становятся ненадежными. Они обнаруживают большие стандартные ошибки, малую значимость. В тоже время модель в целом является значимой, т.е. значение множественного коэффициента корреляции завышено;
- становится невозможным определить изолированное влияние факторов на результативный показатель.
! Нестрогая линейная зависимость между факторными признаками совсем необязательно дает неудовлетворительные оценки. Если все другие условия благоприятствуют, т.е. если число наблюдений значительно, выборочные дисперсии факторных признаков велики, а дисперсия случайной составляющей - мала, то в итоге можно получить вполне хорошие оценки. Рассмотрение данной проблемы начинается только тогда, когда это серьезно влияет на результаты оценки регрессии.
Данная проблема является обычной для регрессий временных рядов. Если независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелированны, и это может привести к мультиколлинеарности.
* Пример. Имеются данные об объеме продаж магазина– y (тыс.ден.ед. за период), численности населения в торговой зоне –х1 (тыс.чел.), числе конкурентов в торговой зоне –х2 (ед.), расстоянии от магазина до центра - х3 (км) по 12 магазинам розничной торговли, принадлежащем одному владельцу (таблица). Требуется построить регрессионную модель, для прогноза объема продаж.
Магазин |
Объем продаж (тыс.ед. за период) |
Численность населения в торговой зоне (тыс.чел.) |
Число конкурентов в торговой зоне |
Расстояние от магазина до центра (км) |
|
Y |
X1 |
X2 |
X3 |
1 |
27 |
1,6 |
3 |
9,7 |
2 |
26 |
1,7 |
4 |
10,7 |
3 |
28 |
1,9 |
5 |
9,5 |
4 |
31 |
1,9 |
4 |
8 |
5 |
30 |
2 |
5 |
9,3 |
6 |
31 |
2 |
5 |
6,1 |
7 |
32 |
2,1 |
5 |
7,5 |
8 |
35 |
2,5 |
6 |
7 |
9 |
33 |
2,8 |
6 |
8,8 |
10 |
33 |
3 |
6 |
7,1 |
11 |
36 |
3,1 |
6 |
6,5 |
12 |
38 |
3,3 |
5 |
7,2 |
Проверим наличие мультиколлинеарности между факторами для данного примера. Для этого построим корреляционную матрицу.