- •16 Конспект по курсу «Эконометрика». Множественная регрессия и корреляция
- •Множественная регрессия и корреляция
- •Отбор факторов при построении множественной регрессии.
- •Проверка наличия мультиколлинеарности
- •Подходы преодоления сильной межфакторной корреляции:
- •1) Проверка гипотез о значимости коэффициентов регрессии:
- •Оценка значимости дополнительного включения фактора (частный f–критерий).
Отбор факторов при построении множественной регрессии.
Теоретически регрессионная модель позволяет включить любое число факторов, однако практически необходимости в этом нет, т.к. второстепенные факторы существенно не улучшают аппроксимацию результативного признака (не снижает величину остаточной дисперсии и не увеличивает показатель детерминации).
Кроме того, для получения значимых результатов, число наблюдений должно быть значительно больше числа оцениваемых параметров, поэтому увеличение количества факторов при небольшом числе наблюдений может существенно снизить достоверность полученных результатов (привести к статистической незначимости параметров регрессии по t-критерию Стьюдента).
Отбор факторов обычно осуществляется в два этапа:
теоретический (обязательный этап): анализ взаимосвязи результата и круга факторов, которые оказывают на него существенное влияние;
количественная оценка: анализ взаимосвязи с целью получения количественных характеристик.
Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:
Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов).
Факторы не должны быть коррелированы друг с другом, тем более находиться в строгой функциональной связи (т.е. они не должны быть интеркоррелированы).
Проблема интеркоррелированности (мультиколлинеарности) факторов.
Y
Y
Х1
Х2
Y
X1
X2
X1
X2
Отсутствие коллине- Невысокая интер- Высокая интеркррели-
арности факторов Х1 и Х2 коррелированность рованность факторов
Включение в модель факторов с высокой интеркорреляцией, когда Rх1x2>Ryx2 и Rх1x2>Ryx1 для зависимости Y=f(X1,X2,ε) может привести к нежелательным последствиям:
1) оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только в величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
2) затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;
3) нельзя определить изолированное влияние факторов на результативный показатель.
Мультиколлинеарность означает наличие высокой линейной связи между всеми или несколькими факторами.
Проверка наличия мультиколлинеарности
Для оценки мультиколлинеарности факторов могут использоваться 2 способа:
Простейший способ - корреляционная матрица (матрица парных линейных коэффициентов корреляции ri,j i,j=0;m):
r10 r11 r12 ....r1m
r20 r21 r22 ....r2m
......
rm0 rm1 rm2 .... rmm
0 – означает признак-результат; i=1;m – номер признака-фактора.
Данная матрица позволяет:
определить факторы тесно связанные с результатом;
определить факторы тесно связанные друг с другом (выявить и по возможности устранить интерколлинеарность (мультиколлинеарность) факторов).
Чтобы определить мультиколлинеарные факторы вычисляют определитель матрицы парных коэффициентов корреляции между факторами. Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы, тем меньше мультиколлинеарность факторов.
Если факторы не коррелированы, то матрица парных коэффициентов корреляции между факторами является единичной матрицей, поскольку все недиагональные элементы rxixj(xixj) равны нулю. Так, для включающего три объясняющих переменных уравнения: Y=a+b1*X1+b2*X2+b3*X3+ε, матрица парных коэффициентов корреляции между факторами имела бы определитель, равный единице.
Так как rx1x1 = rx2x2 = rx3x3 =1, и rx1x2= rx1x3= rx2x3=0.
Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю.
Для нашего примера с магазинами матрица парных коэффициентов корреляции оказалась следующей:
|
Y |
X1 |
X2 |
X3 |
Y |
1 |
-0,83051 |
0,823375 |
-0,82036 |
X1 |
0,823375 |
1 |
-0,45446 |
-0,7127 |
X2 |
-0,82036 |
-0,45446 |
1 |
0,596576 |
X3 |
-0,83051 |
-0,7127 |
0,596576 |
1 |
Очевидно, что факторы Х1 и Х3 дублируют друг друга. В анализ целесообразно включать фактор Х1, а не Х3. Хотя корреляция Х1 с Y слабее (ryx1<ryx3), зато слабее межфакторная корреляция (т.е. связь с третьим фактором Х2) rх2x1<rх2x3. Поэтому в данном случае в уравнение множественной регрессии включаются факторы Х1 и Х2.
В нашем примере определитель матрицы межфакторной корреляции равен 0,31608, что свидетельствует о наличии мультиколлинеарной связи между факторами.
методом испытания гипотезы о независимости переменных Н0: det R=1. Для ее проверки используют статистику критерия: 2=[n-1-1/6(2m+5)lg Det R], которая имеет приближенное распределение 2 с k=1/2n(n-1) степенями свободы. Если наблюдаемое значение статистики превосходит критическое значение 2(;k), то гипотеза Н0 отклоняется. Это означает, что det R1, недиагональные ненулевые коэффициенты корреляции указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной.
Поиск переменных, ответственных за мультиколлинеарность
Через коэффициенты множественной детерминации (R2) можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение коэффициента множественной детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов (R2 x1/x2,x3...xm ;R2 x2/x1,x3...xm и т.п.) можно выделить переменные, ответственные за мультиколлинеарность, следовательно, можно решать проблему отбора факторов, оставляя в уравнении факторы с минимальной величиной коэффициента множественной детерминации.
В нашем примере R2 x3/x2,x1= 0,601646; R2 x1/x2,x3= 0,509266; R2 x2/x3,x1= 0,357645. Следовательно наибольшая ответственность за мультиколлинеарность лежит на 3-ем факторе (количестве конкурентов), наименьшая – на 2-ом факторе (расстоянии от центра).
