
- •План лекции:
- •1Й учебный вопрос. Конфлюэнтный анализ
- •Вспомогательная таблица для расчета параметров парной линейной регрессии
- •2Й учебный вопрос. Анализ мультиколлинеарности
- •Вспомогательная таблица для расчета парного линейного коэффициента корреляции между показателями x1 и y
- •После подсчета сумм в нижней строке таблицы, находим линейный коэффициент корреляции:
- •Матрица коэффициентов парной корреляции
- •Вспомогательная таблица для расчета параметров уравнения
- •Вспомогательная таблица для расчета ошибки аппроксимации и индекса детерминации
После подсчета сумм в нижней строке таблицы, находим линейный коэффициент корреляции:
r(x1
, y)
=
Делаем вывод о том, что связь между признаками слабая (так как по абсолютной величине коэффициент корреляции близок к 0) и обратная, так как коэффициент меньше 0. Отсюда следует, что такой фактор, как число членов семьи оказывает незначительное влияние на приобретение непродовольственных товаров. Поэтому, если требуется построить уравнение парной регрессии, включающее единственный факторный признак, не целесообразно в качестве этого признака выбирать фактор x1.
Аналогично1 рассчитываем коэффициенты парной корреляции между всеми остальными факторами и запишем их значения в виде матрицы (табл.2.7):
Таблица 2.7
Матрица коэффициентов парной корреляции
|
x1 |
x2 |
x3 |
x4 |
x5 |
Y |
x1 |
1 |
0,5662 |
0,8356 |
-0,4302 |
0,9094 |
-0,1501 |
x2 |
0,5662 |
1 |
0,1355 |
0,4683 |
0,7996 |
0,6609 |
x3 |
0,8356 |
0,1355 |
1 |
-0,6863 |
0,5900 |
-0,5123 |
x4 |
-0,4302 |
0,4683 |
-0,6863 |
1 |
-0,1380 |
0,8826 |
x5 |
0,9094 |
0,7996 |
0,5900 |
-0,1380 |
1 |
0,1019 |
Y |
-0,1501 |
0,6609 |
-0,5123 |
0,8826 |
0,1019 |
1 |
На главной диагонали данной матрицы находятся единицы, так как это коэффициенты корреляции каждого из факторных признаков с самим собой.
Рассчитаем определитель этой матрицы в Excel, воспользовавшись встроенной функцией МОПРЕД.
Легко убедиться, что определитель этой матрицы равен 0,000138, то есть очень близок к нулю. Следовательно, в данной системе факторов явно присутствует мультиколлинеарность. Поэтому все эти факторы нельзя включать в модель, а следует отобрать не более двух-трех из них.
Проанализировав коэффициенты парной корреляции, можно увидеть, что наиболее тесная связь между фактором x4 и y (то есть между доходом на 1 члена семьи и затратами на покупку непродовольственных товаров). Это вполне соответствует реальному содержательному смыслу этих показателей.
Следовательно, если включать в уравнение единственный, наиболее важный фактор, то в качестве этого фактора можно отобрать x4 , т.е. можно построить уравнение парной линейной регрессии, выражающее зависимость затрат на непродовольственные товары только от данного фактора (среднедушевого дохода семьи): y = a0 + a1 x4. Такое уравнение уже было построено.
Теперь рассмотрим, какие факторы можно включить в модель двухфакторной линейной множественной регрессии.
Коэффициенты парной корреляции между x1 и x5, а также между x1 и x3 превышают 0,8. Следовательно, эти факторы одновременно включать в модель не целесообразно.
Также очень высок (близок к 0,8) коэффициент корреляции между факторами x2 и x5. К тому же коэффициент корреляции между фактором x5 и y очень мал.
В целом, анализ матрицы коэффициентов парной корреляции показывает, что наиболее целесообразно включать в модель следующие пары факторов: x2 и x3 , либо x2 и x4. Коэффициент корреляции между ними достаточно мал, а коэффициенты корреляции между каждым из них и результативным показателем y превышает коэффициент корреляции между ними. Факторы x1 и x5 включать в модель не целесообразно, так как – несмотря на то, что между ними коэффициент корреляции очень мал (r = - 1380), но коэффициент корреляции между x5 и y еще меньше (r = 0,1019)
Перед этим мы уже убедились, что уравнение регрессии, включающее два фактора x2 и x4, дает неудовлетворительный результат. Поэтому построим уравнение y = a0 + a1 x2+ a2 x3, выражающее зависимость расходов на товары длительного пользования от числа детей (x2 ) и совокупного дохода семьи (x3).
Заполним вспомогательную таблицу для расчета параметров этого уравнения (табл.2.8).
На основе итоговых сумм, рассчитанных в нижней строке таблицы 2.8., строим систему нормальных уравнений:
1
0a0+130a1+10a2=27,3
130a0+1886a1+136a2=406,3
10a0+136a1+20a2=18,3
Таблица 2.8.