
- •План лекции:
- •1Й учебный вопрос. Конфлюэнтный анализ
- •Вспомогательная таблица для расчета параметров парной линейной регрессии
- •2Й учебный вопрос. Анализ мультиколлинеарности
- •Вспомогательная таблица для расчета парного линейного коэффициента корреляции между показателями x1 и y
- •После подсчета сумм в нижней строке таблицы, находим линейный коэффициент корреляции:
- •Матрица коэффициентов парной корреляции
- •Вспомогательная таблица для расчета параметров уравнения
- •Вспомогательная таблица для расчета ошибки аппроксимации и индекса детерминации
Вспомогательная таблица для расчета параметров парной линейной регрессии
-
x4
y
x42
x*y
5,0
1,0
25,0
5,0
6,0
5,0
36,0
30,0
9,0
6,0
81,0
54,0
3,0
0,8
9,0
2,4
5,3
3,0
28,4
16,0
4,7
3,0
21,8
14,0
6,0
4,0
36,0
24,0
3,3
0,5
11,1
1,7
3,8
2,5
14,1
9,4
3,2
1,5
10,2
4,8
49,28
27,30
272,64
161,24
Подсчитав суммы в нижней строке таблицы, находим параметры уравнения парной линейной регрессии по формулам:
Таким образом, окончательный вид уравнения регрессии:
y = -1,7 + 0,9 x4.
Теперь построим вспомогательную таблицу, чтобы рассчитать ошибку аппроксимации и индекс детерминации для данного уравнения.
Как известно из курса теории статистики, ошибка аппроксимации находится по формуле:
Где y
– исходные
(фактические) значения исходного ряда
данных, а
-
расчетные значения
(т.е. рассчитанные на основе построенного
уравнения регрессии).
А индекс детерминации – по формуле:
Где
- дисперсия фактических значений
признака,
- дисперсия расчетных значений, y
– исходные
(фактические) значения исходного ряда
данных,
-
расчетные значения,
а
–
среднее значение
(одинаковое для расчетных и фактических
значений). В таблице 2.3. выполнены
вспомогательные расчеты для определения
этих показателей.
Таблица 2.3
Вспомогательная таблица для расчета ошибки аппроксимации и индекса детерминации (для уравнения = -1,7+0,9x4)
Фактические значения (y) и расчетные значения ( ) |
Расчет ошибки аппроксимации (σ) |
Расчет дисперсии фактических значений ( ) |
Расчет дисперсии расчетных значений ( ) |
|||
Y |
= -1,7+0,9x4 |
(y - )2 |
|
|
|
|
1,0 |
2,79 |
3,22 |
-1,73 |
2,99 |
0,06 |
0,004 |
5,0 |
3,69 |
1,71 |
2,27 |
5,15 |
0,96 |
0,925 |
6,0 |
6,38 |
0,15 |
3,27 |
10,69 |
3,65 |
13,351 |
0,8 |
1,00 |
0,04 |
-1,93 |
3,72 |
-1,73 |
2,994 |
3,0 |
3,09 |
0,01 |
0,27 |
0,07 |
0,36 |
0,132 |
3,0 |
2,50 |
0,25 |
0,27 |
0,07 |
-0,23 |
0,055 |
4,0 |
3,69 |
0,10 |
1,27 |
1,61 |
0,96 |
0,925 |
0,5 |
1,30 |
0,64 |
-2,23 |
4,97 |
-1,43 |
2,049 |
2,5 |
1,67 |
0,68 |
-0,23 |
0,05 |
-1,06 |
1,118 |
1,5 |
1,18 |
0,10 |
-1,23 |
1,51 |
-1,55 |
2,406 |
27,30 |
27,30 |
6,90 |
0,00 |
30,86 |
0,00 |
23,96 |
Подсчитав суммы в нижней строке таблицы, легко вычислить все необходимые величины. Так как сумма фактических значений y равна сумме расчетных значений, то и среднее значение y совпадает со средним значением yx и равно: 27,3/10= 2,7
Ошибка аппроксимации:
0,831
Дисперсия фактических
значений
(y):
y
3,09
Дисперсия расчетных
значений
(yx):
yx
2,40
Индекс детерминации:
R2
=
=
0,777
Теперь найдем параметры уравнения двухфакторной линейной регрессии y = a0 + a1 x2+ a2 x4, включив в уравнение регрессии, кроме фактора x4 дополнительно фактор x2.
Так же, как для предыдущего уравнения построим вспомогательную таблицу, чтобы решить затем систему нормальных уравнений и найти параметры уравнения регрессии.
Таблица 2.4.
Вспомогательная таблица для расчета параметров уравнения регрессии y = a0 + a1 x2+ a2 x4
Y |
x2 |
x4 |
x22 |
x42 |
x2*x4 |
x2*y |
x4*y |
1 |
5 |
15 |
25 |
225 |
75 |
5 |
15 |
5 |
12 |
16 |
144 |
256 |
192 |
60 |
80 |
6 |
18 |
16 |
324 |
256 |
288 |
108 |
96 |
0,8 |
6 |
10 |
36 |
100 |
60 |
4,8 |
8 |
3 |
16 |
12 |
256 |
144 |
192 |
48 |
36 |
3 |
14 |
12,6 |
196 |
158,76 |
176,4 |
42 |
37,8 |
4 |
18 |
14 |
324 |
196 |
252 |
72 |
56 |
0,5 |
10 |
13 |
100 |
169 |
130 |
5 |
6,5 |
2,5 |
15 |
15 |
225 |
225 |
225 |
37,5 |
37,5 |
1,5 |
16 |
15 |
256 |
225 |
240 |
24 |
22,5 |
27,3 |
130 |
138,6 |
1886 |
1954,76 |
1830,4 |
406,3 |
395,3 |
На основе сумм, рассчитанных в нижней строке этой таблицы, построим систему нормальных уравнений:
10a0+130a1+138,6a2=27,3
130a0+1886a1+1830,4a2=406,3
10a0+1830,4a1+1954,76a2=18,3
Далее решаем систему методом определителей.
Вначале построим матрицу коэффициентов при неизвестных, получаем следующую матрицу А:
-
матрица А
10
130
138,6
130
1886
1830,4
138,6
1830,4
1954,76
Находим определитель матрицы А:
Δ= 57997,84
Для расчета определителя можно воспользоваться функцией МОПРЕД (которая находится среди встроенных математических функций в Excel).
Затем подставляем в матрицу А, вместо ее первого столбца, столбец свободных членов из правой части системы нормальных уравнений. Получаем матрицу А0.
-
матрица А0
27,3
130
138,6
406,3
1886
1830,4
395,3
1830,4
1954,76
Находим определитель полученной матрицы А0
Δ0= -260310
Аналогично заменяем в матрице А поочередно второй и третий столбцы столбцом свободных членов и находим определители Δ1 и Δ2 получившихся матриц А1 и А2
-
матрица А1
10
27,3
138,6
130
406,3
1830,4
138,6
395,3
1954,76
Δ1= 12515
-
матрица А2
10
130
27,3
130
1886
406,3
138,6
1830,4
395,3
2= 18466,72
Затем рассчитываем параметры уравнения регрессии по формулам:
a0 = 0 / Δ = -4,49
a1 = Δ1/ Δ = 0,22
a2 =2/ Δ = 0,32
Окончательно уравнение регрессии имеет вид:
y=-4,49+0,22x2+0,32x4
Рассчитываем для этого уравнения ошибку аппроксимации и индекс детерминации.
Построим вспомогательную таблицу для расчета этих показателей (табл.2.5)
Таблица 2.5
y |
x2 |
x4 |
= -4,49+ 0,22x2+0,32x4 |
|
|
(y - )2 |
1 |
5 |
15 |
1,37 |
2,99 |
1,86 |
0,134 |
5 |
12 |
16 |
3,20 |
5,15 |
0,22 |
3,255 |
6 |
18 |
16 |
4,49 |
10,69 |
3,10 |
2,279 |
0,8 |
6 |
10 |
-0,01 |
3,72 |
7,51 |
0,655 |
3 |
16 |
12 |
2,79 |
0,07 |
0,00 |
0,046 |
3 |
14 |
12,6 |
2,54 |
0,07 |
0,03 |
0,207 |
4 |
18 |
14 |
3,85 |
1,61 |
1,26 |
0,021 |
0,5 |
10 |
13 |
1,81 |
4,97 |
0,85 |
1,713 |
2,5 |
15 |
15 |
3,52 |
0,05 |
0,63 |
1,049 |
1,5 |
16 |
15 |
3,74 |
1,51 |
1,02 |
5,019 |
27,3 |
130 |
138,6 |
27,30 |
30,86 |
16,48 |
14,38 |
Получаем следующие результаты.
Индекс детерминации равен R2= 16,48/30,86 = 0,534
Ошибка аппроксимации:
Таким образом, после включения в уравнение дополнительной переменной x2 индекс детерминации уменьшился, а ошибка аппроксимации возросла более, чем в 2 раза. Значения параметров при неизвестных существенно изменились.
Следовательно, переменная x2 в данном случае является вредной, и лучше строить уравнение парной линейной регрессии, выражающее зависимость переменной y только от одного фактора x4, чем включать два фактора x2 и x4.