Корреляционно-регрессионный анализ
Матрица коэффициентов корреляции, сформированная на основе матрицы исходных данных при помощи программы Excel представлена в следующем виде:
|
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
Y |
1 |
|
|
|
|
|
|
X1 |
0,248407394 |
1 |
|
|
|
|
|
X2 |
0,750484585 |
0,102553988 |
1 |
|
|
|
|
X3 |
0,706198331 |
0,231501059 |
0,825947244 |
1 |
|
|
|
X4 |
-0,390942105 |
-0,073828409 |
-0,548892983 |
-0,692611199 |
1 |
|
|
X5 |
0,633313738 |
-0,160337945 |
0,543720326 |
0,519126166 |
-0,454729356 |
1 |
|
X6 |
-0,638165903 |
-0,485873842 |
-0,543203744 |
-0,62632926 |
0,352781083 |
-0,36483156 |
1 |
Проведем анализ таблицы коэффициентов корреляции для того, чтобы оценить их статистическую значимость и выполнить проверку наличия мультиколлинеарности.
X5 исключаем, т. к. знак коэффициента корреляции не отвечает известному экономическому содержанию связи между зависимой и независимой переменной (при увеличении уровня физического износа строительных машин и механизмов месячная выработка рабочего снижается).
Для оценки значимости коэффициента корреляции r используют t-критерий Стьюдента, который применяется при t-распределении, отличном от нормального.
При линейной однофакторной связи t-критерий можно рассчитать по формуле:
, где (n - 2) - число степеней свободы при заданном уровне значимости α и объеме выборки n.
Полученное значение tрасч сравнивают с табличным значением t-критерия (для α= 0,05 с n-2 степенями свободы). Если рассчитанное значение tрасч превосходит табличное значение критерия tтабл, то практически невероятно, что найденное значение обусловлено только случайными колебаниями (то есть отклоняется гипотеза о его случайности).
Для оставшихся факторных признаков расчетная величина t:
|
t расч |
tтабл=1,68 |
X1 |
1,739298083 |
n=48 |
X2 |
7,701810995 |
m=4 |
X3 |
6,764936388 |
|
X4 |
-2,880763116 |
|
X6 |
-5,621844466 |
t-критерий для факторов х1,х2,х3 больше табличного (t1, t2 и t3>1.68). Следовательно данные факторы остаются без изменений, факторы х4 и х6 исключаются
Регрессия
|
Коэффициенты |
Стандартная ошибка |
Y-пересечение |
-822,0665049 |
370,7849216 |
Переменная X 1 |
6,115107537 |
4,22550405 |
Переменная X 2 |
3,727399433 |
1,121067596 |
Переменная X 3 |
0,959794844 |
0,81194789 |
Число наблюдений = 48. Коэффициент детерминации (R2) = 0,6 Среднеквадратическое отклонение уравнения регрессии = 24,3.
Далее следует сделать проверку отклонения фактических значений зависимой переменной Y от прогноза по регрессии в целях возможного отсева грубых погрешностей. Если отклонение превышает тройную ошибку оценки регрессии (3Syx), то данное наблюдение исключается, после чего вновь выполняется построение регрессии.
Отклонения фактических значений результативного признака от прогноза по регрессии:
|
Y факт |
Y прогноз ( ) |
Отклонение |
3 СКВО = 3 * 23,49 = 70,48
Все отклонения по наблюдениям < 70,48, следовательно, погрешностей нет и наблюдения исключать не надо.
|
1 |
57,46 |
32,33 |
25,14 |
|
2 |
55,26 |
34,78 |
20,49 |
|
3 |
53,99 |
37,91 |
16,07 |
|
4 |
56,27 |
44,74 |
11,54 |
|
5 |
56,18 |
55,91 |
0,27 |
|
6 |
68,73 |
71,19 |
-2,46 |
|
7 |
66,63 |
84,51 |
-17,88 |
|
8 |
71,19 |
97,33 |
-26,14 |
|
9 |
96,86 |
103,13 |
-6,27 |
|
10 |
102,47 |
104,95 |
-2,48 |
|
11 |
73,20 |
100,99 |
-27,79 |
|
12 |
79,61 |
106,65 |
-27,04 |
|
13 |
57,31 |
49,27 |
8,04 |
|
14 |
56,49 |
51,15 |
5,34 |
|
15 |
56,98 |
52,03 |
4,94 |
|
16 |
59,08 |
60,59 |
-1,51 |
|
17 |
72,88 |
66,42 |
6,46 |
|
18 |
96,06 |
75,66 |
20,40 |
|
19 |
79,78 |
90,12 |
-10,35 |
|
20 |
109,14 |
108,23 |
0,91 |
|
21 |
133,26 |
114,06 |
19,20 |
|
22 |
105,00 |
116,80 |
-11,80 |
|
23 |
128,83 |
114,33 |
14,50 |
|
24 |
73,20 |
109,17 |
-35,97 |
|
25 |
60,54 |
80,30 |
-19,76 |
|
26 |
59,46 |
82,74 |
-23,28 |
|
27 |
60,64 |
87,35 |
-26,71 |
|
28 |
63,30 |
92,55 |
-29,25 |
|
29 |
85,93 |
98,56 |
-12,63 |
|
30 |
79,38 |
111,60 |
-32,21 |
|
31 |
93,33 |
120,75 |
-27,42 |
|
32 |
125,17 |
72,20 |
52,98 |
|
33 |
150,48 |
140,89 |
9,59 |
|
34 |
153,85 |
148,37 |
5,48 |
|
35 |
201,84 |
140,91 |
60,93 |
|
36 |
112,00 |
133,57 |
-21,57 |
|
37 |
58,98 |
72,96 |
-13,98 |
|
38 |
58,95 |
72,92 |
-13,97 |
|
39 |
60,84 |
77,68 |
-16,84 |
|
40 |
61,66 |
80,85 |
-19,19 |
|
41 |
85,63 |
85,07 |
0,56 |
|
42 |
78,09 |
93,46 |
-15,37 |
|
43 |
94,50 |
101,12 |
-6,62 |
|
44 |
129,23 |
114,26 |
14,97 |
|
45 |
153,66 |
122,59 |
31,07 |
|
46 |
158,92 |
125,76 |
33,16 |
|
47 |
173,70 |
117,47 |
56,23 |
|
48 |
140,00 |
109,76 |
30,24 |
Окончательная проверка значимости всех факторов проводится в ходе многошагового регрессионного анализа, где проверяется значимость каждого фактора в отдельности при одновременном совершенствовании каждого коэффициента регрессии, путем вычисления отношения: ,
где ак - коэффициент множественной регрессии k-го фактора;
σхк - среднеквадратическое отклонение k-го фактора;
σy – среднеквадратическое отклонение.
t ak1= |
7,551708572 |
t ak2= |
29,93975536 |
t ak3= |
10,88402258 |
tak1, tak2, tak3 >1,68 (табличное значение), следовательно, их исключать не надо, т.к. они являются значимыми факторами.
Окончательная оценка значимости уравнения регрессии в целом производится с учетом статистики F- распределения Фишера:
где В - коэффициент детерминации,
n - количество наблюдений,
m - количество учитываемых объясняющих переменных.
Полученное значение F сравнивается с табличным значением и если F>Fα, то с вероятностью 95% связь по уравнению регрессии является статистически значимой и нулевая гипотеза отвергается.
Так как F > Fα , то нулевая гипотеза отвергается (связь статистически значима).
На основании полученных данных построено уравнение множественной регрессии: B=-882,07+6,12x1+3,79x2+0,96x3
Коэффициент детерминации B=0,6 показывает, что вариация Y (среднемесячная выработка рабочего) на 60% объясняется вариацией факторов xl,x2,х3 и на 40% вариацией прочих факторов.