Лабораторная работа № 5 Построение регрессионной модели системы двух случайных величин
Цель работы: изучить основные методы регрессионного и корреляционного анализа; исследовать зависимость между двумя случайными величинами, заданными выборками.
Задание: по виду корреляционного поля сделать предположение о форме регрессионной зависимости между двумя случайными величинами; используя метод наименьших квадратов, найти параметры уравнения регрессии; оценить качество описания зависимости полученным уравнением регрессии.
Для определения вида регрессионной зависимости построим корреляционное поле.
Рисунок 1 – Корреляционное поле
Таблица 1 – Расчет характеристик двух случайных величин
|
|
|
|
|
|
|
4857,76 |
17,8 |
-120,25 |
14459,74 |
5,47 |
29,97 |
-658,32 |
4974,92 |
14,3 |
-3,09 |
9,54 |
1,97 |
3,90 |
-6,10 |
4468,04 |
1,41 |
-509,97 |
260068,04 |
-10,92 |
119,14 |
5566,48 |
4750,51 |
4,87 |
-227,50 |
51755,64 |
-7,46 |
55,58 |
1696,08 |
5281,84 |
1,53 |
303,83 |
92313,48 |
-10,80 |
116,54 |
-3279,96 |
5455,57 |
10,7 |
477,56 |
228064,83 |
-1,63 |
2,64 |
-776,20 |
5161,48 |
20,6 |
183,47 |
33661,73 |
8,27 |
68,47 |
1518,16 |
5124,75 |
7,54 |
146,74 |
21533,02 |
-4,79 |
22,90 |
-702,21 |
4435,68 |
23,3 |
-542,33 |
294120,38 |
10,97 |
120,44 |
-5951,88 |
5100,58 |
7,04 |
122,57 |
15023,73 |
-5,29 |
27,93 |
-647,83 |
4885,41 |
2,47 |
-92,60 |
8574,51 |
-9,86 |
97,13 |
912,59 |
5416,94 |
39,8 |
438,93 |
192660,72 |
27,47 |
754,86 |
12059,49 |
4496,66 |
0,42 |
-481,35 |
231696,54 |
-11,91 |
141,74 |
5730,62 |
4722,08 |
15 |
-255,93 |
65499,48 |
2,67 |
7,15 |
-684,52 |
5537,91 |
18,1 |
559,90 |
313489,50 |
5,77 |
33,35 |
3233,24 |
Сумма | ||||||
74670,1 |
184,88 |
0 |
1822930,89 |
0 |
1601,75 |
18009,65 |
Найдем уравнение прямой линии методом наименьших квадратов .
Среднее значение x: =.
Среднее значение y: =
Коэффициенты уравнения: = 0,01
–36,85
Уравнение регрессии имеет вид : .
Для линейной связи коэффициенты:
- постоянная регрессии, показывает точку пересечения прямой с осью ординат
- коэффициент регрессии, показывает меру зависимости переменных y от х, указывает среднюю величину изменения переменной у при изменении х на одну единицу, знак β1 определяет направление этого изменения .
Вычислим линейный коэффициент корреляции
= .
Таблица 2 - Расчет значений по уравнению регрессии
|
|
|
4857,76 |
17,8 |
11,14 |
4974,92 |
14,3 |
12,29 |
4468,04 |
1,41 |
7,29 |
4750,51 |
4,87 |
10,08 |
5281,84 |
1,53 |
15,33 |
5455,57 |
10,7 |
17,04 |
5161,48 |
20,6 |
14,14 |
5124,75 |
7,54 |
13,78 |
4435,68 |
23,3 |
6,97 |
5100,58 |
7,04 |
13,54 |
4885,41 |
2,47 |
11,41 |
5416,94 |
39,8 |
16,66 |
4496,66 |
0,42 |
7,57 |
4722,08 |
15 |
9,80 |
5537,91 |
18,1 |
17,86 |
Качественная оценка тесноты связи между величинами выявляется по шкале Чеддока.
Таблица 3 - Шкала Чеддока
|
Значение коэффициента корреляции при наличии | |
прямой связи |
обратной связи | |
Слабая |
0,1–0,3 |
(-0,1)–(-0,3) |
Умеренная |
0,3–0,5 |
(-0,3)–(-0,5) |
Заметная |
0,5–0,7 |
(-0,5)–(-0,7) |
Высокая |
0,7–0,9 |
(-0,7)–(-0,9) |
Весьма высокая |
0,9–0,99 |
(-0,9)–(-0,99) |
Рисунок 2 – Корреляционное поле и линия регрессии
Вывод. Линейный коэффициент корреляции характеризует тесноту связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. Т.к. = , то можно говорить о том, что между величинами X и Y линейная прямая умеренная связь.
Чтобы сделать статистический вывод о значимости коэффициента корреляции (при проверке линейности регрессионной зависимости) выдвигается нулевая гипотеза об отсутствии линейной зависимости между исследуемыми с. в. против альтернативной гипотезы о наличии линейной связи. , .
Если гипотеза H0 отклоняется, то считается, что уравнение регрессии Y по X действительно имеет линейный вид. Для проверки гипотезы H0 вычисляется t-статистика
= .
При условии справедливости гипотезы H0 рассчитанная t-статистика имеет распределение Стьюдента с n – 2 степенями свободы. Найденное значение t = сравнивается с критическим значениемta,n при n = n – 2 = 15-2 = 13 степенях свободы (приложение Д). В нашем случае
ta,n = t a=0.05, n=13 = 1,771. Так как расчетное значение по абсолютной величине превосходит табличное 1,771 для заданного уровня значимости, то нулевая гипотезаH0 о линейной независимости двух с. в. не отклоняется.
Характер расположения точек на диаграмме рассеяния не позволяет сделать предположение о параболической регрессионной зависимости либо другой сложной зависимости, а расчет указал, что между величинами X и Y существует линейная зависимость, причем не установлена связь.