Завдання 3.
-
Виявити наявність та напрям кореляційного зв’язку між факторною та результативною ознаками. Побудувати модель аналітичного групування (МАГ) з розподілом факторної ознаки (Х) та 3 рівних інтервали. Для кожного інтервалу розрахувати середні групові.
-
Оцінити щільність зв’язку в МАГ та перевірити її істотність з рівнем значущості α=0,05. Розрахувати загальну та міжгрупову дисперсії.
-
Для характеристики кореляційного зв’язку між факторною та результативною ознаками побудувати графік кореляційного поля та теоретичну модель лінійної регресії (МЛР). Визначити параметри лінійного рівняння регресії та побудувати його графік.
-
Оцінити цільність кореляційного зв’язку в МЛР шляхом розрахунку коефіцієнта детермінації та лінійного коефіцієнта кореляції, перевірити істотність зв’язку з рівнем значущості α=0,05 за допомогою таблиць з критичними значеннями детермінації та F-критерія Фішера.
-
Зробити висновки.
Вихідні дані
|
Значення
|
||||||||||||||||||
|
62
|
64
|
66
|
66
|
68
|
70
|
72
|
74
|
76
|
76
|
78
|
78
|
80
|
82
|
82
|
84
|
84
|
86
|
88
|
|
24 |
24 |
23 |
25 |
27 |
26 |
27 |
30 |
27 |
30 |
29 |
32 |
31 |
31 |
33 |
32 |
35 |
35 |
33 |
Для
виконання завдання студентові потрібно
до значення параметру Хі добавити число
,
а до параметру Уі число
,
- шифр студента, який дорівнює останній
цифрі номеру залікової книжки.
Розв’язання:
Скорегуємо значення параметру Хі на число А =2·3-5=1, значення параметру Уі на число В=3·3-10=-1.
Скореговані вихідні дані
|
Значення
|
||||||||||||||||||
|
63 |
65 |
67 |
67 |
69 |
71 |
73 |
75 |
77 |
77 |
79 |
79 |
81 |
83 |
83 |
85 |
85 |
87 |
89 |
|
23 |
23 |
22 |
24 |
26 |
25 |
26 |
29 |
26 |
29 |
28 |
31 |
30 |
30 |
32 |
31 |
34 |
34 |
32 |
1. В нашому випадку значення факторної ознаки Х розташоване в порядку зростання, кожному значенню відповідає значення результативної ознаки У. Проаналізувавши ці показники, можна зробити висновок про те, що при збільшенні ознаки Х значення У збільшується, хоча мають місце незначні варіації, отже існує прямий стохастичний зв’язок.
В нашому випадку ми маємо 19 пар ознак, згідно з умовами задачі їх потрібно згрупувати в 3 рівні інтервали. Для цього визначимо шаг інтервалу:
h = (хmax - хmin) : n, де
хmax, хmin - максимальне та мінімальне значення х, n – кількість інтервалів
Отримаємо: h= (89-63) : 3 = 8,67
Таблиця 1.
|
Інтервал
|
Кількість ознак х |
Середньогрупові значення |
|
|
|
|
||
|
63,0 -71,67 |
6 |
(63+65+67+67+69+71) : 6 = 67,0 |
(23+23+22+24+26+25) : 6 = 23,83 |
|
71,67 -79,33 |
6 |
(73+75+77+77+79+79) : 6 = 76,67 |
(26+29+26+29+28+31) : 6 = 28,17 |
|
79,33 -89,0 |
7 |
(81+83+83+85+85+87+89) : 7 = 84,71 |
(30+30+32+31+34+34+32) : 7=31,86 |
2. Аналітичне групування підтверджує прямий зв'язок між х і у, тобто із збільшенням факторної ознаки х збільшується значення результативної ознаки у.
Для оцінки щільності зв’язку між факторною та результативною ознаками використаємо кореляційне відношення, яке характеризує частку варіації результативної ознаки, зумовлену варіацією факторної ознаки:
,
де
σ²у, σ² - міжгрупова та загальна дисперсії.
Загальна дисперсія, яка характеризує варіацію результативної ознаки під впливом усіх причин чи умов, може бути обчислена за формулами:
або
![]()
Міжгрупова дисперсія, що характеризує варіацію результативної ознаки, пов'язану з варіацією групувальної ознаки, обчислюється за формулою
де
– групові середні результативної
ознаки.
Згідно з допоміжними розрахунками, наведеними в таблиці 2, загальна дисперсія становить
Згідно з допоміжними розрахунками, наведеними в таблиці 3, міжгрупова дисперсія становить

Таблиця 3.
Дані для розрахунку міжгрупової дисперсії
|
Інтервал
|
Кількість ознак (f) |
Середньогрупові значення |
Допоміжні розрахунки |
|||
|
|
|
|
( |
( |
||
|
63,0 -71,67 |
6 |
67,0 |
23,83 |
-4,33 |
18,7489 |
112,4934 |
|
71,67 -79,33 |
6 |
76,67 |
28,17 |
0,01 |
0,0001 |
0,0006 |
|
79,33 -89,0 |
7 |
84,71 |
31,86 |
3,7 |
13,69 |
95,83 |
|
Разом |
19 |
|
|
|
|
208,324 |
Таблиця 2
Вихідні дані та допоміжні розрахунки
хі
уі
х2
(хі
-
)*
(уі
-
)
-
№ п/п
xі
уі
ху
х2
хі -

(хі -
)²уі -

(уі -
)²(хі -
)·(уі
-
)Y
Y-

(Y-
)²1
63
23
1449
3969
-13,58
184,39
-5,16
26,60
70,07
22,05
-6,11
37,33
2
65
23
1495
4225
-11,58
134,07
-5,16
26,60
59,75
22,95
-5,21
27,14
3
67
22
1474
4489
-9,58
91,76
-6,16
37,92
59,01
23,85
-4,31
18,58
4
67
24
1608
4489
-9,58
91,76
-4,16
17,29
39,85
23,85
-4,31
18,58
5
69
26
1794
4761
-7,58
57,44
-2,16
4,66
16,37
24,75
-3,41
11,63
6
71
25
1775
5041
-5,58
31,12
-3,16
9,97
17,63
25,65
-2,51
6,30
7
73
26
1898
5329
-3,58
12,81
-2,16
4,66
7,73
26,55
-1,61
2,59
8
75
29
2175
5625
-1,58
2,49
0,84
0,71
-1,33
27,45
-0,71
0,50
9
77
26
2002
5929
0,42
0,18
-2,16
4,66
-0,91
28,35
0,19
0,04
10
77
29
2233
5929
0,42
0,18
0,84
0,71
0,35
28,35
0,19
0,04
11
79
28
2212
6241
2,42
5,86
-0,16
0,02
-0,39
29,25
1,09
1,19
12
79
31
2449
6241
2,42
5,86
2,84
8,08
6,87
29,25
1,09
1,19
13
81
30
2430
6561
4,42
19,55
1,84
3,39
8,13
30,15
1,99
3,96
14
83
30
2490
6889
6,42
41,23
1,84
3,39
11,81
31,05
2,89
8,35
15
83
32
2656
6889
6,42
41,23
3,84
14,76
24,65
31,05
2,89
8,35
16
85
31
2635
7225
8,42
70,91
2,84
8,08
23,91
31,95
3,79
14,36
17
85
34
2890
7225
8,42
70,91
5,84
34,13
49,17
31,95
3,79
14,36
18
87
34
2958
7569
10,42
108,6
5,84
34,13
60,85
32,85
4,69
22,00
19
89
32
2848
7921
12,42
154,28
3,84
14,76
47,69
33,75
5,59
31,25
Всього
1455
535
41471
112547
1124,63
254,53
501,26
535
227,74
=
1455/19=76,58;
=
535/19=28,16
Кореляційне
відношення
![]()
Це означає, що варіація результативної ознаки (у) в розрахунку на одиницю ознаки (f) на 82% зумовлюється варіацією факторної ознаки (x). Оскільки кореляційне відношення змінюється в межах від 0 до 1, щільність зв’язку висока.
Перевірку істотності зв’язку здійснено з рівнем значущості α=0,05.
Кількість ступенів вільності для міжгрупової (факторної) дисперсії
К1= m - 1= 3 – 1 = 2, де m – кількість груп.
Для середньої з групових залишкової дисперсії К2= n - m =19 -3 =16, де n – кількість елементів сукупності. При цих ступенях вільності критичне значення η²0,05 (2,16) =0,312.
У наведеному прикладі фактичне значення η² перевищує критичне, що свідчить про істотність кореляційного зв’язку між результативною та факторною ознаками.
3. Використавши дані, наведені в табл.2, побудуємо графік кореляційного поля

Аналіз зображеної множини точок дозволяє зробити висновок про наявність лінійного зв’язку між результативною та факторною ознаками, тобто для характеристики даної залежності варто обрати лінійну функцію.
Теоретичною лінією регресії називають ту лінію, навколо якої групуються точки кореляційного поля і яка вказує основний напрямок, основну тенденцію зв`язку. Теоретична лінія регресії повинна відображувати зміни середніх величин результативної ознаки у відповідно до зміни факторної ознаки х.
Якщо зі зміною фактора х результат у змінюється більш-менш рівномірно, такий зв’язок описується лінійною функцією Y = a + bx.
Параметр b (коефіцієнт регресії) — величина іменована, має розмірність результативної ознаки і розглядається як ефект впливу x на y. Параметр a — вільний член рівняння регресії, це значення y при x = 0. Якщо межі варіації x не містять нуля, то цей параметр має лише розрахункове значення.
Параметри рівняння регресії визначаються методом найменших квадратів, основна умова якого — мінімізація суми квадратів відхилень емпіричних значень y від теоретичних Y:
.
Математично доведено, що значення параметрів a та b, при яких мінімізується сума квадратів відхилень, визначаються із системи нормальних рівнянь:
,
.
Розв’язавши цю систему, знаходимо такі значення параметрів:
,
.
Значення взаємозв’язаних ознак та необхідні для розрахунку параметрів величини наведено в табл. 2.
=
1455;
= 535;
=
41471;
= 112545;
= 1455
: 19 = 76,58;
= 535 : 19 =
28,16
Користуючись цими величинами, визначаємо:
;
.
Отже,
рівняння регресії має вигляд
.
Мал.4.
4. Серед мір щільності зв’язку найпоширенішим є коефі- цієнт кореляції Пірсона. Обчислення лінійного коефіцієнта кореляції r ґрунтується на відхиленнях значень взаємозв’язаних ознак x і у від се- редніх.
Коефіцієнт кореляції визначається за формулою:

За
даними табл.2
![]()
![]()
![]()
Коефіцієнт кореляції, оцінюючи щільність зв’язку, указує також на його напрям: коли зв’язок прямий, r — величина додатна, а коли він зворотний — від’ємна.
Відношення факторної дисперсії до загальної розглядається як міра щільності кореляційного зв’язку і називається коефіцієнтом детермінації:
,
де
— загальна
дисперсія ознаки y;
— факторна
дисперсія.
На
підставі даних табл.2 розрахуємо загальну
дисперсію ознаки у
(
)
та
факторну дисперсію (
)
та
коефіцієнт детермінації:
![]()
![]()
Коефіцієнт
детермінації становить
,тобто
89% варіації результативної ознаки
залежить від варіації факторної ознаки,
а 11% припадає на інші фактори.
Перевірка
істотності кореляційного зв’язку
ґрунтується на порівнянні фактичних
значень R2
з критичними, які могли б виникнути за
відсутності зв’язку. Якщо
фактичне значення
перевищує критичне, то зв’язок між
ознаками не випадковий.
Критичні значення характеристик щільності зв’язку для рівня істотності = 0,05 і відповідного числа ступенів свободи для факторної дисперсії k1 і залишкової k2 наведено в табл. 3. Ступені свободи залежать від обсягу сукупності n та числа груп або параметрів функції m, тобто k1 = m – 1 = 2 - 1 = 1, k2 = n – m =19 – 2 =17 . Оскільки значення k2 = 17 у табл. 3 відсутнє, можна використати найближче до нього число k2 = 18.
Так,
критичне значення коефіцієнта детермінації
для k1
= 2 – 1 = 1 і
k2
= 18 становить
.
Обчислений за даними табл. 2
коефіцієнт детермінації R2
= 0,89
перевищує критичне значення, що з
імовірністю 0,95 підтверджує істотність
зв’язку між результативною
та факторною ознаками.
Визначимо
спостережуване значення критерію Фішера
за формулою
![]()
Критичне значення критерію Фішера ( таб.4) при ймовірності р=0,95 ( α= 0,05) і степенях свободи k1 = 1, k2 = 19 - 2 = 17 дорівнює 4,45. Оскільки спостережуване значення більше критичного (137,5>4,45), то лінійна модель є адекватною.
5. Висновки.
В
результаті розрахунків отримано модель
.
Проаналізувавши параметри моделі можна
зробити висновки, що оскільки коефіцієнт
регресії додатний b=0,45,
то це свідчить про те, що напрямок зв'язку
між факторною (х)
та результативною (у)
ознаками прямий (це підтверджує й графік
моделі, мал.4), тобто при зростанні
факторної ознаки (х)
значення результативної ознаки (у)
теж будуть збільшуватись. При збільшенні
х
на 1 значення у
зросте на 0,45.
Лінійний коефіцієнт кореляції r =0,94 вказує на наявність прямого зв’язку між результативною та факторною ознаками.
Коефіцієнт
детермінації R²=0,89
показує, що на 89% варіації результативної
ознаки залежить від варіації факторної
ознаки, а 11% припадає на інші фактори,
що не увійшли в модель.
Фактичне
значення коефіцієнта детермінації
R²0,89
перевищує
критичне значення коефіцієнта детермінації
,
що з імовірністю 0,95 підтверджує істотність
зв’язку між результативною та факторною
ознаками.
Розраховане значення F-критерію Фішера F=137,5 більше критичного значення F-критерію Фішера Fкр=4,45, що підтверджує з імовірністю 0,95 істотність зв’язку між результативною та факторною ознаками та адекватність моделі даної задачі.
Таблиця3.
КРИТИЧНІ ЗНАЧЕННЯ КОЕФІЦІЄНТА ДЕТЕРМІНАЦІЇ R2 І КОРЕЛЯЦІЙНОГО ВІДНОШЕННЯ 2 ДЛЯ РІВНЯ ІСТОТНОСТІ = 0,05
-

1
2
3
4
5
5
0,569
0,699
0,764
0,806
0,835
6
0,500
0,632
0,704
0,751
0,785
7
0,444
0,575
0,651
0,702
0,739
8
0,399
0,527
0,604
0,657
0,697
9
0,362
0,488
0,563
0,618
0,659
10
0,332
0,451
0,527
0,582
0,624
12
0,283
0,394
0,466
0,521
0,564
14
0,247
0,348
0,417
0,471
0,514
16
0,219
0,312
0,378
0,429
0,477
18
0,197
0,283
0,345
0,394
0,435
20
0,179
0,259
0,318
0,364
0,404
24
0,151
0,221
0,273
0,316
0,353
28
0,130
0,193
0,240
0,279
0,314
32
0,115
0,171
0,214
0,250
0,282
36
0,102
0,153
0,192
0,226
0,256
40
0,093
0,139
0,176
0,207
0,234
50
0,075
0,113
0,143
0,170
0,194
60
0,063
0,095
0,121
0,144
0,165
80
0,047
0,072
0,093
0,110
0,127
100
0,038
0,058
0,075
0,090
0,103
120
0,032
0,049
0,063
0,075
0,087
200
0,019
0,030
0,038
0,046
0,053
Таблиця 4.
Значення F-критерія Фішера при ймовірностях 0.95 (верхній рядок) і 0.99 (нижній рядок)

