Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
метод. посіб.статист..doc
Скачиваний:
5
Добавлен:
01.09.2019
Размер:
1.48 Mб
Скачать

8. 4. Кореляційно – регресійний аналіз.

Основні завдання кореляційного аналізу:

  1. Описання за допомогою рівняння регресії (рівняння кореляційного зв’язку) зв’язку між досліджуваними ознаками.

  2. Оцінка тісноти зв’язку.

Передумови застосування кореляційного аналізу:

  • наявність причиннонаслідкових зв’язків між досліджуваними ознаками;

  • достатність варіації ( варіація вважається достатньою , якщо коефіцієнт варіації V>10%);

  • однорідність сукупності ( визначається за τ  критерієм );

  • числовий вираз досліджуваних ознак.

Графічне зображення статистичних показників дає наочне уявлення про наявність зв’язку між досліджуваними ознаками. При побудові кореляційного поля на осі абсцис відкладають факторну ознаку, на осі ординат  результативну. На поле наносяться точки з координатами, які відповідають значенням ознак окремих одиниць спостереження. За розташуванням точок можна виявити характер залежності. Чим більший розкид точок по кореляційному полю, тим слабкіша залежність. Розкид точок у певному напрямі свідчить про прямий чи обернений зв’язок. Як правило, на кореляційне поле наносять лінію регресії y по x, а також лінії, які відповідають середнім значенням ознак.

Залежно від форми зв’язку між факторною і результативною ознаками вибирають тип математичного рівняння. Прямолінійну форму зв’язку визначають за рівнянням прямої лінії

yx = a0 + a1∙х ,

де yx  теоретичні значення результативної ознаки;

a0 , a1  коефіцієнти регресії.

Коефіцієнт регресії a0 , з економічної точки зору, не несе ніякої інформації. Коефіцієнт регресії a1 показує, на скільки зміниться результативна ознака при зміні факторної ознаки на одиницю.

При прямому зв’язку між корелюючими ознаками коефіцієнт регресії a1 матиме додатне значення, при зворотному  від’ємне.

Параметри a0 і a1 рівняння регресії обчислюють способом найменших квадратів. Суть цього способу полягає в знаходженні таких параметрів рівняння зв’язку, при яких сума квадратів відхилень фактичних значень від теоретичних буде мінімальною:

∑( уух) = min.

Спосіб найменших квадратів зводиться до складання і розв’язання системи двох рівнянь з двома невідомими:

n∙a0 + a1∙∑x =∑y

a0∙∑x + a1∙∑x2= ∑ x∙y.

Для оцінки тісноти зв’язку між досліджуваними ознаками застосовують:

  • Індекс кореляції  універсальний показник, який використовують при будьяких формах зв’язків:

Індекс кореляції змінюється в межах від 0 до +1.

  • Коефіцієнт кореляції  використовують тільки при прямолінійних зв’язках :

Коефіцієнт кореляції знаходиться в межах від 0 до +1 при прямому зв’язку і від 1 до 0  при зворотному зв’язку. Чим ближче коефіцієнт кореляції до ± 1, тим тісніший зв’язок між досліджуваними ознаками, чим ближче коефіцієнт кореляції до 0, тим слабший зв’язок між ознаками.

  • Коефіцієнт детермінації, який показує, на скільки відсотків варіація результативної ознаки зумовлена варіацією факторної ознаки:

Приклад. Побудувати рівняння регресії, що описує залежність урожайності озимої пшениц, ц/гаі ( у) від якості грунту, балі (х)

Оцінити щільність зв’язку між досліджуваними ознаками.

Таблиця 8.4.1.

Вихідні та розрахункові дані для побудови рівняння регресії

п/п

у

х

у

х

у х

у

ух

1

33,4

74

1115,56

5476

2471,6

38,2669

182898,4

2

39,6

83

1568,16

6889

3286,8

40,5278

272804,4

3

39,8

83

1584,04

6889

3303,4

40,5278

274182,2

4

36,4

85

1324,96

7225

3094,0

41,0302

262990,0

5

37,6

84

1413,76

7056

3158,4

40,7790

265305,6

6

39,5

83

1560,25

6889

3278,5

40,5278

272115,5

7

40,2

87

1616,04

7569

3497,4

41,5326

304273,8

8

42,4

81

1797,76

6561

3434,4

40,0253

278186,4

9

40,2

75

1616,04

5625

3015,0

38,5181

226125,0

10

40,6

74

1648,36

5476

3004,4

38,2669

222325,6

11

42,2

70

1780,84

4900

2954,0

37,2621

206780,0

12

43,8

81

1918,44

6561

3547,8

40,0253

287371,8

13

43,9

87

1927,21

7569

3819,3

41,5326

332279,1

14

43,1

80

1857,61

6400

3448,0

39,7741

275840,0

15

35,9

69

1288,81

4761

2477,1

37,0109

170919,9

16

40,6

86

1648,36

7396

3491,6

41,2814

300277,6

17

43,0

79

1849,00

6241

3397,0

39,5229

268363,0

18

43,2

80

1866,24

6400

3456,0

39,7741

276480,0

19

33,0

72

1089,00

5184

2376,0

37,7645

171072,0

20

40,0

88

1600,00

7744

3520,0

41,7838

309760,0

21

42,2

83

1780,84

6889

3502,6

40,5278

290715,8

22

33,4

70

1115,56

4900

2338

37,2621

163660,0

23

40,0

89

1600,00

7921

3560

42,0350

316840,0

24

35,8

73

1281,64

5329

2613,4

38,0157

190778,2

25

43,8

81

1918,44

6561

3547,8

40,0253

287371,8

993,6

1997

39766,92

160411

79592,5

993,60

6409716

25a + 1997a = 993,6

1997a + 160411a = 79592,5

a + 79,88 a = 39,744

a + 80,326 a = 39,856

Звідси, a = 19,6779

a = 0,2512

Рівняння регресії має вигляд: у = 19,6779 +0,2512х.

Коефіцієнт регресії a = 0,2512 показує, що із покращенням якості грунту на 1 бал, урожайність озимої пшениці підвищується, в середньому, на 0,2512 ц/га.

Для оцінки тісноти зв’язку між досліджуваними ознаками обчислюємо:

1) індекс кореляції :

= 0,56

2) Коефіцієнт кореляції :

= = 0,5

3) Коефіцієнт детермінації, який показує, на скільки відсотків варіація результативної ознаки зумовлена варіацією факторної ознаки:

R = 0,5 х 100% = 25 %.

Варіація урожайності озимої пшениці на 25% зумовлена варіацією якості грунту, балів.

Суттєвість коефіцієнта кореляції перевіримо за допомогою F- критерію Фішера.

Формулюємо нульову гіпотезу Н : коефіцієнт кореляції є несуттєвим.

F=

F= = 7,57

При рівні ймовірності Р=0,95, число ступенів вільності становить:

На підставі заданого рівня ймовірності та визначеного числа ступенів вільності із таблиць визначаємо критичну точку : F =4,28

Так як фактичне значення F- критерію перевищує критичну точку , то нульова гіпотеза не приймається, тобто коефіцієнт кореляції є суттєвим.

При криволінійній формі зв’язку збільшення факторної ознаки призводить до нерівномірного збільшення ( або зменшення ), або ж зростання її величини змінюється зниженням, а зменшення  збільшенням результативної ознаки.

Нелінійні форми зв’язку різні. Для визначення зв’язку між ознаками, взаємозалежність яких передбачає можливість існування оптимальних розмірів опеацій, використовують рівняння параболи:

yx = a0 + a1∙х+ a2∙х2.

Для визначення параметрів рівняння необхідно розв’язати систему з трьох

р івнянь:

n∙a0 + a1∙∑x + a2∙∑x2 =∑y;

a0∙∑x + a1∙∑x2 + a2∙∑x3= ∑ x∙y;

a0∙∑x2 + a1∙∑x3 + a2∙∑x4= ∑ x∙y 2.

Однією з особливостей цього типу кривої є те, що вона завжди має точку перетину, яка характеризує оптимальний варіант розміру величини результативної ознаки і змінює напрям свого руху лише один раз. Якщо в рівнянні величина a1 виражена від’ємним числом, а a2  додатнім, то крива змінюватиме напрям зниження на зростання.

Для оцінки тісноти зв’язку , як вже зазначалось, при криволінійних зв’язках використовують індекс кореляції та коефіцієнт детермінації.

Для дослідження впливу двох і більше факторів на зміну результативного показника застосовують множинну кореляцію.

Припущення про існування лінійного рівняння множинної регресії може бути представлено у вигляді:

yx1, х2...хn = a0 + a1∙х1+ a2∙х2+ a3∙х3 + ··· + an∙хn.

Окремі коефіцієнти рівняння регресії характеризують вплив відповідного фактора на результативний показник, при умові, що інші фактори еліміновані. Вільний член рівняння a0 не має економічного змісту і не інтерпретується.

Параметри рівняння множинної регресії розраховують за системою нормальних рівнянь:

n∙a0 + a1∙∑x1 + a2∙∑x2 =∑y;

a0∙∑x1 + a1∙∑x12 + a2∙∑x1∙х2= ∑ x1∙y;

a0∙∑x2 + a1∙∑ x1∙х2 + a2∙∑x22= ∑ x2∙y.

Показниками тісноти зв’язку при множинній кореляції є парні, часткові, множинний коефіцієнти кореляції, множинний коефіцієнт детермінації і часткові коефіцієнти детермінації.

Парні коефіцієнти кореляції характеризують тісноту зв’язку між двома ознаками без урахування їх взаємодії з іншими ознаками:

Часткові коефіцієнти кореляції характеризують тісноту заявку результативної ознаки з однією факторною ознакою при умові, що інші факторні ознаки еліміновані:

Множинний коефіцієнт кореляції характеризує тісноту зв’язку між всіма досліджуваними в моделі факторами:

або

Множинний коефіцієнт детермінації розраховують за формулою:

D = R2 ∙100%.

В свою чергу, множинний коефіцієнт детермінації розкладають на часткові коефіцієнти детермінації, які характеризують на скільки відсотків варіація результативної ознаки залежить від варіації кожної із факторних ознак.

D = d1 + d2 .

Крім цього, здійснюють перевірку суттєвості множинного коефіцієнта кореляції ( за F критерієм ) та коефіцієнтів регресії ( за t  критерієм ).

Важливими показниками кореляційного аналізу є коефіцієнти еластичності і β  коефіцієнти.

Коефіцієнти еластичності показують, на скільки відсотків змінюється результативна ознака при зміні факторної ознаки на 1%. Обчислюють їх за формулою:

β коефіцієнти показують, на скільки середніх квадратичних відхилень змінюється результативна ознака при зміні відповідного фактора на одне середнє квадратичне відхилення. Їх визначають за формулою: