Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекція 6. Особливі випадки у багатофакторному р...doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
605.7 Кб
Скачать

4. Мультіколінеарність та ії наслідки.

Одним з основних перешкод ефективного застосування множинного регресійного аналізу є мультиколлинеарность. Вона пов'язана з лінійною залежністю між аргументами x1,x2,...,xk . У результаті мультиколлинеарности матриця парних коефіцієнтів кореляції й матриця (XTX) стають слабообусловленными, тобто їхні визначники близькі до нуля.

Це викликає нестійкість оцінок коефіцієнтів регресії (2.5), більші дисперсії ; оцінок цих коефіцієнтів (2.7), тому що в їхньому вираженні входить зворотна матриця (XTX)-1 , одержання якої пов'язане з діленням на визначник матриці . Звідси випливають занижені значення t(bj) . Крім того, мультиколлинеарность приводить до завищення значення множинного коефіцієнта кореляції.

На практиці про наявність мультиколлинеарности звичайно судять по матриці парних коефіцієнтів кореляції. Якщо один з елементів матриці R більше 0.8, тобто , то вважають, що має місце мультиколлинеарность і в рівняння регресії варто включати тільки один з показників xj або xe.

Щоб позбутися від цього негативного явища, звичайно використовують алгоритм покрокового регресійного аналізу або будують рівняння регресії на головних компонентах.

Приклад побудови регресійного рівняння

По даним n=20 сільськогосподарських районів потрібно побудувати регресійну модель урожайності на основі наступних показників:

Y - урожайність зернових культур (ц/га);

X1 - число колісних тракторів (наведеної потужності)

на 100 га;

X2 - число зернозбиральних комбайнів на 100 га;

X3 - число знарядь поверхневої обробки ґрунту на 100 га;

X4 - кількість добрив, що витрачаються на гектар;

X5 - кількість хімічних засобів оздоровлення рослин, що витрачаються на гектар.

Вихідні дані для аналізу наведені в табл. 2.2

Таблиця 2.2

Вихідні дані для аналізу

Y

X1

X2

X3

X4

X5

9.70

8.40

9.00

9.90

9.60

8.60

12.50

7.60

6.90

13.50

9.70

10.70

12.10

9.70

7.00

7.20

8.20

8.40

13.10

8.70

1.59

0.34

2.53

4.63

2.16

2.16

0.68

0.35

0.52

3.42

1.78

2.40

9.36

1.72

0.59

0.28

1.64

0.09

0.08

1.36

0.26

0.28

0.31

0.40

0.26

0.30

0.29

0.26

0.24

0.31

0.30

0.32

0.40

0.28

0.29

0.26

0.29

0.22

0.25

0.26

2.05

0.46

2.46

6.44

2.16

2.69

0.73

0.42

0.49

3.02

3.19

3.30

11.51

2.26

0.60

0.30

1.44

0.05

0.03

1.17

0.32

0.59

0.30

0.43

0.39

0.32

0.42

0.21

0.20

1.37

0.73

0.25

0.39

0.82

0.13

0.09

0.20

0.43

0.73

0.99

0.14

0.66

0.31

0.59

0.16

0.17

0.23

0.08

0.08

0.73

0.17

0.14

0.38

0.17

0.35

0.15

0.08

0.20

0.20

0.42

Рішення. Попередньо, з метою аналізу взаємозв'язку показників побудована таблиця парних коефіцієнтів кореляції R.

Y

X1

X2

X3

X4

X5

1.00

0.43

0.37

0.40

0.58

0.33

0.43

1.00

0.85

0.98

0.11

0.34

0.37

0.85

1.00

0.88

0.03

0.46

0.40

0.98

0.88

1.00

0.03

0.28

0.58

0.11

0.03

0.03

1.00

0.57

0.33

0.34

0.46

0.28

0.57

1.00

Аналіз матриці парних коефіцієнтів кореляції показує, що результативний показник найбільше тісно пов'язаний з показником X4 - кількості добрив, що витрачаються на гектар (ryx4=0.58).

У той же час зв'язок між ознаками-аргументами досить тісна. Так, існує практично функціональний зв'язок між числом колісних тракторів (X1) і числом знарядь поверхневої обробки ґрунту (X3) - rx1x3=0.98.

Про наявність мультиколлинеарности свідчить також коефіцієнти кореляції rx1x2=0.85 і rx3x2=0.88.

Щоб продемонструвати негативний вплив мультиколлинеарности, розглянемо регресійну модель урожайності, включивши в неї всі вихідні показники:

=3.515 - 0.006X1 + 15.542X2 + 110X3 + 4.475X4 - 2.932X5 (2.15) (-0.01) (0.72) (0.13) (2.90) (-0.95)

У дужках зазначені tнабл(bj), розрахункові значення t - критерію для перевірки гіпотези про значимість коефіцієнта регресії Н0: j=0, j=1, 2, 3, 4, 5. Критичне значення tкр=1.76 знайдене по таблиці t - розподілу при рівні значимості =0.1 і числі ступенів волі =14. З рівняння треба, що статистично значимим є коефіцієнт регресії тільки при X4, тому що =2.90>tкр=1.76. Не піддаються економічній інтерпретації негативні знаки коефіцієнтів регресії при X1 і X5, із чого треба, що підвищення насиченості сільського господарства колісними тракторами (X1) і засобами оздоровлення рослин (X5) негативно позначається на врожайності. Таким чином, отримане рівняння регресії не прийнятно.

Після реалізації алгоритму покрокового регресійного аналізу з виключенням змінних і обліком того, що в рівняння повинна ввійти тільки одна із трьох тісно зв'язаних змінних (X1, X2 або X3) одержуємо остаточне рівняння регресії:

=7.342 + 0.345X1 + 3.294X4 (2.16)

(11.12) (2.09) (3.02)

У рівняння (2.16) включений X1, що як визначає із трьох показників.

Рівняння значиме при =0.05, тому що Fнабл=266>Fкр=3.20, знайденого по таблиці F- розподілу при =0.05; 1=3 і 2=17. Значимо й всі коефіцієнти регресії 1 і 4 у рівнянні >tкр (=0.05; =17) = 2.11. Коефіцієнт регресії 1 варто визнати значимим (10) з економічних міркувань при цьому t1=2.09 лише незначно менше tкр=2.11. При =0.1 tкр=1.74 і 1 статистично значимо.

З рівняння регресії треба, що збільшення на 1 числа тракторів на 100 га ріллі приводить до росту врожайності зернових у середньому на 0.345 ц/га (b1=0.345).

Коефіцієнти еластичності Э1=0.068 і Э4=0.161 показують, що при збільшенні показників X1 і X4 на 1% урожайність зернових підвищується відповідно на 0.068% і 0.161%, (Эj=bj).

Множинний коефіцієнт детермінації ry2=0.469 свідчить про те, що тільки 46.9% варіації врожайності пояснюється показниками, що ввійшли в модель (X1 і X4), тобто насиченістю рослинництва тракторами й добривами. Інша частина варіації обумовлена дією неврахованих факторів (X2, X3, X5, погодних умов і ін.). Середня відносна помилка апроксимації =10.5% характеризує адекватність моделі, також як і величина залишкової дисперсії S2=1.97.

13

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]