
- •Лекція 6. Особливі випадки в багатофакторному регресійному аналізі.
- •1. Основні критерії перевірки адекватності моделій
- •2. Неадкватність моделі. Приклади й наслідки Приклад. Розглянемо статистичні дані по сша за період з 1959 по 1985 р. Г. Про наступні макроекономічні показники:
- •3. Корекція статистичних висновків при наявності гетероскедастичності
- •4. Мультіколінеарність та ії наслідки.
- •Приклад побудови регресійного рівняння
4. Мультіколінеарність та ії наслідки.
Одним з основних перешкод ефективного застосування множинного регресійного аналізу є мультиколлинеарность. Вона пов'язана з лінійною залежністю між аргументами x1,x2,...,xk . У результаті мультиколлинеарности матриця парних коефіцієнтів кореляції й матриця (XTX) стають слабообусловленными, тобто їхні визначники близькі до нуля.
Це
викликає нестійкість оцінок коефіцієнтів
регресії (2.5), більші дисперсії
;
оцінок цих коефіцієнтів (2.7), тому що в
їхньому вираженні входить зворотна
матриця (XTX)-1
, одержання якої пов'язане з діленням
на визначник матриці . Звідси випливають
занижені значення t(bj)
. Крім того, мультиколлинеарность
приводить до завищення значення
множинного коефіцієнта кореляції.
На практиці про наявність мультиколлинеарности звичайно судять по матриці парних коефіцієнтів кореляції. Якщо один з елементів матриці R більше 0.8, тобто , то вважають, що має місце мультиколлинеарность і в рівняння регресії варто включати тільки один з показників xj або xe.
Щоб позбутися від цього негативного явища, звичайно використовують алгоритм покрокового регресійного аналізу або будують рівняння регресії на головних компонентах.
Приклад побудови регресійного рівняння
По даним n=20 сільськогосподарських районів потрібно побудувати регресійну модель урожайності на основі наступних показників:
Y - урожайність зернових культур (ц/га);
X1 - число колісних тракторів (наведеної потужності)
на 100 га;
X2 - число зернозбиральних комбайнів на 100 га;
X3 - число знарядь поверхневої обробки ґрунту на 100 га;
X4 - кількість добрив, що витрачаються на гектар;
X5 - кількість хімічних засобів оздоровлення рослин, що витрачаються на гектар.
Вихідні дані для аналізу наведені в табл. 2.2
Таблиця 2.2
Вихідні дані для аналізу
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
9.70 8.40 9.00 9.90 9.60 8.60 12.50 7.60 6.90 13.50 9.70 10.70 12.10 9.70 7.00 7.20 8.20 8.40 13.10 8.70 |
1.59 0.34 2.53 4.63 2.16 2.16 0.68 0.35 0.52 3.42 1.78 2.40 9.36 1.72 0.59 0.28 1.64 0.09 0.08 1.36 |
0.26 0.28 0.31 0.40 0.26 0.30 0.29 0.26 0.24 0.31 0.30 0.32 0.40 0.28 0.29 0.26 0.29 0.22 0.25 0.26 |
2.05 0.46 2.46 6.44 2.16 2.69 0.73 0.42 0.49 3.02 3.19 3.30 11.51 2.26 0.60 0.30 1.44 0.05 0.03 1.17 |
0.32 0.59 0.30 0.43 0.39 0.32 0.42 0.21 0.20 1.37 0.73 0.25 0.39 0.82 0.13 0.09 0.20 0.43 0.73 0.99 |
0.14 0.66 0.31 0.59 0.16 0.17 0.23 0.08 0.08 0.73 0.17 0.14 0.38 0.17 0.35 0.15 0.08 0.20 0.20 0.42 |
Рішення. Попередньо, з метою аналізу взаємозв'язку показників побудована таблиця парних коефіцієнтів кореляції R.
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
1.00 0.43 0.37 0.40 0.58 0.33 |
0.43 1.00 0.85 0.98 0.11 0.34 |
0.37 0.85 1.00 0.88 0.03 0.46 |
0.40 0.98 0.88 1.00 0.03 0.28 |
0.58 0.11 0.03 0.03 1.00 0.57 |
0.33 0.34 0.46 0.28 0.57 1.00 |
Аналіз матриці парних коефіцієнтів кореляції показує, що результативний показник найбільше тісно пов'язаний з показником X4 - кількості добрив, що витрачаються на гектар (ryx4=0.58).
У той же час зв'язок між ознаками-аргументами досить тісна. Так, існує практично функціональний зв'язок між числом колісних тракторів (X1) і числом знарядь поверхневої обробки ґрунту (X3) - rx1x3=0.98.
Про наявність мультиколлинеарности свідчить також коефіцієнти кореляції rx1x2=0.85 і rx3x2=0.88.
Щоб продемонструвати негативний вплив мультиколлинеарности, розглянемо регресійну модель урожайності, включивши в неї всі вихідні показники:
=3.515
- 0.006X1
+ 15.542X2
+ 110X3
+ 4.475X4
- 2.932X5 (2.15)
(-0.01) (0.72)
(0.13) (2.90) (-0.95)
У дужках зазначені tнабл(bj), розрахункові значення t - критерію для перевірки гіпотези про значимість коефіцієнта регресії Н0: j=0, j=1, 2, 3, 4, 5. Критичне значення tкр=1.76 знайдене по таблиці t - розподілу при рівні значимості =0.1 і числі ступенів волі =14. З рівняння треба, що статистично значимим є коефіцієнт регресії тільки при X4, тому що =2.90>tкр=1.76. Не піддаються економічній інтерпретації негативні знаки коефіцієнтів регресії при X1 і X5, із чого треба, що підвищення насиченості сільського господарства колісними тракторами (X1) і засобами оздоровлення рослин (X5) негативно позначається на врожайності. Таким чином, отримане рівняння регресії не прийнятно.
Після реалізації алгоритму покрокового регресійного аналізу з виключенням змінних і обліком того, що в рівняння повинна ввійти тільки одна із трьох тісно зв'язаних змінних (X1, X2 або X3) одержуємо остаточне рівняння регресії:
=7.342 + 0.345X1 + 3.294X4 (2.16)
(11.12) (2.09) (3.02)
У рівняння (2.16) включений X1, що як визначає із трьох показників.
Рівняння значиме при =0.05, тому що Fнабл=266>Fкр=3.20, знайденого по таблиці F- розподілу при =0.05; 1=3 і 2=17. Значимо й всі коефіцієнти регресії 1 і 4 у рівнянні >tкр (=0.05; =17) = 2.11. Коефіцієнт регресії 1 варто визнати значимим (10) з економічних міркувань при цьому t1=2.09 лише незначно менше tкр=2.11. При =0.1 tкр=1.74 і 1 статистично значимо.
З рівняння регресії треба, що збільшення на 1 числа тракторів на 100 га ріллі приводить до росту врожайності зернових у середньому на 0.345 ц/га (b1=0.345).
Коефіцієнти еластичності Э1=0.068 і Э4=0.161 показують, що при збільшенні показників X1 і X4 на 1% урожайність зернових підвищується відповідно на 0.068% і 0.161%, (Эj=bj).
Множинний коефіцієнт детермінації ry2=0.469 свідчить про те, що тільки 46.9% варіації врожайності пояснюється показниками, що ввійшли в модель (X1 і X4), тобто насиченістю рослинництва тракторами й добривами. Інша частина варіації обумовлена дією неврахованих факторів (X2, X3, X5, погодних умов і ін.). Середня відносна помилка апроксимації =10.5% характеризує адекватність моделі, також як і величина залишкової дисперсії S2=1.97.