
5.3. Класична регресія
Регресійна модель описує об’єктивно існуючі між явищами кореляційні зв’язки. За своїм характером кореляційні зв’язки надзвичайно складні та різноманітні. В одних випадках результат у зі зміною фактора хі зростає чи зменшується рівномірно, в інших — нерівномірно. Іноді зростання може змінитися зменшенням і навпаки. Простежити всі ці взаємозв’язки і встановити точний функціональний вид практично неможливо. А тому при виборі типу функції йдеться лише про апроксимацію відносно простими функціями незрівнянно більш складних за своєю природою взаємозв’язків. На практиці перевагу віддають моделям, які є лінійними або приво- дяться до лінійного виду шляхом перетворення змінних, наприклад логарифмуванням. Такий підхід, безперечно, містить у собі певну умовність, оскільки передбачає однаковий характер зв’язку з усіма факторами. Проте використання надто складних функцій неминуче веде до збільшення кількості параметрів, а отже, зменшує точність вимірювання та ускладнює інтерпретацію результатів.
При обґрунтуванні типу функції слід враховувати й той факт, що межі варіації корельованих ознак у конкретних умовах простору і часу, в конкретній сукупності значно вужчі за їх можливі значення, і в цих межах варіації навіть лінійна функція може задовільно апроксимувати зв’язок.
У лінійному щодо параметрів рівнянні регресії індивідуальне значення результативного показника уj (де j — порядковий номер одиниці сукупності) записується так:
,
де b0 — вільний член рівняння; економічного змісту, як правило, не має, лише окреслює область існування моделі;
bі — коефіцієнт регресії; показує, як в середньому змінюється у зі зміною хі на одиницю її шкали вимірювання за незмінності інших включених в модель факторів і за інших рівних умов;
ej = yj – Yj — залишкова величина.
У регресійній моделі основне навантаження покладається на коефіцієнт регресії bі, він розглядається як своєрідна міра «очищеного» впливу хі на у і називається ефектом впливу.
Процедура оцінювання параметрів регресійної моделі ґрунтується на методі найменших квадратів (МНК). Оскільки алгоритми МНК описано в математико-статистичній літературі й реалізовано в комп’ютерних програмах, наведемо лише загальну схему розрахунку статистичних характеристик моделі, акцентуючи увагу на їх змістовній інтерпретації.
Первинна інформація представляється як матриця факторних ознак Х розміром (n ∙ m) і вектора результативної ознаки у розміром (n ∙ 1). Задля зручності використання алгоритмів МНК матриця Х розширюється за рахунок додатково введеної фіктивної змінної х0, вектор якої представлений одиницями. Параметри моделі — вектор В = │b0, b1, b2, …, bm│ визначаються розв’язуванням системи нормальних рівнянь, яка записується так:
X′XB = X′y, де X′X — матриця розміром n (m + 1).
Послідовність розрахунків включає етапи:
обчислення матриці X′X і вектора X′y;
обертання матриці C = (Х′Х)–1;
розрахунок параметрів B = CX′y;
визначення теоретичних значень результативної ознаки
та залишків ej = yj – Yj .
Значення коефіцієнтів регресії певною мірою залежать від складу введених у модель факторів. З розширенням ознакової множини моделі відбувається перерозподіл впливу попередньо введених факторів. Чим вагоміший вплив нововведеного фактора, тим помітніші зміни. Ілюстрацією перерозподілу впливу факторів може слугувати регресійна модель урожайності рису, ц/га [11]. У модель послідовно вводились агротехнічні фактори: х1 —попередник, балів; х2 — внесення добрив під основний обробіток, центнерів поживної речовини (ц п. р.) на 1 га посіву; х3 — передпосівний обробіток, га м’якої оранки; х4 — підживлення, ц п. р.; х5 — норма висіву; х6 — кількість прополювань. Відповідно отримано такі рівняння регресії:
1. Y = 30,432 + 3,001х1;
2. Y = 26,208 + 2,049х1 + 5,995х2;
3. Y = 21,563 + 1,970х1 + 4,610х2 + 2,906х3;
4. Y = 22,332 + 1,321х1 + 4,558х2 + 1,465х3 + 9,791х4;
5. Y = 18,960 + 1,342х1 + 4,483х2 + 1,347х3 + 9,545х4 + 1,756х5;
6. Y = 19,387 + 0,965х1 + 3,400х2 + 0,501х3 + 7,500х4 + 1,731х5 + + 3,433х6.
Як бачимо, введення кожного нового фактора спричиняє зменшення впливу попередньо введених факторів, таку ж тенденцію має й вільний член рівняння.
Оскільки
факторні ознаки мають, як правило, різні
одиниці вимірювання, то для порівняння
ефектів їх впливу в рамках моделі
використовують стандартизовані
коефіцієнти регресії
(бета-коефіцієнти) або коефіцієнти
еластичності
.
Бета-коефіцієнт
характеризує ефект впливу хі
на у
в середньоквадратичних відхиленнях,
коефіцієнт
еластичності
— в процентах. У табл. 5.2 наведено
бета-коефіцієнти останнього (шостого)
варіанта моделі врожайності рису. Згідно
із значеннями
найвагоміший вплив на врожайність рису
мають: прополювання (β6 = 0,360),
підживлення (β4 = 0,264),
внесення добрив під основний обробіток
(β2
=
0,248).
Для оцінювання адекватності регресійної моделі використовують:
стандартне відхилення;
множинні коефіцієнти детермінації та кореляції;
частинні коефіцієнти детермінації та кореляції;
коефіцієнти окремої детермінації;
критерії перевірки істотності зв’язку.
Стандартне відхилення характеризує варіацію залишкових величин
,
де n — обсяг сукупності, m — кількість коефіцієнтів регресії.
Розрахунок характеристик щільності зв’язку ґрунтується на декомпозиції (розкладанні) варіації у за джерелами формування:
,
де
— загальна
сума квадратів відхилень,
зумовлена впливом усіх можливих факторів;
— факторна
сума квадратів відхилень,
зумовлена впливом включених у модель
факторних ознак хі;
—
залишкова
сума квадратів відхилень,
розмір
якої залежить від потужності впливу не
включених у модель факторів.
Відношення факторної суми квадратів до загальної характеризує частку варіації у, пов’язану з варіацією включених у модель факторів, і називається множинним коефіцієнтом детермінації
.
За
відсутності зв’язку R2 = 0.
Якщо зв’язок функціональний, то R2 = 1.
Очевидно, що R2
пов’язаний із стандартним відхиленням
se.
При зменшенні se
значення R2
зростатиме і навпаки. Корінь квадратний
із коефіцієнта детермінації називають
коефіцієнтом
кореляції
.
Для моделі врожайності рису
R = 0,8394,
R2 = 0,7029,
тобто 70,29% варіації врожайності рису
лінійно пов’язані з агротехнічними
факторами, включеними в модель.
Окрім названих множинних коефіцієнтів щільності зв’язку, в комп’ютерних програмах передбачено розрахунок R2 з урахуванням числа ступенів вільності:
,
де
— оцінка дисперсії результативної
ознаки у;
— оцінка
залишкової дисперсії.
Скоригований
коефіцієнт множинної детермінації
відрізняється від R2
співвідношенням числа ступенів вільності
дисперсій: залишкової (n – m + 1)
і загальної (n – 1).
Для розглянутої моделі це співвідношення
становить (34 – 1) : (34 – 6 – 1) =
= 1,2222,
а
= 1 – (1 – 0,7029) ∙ 1,2222 = 0,6369.
У
моделях множинної регресії поряд з
оцінкою сукупного впливу всіх включених
у модель факторів вимірюється кореляція
між функцією у
та кожним окремим фактором хі
при елімінуванні впливу інших факторів.
Для цього використовують частинні
коефіцієнти детермінації
.
Схему розрахунку
розглянемо на прикладі фактора х6
моделі врожайності рису. До введення
його в модель п’ять факторів пояснювали
64,61% варіації врожайності (R² = 0,6461),
не поясненими залишалися (1 – 0,6461) ∙ 100 =
35,39%
варіації. Фактор х6
додатково пояснив 0,7029 –– 0,6461 = 0,0568
варіації у,
що відноcно не поясненої іншими факторами
варіації становить 0,0568 : 0,3539 = 0,1605.
Це і є частинним коефіцієнтом детермінації
фактора х6.
Отже,
розрахунок
ґрунтується на порівнянні двох регресійних
моделей: повної, з урахуванням фактора
хі,
і скороченої, у якій фактор хі
відсутній. Чисельник
дорівнює різниці сукупних коефіцієнтів
детермінації цих моделей, знаменник —
одиниці мінус сукупний коефіцієнт
детермінації скороченої моделі. Загальну
схему його розрахунку можна представити
як відношення сум квадратів: частинної
і залишкової
:
,
де
;
сіі — діагональний елемент оберненої матриці.
Корінь квадратний із частинного коефіцієнта детермінації називають частинним коефіцієнтом кореляції.
Іноді для характеристики ролі кожного фактора у відтворенні варіації у сукупний коефіцієнт детермінації розкладають на складові:
,
де
— коефіцієнт
окремої детермінації,
який залежить від потужності впливу
і-го
фактора на у
та щільності зв’язку між ними (ri0
— парний коефіцієнт кореляції).
Ефекти впливу факторів на врожайність рису та характеристики щільності зв’язку наведенo в табл. 5.3.
Таблиця 5.3
Фактор |
ri0 |
bi |
βi |
|
|
x1 |
0,597 |
0,965 |
0,192 |
0,1146 |
0,0727 |
x2 |
0,614 |
3,400 |
0,248 |
0,1521 |
0,1160 |
x3 |
0,489 |
0,501 |
0,045 |
0,0221 |
0,0039 |
x4 |
0,638 |
7,500 |
0,264 |
0,1687 |
0,1168 |
x5 |
0,411 |
1,730 |
0,029 |
0,0119 |
0,0020 |
x6 |
0,716 |
3,443 |
0,362 |
0,2335 |
0,1605 |
У
таблиці для кожного фактора наведено
три характеристики щільності зв’язку:
парний коефіцієнт ri0,
частинний
і коефіцієнт окремої детермінації
.
Найбільші значення мають парні коефіцієнти
кореляції. Це пояснюється тим, що фактори
взаємозалежні, і парний коефіцієнт
кореляції акумулює вплив інших факторів.
Частинні коефіцієнти характеризують
відносну зміну залишкової
дисперсії за рахунок відповідного
фактора; для
кожного з них база порівняння інша, а
тому аналітичні можливості їх обмежені.
Коефіцієнти окремої детермінації, сума
яких дорівнює множинному коефіцієнту
детермінації R2 = 0,7029,
упорядковуючи фактори за потужністю
впливу, практично дублюють висновки,
які можна зробити на основі бета-коефіцієнтів.
Перевірка істотності зв’язку статистично формулюється як перевірка нульових гіпотез: H0 : R2 = 0; H0 : bi = 0. Гіпотеза Н0 відхиляється чи визнається допустимою на основі статистичних критеріїв, зокрема дисперсійного F-критерію, статистична характеристика якого розраховується відношенням оцінок факторної і залишкової дисперсій:
або
.
Критичні
значення
,
де α — рівень істотності, k1 =
= m – 1,
k2 = n – (m – 1)
— числа ступенів вільності чисельника
та знаменника, наведено в додатку 10.
Оскільки F-критерій
функціонально зв’язаний з коефіцієнтом
детермінації R2,
то перевірку істотності зв’язку можна
здійснити, використовуючи безпосередньо
критичні значення
,
наведені в додатку 11.
Паралельно з оцінюванням адекватності моделі проводиться перевірка істотності впливу окремих факторів хі на у за допомогою t-критерію:
,
де
— стандартна похибка коефіцієнта
регресії;
— оцінка залишкової дисперсії;
— діагональний
елемент оберненої матриці С.
Критичні
значення
,
де k = n – 1
наведено в додатку 5. Ефект впливу і-го
фактора визнається істотним, якщо
.
Так, при α = 0,05
і k = 20
коефіцієнт bі
в 2,15 раза перевищує стандартну похибку
,
що свідчить про його значущість
(істотність).
Довірчі
межі ефекту впливу визначаються за
правилами вибіркового методу
,
де
— значення двостороннього t-критерію.
Процедури регресійного аналізу об’єднано в модулі Multiplе Regression — Множинна регресія. Як приклад розглянемо модель залежності виходу цукру з 1 т сировини в кг (y) від цукристості буряка (х1), втрат сировини при транспортуванні та зберіганні (х2) та втрат цукру при переробці сировини (х3). Первинні дані наведено в табл. 2.1.
На
стартовій панелі модуля відкриваємо
файл даних і проводимо селекцію ознак
на залежну (Dependent
var.)
та незалежні (Independent
Variable list).
За командою на виконання програми
з’являється вікно результатів аналізу
— Multiple
Regression Results.
У верхній, інформаційній частині цього
вікна вказується назва залежної ознаки
та обсяг сукупності; наводяться значення
коефіцієнтів щільності зв’язку:
множинної кореляції R,
множинної детермінації R2
та
(у таблицях відповідно R1
та Adjusted R1),
значення F-критерію,
стандартної похибки
— St.errou,
вільного члена рівняння регресії b0
— Intercеpt
та його похибки, значення βi-коефіцієнтів.
У нижній, функціональній частині вікна пропонуються опції, за допомогою яких можна провести всебічний аналіз результатів регресійного аналізу. Так, опція Regression Summary видає таблицю, в якій, окрім зазначених характеристик, наведено для всіх включених у модель факторів βi-коефіцієнти і коефіцієнти регресії bі із стандартними похибками, значення t-критерію і фактичні рівні істотності p-level. У табл. 5.4 наведено характеристики регресійної моделі виходу цукру з 1 т сировини.
Таблиця 5.4
Regression Summary for Dependent Variable: VAR4 (new.sta) |
||||||
Continuе… |
R = ,919228 RІ = ,844981 Adjusted RІ = ,802703 |
|||||
F(3,11)=19,986 p<,00009 Std.Error of estimate: ,36406 |
||||||
N = 15 |
BETA |
St. Err. of BETA |
B |
St. Err. of B |
t(11) |
p-level |
Intercpt |
|
|
9,812 |
8,287 |
1,184 |
0,261 |
VAR1 |
0,332 |
0,146 |
0,953 |
0,420 |
2,267 |
0,044 |
VAR2 |
–0,507 |
0,157 |
–10,084 |
3,128 |
–3,223 |
0,008 |
VAR3 |
–0,377 |
0,130 |
–1,729 |
0,598 |
–2,888 |
0,014 |
Згідно з даними таблиці рівняння регресії має такий вигляд:
Y = 9,812 + 0,953x1 – 10,084x2 – 1,729x3.
Із збільшенням цукристості буряка на 1%, за умови незмінності інших факторів, вихід цукру з 1 т сировини зростає в середньому на 0,953%; щодо порушень технології зберігання та переробки сировини, то вони мають негативний вплив, особливо порушення технології зберігання. Включені в модель фактори пояснюють 84,5% варіації виходу цукру з 1 т сировини; ефекти впливу усіх факторів істотні.
Опція Analysis of variance пропонує таблицю декомпозиції варіації показника-функції, де вказані суми квадратів Sums of Squares: факторна Regress., залишкова Residual та загальна Total, число ступенів вільності df, оцінки дисперсій Mean Squares, значення F-критерію та p-level (табл. 5.5).
Таблиця 5.5
Analysis of Variance; DV: VAR4 (new.sta) |
|||||
Continuе… |
Sums of Squares |
df |
Mean Squares |
F |
p-level |
Regress. |
7,947 |
3 |
2,649 |
19,986 |
9,27E-05 |
Residual |
1,458 |
11 |
0,132 |
|
|
Total |
9,405 |
|
|
|
|
За опцією Partial cоrrelаtion визначаються частинні коефіцієнти кореляції Partial Cor. для кожної змінної. У таблиці результатів (табл. 5.6), окрім коефіцієнтів частинної і напівчастинної (Semipart Cor.) кореляції, пропонується тест толерантності, за яким оцінюється ступінь зв’язку хі з іншими включеними в модель факторами. Якщо хі є лінійною комбінацією інших факторів, то R-square наближується до 1, а Tolerаnce (1 – R²) — до 0. Фактор з малою толерантністю не несе додаткової інформації, і включення його в модель не виправдане.
Таблиця 5.6
Variables currently in the Equation; DV: VAR4 (new.sta) |
|||||||
Соntinue… |
Beta in |
Partial Cor. |
Semipart Cor. |
Tolerance |
R-square |
t(11) |
p-level |
VAR1 |
0,332 |
0,564 |
0,269 |
0,656 |
0,344 |
2,267 |
0,045 |
VAR2 |
–0,507 |
–0,697 |
–0,383 |
0,570 |
0,430 |
–3,223 |
0,008 |
VAR3 |
–0,377 |
–0,657 |
–0,343 |
0,826 |
0,174 |
–2,889 |
0,015 |