
- •1. Прості лінійні регресійні моделі
- •2. Оцінка тісноти та значимості зв’язку між змінними моделі
- •3. Оцінка точності моделі
- •4. Перевірка значущості та довірчі інтервали
- •4.1. Перевірка значущості коефіцієнта детермінації
- •4.2. Перевірка значущості коефіцієнта кореляції
- •4.3. Оцінка статистичної значущості параметрів моделі
- •5. Прогнозування за лінійною моделлю
- •Контрольні запитання
2. Оцінка тісноти та значимості зв’язку між змінними моделі
Після вибору виду рівняння регресії та знаходження його параметрів розпочинають наступний етап – кореляційний аналіз, тобто дають оцінку тісноти та значимості зв'язку змінних у регресійній моделі.
Тісноту зв'язку між залежною змінною Y та незалежною змінною X оцінюють за допомогою статистичних характеристик: коефіцієнт детермінації, коефіцієнт кореляції. За допомогою цих коефіцієнтів перевіряється відповідність побудованої регресійної моделі (теоретичної) фактичним даним.
У поняття “тіснота зв'язку” вкладається оцінка впливу незалежної змінної (X) на залежну змінну (Y).
Після встановлення тісноти зв'язку між змінними моделі характеризують значимість зв'язку, яка в кореляційному аналізі частіше всього здійснюється за допомогою F-критерію Фішера.
Коефіцієнт детермінації
Коефіцієнт детермінації показує, якою мірою варіація залежної змінної (результативного показника) Y визначається варіацією незалежної змінної (вхідного показника) X. Тобто дається відповідь на запитання, чи справді зміна значення Y лінійно залежить саме від зміни значення Х, а не відбувається під впливом різних випадкових факторів. Він використовується як при лінійному, так і при нелінійному зв'язку між змінними та розраховується за формулою:
(4)
де Yрозр – теоретичні значення залежної змінної на підставі побудованої регресійної моделі; Yсер – загальна середня фактичних даних залежної змінної; Yфакт – фактичні індивідуальні значення залежної змінної.
Коефіцієнт детермінації приймає значення від 0 (відсутній лінійний зв'язок між показниками) до 1 (відсутній кореляційний зв'язок між показниками).
коефіцієнт кореляції (індекс кореляції)
Найпростішим критерієм, який дає кількісну оцінку зв’язку між двома показниками, є коефіцієнт кореляції (або індекс кореляції). Він розраховується за такою формулою:
(5)
Чим ближче коефіцієнт кореляції до одиниці, тим тісніше зв'язок між незалежною та залежною змінними.
Іноді для спрощення розрахунків тісноту кореляційного зв'язку характеризують коефіцієнтом кореляції, який розраховується за формулою:
(6)
Значення R лежить у діапазоні від –1 до +1. При R=0 змінні не можуть мати лінійного кореляційного зв'язку. Ступінь тісноти їх лінійної залежності зростає при наближенні R до ±1. Кореляційний зв'язок між показниками відсутній при R=±1 Коли R>0, то зв'язок між показниками прямий, якщо R<0 – обернений.
В залежності від значення коефіцієнта кореляції зв’язок між перемінними класифікується так:
Значення коефіцієнта кореляції |
0 |
0,1–0,3 |
0,3–0,5 |
0,5–0,7 |
0,7–0,9 |
0,9–0,99 |
1 |
Висновок про силу кореляційного зв’язку |
відсутній |
слабкий |
помірний |
середній |
високий |
досить високий |
близький до функціо- нального |
F-критерій Фішера
Тестування значимості змінної Х, або адекватності моделі проводиться за критерієм Фішера. Перевіряється, чи справді незалежна Х впливає на значення залежної Y.
Використовуючи суми квадратів відхилень, обчислимо F-критерій Фішера за формулою:
Розрахунковий критерій Фішера з урахуванням ступенів вільності обчислюємо за формулою:
(8)
де m, (n–m–1) – число ступенів вільності відповідно чисельника та знаменника залежності;
n – кількість спостережень;
m – кількість незалежних змінних.
Етапи тестування за критерієм Фішера
Тестування значимості змінної Х за критерієм Фішера складається з наступних етапів:
Формулюється нуль-гипотиза: Н0: β1 = 0.
Задаємо рівень значимості α (наприклад, 5%).
Обчислюємо F-відношення.
За таблицями F-розподілу Фішера знаходимо F-критичне значення при заданому рівні значимості (або помилки) та за ступенями вільності f1 та f2 .
Цю гіпотезу відкидаємо з 5%-ним ризиком помилитися, якщо:
Fрозр > F0,95
де F0,95 – значення F при 5%-ному ризику помилки (знаходимо за таблицями F-критерію Фішера з відповідними ступенями вільності і заданим рівнем значимості).
Отже, достовірність моделі оцінюють порівнянням розрахункового (Fрозр) та табличного значень критерію Фішера. Припустимо Fрозр= 45,3. Значення Fтабл визначають за спеціальними таблицями залежно від ступенів вільності f1 та f2 (див. дод. 7):
f1 = (n – m – 1),
f2 = (n – 1),
де n – кількість спостережень; m – кількість незалежних змінних.
Можлива помилка (рівень значимості) може прийматися або 0,05 або 0,01. Це означає, що у 5% або 1% випадків ми можемо помилитися, а у 95% або 99% випадків (рівень довіри) наші висновки будуть правильними.
Так, при =0,95 та значеннях f 1=(8–1–1)=6; f2=(8–1)=7 табличне значення критерію Фішера буде дорівнювати Fтабл= 3,87.
Якщо за своїми значеннями Fрозр > Fтабл , то можна зробити висновок про адекватність побудованої моделі – припускаємо присутність лінійного зв'язку.
Зв’язок між коефіцієнтом детермінації (R2) та F-відношення Фішера
Між коефіцієнтом детермінації R2 та F-відношення Фішера є зв’язок:
Отже, можливе тестування адекватності моделі, використовуючи тільки коефіцієнт детермінації.
Ступінь вільності
Під терміном “ступінь вільності” (ступінь свободи) в економетрії розуміють число, яке показує, скільки незалежних елементів інформації із змінних Yi (і =1…n) потрібно для розрахунку розглядаємої суми квадратів.
В кореляційному аналізі існує рівняння, яке пов’язує відхилення загальної суми квадратів із залишковою сумою квадратів та сумою квадратів, що пояснює регресію:
Sy = Su + SY
де Sy – загальна сума квадратів відхилень:
Su – залишкова сума квадратів відхилень:
SY – регресійна сума квадратів відхилень:
Кожна із зазначених сум пов'язана з ступенями вільності:
для загальної суми квадратів Sy потрібно (n–1) незалежних чисел, тобто ступенів вільності;
для залишкової суми квадратів Su – (n–m1) ступенів вільності;
для регресійної суми квадратів SY – (m1–1) ступенів вільності.
|
|
|
Ступінь вільності |
|
– сума квадратів відхилень фактичних значень Y від середньоарифметичного Y |
Загальна сума квадратів відхилень |
(n-1) |
|
– сума квадратів відхилень фактичних значень Y від розрахункових |
Залишкова сума квадратів відхилень |
(n–m1) |
|
– сума квадратів відхилень розрахункових значень Y від середньоарифметичного Y |
Регресійна сума квадратів відхилень |
(m1–1) |
де n – кількість спостережень;
m1 – кількість параметрів моделі.