
Лекція 3
.docxЛекція №3
Основні припущення для простої лінійної регресії
Логіка подальших подій: є економетрична модель – інструмент моделювання. Слід окреслити умови, коли застосування його найменше.
По-іншому, наскільки вдало емпіричні коефіцієнти b0 та b1 відповідають β0 та β1?
Припущення
щодо
є
головним для інтерпретації
регресійних оцінок
математичного сподівання (умови
Гаусса-Маркова).
фактори, що враховані моделлю (віднесені до
) систематично не впливають:
нейтралізують
.
ВВ незалежні між собою (їх коеф. кореляції = 0):
Гомоскедастичність (однакова дисперсія ВВ )
Гетероскедастичність
(нерівна дисперсія)
Незалежність між значеннями
(нульова коваріація між ними)
Регресійну модель визначено (специфіковано) правильно.
ВВ ε розподілена нормально з математичним сподіванням = 0 та сталою дисперсією
, тобто
При виконанні вказаних припущень оцінки, отримані МНК, володіють властивостями:
Незміщені, тобто
, тому що
: відсутність систематичної похибки у визначенні розташування лінії регресії.
Оцінки переконливі (обґрунтовані):
. По-іншому, збільшення об’єму вибірки сприяє підвищенню надійності оцінок.
Пояснювальні змінні не є ВВ; число спостережень >> числа пояснювальних змінних.
Оцінки ефективні: мають найменшу дисперсію.
BLUE – найкращі лінійні незміщені оцінки (це є теорема Гаусса-Маркова).
Мають місце робочі формули:
де
співмножник
,
будучи оцінкою дисперсії випадкової
величини ε,
замінюється на величину
,
яка обчислюється:
,
причому
величина
є непояснювана дисперсія, міра відхилення
залежної змінної навколо лінії регресії;
n
– об’єм вибірки; цифра 2 відповідає
кількості оцінюваних параметрів моделі.
Величина
називається
стандартною
похибкою оцінки
(стандартна
похибки регресії).
Величини
Є стандартні похибки коеф. регресії.
Геометричні пояснення формул коеф.
визначає нахил прямої регресії. Чим більше розкиданість значень Y навколо лінії регресії, тим (в середньому) більша похибка в обчисленні нахилу прямої.
Точки
належать прямій регресії,
:
розкиданості нема.
Та ж пряма регресії, але точки не належать їй – суттєва розкиданість.
При
виключенні з розгляду будь-якої точки
прямі регресії суттєво відрізняються
між собою: зовсім різні кути нахилу цих
прямих. Отже, стандартна похибка
коеф.
регресії b1
буде
значною.
Для великих по модулю значеннях Х навіть незначна зміна нахилу регресійної прямої призводить до значної зміни оцінки вільного члена, бо в середньому велика віддаль від точок спостереження до осі oY.
Інтервальні оцінки коеф. лінійного рівняння регресії
Припускається, що ВВ коеф. b0 та b1 мають нормальні розподіли.
Розраховується t-статистика для кожного параметра
Вони мають розподіл Стьюдента з числом ступенів вільності v = n – 2.
Рівень
значущості
для визначення 100(1-α)% довірчого інтервалу
за допомогою таблиць критичних точок
розподілу Стьюдента та довірчою
ймовірністю
і числом ступенів вільності v
= n
– 2 визначається
критичні значення
,
що
задовольняє умові
Підставляючи кожну статистику в цей результат, маємо:
Після перетворень виразів в дужках одержуємо:
Далі користуються виразами для S(b0) та S(b1).
Отже, довірчі інтервали:
З надійністю (1 – α) покривають параметри β0 та β1. Фактично, довірчий інтервал визначає значення теоретичних коефіцієнтів регресії β₀ та β₁, які будуть придатні з надійністю (1-α) при знайдених оцінках b₀ та b₁.
Довірчі інтервали залежної змінної
Центральне питання – прогнозування значень залежної змінної при певних значеннях пояснювальних змінних.
Передбачення середнього значення
Довірчий
інтервал для М (Y│Х=
)=
β₀+β₁
має вигляд:
[
b₀+b₁
-
;n-2·
;
b₀+b₁ + ;n-2· ]
Для перевірки гіпотез:
нульвої
Н₀:
М (Y│Х=
)=
;
альтернативної
Н₁:
М (Y│Х=
)
=
;
Передбачення індивідуальних значень залежної змінної
Важливіше знати дисперсію Y, ніж її середні значення або довірчі інтервали для умовного математичного сподівання
ВВ
Має розподіл Стьюдента з V=n-2.
Отже,
P[
-
;n-2
<
<
;n-2]=1-α.
Таким
чином, інтервал [b₀+b₁
±
;n-2·
]
визначає межі, за якими може бути не
більше 100*α% точок спостережень при Х=
.
Цей інтервал ширший за попередній (
довірчий інтервал умовного сподівання).
Перевірка лінійної регресійної моделі на адекватність здійснюється за F-критерієм Фішера і включає кроки:
Розраховується F-відношення
F₁,
n-2=
,
де індекси 1, (
)
– ступені вільності.
Вказується рівень значущості α, як правило α=0,05
За статистичними таблицями F-розподілу Фішера для ступенів вільності 1, ( ) та рівня значимості 2 знаходиться Fкр.
Якщо F > Fкр, то нульова гіпотеза Н₀, що β₁=0, відкидається з ризиком в 5%. Іншими словами, для нерівності F > Fкр побудована регресійна модель адекватна реальній дійсності.
Схема Стьюдента для перевірки значущості коефіцієнтів парної лінійної регресії
Будується t-статистика для кожного:
t=
t=
,
де β₀,
β₁
–
теоретичні значення (гіпотетичні).
В економетриці поширено:
нуль-гіпотеза Н₀: βᵢ=0, де і=0,1.
Альтернативна
Н₁:
βᵢ
= 0.
Тоді
t-статистика
для параметрів набуває вигляду t=
.
Вона
порівнюється з
;
(n-2).
Якщо
виконується │t│<
<=> -
<
t
<
,
то
з ймовірністю (1-α) оцінка bᵢ
є статистично незначимою (приймається
нуль-гіпотеза)
Якщо величина t потрапляє в критичну зону, яка заштрихована, то нуль-гіпотеза Н₀: βᵢ=0 відкидається.
t-статистика Стьюдента є відношення величини bᵢ до оцінки свого стандартного відхилення (або середньоквадратичного). Якщо згадуване відношення більше від критичного , яке шукається за таблицею, то приймається альтернативна гіпотеза: Н₁: βᵢ = 0, тобто коефіцієнт значущий статистично.
Користуються статистикою
T=
,
що
має розподіл Стьюдента з числом ступенів
вільності V=n-2.
Гіпотеза
Н₀
відхиляється
якщо
2-рівень
значущості. │
│>
;n-2;
По
мірі віддаленості
від
довірчі інтервали розширюються (бути
обережним!).
З ростом числа спостережень ці інтервали звужуються до лінії регресії.