- •Розділ 1. Лінійна регресія
- •Проста лінійна регресія
- •Опис моделі
- •Знаходження оцінок параметрів регресії методом найменших квадратів
- •Рівняння вибіркої регресії приймає вигляд
- •1.1.3.Властивості залишків методу найменших квадратів
- •1.1.4.Розклад дисперсії залежної змінної. Коефіціент детермінації
- •1.1.5.Статистичні властивості оцінок методу найменших квадратів
- •1.1.6.Статистичні висновки в моделі простої лінійної регресії Перевірка гіпотез про коефіцієнт нахилу регресії
- •Інтервальне оцінювання
- •Перевірка значущості регресії
- •1.1.7. Прогнозування за допомогою простої лінійної регресії
- •1.1.8.Приклад
Рівняння вибіркої регресії приймає вигляд
. (1.8)
З першого нормального рівняння випливає, що графік вибіркової регресійної прямої (1.8) проходить через точку середеніх значень залежної та незалежної змінних. Рівняння (1.8) дає нам уявлення про характер залежності (точніше детермінованої її частини) між змінними x та y.
1.1.3.Властивості залишків методу найменших квадратів
Позначимо через різниці між фактичними та теретичними, тобто обчисленими з рівняння вибіркої регресії (1.8) значеннями залежної змінної:
(1.9)
– залишки методу найменших квадратів (аналогічно тому, як ми домовились щодо позначень оцінок методом найменших квадратів, замість загального позначення залишків , для залишків методу найменших квадратів будемо використовувати літеруe). Залишки можна вважати вибірковими, або емпіричними аналогами збурень. З урахуванням уведених позначень перше нормальне рівняння запишеться у вигляді
. (1.10)
Отже, сума залишків методу найменших квадратів дорівнює нулю.
Друге нормальне рівняння прийме вигляд
. (1.11).
Або, якщо позначити через x вектор значень незажної змінної, а через e вектор залишків:
, ,
то . Тобто, залишки методу найменших квадратів ортогональні до регресора.
1.1.4.Розклад дисперсії залежної змінної. Коефіціент детермінації
З рівнянь (1.8) та (1.9) випливає, що
. (1.12)
Запишемо другу з формул (1.7) у вигляді
. (1.13)
Від кожного з рівняннь (1.12) віднімемо рівняння (1.13):
. (1.14)
Кожне з рівнянь (1.14) піднесемо до квадрату і додамо почленно. Маємо
, (1.15)
внаслідок (1.10) та (1.11). Позначимо . З (1.10) випливає, що. Тому
.
Порівнюючи останнє рівняння з (1.14), бачимо, що
,
отже
.
Уведемо такі позначення: – загальна сума квадратів,– пояснена сума квадратів, або сума квадратів регресії;–сума квадратів залишків.
Загальна сума квадратів пропорційна до вибіркової дисперсії залежної змінної. Пояснена сума квадратів пропорційна до вибіркової дисперсії незалежної змінної. Отже, дисперсія залежної змінної складається з двох частин. Перша виникає завдяки розкиду значень незалежної змінної. Тобто, ця частина пояснюється за рахунок моделі (звідси і назва – пояснена сума квадратів). Друга частина – сума квадратів залишків – виникає внаслідок збурень і не пояснюється за рахунок моделі. Записавши співвідношення (1.15) з урахуванням уведених позначень, одержимо формулу розкладу дисперсії:
. (1.16)
Коефіціент детермінаціїї визначається як частка поясненої і загальної сум квадратів
(1.17)
Для обчислення коефіціента детермінації можна користуватись такими формулами
. (1.17а)
Коефіціент детермінації є частиною дисперсії залежної змінної , яка пояснюється за рахунок моделі, або, іншими словами, завдяки мінливості незалежної змінної. Коефіціент детермінації є мірою тісноти саме лінійного звязку між x та y. Коефіціент детермінації завжди знаходиться в межах від нуля до одиниці. Чим ближче до 1, тим точнішеx пояснює y. Якщо = 1, це означає, що всі значення x та y лежать на одній прямій. Якщо = 0 ,то лінія регресії – горизонтальна пряма;це означає відсутність (лінійного) звязку між змінними. Коефіціент детермінації є мірою згоди регресії. Проілюструємо сказане графічно. На Рис. 1.2 зображено три набори даних по 100 спостережень в кожному, утворені за допомогою датчика випадкових чисел, разом з вибірковими регресійними прямими, знайденими за домогою методу найменших квадратів. В кожному випадку розраховано коефіцієнт детермінації.
а) тісний зв’язок : R2 = 0.970261 |
б) відсутність зв’язку: R2 = 0.000771756 |
в) відсутність зв’язку: R2 = 0.0000665667 |
Рис 1.2.
У випадку, зображеному на Рис. 1.2.а) має місце досить тісний лінійний зв’язок між змінними. У випадках б) та в) лінійний зв’язок практично відсутній. Однак між цими двома ситуаціями існує істотна різниця. На Рис. 1.2 б), очевидно, відсутній будь-який зв’язок між змінними, тоді як точки на Рис. 1.2.в) розташовані навколо деякої параболи.