Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Прикладна економетрика - Комашко О. В

.pdf
Скачиваний:
98
Добавлен:
24.05.2014
Размер:
2.11 Mб
Скачать

26

y$ = b0 + b1 x1 +K+bk 1 xk 1

(1.36).

Рівняння вибіркої регресії є рівнянням лінійної функції багатьох змінних.

1.2.3.Властивості залишків методу найменших квадратів

Нехай

y$i = b0 + b1 xi1 +K+bk 1 xi,k 1 + εi , i =1, n .

Позначимо

y$1

 

y$

2

 

 

 

 

y$ =

 

.

 

 

 

 

 

 

y$n

 

Використовуючи введені векторно-матричні позначення, можна записати

y$ = Xb = X(X T X)1 X T y .

Вектор залишків методу найменших квадратів e визначається як1)

e = y y$ = y Xb = (I X(X T X)1 X T )y .

Зміст поняття залишків такий же, як і в моделі простої лінійної регресії. Перепишемо систему нормальних рівнянь у такому вигляді:

1) Пор. З п. 1.1.3.

27

X T (Xb y) = 0 ,

або

XTe = 0.

(1.37)

Ми бачимо, що вектор залишків ортогональний до кожного стовпчика матриці X. Згадаємо, що j-й стовпчик цієї матриці утворюють значення j-го регресора.

Отже, залишки методу найменших квадратів ортогональні до регресорів.

Якщо ми розглядаємо модель з константою, то перший стовпчик матриці X складається з одиниць, і з рівняння (1.37) випливає, що

n

 

 

ei

= 0

(1.38)

i=1

Вмоделі з константою сума залишків методу найменших квадратів дорівнює нулю.

Оскільки y$ = Xb, то

(y$, e) = y$ T e = (Xb)T e = bT X T e = 0

(1.39)

внаслідок (1.39). Крім того вектор y$ є лінійною комбінацією стовпчиків матриці

X, тобто регресорів. Разом з (1.39) це дозволяє дати наступну геометричну інтерпретацію векторуy$ і залишкам: y$ є ортогональною проекцією y на гіперплощину, породжену регресорами, а вектор залишків є проектором.

Зі співвідношення (1.39) випливає ще один важливий наслідок: в моделі з костантою регресійна гіперплощина проходить через точку, координати якої дорівнюють середнім значення незалежних змінних.

28

1.2.4.Розклад дисперсії залежної змінної. Коефіцієнт детермінації

В цьому параграфі ми розглянемо моделі з константою. Аналогічно тому, як ми робили у випадку простої регресії, проаналізуємо суму квадратів відхилень значень залежної змінної від середнього – загальну суму квадратів:

 

n

 

n

 

 

 

 

 

 

 

TSS = ( yi y)2

= ( yi y$i + y$i y)2 =

 

 

i=1

n

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= (ei + y$i y)2 =

 

 

 

(1.40)

 

n

ni=1

 

n

 

 

 

 

 

= ei2

+ 2ei ( y$i y) + ( y$i y)2 =

 

 

i=1

i=1

n

i=1

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

ei2 + ( y$i y$)

2 ,

 

 

 

 

 

 

i=1

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

y$i

 

внаслідок (1.38),

(1.39) і з урахуванням того,

що

y$

=

i=1

= y . Як і раніше,

n

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

n

 

ESS = ( y$i y$)2

– пояснена сума квадратів,

RSS = ei2 –сума квадратів

i=1

 

 

 

 

 

 

 

i=1

 

залишків. Загальна сума квадратів пропорційна до вибіркової дисперсії незалежної змінної. Отже, формула розкладу дисперсії має місце і у випадку множинної регресії

TSS = ESS + RSS

(1.41).

Коефіцієнт множинної детермінаціїї (або, коротко, коефіцієнт детермінації

R2 визначається як частка поясненої і загальної сум квадратів

R2 =

ESS

=1

RSS

(1.42).

TSS

TSS

 

 

 

 

 

 

 

 

29

Коефіцієнт множинної детермінації показує, яка частина дисперсії залежної змінної пояснюється за рахунок моделі, або, іншими словами, незалежними змінними в сукупності. Підкреслимо, що коефіцієнт детермінації є мірою тісноти саме лінійного звязку між залежною та незалежними змінними. Коефіцієнт детермінації завжди знаходиться в межах від нуля до одиниці. Чим ближче R2 до 1, тим тісніше звязок. Якщо R2 = 1, це означає, що всі значення y належать гіперплощині, породженій стовпчиками матриці X. Якщо R2 = 0, то лінійний звязок між змінними відсутній. Коефіцієнт детермінації використовується як міра згоди і для множинної регресії.

Зауваження 1

Без використання додаткової інформаціїї не можна робити висновків про те,

яке значення R2 вважати великим. Для деяких даних, наприклад, значення 0.8 може бути недостатнім, а в інших випадках величина 0.4 може бути прийнятною.

Зауваження 2

В моделях без константи коефіцієнт детермінації не обов’язково знаходиться в межах від нуля до одиниці, оскількі подвоєний добуток у (1.40)

не дорівнює нулю. В таких моделях різні способи визначення R2 дають різні результати, і коефіцієнт детермінації важко інтерпретувати. Ні в якому разі не можна співвідносити моделі з константою і без константи на підставі порівняння коефіцієнтів детермінації. Взагалі, можна дати таку рекомендацію. Якщо немає економічних підстав для вибору регресійної функціі у вигляді без константи, то бажано розглядати модель з константою.

1.2.5. Статистичні властивості оцінок методу найменших квадратів

Обчислимо математичне сподівання оцінок методу найменших квадратів. Підставимо формулу (1.30) до формули (1.34):

30

b = (XT X)1 XT (Xβ + ε) = β + (XT X)1 XTε

1.43)

Маємо

Eb = Eβ + E(XT X)1 XTε = β + (XT X)1 XT Eε = β,

оскільки лінійний множник можна виносити за знак математичного сподівання,

і Eε = 0. Отже, МНК-оцінки є незміщеними. Знайдемо коваріаційну матрицю оцінки b:

Db = E(b- Eb)(b- Eb)T = E(b-β)(b-β)T =

= E ((XTX)-1 XTε)((XT X)-1 XTε)T

=

 

 

 

 

 

 

=E[(XTX)-1 XTεεTX(XTX)-1]= (XTX)-1 XTE(εεT )X(XTX)-1 =

=(XTX)-1 XTσ2IX(XTX)-1 =

= σ2 (XTX)-1 XTX(XTX)-1 = σ2 (XTX)-1 .

Ми скористались властивостями математичного сподівання, добутку транспонованих матриць, формулою (1.31), а також тим, що матриця XTX, а отже і обернена до неї, симетричні.

Eb = β

Db = σ2 (XTX)-1

(1.44)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

31

Позначимо матрицю(XTX)-1 через S = (s

),i = 0,

 

 

 

 

 

 

 

 

k 1, j = 0, k 1. Тоді

 

 

 

 

 

ij

 

 

 

 

 

 

 

 

 

 

Db = σ2 s ,i =

 

 

 

 

 

 

0, k 1,

(1.45)

i

 

ii

= σ2 s

 

 

 

 

 

 

 

 

 

 

,i = 0, k 1, j = 0, k 1.

cov(b ,b

j

)

 

i

 

 

ij

 

 

 

 

 

 

 

 

 

 

Наведені формули не можна використовувати для перевірки гіпотез та інтервального оцінювання, оскільки до них входить невідомий параметр – дисперсія збурень σ2 . Отже, нам потрібно вміти знаходити її оцінку. Має місце наступний результат: статистика

σ$ 2 =

RSS

,

(1.46)

n k

 

 

 

 

 

 

 

де k – кількість регресорів, включаючи константу, є незміщеною оцінкою σ2. Якщо збурення нормально розподілені, то b має багатовимірний нормальний розподіл, математичне сподівання і коваріаційна матриця якого обчислюються за формулою (1.44). Зокрема,

bi ~ N(βi ,σ2 sii ),i = 0,k 1.

Величина

n

RSS = (n k )i=1 ei2

σ2 σ2

має χ2 - розподіл з n - k ступенями свободи і не залежить від b. Оцінка коваріаційної матриці коефіціентів методу найменших квадратів одержується підстановкою до формули (1.44) виразу (1.46) замість дисперсії збурень σ2:

 

2 (XT X)-1 ,

(1.47)

Db = σ$

32

зокрема

Dbi = σ$ 2 sii , i = 0, k 1.

Позначимо через s.e.(bi) оцінку середньокватратичного відхилення коефіціента bi. (стандартнy похибку)

SE(bi ) = σ$ 2 sii

Розмірковуючи так, як у випадку простої регресії, приходимо до висновку, що

bi − βi

~ tnk ,

 

(1.48)

i = 0, k 1

SE(bi )

 

 

 

Оцінки методу найменших квадратів є лінійними у тому розумінні, що b є лінійною функцією y. Наступна теорема встановлює оптимальні властивості оцінки методу найменших квадратів.

Теорема Гауса-Маркова

1) Нехай припущення про нормальність збурень не накладається. Тоді МНКоцінки мають мінімальну коваріаційну матрицю в класі незміщених лінійних оцінок.

2)Припустимо, що збурення нормально розподілені. МНКоцінки мають мінімальну коваріаційну матрицю в класі усіх незміщених оцінок.

Зокрема, оцінки індивідуальних коефіціентів bi мають найменші дисперсії серед оцінок відповідних класів.

1.2.6. Статистичні висновки в моделі множинної лінійної регресії

Перевірка гіпотез про коефіціенти регресії.

33

Стандартною процедурою є перевірка гіпотези про те, що коефіціент βi дорівнює нулю. Прийняття цієї гіпотези означає, що незалежна змінна xi не має впливу на в рамках лінійної моделі. Статистика для перевірки гіпотези має вигляд

t =

bi

(1.49)

SE(b )

 

i

 

Значення цієї t -статистики, як правило, автоматично підраховуються в комп’ютерних програмах з регресійного аналізу. Для перевірки гіпотези H0: βi

= β0i використовують наступну статистику

 

b − β0

 

t =

i i

(1.50)

SE(b )

 

 

 

i

 

За вибраним рівнем значущості α в таблиці розподілу Стьюдента з n-k

ступенями свободи знаходимо критичне значення tкр. Якщо |t| < tкр, то гіпотеза

H0 приймається. Якщо |t| ≥ tкр, то гіпотеза H0 відхиляється.

Надійні інтервали для коефіціентів регресії

Інтервальна оцінка параметра βi з рівнем довіри 1 – α знаходиться за наступною формулою:

(bi SE(bi ) tкр;bi +SE(bi ) tкр ) .

(1.51)

де значення tкр знаходиться за вибраним рівнем значущості α в таблиці розподілу Стьюдента з n-k ступенями свободи.

Перевірка значущості регресії

Значущість регресії означає, що незалежні змінні в сукупності впливають на залежну змінну. Як нульова гіпотеза для перевірки приймається протилежне

Запишемо рівняння регресії у такому вигляді:
y$ = b0 + b1 x1 +K+bk 1 xk 1

34

тведження, а саме H0: β1=β2=...= βk-1.= 0. Можна показати, що коли гіпотеза H0 вірна, то

 

 

 

R2

 

 

 

ESS

 

 

 

F =

k 1

=

 

k 1

~ F

(1.52)

 

 

 

 

1 R2

 

 

RSS

k 1,nk

 

 

 

 

 

 

 

 

 

 

 

 

n k

 

 

 

 

n k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

За вибраним рівнем значущості α в таблиці розподілу Фішера з k–1, n–2

ступенями свободи знаходимо критичне значення F кр. Якщо |F|<Fкр, то гіпотеза

H0 приймається. Якщо |F|≥Fкр, то гіпотеза H0 відхиляється. Прийняття нульової гіпотези означає, що модель потрібно відкинути і розглянути іншу.

1.2.7. Інтерпретація регресійних коефіцієнтів. Порівняння факторів за ступeнем їх впливу

(1.53).

Якщо значення змінної xi змінити на одиницю, а решту змінних залишити постійними, то, як зрозуміло з (2.25), значення y$ зміниться на bi одиниць.

Таким чином, коефіцієнти регресійного рівняння є кількісною мірою впливу окремо взятих незалежних змінних на залежну змінну за умови ceteris paribus. Коефіцієнти рересійного рівняння було б заманливо використовувати для порівняння різних незалежних змінних (факторів) за ступенем їх впливу на залежну змінну. Однак тут виникають деякі проблеми. Зокрема, величина регресійних коефіцієнтів залежить від одиніці виміру. Припустимо, наприклад, що деяка змінна має грошовий вимір. Якщо значення цієї змінної перерахувати з купонокарбованців у гривні, то відповідний коефіцієнт збільшиться у сто тисяч разів. Крім того, одиниці виміру різних змінних в моделі можуть мати різний економічний зміст. Отже, регресійні коефіцієнти не можна використовувати для порівняння дії різних факторів.

35

Найчастіше використовують два методи:

1.Порівняння коефіцієнтів в регресії відносно стандартизованих змінних.

2.Порівняння коефіцієнтів еластичності.

Регресія відносно стандартизованих змінних.

Розглянемо наступну модель лінійної регресії:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi = β0 + β1xi1 +K+βk1xik1 + εi ,i =

 

 

(1.54).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,n

Введемо наступні позначення:

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y =

yi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i =1

 

–середнє значення залежної змінної ,

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x j

 

 

 

xij

, j =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,k 1– середнє значення j-ї незалежної змінної ,

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σy

 

 

 

 

( yi y)2

–середньоквадратичне відхилення залежної змінної ,

 

=

 

 

 

i=1

n 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xij x j )2

 

 

 

 

 

σ

 

=

i=1

 

 

 

 

 

 

 

, j =

 

 

 

середньоквадратичне

відхилення

j

x j

 

n 1

1,k 1–

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

незалежної змінної ,

 

 

 

 

 

 

 

 

 

 

 

 

yi* =

 

yi

y

, i =

 

 

–значення стандартизованої залежної

змінної в

i-му

1, n

 

 

 

 

 

 

 

 

 

σy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

спостереженні

 

 

 

 

 

 

 

 

 

 

 

 

xij*

=

xij x j

, i =

 

, j =

 

 

значення стандартизованої j-ї незалежної

1, n

1,k 1–

 

 

 

 

 

 

 

σx j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

змінної в i-му спостереженні.

Модель регресії відносно стандартизованих змінних записується у такому вигляді:

Соседние файлы в предмете Экономика