
Metodichka_lab_Ekonometria
.pdf
Рис. 4.6. – Организация данных и расчетов по алгоритму Фаррара–Глобера
3. Так как условие tфакт. >tтабл. (tтабл. = 2,093) выполняется только
для |
статистики |
t24 =8,751, |
то |
коэффициент |
частной |
корреляции |
|
R24 = 0,895 статистически |
значим. |
Следовательно, между показателем |
|||||
стажа |
работы X 2 |
(годы) |
и |
средней заработной |
платой X 4 |
(тыс. грн) |
существует тесная линейная зависимость (исключая влияние остальных факторов).
Для того, чтобы уменьшить влияние мультиколлинеарности на оценки параметров модели исключим переменную стаж работы X 2 из
модели (так как F2 > F4 ). Используя функцию «Регрессия» оценим параметры трехфакторной модели и проверим, удалось ли избавиться от
мультиколлинеарности (рис. 4.7). |
|
|
|
|
||
|
На основании значений параметров модели в ячейках G17 :G20 (рис. |
|||||
4.7) |
запишем |
уравнение |
|
трехфакторной |
модели |
|
yˆ3 = −4,13 + 0,32x1 + 4,99x4 −156,89x5 . |
Сравнивая с моделью, которая |
|||||
включала второй |
фактор yˆ2 = −1,07 + 0,3x1 + 0,17x2 + 2,93x4 −157,89x5 |
|||||
( R22 |
= 0,9918) видим, что параметры |
aˆ |
и aˆ |
изменились незначительно, |
||
|
|
|
1 |
5 |
|
|
параметр aˆ4 – более существенно. Коэффициент детерминации на третьем шаге уменьшился незначительно: R23 = 0,989.
59

Рис. 4.7 – Отчет функции «Регрессия» по трехфакторной модели и проверка мультиколлинеарности объясняющих факторов
Так как χфакт2 . < χтабл2 . (4,475 <12,592), то в массиве переменных трехфакторной модели X1, X 4 , X5 мультиколлинеарность отсутствует.
Вследствие того, что для построения модели использовались «пространственные» данные для окончательного вывода о качестве модели необходимо проверить гипотезу об отсутствии гетероскедастичности возмущений.
4.3 Проверка предпосылки гомоскедастичности возмущений. Обобщенный метод наименьших квадратов оценки параметров модели с гетероскедастичными остатками (задание 4.3) лабораторной работы 4
4.3.1 Теоретические замечания
Одной из предпосылок МНК является условие постоянства дисперсий случайных отклонений εi .
σε2 |
= σε2 |
= σ 2 |
= const для i, j = |
1,n |
. |
(4.19) |
i |
|
j |
|
|
|
|
Свойство постоянства дисперсии в наблюдениях называется гомоскедастичностью. В этом случае ковариационная матрица отклонений имеет вид
60

|
|
|
|
|
|
|
|
|
|
1 |
|
0 ... |
0 |
|
|
|
||
|
|
|
|
C ov (εi ,ε j )= |
|
|
|
|
0 |
|
1 ... |
0 |
|
|
|
|
||
|
|
|
|
σ |
2 E = |
σ 2 |
|
. |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
... ... |
... |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
... |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
0 |
|
0 ... |
1 |
|
|
|
|
|
Невыполнимость условия (4.19) называется гетероскедастичностью |
|||||||||||||||||
(непостоянство дисперсий |
отклонений). |
В |
этом |
случае σε2 |
≠σε2 |
для |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
j |
|
i, j = |
|
, i ≠ j и |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1,n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
σ2 |
0 ... |
0 |
|
|
|
|
ω11 |
|
|
|
|
|
|
||
|
|
|
|
ε1 |
σ2 ... |
|
|
|
|
|
0 ... |
|
0 |
|
|
(4.20) |
||
|
|
Cov(εi,εj )= |
|
0 |
0 |
|
2 |
|
2 |
|
0 |
ω ... |
|
0 |
|
|
||
|
|
|
|
ε2 |
|
|
|
|
|
22 |
... |
|
|
|
||||
|
|
|
|
|
... |
|
=σ Ω=σ |
|
... |
... ... |
. |
|
|
|||||
|
|
|
... ... ... |
|
|
|
|
|
0 |
0 ... |
ω |
|
|
|
||||
|
|
|
|
0 |
0 ... |
σ2 |
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
nn |
|
|
||||
|
|
|
|
|
|
εn |
|
|
|
|
|
|
|
|
|
|
|
Последствия применения МНК при наличии гетероскедастичности следующие.
1)оценки коэффициентов aˆ0 ,aˆ1,...,aˆm по-прежнему остаются
несмещёнными и состоятельными, но не эффективными (т. е. они не будут иметь наименьшую дисперсию по сравнению с оценками данного параметра, полученными другими методами), они не будут даже асимптотически устойчивыми;
2)дисперсии оценок будут рассчитываться со смещением;
3)выводы на основе t- и F-статистик ненадёжные.
Наиболее распространёнными методами проверки наличия гетероскедастичности являются графический анализ остатков, критерий µ , параметрический тест Гольдфельда–Квандта, непараметрический тест Гольдфельда–Квандта, тест Глейсера.
Графический анализ остатков используется на предварительном этапе. По корреляционному полю или графику остатков по факторным признакам делается предположение о наличии или отсутствии гетероскедастичности.
Критерий µ используется при большом количестве значений совокупности наблюдений n . Он состоит из следующих шагов:
1)входные данные зависимой переменной y разбивают на k групп с номерами r =1,2,...,k ;
2)для каждой группы наблюдений рассчитывают сумму квадратов отклонений
n |
(yir − yr )2 , |
|
Sr = ∑r |
(4.21) |
i=1
где
61
|
1 |
n |
|
|
|
|
|||
yr = |
|
∑i=r 1 yir , |
(4.22) |
|
nr |
nr – число наблюдений в r–й группе;
3) вычисляют сумму квадратов отклонений в целом для совокупности наблюдений
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
k |
|
nr |
|
|
|
|
|
|
r )2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
S = ∑Sr = ∑∑(yir − |
|
|
|
|
|
|
(4.23) |
|||||||||||||||||
|
|
|
|
|
|
y |
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
r=1 |
|
|
|
r=1i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|||||
4) вычисляют параметр λ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
k |
|
|
|
|
|
|
nr |
|
|
|
|
|
n1 |
|
|
|
n2 |
|
|
|
|
|
nk |
|
|
|
|||
|
S |
r |
2 |
|
|
|
S1 |
|
S2 |
|
|
|
|
Sk |
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
||||||||||||||||||||||||
|
∏ |
|
|
|
|
|
|
|
2 |
|
|
2 |
|
... |
2 |
|
||||||||||||||
|
|
|
|
|
|
|
|
|||||||||||||||||||||||
|
nr |
|
|
|
|
|
|
|
|
|
||||||||||||||||||||
λ = |
r =1 |
|
|
|
|
= |
|
n1 |
|
|
n2 |
|
|
|
nk |
|
(4.24) |
|||||||||||||
S |
|
n |
|
|
|
|
|
|
|
|
|
S |
n |
|
|
|
|
|
|
|||||||||||
|
2 |
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|||||
5) вычисляют критерий |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
µ = −2lnλ . |
|
|
|
|
|
|
|
|
(4.25) |
|||||||
Полученное значение |
|
|
критерия |
µ |
|
|
сравнивают с |
табличным |
||||||||||||||||||||||
значением χ2 –распределения |
|
со степенью |
|
свободы (k −1) |
и уровнем |
|||||||||||||||||||||||||
значимости α . Если µ > χтабл2 |
. = χα2 |
,k−1 , то с достоверностью 95 % делают |
вывод о наличии гетероскедастичности остатков модели.
Тест Гольдфельда–Квандта применяется в случае, если предполагается, что дисперсия остатков возрастает пропорционально квадрату одной из независимых переменных X j ( j =1,2,..,m), которая
подозревается на гетероскедастичность. Если априори тяжело определить такую X j , то делают проверку по каждой переменной и в каждом случае
применяют тест Гольдфельда–Квандта. При этом предполагается, что случайная составляющая ε распределена нормально. Таким способом можно проранжировать все переменные X j по подозрению на
гетероскедастичность.
Чтобы обнаружить наличие гетероскедастичности по тесту Гольдфельда–Квандта, необходимо выполнить следующие шаги:
1) упорядочить n наблюдений по мере возрастания переменной X j ;
62

2) исключить c средних наблюдений из общего количества наблюдений. Оптимальное значение c определяется по формуле
c = 154 n .
Примечание. Можно брать c приближённо равным четверти наблюдений. Если наблюдений мало, то ничего не исключают, а только разбивают наблюдаемые значения на две подгруппы;
3)разделить совокупность на две группы (соответственно, с малыми
ибольшими значениями выбранного фактора) и по каждой из групп определить уравнение регрессии yˆi = aˆ0 + aˆ1xi ;
|
|
4) |
определить остаточную |
сумму |
квадратов |
для первой |
|||||||||||||
|
= |
n1 |
|
− ˆ |
2 |
|
|
|
|
|
|
= |
|
n |
|
− ˆ |
2 |
|
|
S1 |
∑(yi |
и второй регрессии S2 |
|
∑ |
(yi |
; |
|||||||||||||
|
y1i ) |
|
|
|
|
y2i ) |
|
||||||||||||
|
|
i=1 |
|
|
|
|
|
|
|
|
|
|
i=n−n1 +1 |
|
|
|
|||
|
|
5) |
вычислить отношение |
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
R = |
S1 |
|
или |
R = |
|
S2 |
. |
|
|
|
|
(4.26) |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
S |
2 |
|
|
|
|
S |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
В числителе должна быть большая сумма квадратов.
|
|
Полученное |
значение статистики R* сравнивают с |
табличным |
|||||
значением |
Fтабл. |
при |
степенях |
свободы |
υ1 = (n −c − 2m)/ 2, |
||||
υ |
2 |
= (n −c − 2m)/ 2 |
и уровнем |
значимости α . Если |
R > F |
|
, то с |
||
|
|
|
|
|
|
табл. |
|
достоверностью 95 % делают вывод о наличии гетероскедастичности остатков модели.
Если сделан вывод о наличии гетероскедастичности остатков модели, то для оценки параметров модели нужно применить обобщенный МНК (ОМНК). Для применения ОМНК нужно определить матрицу
преобразований Ω (где Соv(εi ,ε j ) =σ 2Ω)
|
1 |
0 ... |
0 |
|
|
|||
|
|
|
|
|
||||
λ |
|
|
||||||
|
1 |
|
1 |
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
||
0 |
|
λ2 ... |
0 |
|
||||
Ω = |
|
. |
(4.27) |
|||||
|
0 |
... ... |
0 |
|
|
|||
|
0 |
0 0 |
1 |
|
|
|||
|
|
|
||||||
λn |
|
|||||||
|
|
|
|
|
|
|
|
Для этой матрицы значения λi вычисляются в зависимости от гипотезы, которая выдвинута относительно изменения дисперсии остатков
63
σ 2 =σ |
2x |
, то λ = |
1 |
|
, i = |
|
|
, |
(4.28) |
||||||||||||||||
|
1,n |
||||||||||||||||||||||||
|
|
|
|
|
|||||||||||||||||||||
εi |
|
|
|
|
|
ij |
i |
|
|
|
xij |
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
2 |
|
2 |
2 |
, то λi = |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
, i =1,n, |
|
||||||||||||||||||||||
σεi |
=σ |
|
xij |
|
|
|
(4.29) |
||||||||||||||||||
|
2 |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
xij |
|
|
|
|
|
|
|
|
|
||||||
σ2 =σ2 |
|
ε |
|
|
2, то λ = |
|
e |
|
2 |
, i = |
|
, |
(4.30) |
||||||||||||
|
|
|
|
|
1,n |
||||||||||||||||||||
εi |
|
|
|
|
i |
|
|
i |
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
где j – номер выбранной независимой переменной |
X j , i – номер |
наблюдения.
При наличии гетероскедастичности для оценки параметров модели целесообразно использовать обобщённый метод наименьших квадратов (метод Эйткена), оператор оценивания которого имеет вид
ˆ |
′ |
−1 |
|
|
−1 |
′ |
|
−1 |
|
|
|
|
|
|
|
|
|
|
|||||
|
|
X ) |
|
|
|
Y ), |
|
(4.31) |
|||
A = (X Ω |
|
|
|
(X Ω |
|
||||||
или |
|
|
|
|
|
−1 |
|
|
|
|
|
ˆ |
′ |
−1 |
|
|
′ |
−1 |
2 |
|
|||
|
|
|
|
||||||||
|
|
|
X ) |
|
|
Y ), где V =σε Ω. |
(4.32) |
||||
A = (X V |
|
|
|
(X V |
|
При таком оценивании вектор ˆ дает несмещённые оценки
A
параметров модели, которая имеет наименьшую дисперсию.
Примечание. Отметим, что явления гетероскедастичности можно избежать на этапе сбора данных. Например, если анализируются данные по торговым предприятиям города, то данные по крупным магазинам
(супермаркетам, универмагам с площадью более 1000 м2 ), средним (с площадью меньше 500 м2 и больше 50 м2 ) и мелким (ларьки и магазины
с площадью не более 50 м2 ) лучше (если это не противоречит экономической постановке задаче) выделить в разные выборки и анализировать отдельно.
4.3.2 Организация данных и расчетов на листе MS Excel
Для проверки выполнения условия гомоскедастичности для трехфакторной модели yˆ3 = −4,13 + 0,32x1 + 4,99x4 −156,89x5 сначала
проведем графический анализ остатков. Для этого при вводе параметров функции «Регрессия» нужно отметить поле «График остатков». В результате при выводе отчета функции «Регрессия» будут выведены графики остатков (рис. 4.8 – 4.10).
Анализируя данные графики, сложно сделать вывод о гетероскедастичности остатков и переменной, которая является причиной этого явления. Выполним проверку гетероскедастичности модели по критерию µ (рис. 4.11, табл. 4.3).
64

Остатки
1,500
1,000
0,500
0,000
20,00 -0,500
-1,000
-1,500
30,00 |
40,00 |
50,00 |
60,00 |
Переменная X 1
Рис. 4.8 – Графики остатков по переменной X1
Остатки
1,500
1,000
0,500
0,000 |
|
|
|
|
|
|
0,020 |
0,030 |
0,040 |
0,050 |
0,060 |
0,070 |
0,080 |
-0,500 |
|
|
|
|
|
|
-1,000
-1,500
Переменная X 5
Рис. 4.9 – Графики остатков по переменной X5
Остатки
1,500 |
|
|
|
|
1,000 |
|
|
|
|
0,500 |
|
|
|
|
0,000 |
|
|
|
|
-0,5001,50 |
2,00 |
2,50 |
3,00 |
3,50 |
-1,000
-1,500
Переменная X 4
Рис. 4.10 – График остатков по переменной X 4
65

Рис. 4.11 – Проверка гетероскедастичности модели по критерию µ
Таблица 4.3
Реализация в MS Excel формул при проверке гетероскедастичности возмущений модели по критерию µ (рис. 4.11)
Адрес |
|
Формула |
|
|
|
|
|
Реализация в MS Excel |
|||||||||||
ячейки |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
E2 : E25 |
y1 ≤ y2 ≤K≤ y23 ≤ y24 |
сортировка по возрастанию |
|||||||||||||||||
G10 : I10 |
D = 1 ∑r |
( y |
|
|
− y )2 |
|
|
G10 =ДИСПР(G2:G9) |
|||||||||||
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
r |
n i =1 |
ir |
|
|
|
r |
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
G11: I11 |
Sr = ∑r (yir − yr )2 |
|
|
|
G11= G10*$F$9 |
||||||||||||||
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
G12 : I12 |
(Sr / nr )nr / 2 |
|
|
|
|
|
G12 = G10^(F9/2) |
||||||||||||
J11 |
|
|
|
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
= СУММ(G11 : I11) |
|
|
|
S = ∑Sr |
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
r =1 |
|
|
|
|
|
|
|
|
|
|||
J12 |
|
(S / n)n / 2 |
|
|
|
|
|
= (J11/J13)^(J13/2) |
|||||||||||
G13 |
k |
|
|
S |
|
|
|
nr |
|
|
|
S |
n |
|
|||||
|
|
|
|
2 |
|
|
|
|
|
|
|||||||||
|
|
r |
|
|
|
|
2 |
|
= ПРОИЗВЕД(G12 : H12)/J12 |
||||||||||
|
w = ∏ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
r =1 |
|
n |
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
||
|
|
|
|
r |
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
G14 |
µ = −2ln w |
|
|
|
|
|
= –2*LN(G13) |
||||||||||||
G16 |
χтабл2 |
.(α,v = k −1) |
|
|
|
= ХИ2ОБР(0,05;2) |
66

На основании проведенных расчетов делаем вывод, что наблюдается гетероскедастичность остатков модели так как µ > χтабл2 . (12,73 >5,99) .
Так как априори трудно определить какая из объясняющих переменных является причиной гетероскедастичности, сделаем проверку по каждой переменной с помощью теста Гольдфельда–Квандта.
Для этого упорядочим массив значений результативного и факторных признаков в ячейках A28: D51 по переменной X 4 (рис. 4.12,
табл. 4.4).
Рис. 4.12 – Проверка гетероскедастичности модели критерию Гольфельда– Квандта (по переменной X 4 )
Определим количество наблюдений, которое необходимо отбросить c =154 24 = 4,8 ≈ 5. Положим c = 6, чтобы оставшееся число наблюдений
было четным. На следующем шаге построим модели линейной регрессии по первым и последним девяти наблюдениям при помощи функции «Регрессия».
67
Таблица 4.4
Реализация в MS Excel формул при проверке гетероскедастичности модели возмущений по критерию Гольфельда–Квандта (рис. 4.12)
Aдрес |
|
|
Формула |
|
|
|
Реализация в MS Excel |
||||
ячейки |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
сортировка по возрастанию |
A28: D51 |
y1 ≤ y2 ≤K≤ y23 ≤ y24 |
переменной X 4 |
|||||||||
|
|
S1 |
= n1 |
|
|
− |
ˆ |
|
2 |
|
|
G39 |
|
∑(yi |
|
y1i ) |
|
|
отчет функции «Регрессия» |
||||
|
|
i=1 |
|
|
|
|
|
|
|
||
|
|
|
n |
|
|
|
|
ˆ |
|
2 |
|
|
S2 |
= |
∑ |
(yi |
− |
|
|
||||
N39 |
|
|
y2i ) |
|
отчет функции «Регрессия» |
||||||
|
|
i=n−n1 +1 |
|
|
|
|
|
|
|
||
|
|
|
R = |
|
|
S1 |
|
|
|
|
|
K 27 |
|
|
|
S2 |
|
|
|
|
= G39/N39 |
||
|
|
|
|
|
|
|
|
||||
|
|
Fтабл. (α = 0,05, |
|
|
|||||||
K 28 |
k1 = (n −c −2m) / 2, |
|
= FРАСПОБР(0,05;(H27–H28– |
||||||||
k2 = (n −c −2m) / 2) |
|
–2*H29)/2;(H27–H28–2*H29)/2) |
Для вычисления значения статистики R* по формуле (4.26) разделим значение суммы квадратов отклонений по первой модели S1 (ячейка G39
отчета функции «Регрессия») на сумму квадратов отклонений по второй модели S2 (ячейка N39 функции «Регрессия»). В результате получим
Rфакт. = 3,14 . Затем определим табличное значение статистики при уровне
значимости |
α |
= 0,05 |
и |
степенях |
свободы |
|
k1 = k2 = (n − c − 2m) / 2 |
= (24 |
− 6 − 2 3) / 2 = 6 : |
|
|
||
Fтабл. (α = 0,05, k1 = 6,k2 = 6) |
= 4,28. |
|
|
|
4.3.3 Выводы по результатам проверки предпосылки гомоскедастичности возмущений. Оценка параметров обобщенной линейной эконометрической модели
На основании проведенных расчетов делаем вывод (с надежностью 95 %), что переменная X 4 не является причиной гетероскедастичности
остатков модели, так как Fфакт(4) . < Fтабл. (3,14 < 4,28) .
Аналогично проводятся тесты Гольфельда–Квандта по переменным
X |
1 |
и |
X |
5 |
. В |
результате получим, что F (1) |
< F |
(2,52 < 4,28) |
и |
|||
|
|
|
|
факт. |
табл. |
|
|
|
|
|
||
F |
(5) |
|
< F |
|
(2,008 < 4,28) . Следовательно, переменные |
X |
1 |
и X |
5 |
не |
||
факт. |
|
табл. |
|
|
|
|
|
являются причиной гетероскедастичности остатков модели.
68