Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

17-11-2015_11-58-24 / Эконометрика (электронный конспект)

.pdf
Скачиваний:
57
Добавлен:
20.02.2016
Размер:
1.05 Mб
Скачать

 

m

 

lnYt

ln γ + βi ln Xti ,

(13)

 

i=1

 

или:

 

 

 

m

 

lnYt

= ln γ + βi ln Xti + εt .

(14)

i=1

Модель (14) – это так называемая двойная логарифмическая модель (и зависимая, и объясняющие переменные заданы в логарифмическом виде).

Введя обозначения: Y

= lnY ,

X

ti

= ln X

ti

, γ = ln γ получим линейную модель:

 

 

 

 

 

 

 

 

 

 

t

t

 

 

 

 

 

Yt

 

 

 

m

 

 

 

 

 

 

 

 

 

 

= γ + βi Xti + εt

 

 

 

 

 

 

 

 

(15)

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

относительно новых переменных X

ti

и Y .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

Полулогарифмические модели

 

 

 

 

 

 

 

Пусть

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

Yt

exp β0

+ βi Xti

 

 

 

 

 

 

 

(16)

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

Из (16):

 

 

 

 

 

 

 

 

 

 

 

Y

 

≈ βY

 

 

 

 

 

(17)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

Xi

 

 

 

 

 

 

 

 

 

 

Отсюда:

 

 

 

 

 

 

 

 

 

 

β

 

Y

 

1

 

 

 

 

 

 

(18)

 

 

i

Xi Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Следовательно, βi

показывает относительное изменение фактора Y при увеличении фактора

 

X

в расчете на одну единицу. (Умножив βi на 100 получим процентное изменение Y при

увеличении X в расчете на одну единицу.)

Эту модель целесообразно использовать, если есть основания считать, что при равных

абсолютных изменениях фактора

Xi относительные изменения фактора Y также

(приблизительно) равны.

 

Прологарифмировав (16), получим:

 

m

 

lnYt = β0 + βi Xti + εt

(19)

i=1

 

или

 

41

Yt

 

 

 

 

 

m

 

 

= β0 + βi Xti + εt ,

(20)

 

 

 

 

 

 

 

 

i=1

 

 

где Y = lnY .

 

 

 

 

 

 

 

t

 

 

 

t

 

 

Пусть

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

Yt

= β0 + βi ln

Xti + εt

(21)

 

 

 

 

 

 

 

 

i=1

 

 

Из (21):

 

 

 

 

 

 

Y

≈ β

 

 

1

 

 

(22)

 

 

i

Xi

 

 

Xi

 

 

 

Отсюда:

 

 

 

 

 

β

 

Y

X

 

 

 

(23)

i

 

i

 

 

 

 

 

Xi

 

 

 

Следовательно,

βi 100

показывает абсолютное изменение фактора Y при увеличении

фактора Xi в расчете на 1%.

Эту модель целесообразно использовать, если есть основания считать, что при равных

относительных изменениях

фактора Xi абсолютные изменения фактора Y также

(приблизительно) равны.

 

Модель (21) сводится к следующей линейной модели:

m

 

Yt = β0 + βi Xti + εt ,

(24)

i=1

где Xti = ln Xti .

Отметим, что любая модель вида:

 

 

 

m

 

 

 

Yt

= β0 + βi fi (Xti ) + εt

(25)

 

 

 

i=1

 

 

 

сводится к линейной модели:

 

 

 

 

m

 

 

 

Yt

= β0 + βi Xti

+ εt

 

(26)

 

 

 

i=1

 

 

 

где Xti = fi (Xti ) .

 

 

Например, модель (25) может иметь вид:

 

Y = β

 

1

+ ε

 

(обратная модель)

(27)

 

 

 

t

 

0

1 X

t

 

 

42

либо

m

 

 

Yt = β0 + βi Xtii + εt

(степенная модель)

(28)

i=1

Качественные переменные Например, при исследовании зависимости зарплаты от различных факторов может

возникнуть вопрос, влияет ли на ее размер, и если да, то в какой степени, наличие у работника высшего образования.

Введем переменную dt , описывающую наличие у работника высшего образования Положим:

1 в случае наличия высшего образования,

(29)

dt =

в противном случае.

0

 

Переменная dt описывает качественный признак, а не количественное значение. Такие переменные называются качественными.

Обычно качественные переменные принимают только два значения: 0 и 1. Принято считать, что качественная переменная равна 1 в случая наличия признака, и 0 – в случае его отсутствия. Такие переменные также называются бинарными, двоичными, логическими. В англоязычной эконометрической литературе их называют “dummy variables”, что на русский язык часто переводится как “фиктивные переменные.”

Пусть модель имеет вид:

m

 

 

yt = β0 + βi xti + δdt + εt ,

t =1,n

(30)

i=1

где yt размер зарплаты работника, xti – влияющие на нее факторы, dt – качественная переменная, описывающая наличие у работника высшего образования, δ – коэффициент регрессии.

Методика работы с моделью вида (31) такая же, как и для любой линейной регрессионной модели. Экономический смысл коэффициента регрессии δ состоит в том, что этот коэффициент показывает насколько заработная плата работника с высшим образованием в среднем отличается от заработной платы работника без высшего образования с такими же значениями других объясняющих факторов.

Если включаемый в рассмотрение качественный признак имеет не два, а несколько значений, используют несколько бинарных переменных. Типичным примером подобной ситуации является исследование сезонных колебаний. Пусть, например, yt – объем потребления некоторого продукта в месяц t , и есть основания считать, что потребление

43

зависит от времени года. Для выявления влияния сезонности можно ввести четыре бинарные

переменные d1 , d2 , d3 , d4 :

 

 

dt1

1,

если месяц t является зимним,

 

(32)

=

в остальных случаях.

 

 

0

 

 

dt 2

1,

если месяц t является весенним,

(33)

=

в остальных случаях.

 

 

0

 

 

dt3

1,

если месяц t является летним,

 

(34)

=

в остальных случаях,

 

 

0

 

 

dt 4

1,

если месяц t является осенним,

 

=

в остальных случаях,

 

 

 

0

 

 

и оценивать уравнение:

 

 

yt

= β1dt1 2dt 2 3dt3 4dt 4 + εt .

 

(35)

 

Коэффициенты β1 , β2 , β3 и β4

показывают среднемесячное потребление продукта,

соответственно, для зимних, весенних, летних и осенних менсяцев.

 

Отметим, что модель (35) можно также записать в виде:

yt

= β0 1dt1 2dt 2 3dt3 + εt

 

(36)

 

Коэффициент β0 в уравнении (36) показывают среднемесячное потребление продукта

для осенних месяцев, β0 1 – для зимних,

β0 2 – для весенних, β0 2 – для летних.

Таким образом, коэффициенты β1 , β2

и β3

показывают средние сезонные отклонения в

объеме потребления зимних, весенних и летних месяцев по отношению к осенним месяцам. Отметим, что ввиду присутствия в (36) свободного члена мы не вводим в (36)

четвертую бинарную переменную d4 , относящуюся к осени, иначе тогда для любого месяца t выполнялось бы тождество dt1 + dt 2 + dt3 + dt 4 =1, что означало бы линейную зависимость регрессоров в (36), и как следствие, невозможность получения МНК-оценок. (Напомним, что матрица X T X должна быть не вырождена.)

Ситуация, когда при наличии в уравнении регрессии свободного члена сумма фиктивных переменных равна константе, называется “dummy trap”. При построении уравнения регрессии с качественными переменными следует обращать внимание на возможность такой ситуации.

Фиктивные переменные позволяют строить и оценивать так называемые кусочнолинейные модели, которые можно применять для исследования структурных изменений.

Пусть, например, xt –размер основного фонда в период t , yt – объем продукции, выпущенной в этот же период. Из некоторых априорных соображений исследователь

44

считает, что в момент t0 произошла структурная перестройка и линия регрессии будет отличаться от той, что была до момента t0 , но общая линия остается непрерывной.

Чтобы оценить такую модель, введем бинарную переменную r , полагая, что

0,

если t t0 ,

(37)

rt =

если

t >1

1,

 

и запишем регрессионное уравнение:

 

yt = β1 2 xt

3 (xt xt 0 )rt + εt

(38)

Регрессионная линия, соответствующая (38), имеет коэффициент наклона β2 для t t0 и

β2

3

для t > t0 , и разрыва в точке xt 0 не происходит. Таким образом, тестируя гипотезу

β3

= 0 ,

мы проверяем предположение о том, что фактически структурного изменения не

произошло.

45

5. Мультиколлинеарность, гетероскедастичность и автокорреляция остатков

Мультиколлинеарность Одним из условий классической линейной регрессионной модели является предполо-

жение о линейной независимости объясняющих переменных, что означает линейную независимость столбцов матрицы X или (эквивалентно), что матрица X T X не вырождена. При нарушении этого условия, т.е. когда один из столбцов матрицы X есть линейная комбинация остальных столбцов, говорят, что имеет место полная коллинеарность. В этой ситуации нельзя построить МНК-оценку вектора параметров β, поскольку b = (X T X )1 X TY .

На практике полная коллинеарность встречается исключительно редко. Гораздо чаще приходится сталкиваться с ситуацией, когда матрица X имеет полный ранг, но между регрессорами имеется высокая степень корреляции, что приводит к тому, что матрица X T X близка к вырожденной. Тогда говорят о наличии мультиколлинеарности. В этом случае МНК-оценка существует, но обладает «плохими» свойствами.

Мультиколлинеарность может возникнуть в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания.

Признаки мультиколлинеарности:

1)Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок bi коэффициентов регрессии.

2)Оценки bi имеют большие стандартные ошибки s(bi | X ) (и, следовательно, большие доверительные интервалы), малую значимость (т.е. малые t-статистики

t (bi

)=

 

bi

 

) в то время как модель в целом является значимой (т.е. высокое зна-

s(b |

X )

 

 

 

 

 

 

 

 

 

i

 

 

 

чение коэффициента детерминации R2 и соответствующей F-статистики

F =

 

R2

n m

)

1R2

m 1

 

 

3)Оценки коэффициентов bi имеют неоправданные с точки зрения теории знаки или неоправданно большие значения.

4)Парная корреляция между малозначимыми объясняющими переменными достаточно высока.

5)Высокие частные коэффициенты корреляции.

46

Напомним, что выборочный коэффициент (парной) корреляции между переменными xi и xj находится по формуле:

 

 

n

 

 

 

r (xi , xj )=

(xti xi )(xtj xj )

t =1

(1)

 

 

 

 

 

 

 

 

n

 

n

 

 

(xti xi )2

 

(xtj xj )2

 

 

t =1

 

t =1

Выборочный частный коэффициент корреляции находится следующим образом. Пусть даны переменные xi , i =1,m .

Обозначим I ={1,2, ,m}.

Пусть J I .

 

Пусть l J , k J .

 

Построим регрессии xl

и xk на {xi , i J}:

xtl = β0 + βi xti + εt

(2)

i J

 

xtk = β0 + βi xti + εt

(3)

i J

 

Найдем остатки для этих регрессий:

etl = xtl xˆtl ,

(4)

etk = xtk xˆtk

 

Частный коэффициент корреляции между xl

и xk без учета влияния переменных

{xi , i J} – это коэффициент парной корреляции между остатками el и ek :

r (xl , xk | xi ,i J )= r (el ,ek ).

(5)

Таким образом, коэффициент частной корреляции позволяет исключить влияние других факторов на взаимосвязь между рассматриваемыми переменными.

Например, r (x2 , x4 | x1, x3 )

равен коэффициенту парной корреляции между остатками e2 и

e4

следующих регрессий:

 

xt 2

= β0

1xt1

3xt3

(6)

xt 4

= β0

1xt1

3xt3

(7)

Последствия мультиколлинеарности

1)Большие стандартные ошибки затрудняют нахождение истинных значений определяемых величин и расширяют их интервальные оценки, ухудшая их точность.

2)Ухудшается качество прогноза.

47

3)Малые t-статистики коэффициентов могут привести к неоправданному выводу о их малой значимости, т.е. о слабом влиянии соответствующей объясняющей переменной на зависимую переменную.

4)Оценки коэффициентов и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, т.е. они становятся неустойчивыми.

Методы устранения мультиколлинеарности

1)Исключение переменных из модели. Исключается из модели одна или несколько коррелированных объясняющих переменных. Например, можно последовательно исключать из модели объясняющие переменные с наименьшими незначащими t- статистиками коэффициентов регрессии (причем после каждого исключения из модели объясняющей переменной следует производить пересчет t-статистик для оставшихся объясняющих переменных).

2)Можно использовать описанный в предыдущей теме алгоритм оптимального отбора объясняющих переменных, основанный на использовании скорректированного коэффициента детерминации Ra2 .

3)Получение дополнительных данных или новой выборки

4)Изменение спецификации модели

5)Преобразование переменных.

Например, вместо переменной x

можно включить в модель переменную x

=

1

.

 

i

i

 

xi

 

 

 

Гетероскедастичность и автокорреляция остатков

Гетероскедастичность означает, что дисперсии var(εt | X ) случайных отклонений εt зависят от t , т.е. нарушается гипотеза классической модели о постоянстве этих дисперсий. Автокорреляция остатков означает, что ковариации cov(εt ,εs | X ) не равны нулю при разных значениях t и s .

Суть и причины гетероскедастичности

Гетероскедастичность означает, что var(εt | X ) зависит от номера наблюдения t . Обычно эта зависимость возникает вследствие зависимости εt от Xt . Например, если Xt – уровень до-

хода семьи, а Yt – ее потребление, естественно ожидать что для семей с высоким доходом разброс в их потреблении больше, чем для семей с низким доходом.

48

Проблема гетероскедастичности характерна для перекрестных данных и довольно редко встречается при рассмотрении временных рядов.

Последствия гетероскедастичности

1)Оценки коэффициентов регрессии, оставаясь линейными и несмещенными, перестают быть эффективными, что (в частности) ухудшает прогноз.

2)Дисперсии и ковариации оценок являются смещенными. Это приводит к искажению значений статистик Стъюдента и Фишера, что негативным образом сказывается на результаты проверки гипотез и построении интервальных оценок.

Обнаружение гетероскедастичности Графический анализ остатков.

По оси абсцисс откладываются либо номера наблюдений t , либо значения объясняющей переменной xti , либо линейная комбинация объясняющих переменных, либо прогноз-

ные значения yˆt объясняемой переменной. По оси ординат – либо отклонения et , либо их

квадраты e2

. При наличии гетероскедастичности можно визуально заметить зависимость

t

 

значений e2

от x .

t

ti

Тест Уайта (White)

Сначала к исходной модели применяется обычный метод наименьших квадратов и находятся остатки регрессии et , t =1,n . Затем осуществляется регрессия квадратов этих остатков et2 на все регрессоры xti исходной модели, их квадраты xti2 , попарные произведения xti xtj и константу (если ее не было в составе исходных регрессоров). Для этой регрессии

находится коэффициент детерминации R2 . Тогда при выполнении нулевой гипотезы о постоянстве дисперсий случайных отклонений величина:

χ2 = nR2

(8)

асимптотически (т.е. при большом количестве наблюдений n ) имеет распределение χ2 (N 1) , где N – число регрессоров второй регрессии.

Напомним, что распределение «хи квадрат» с n степенями свободы – это распределение следующей случайной величины:

 

n

 

χ2

(n) = εk2

(9)

k =1

где ε1, ,εn – независимые стандартные нормальные случайные величины.

49

Следовательно, при выполнении нулевой гипотезы имеет место равенство:

{

c

(ρ, N

}

 

P χ2

≤ χ2

1) =1−ρ,

(10)

где χc2 (ρ, N 1)

– (1−ρ) -квантиль распределения «хи квадрат» с N 1 степенями свободы.

В случае,

если χ2 > χc2 (ρ, N 1)

нулевая гипотеза отвергается (и, следовательно, можно сде-

лать вывод о наличии гетероскедастичности); если χ2 ≤ χc2 (ρ, N 1), нет оснований отвергать нулевую гипотезу (и, она принимается).

Тест ранговой корреляции Спирмана Этот тест применяется, когда есть предположение о прямой зависимости дисперсии

ошибки от величины некоторой независимой переменной. Значения такой независимой переменной xti и абсолютные величины отклонений et ранжируются (упорядочиваются по величинам). Затем определяется коэффициент ранговой корреляции:

n

dt2

r (xi ,e)=16 (t =1 ), (11) n n2 1

где di – разность между рангами xti и et . (Например, если при t = 20 значение x20,i является 25-м по величине среди всех наблюдений xti , а e20 является 32-м, то d20 = 25 32 = −7 .)

 

 

 

Доказано, что если коэффициент корреляции ρ(xti ,εt ) равен нулю, то статистика:

 

r (xi ,e)

 

 

 

 

 

t =

 

n 2

 

(12)

 

 

 

 

 

 

 

 

 

1

r

(

x ,e

2

 

 

 

 

 

 

 

i

)

 

 

имеет распределение Стъюдента с числом степеней свободы n 2 . Следовательно, если

t

 

> tc (ρ,n 2)

(13)

 

(где tc (ρ,n 2) двусторонняя квантиль распределения Стъюдента с n 2 степенями свобо-

ды при уровне значимости ρ), то нулевая гипотеза о равенстве нулю коэффициента корреля-

ции ρ(xti ,εt ) отклоняется, и, следовательно, можно сделать вывод о присутствии гетеро-

скедастичности.

Тест Голфельда-Куандта (Goldfeld-Quandt)

Этот тест также применяется, когда есть предположение о прямой зависимости дисперсии ошибки от величины некоторой независимой переменной.

Нужно:

50

Соседние файлы в папке 17-11-2015_11-58-24