Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

diplom25 / suslov_ibragimov_ekonometrika

.pdf
Скачиваний:
31
Добавлен:
24.03.2015
Размер:
5.55 Mб
Скачать

292

Глава9.Целочисленные переменные в регрессии

1! O = 0

k β ,

 

 

 

 

 

 

Cø β

0

 

ø0

 

 

 

= β

,

 

 

 

 

 

 

β

 

ø

 

 

 

β

 

 

O

 

 

 

 

O

=

Z G .

Z GC

 

Можно показать,что

 

1

 

Ik

 

−1k! −1

β0

 

=

βø0

 

, или

 

0

 

1

1k−1

 

β

 

 

 

βø

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

1k! −1(Ik−1 k1 1k−1) βø0

 

=

β0

 

,

0

Ik

1

k1 1k−1

 

βø

 

 

 

β

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где 1k−1 = 1k−11!k−1 Ñ (k −1)×(k −1)-матрица,состоящаяизединиц;идалеепо- казать,что результаты оценки параметров уравнения с фиктивными переменными при использовании обоих указанных подходов к устранению линейной зависимости факторов-регрессоров одинаковы.

В дальнейшем для устранения линейной зависимости столбцов значений фиктивных переменных используется способÇбÈ.

После оценки регрессии можно применить t-критерий для проверки значимости влияния качественного фактора на свободный член уравнения.

Если k слишком велико и приближается к N ,то на параметры при фиктивных переменных накладываются более жесткие ограничения(чем равенство нулю их суммы).Так,например,если наблюден ия проведены в последовательные моменты времени,и вводится качественны й факторÇвремяÈ,принимающий особое

значение в каждый момент времени,то

Z G = IN ,и обычно предполагается,что

значение параметра в каждый момент

времени(при фиктивной переменной каж-

 

O

дого момента времени)больше,чем в предыдущий момент времени на одну и ту же величину.Тогда роль матрицы C играет N -вектор-столбец T ,состоящий из чи-

сел натурального ряда,начиная с 1, и O = ,где Ñскаляр.Уравнение

β T βT βT

регрессии с фактором времени имеет вид(эквивалентная исходной форма уравненияприиспользованииспособаÇбÈисклю чениялинейнойзависимостификтивных переменных):

X = Z α + Z 0β0 + T βT + ε.

Метод фиктивных переменных можно использовать для проверки влияния качественного фактора на коэффициент регрессии при любом обычном факторе.Исходная форма уравнения,в которое вводится качественный фактор для параметра α,имеет следующий вид:

X = Z α + Z

β

0

+ Zj O

G

O

j

 

0

 

ø

Z

α

+ ε,

 

 

 

 

 

 

9.1.Фиктивные переменные

293

где Zj Ñ j -й столбец матрицы Z ; αOj Ñ k-вектор-столбец параметров влияния качественного фактора на αj ;в векторе α j -я компонента теперь обозначается α0j Ñсредний уровень параметра αj ; ø Ñоперация прямого произведения столбцов матриц.

Прямое произведение матриц A B (произведение Кронекера,см.ПриложениеA.1.2),имеющих размерность,соответственно, mA × nA и mB × nB ,есть матрица размерности (mAmB ) × (nAnB ) следующей структуры:

a11B ááá

a1nA B

 

...

 

...

 

...

 

.

 

 

 

 

 

 

 

a

B

 

a

 

B

 

 

ááá

 

mAnA

 

 

mA1

 

 

 

 

 

Прямое произведение матриц обладает следующими свойствами:

(A1 ááá Am)(B1 ááá B2) = (A1B1) ááá (AmBm ),

если,конечно,соответствующие матричные произведения имеют смысл:

(A1 ááá Am)" = A"1 ááá A"m, (A1 ááá Am )−1 = A1 1 ááá Am1,

если все матрицы A квадратны и неособенны.

Прямое произведение столбцов матриц применимо к матрицам,имеющим одинаковое число строк,и осуществляется путем проведения операции прямого произведения последовательно с векторами-строками матриц:

A ø B =

A1

 

ø

B1

 

=

A1 B1

 

...

 

...

 

 

 

...

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A

 

 

 

B

 

 

 

A

m

 

B

 

 

 

 

m

 

 

m

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Эта операция обладает следующим важным свойством:

(A1 ø ááá ø Am)(B1 ááá B2) = (A1B1) ø ááá ø (AmBm).

Приоритет прямого произведения матриц выше,чем обыч ного матричного произведения.

При использовании способаÇаÈэквивалентная исходной форма уравнения имеет вид(формаÇаÈ):

X = Z

j α

j + Z 0β0 + Zj

ø

Z 0, ZøG

Cø

αj0

 

+ ε,

 

6

7

 

α÷j

 

 

 

 

 

 

 

 

 

 

 

294

где Z−j и после

Глава9.Целочисленные переменные в регрессии

Ñматрица Z без j -го столбца, α−j Ñвектор α без j -го элемента, устранения линейной зависимости фиктивных переменных:

X = Z α + Z

β

0

+ Zj O

G

j

 

0

 

ø

Z

+ ε.

 

 

 

 

 

C α

Все приведенные выше структуры матриц и соотношения между матрицами и векторами сохраняются.

В уравнение регрессии можно включать более одного качественного фактора. В случае двух факторов,принимающих,соответственно, k1 и k2 значения,форма ÇбÈуравнения записывается следующим образом:

X = Z α + Z 0β0 + Z 1β1 + Z 2β2 + ε,

где вместоÇ G Èв качестве индекса качественного фактора используется его номер.

Это уравнение может включать фиктивные переменные совместного влияния качественныхфакторов(взаимодействияфакторов).Висходнойформекомпонента совместного влияния записывается следующим образом:

где β12 = (β12, . . . ,β 12 ,

β12, . . . ,βO12 ,O. . O. ,β 12

, . . . ,β 12

)! Ñ k k

-вектор-

 

 

 

 

Z

1 ø

Z

2

β

12

,

 

 

 

O

 

 

 

 

 

 

 

 

 

βi1i2

 

 

 

 

 

 

 

 

 

 

1 × 2

1

столбец,а

11

1k2

21

2k2

 

 

 

 

k11

k1k2

,если

12

Ñпараметр при фиктивной переменной,которая равна

первыйфакторпринимает i1-езначение,авторойфакторÑ

i2-езначение,иравна

0 в остальных случаях(вектор-столбцом наблюдений за этой переменной является

(k1(i1 − 1) + i2)-й столбец матрицы

Z

1

ø

 

2

).

 

Z

 

Как и прежде,вектор параметров,Oиз

которого исключены все компоненты,

O

 

 

линейно выражаемые через остальные,обозначается β12.Он имеет размерность (k1 − 1) × (k2 − 1) и связан с исходным вектором параметров таким образом:

O

=

C 1

 

C 2β12,

β12

 

 

где C 1 и C 2 Ñматрицы размерности k1 × (k1 − 1) и k2 × (k2 − 1),имеющие описанную выше структуру(матрица C ).

Теперь компоненту совместного влияния можно записать следующим образом:

O

O

 

)(C

 

 

C

 

= ( O

 

C

) ( O

 

C

 

)

 

= Z

 

Z

β

 

= Z

 

β

 

,

(Z

 

ø

Z

 

 

 

 

Z

 

1 ø

Z

 

 

β

 

1 ø

 

 

 

 

1

 

2

 

1

 

2

 

12

 

1

 

 

2

 

2

 

12

 

2

 

12

 

12

 

12

 

а уравнение,включающее эту компоненту(формаÇбÈ) Ñ

X= Z α + Z 0β0 + Z 1β1 + Z 2β2 + Z 12β12 + ε.

Вобщем случае имеется n качественных факторов, j -й фактор принимает kj

значений,см.пункт1.9.Пустьупорядоченноемножество {1, . . . , n} обозначается

9.2.Модели с биномиальной зависимой переменной

295

G,а J Ñегоподмножества.Общееихколичество,включаяпустоеподмножество, равно 2n .Каждому такому подмножеству взаимно-однозначно соответствует чис-

ло,например,в системе исчисления с основанием max kj ,и их можно упорядочить

j

по возрастанию этих чисел.Если пу стое подмножество обозначить 0,то можно записать:

J = 0, 1, . . . , n, {1, 2}, . . . , {1, n}, {2, 3}, . . . , {1, 2, 3}, . . . , G.

Тогда уравнение регрессии записывается следующим образом:

 

 

 

 

 

G

 

O

 

O

 

 

 

 

G

 

G

 

X = Z α +

!

 

+ ε = Z α +

! O

 

J!

 

 

Z J βJ

Z J C J βJ + ε = Z α +

Z J βJ + ε,

O

 

 

3

 

J =0

 

 

 

3

 

 

 

J =0

 

=0

J

=

ø ÷j

 

 

J

=

 

j

при j > 0, C

0

= 1.Выражение

 

где Z

 

, C

 

C

j J под зна-

 

j J

Z

 

j J

 

 

ком произведения означает,что j принимает значения последовательно с первого по последний элемент подмножества J .

Очевидно,что приведенная выше запись уравнения для n = 2 является частным случаем данной записи.

Если ( ) Ñколичествоэлементоввподмножестве ,то OJ OJ или J J Ñ p J J Z β Z β

J -е эффекты, эффекты p(J )-го порядка;при p(J ) = 1 Ñ главные эффекты, при p(J ) > 1 Ñ эффекты взаимодействия,э ффекты совместного влияния или совместные эффекты.

OJ или Ñпараметры соответствующих -х эффектов или также сами эти

β β J

эффекты.

9.2.Модели с биномиальной зависимой переменной

Рассмотрим теперь модели,в которых зависимая переменная принимает только два значения,т.е.является фиктивной переменной.При этом придется отойти от модели линейной регрессии,о которой речь шла выше.

Если изучается спрос на рынке некоторого товара длительного пользования, например,на рынке холодильников определенной марки,то спрос в целом возможно предсказывать с помощью стандартной регрессии.Однако,если изучать спрос на холодильники отдельной семьи, то изучаемая переменная должна быть либо дискретной( 0 или 1),либо качественной(не покупать холодильник,купить холодильник маркиA,купить холодильн ик маркиBи т.д.).Аналогично,разные методы приходится применять при изучении рынка труда и при изучении решения

296

Глава9.Целочисленные переменные в регрессии

отдельного человека по поводу занятости(работать/не работать).Данные о том, произошло какое-либо событие или нет,также можно представить дискретной переменной вида 0 или 1.При этом не обязательно наличие ситуации выбора. Например,можно исследовать данные об экономических кризисах,банкротствах (произошел или не произошел кризис или банкротство).

9.2.1.Линейная модель вероятности,логит и пробит

В биномиальную модель входит изучаемая переменная x,принимающая два значения,а также объясняющие переменные z,которые содержат факторы,определяющие выбор одного из значений.Без потери общности будем предполагать, что x принимает значения0и1.

Предположим,что мы оценили на основе имеющихся наблюдений линейную регрессию

x = zα + ε.

Очевидно,что для почти всех значений z построенная линейная регрессия будет предсказывать абсурдные значения изучаемой переменной x Ñдробные, отрицательные и большие единицы,что дел ает ее не очень полезной на практике.

Более того,линейная модель не может быть вполне корректной с формальной точки зрения.Поскольку у биномиальной зависимой переменной распределение будет распределением Бернулли(биномиальным распределением с одним испытанием Бернулли),то оно полностью задается вероятностью получения единицы. В свою очередь,вероятность того,что x = 1,совпадает с математическим ожиданием x,если эта переменная принимает значения 0 и 1:

E(x) = Pr(x = 1) á 1 + Pr(x = 0) á 1 = Pr(x = 1).

С другой стороны,ожидание x при данной величине z для линейной модели равно

E(x) = zα + E(ε) = zα.

Отсюда следует,что обычная линейная регрессионная модель не совсем подходит для описания рассматриваемой ситуации,поскольку величина za,вообще говоря,не ограничена,в то время как вероятность всегда ограничена нулем и единицей.Ожидаемое значение зависимой переменной, E(x),может описываться только нелинейной функцией.

Желательно каким-то образом модифицировать модель,чтобы она,с одной стороны,принимала во внимание тот факт,что вероятность не может выходить

9.2.Модели с биномиальной зависимой переменной

297

за пределы отрезка [0; 1],и,с другой стороны,была почти такой же простой как линейная регрессия.Этим требованиям удовлетворяет модель,для которой

Pr(x = 1) = F (zα),

где F (á) Ñнекоторая достаточно простая функция,преобразующая zα в число от нуля до единицы.Естественно выбрать в качестве F (á) какую-либо дифференцируемуюфункциюраспределения,определенную на всейдействительной прямой. В дальнейшем мы рассмотрим несколько удобных функций распределения,которые удовлетворяют этим требованиям.

Заметим,что если выбрать F (á),соответствующую равномерному распределению на отрезке [0; 1],то окажется,что

0,

E(x) = Pr(x = 1) = zα,

1,

zα ! 0,

0! zα ! 1, zα " 1.

Таким образом,при zα [0; 1] получимÇлинейную регрессиюÈ.Это так называемая линейная модель вероятности.Однако,вообще говоря,такой выбор F (á) скорее не упрощает оценивание,а усложн яет,поскольку в целом математическое ожидание зависимой переменной является здесь нелинейной функцией неизвестных параметров α (т.е.это нелинейная регрессия),причем эта функция недифференцируема.

В то же время,если данные таковы,что можно быть уверенным,что величина zα далека от границ0и1,то линейную модель вероятности можно использовать,оценивая ее как обычную линейную регрессию.То,что величина zα далека от границ0и1,означает,что z плохо предсказывает x.Таким образом,линейная модель вероятности применима в случае,когда изучаемая зависимость слаба, и в имеющихся данных доля как нулей,так и единиц не слишком мала.Ее можно рассматривать как приближение для нелинейных моделей.

Есть два удобных вида распределения,которые обычно используют для моделирования вероятности получения единицы в модели с биномиальной зависимой переменной.Оба распределения симметричны относительно нуля.

1)Логистическое распределение.

Плотность логистического распределения равна

ey

λ(y) = (1 + ey )2 ,

298

Глава9.Целочисленные переменные в регрессии

а функция распределения равна

 

 

 

 

 

 

ey

1

 

 

Λ(y) =

 

=

 

.

 

1 + ey

1 + e−y

Модель с биномиальной зависимой переменной с логистически распределенным отклонением называют логит.Для логита

 

e

1

 

E(x) = Pr(x = 1) =Λ( zα) =

 

=

 

.

1 + e

1 + e−zα

2)Нормальное распределен ие(см.ПриложениеA.3.2).

Модель с нормально распределенным отклонением ε называют пробит.При этом используется стандартное нормальное распределение,т.е.нормальное распределение с нулевым ожиданием и единичной дисперсией, N (0, 1).Для пробита

 

 

 

 

e−t /2dt,

 

E(x) = Pr(x = 1) =Φ( zα) = -

ϕ(t)dt = -

 

 

 

1

 

 

2

 

−∞

 

 

−∞

 

где

Φ(á) Ñфункция распределения стандартного нормального распределения,

ϕ(á) Ñего плотность.

 

 

 

 

 

 

Логистическое распределение похоже на нормальное с нулевым ожидани-

ем

и дисперсией π2/3 (дисперсия логистического

распределения).В связи

с этим оценки коэффициентов в моделях различаются примерно на множитель

π/ 3 ≈ 1.8.Если вероятности далеки от границ0и1 (около0,5),то более точной оценкой множителя является величина ϕ(0)/λ(0) = Z8/π ≈ 1.6.При малом количестве наблюдений из-за схожести распределений сложно решить,когда следует применять логит,а когдаÑпробит .Различие наиболее сильно проявляется при вероятностях,близких к0и1,поскольку логистическое распределение имеет более длинные хвосты,чем нормальное(оно характеризуется положительным коэффициентом эксцесса).

Можно использовать в модели и другие распределения,например,асимметричные.

9.2.2.Оценивание моделей с биномиальной зависимой переменной

Требуется поNнаблюдениям (xi, zi ), i = 1, . . . , N ,получить оценки коэффициентов α.Здесь наблюдения xi независимы и имеют биномиальное распределение с одним испытанием(т.е.распределение Бернулли)и вероятностью

Pr(xi = 1) = F (zi α).

9.2.Модели с биномиальной зависимой переменной

 

299

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нормальное

 

 

 

 

 

 

Логистическое

 

 

 

 

распределение

 

 

 

 

 

 

распределение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Распределение

 

 

 

 

 

 

 

 

 

 

 

 

экстремального

 

 

 

 

 

 

 

 

 

 

 

 

значения

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ð4

Ð3.1

Ð2.2

Ð1.3

Ð0.4

0.5

1.4

2.3

3.2

4.1

5

Рис. 9.1

Можно рассматривать модель с биномиальной зависимой переменной как модель регрессии:

xi = F (zi α) + ξi,

где ошибки ξi = xi − F (zi α) имеют нулевое математическое ожидание и независимы.Каждая из ошибок ξi может принимать только два значения,и поэтому их распределение мало похоже на нормальное.Кроме того,имеет место гетероскедастичность.Обозначим

pi = pi(α) = F (zi α).

В этих обозначениях дисперсия ошибки ξi равна

67

var(ξi) = E (xi − pi)2 = E(x2i ) − 2pi E(xi) + p2i = pi(1 − pi).

При выводе этой формулы мы воспользовались тем,что x2i = xi и E(xi) = pi .

Несмотря на эти нарушения стандартных предположений,данную модель,которая в общем случае представляет собой модель нелинейной регрессии,можно оценить нелинейным методом наименьших квадратов,минимизируя по α следующую сумму квадратов:

!N (xi − pi(α))2.

i=1

Для минимизации такой суммы квадратов требуется использовать какой-либо алгоритм нелинейной оптимизации.Э тот метод дает состоятельные оценки коэффициентов α.Гетероскедастичность приводит к двум важным последствиям. Во-первых,оценки параметров будут неэффективными(не самыми точными).Вовторых,чтоболеесерьезно,ковариационнаяматрицакоэффициентов,стандартные

300

Глава9.Целочисленные переменные в регрессии

ошибки коэффициентов иt-статистики будут вычисляться некорректно(если использоватьстандартныепроцедурыоцениваниянелинейнойрегрессиииполучения

вней оценки ковариационной матрицы оценок параметров).

Вчастном случае модели линейной вероятности имеем линейную регрессию с гетероскедастичными ошибками:

xi = zi α + ξi.

Для такой модели можно предложить следующую процедуру,делающую поправку на гетероскедастичность:

1)Оцениваем модель обычным МНК и получаем оценки a. 2)Находим оценки вероятностей:

pi = zia.

3)Используем взвешенную регрессию и получаем оценки a .

Чтобы оценить взвешенную регрессию,сле дует разделить каждое наблюде-

ние исходной модели на корень из оценки дисперсии ошибки,т.е.на величину

Gpi(1 − pi) =

Gzi a(1 − zia):

 

 

 

 

 

 

 

 

 

 

xi

=

 

zi

α +

 

ξi

,

 

 

Z

 

Z

 

Z

 

 

 

pi(1 − pi)

pi(1 − pi)

pi(1 − pi)

и далее применить к этой преобразованной регрессии обычный метод наименьших квадратов.При использовании данного метода получим асимптотически эффективные оценки a и корректную ковариационную матрицу этих оценок,на основе которой можно рассчитать t -статистики.

Те же идеи дают метод оценивания модели с произвольной гладкой функцией F (á).Для этого можно использовать линеаризацию в точке0:

F (zi α) ≈ F (0) + f (0)zi α,

где f (á) Ñпроизводная функции F (á) (плотность распределения).Тогда получим следующую приближенную модель:

xi ≈ F (0) + f (0) zi α + ξi

 

или

 

 

 

 

 

xi! ≈ ziα + ξi!,

 

 

 

где

 

 

 

 

xi! =

xi − F (0)

и ξ!

=

ξi

,

f (0)

 

f (0)

 

 

 

9.2.Модели с биномиальной зависимой переменной

301

которую можно оценить с помощью только что описанной процедуры.Для симметричных относительно нуля распределений F (0) = 0, 5.В случае логита,учитывая λ(0) = 1"4,получаем

x!i = 4xi − 2,

а в случае пробита,учитывая φ(0) = 1"√,получаем

x!i = 2π(xi − 0, 5).

Таким образом,можно получить приближенные оценки для коэффициентов пробита и логита,используя в качеств е зависимой переменной регрессии вместо переменной,принимающей значения0и1,переменную,которая принимает зна-

чения ±2 для логита и ±Gπ"2 для пробита( Gπ"2 ≈ 1, 25).Ясно,что это хорошее приближение только когда величины zi α близки к нулю,то есть когда модель плохо описывает данные.

Приближенныеоценкиможно получить также по группированным наблюдениям.Предположим,что все наблюдения ра збиты на несколько непересекающихся подгрупп,в пределах каждой из которых значения факторов zi примерно одинаковы.Введем обозначения:

j = 1 ! xi

Nj i Ij

и

j = 1 ! zi ,

Nj i Ij

где Ij Ñмножество наблюдений,принадлежащих j -й группе, Nj Ñколичество наблюдений в j -й группе.Величина pøj является оценкой вероятности получения единицы в случае,когда факторы принимают значение zøj ,т.е.

j ≈ F (øzj α),

откуда

F −1(øpj ) ≈ zøj α.

Получаем модель регрессии,в которой в к ачестве зависимой переменной выступает F −1(øpj ),а в качестве факторовÑ zøj .В частном случае логистического распределения имеем:

Λ−1(øpj ) = ln ,1 j ø .,

− pj

Соседние файлы в папке diplom25