книги / Эконометрика. Начальный курс
.pdf342 Гл. 12. Дискретные зависимые переменные и цензурированные выборки
Можно проверить, что соотношение (12.34) представимо в виде
= ш . >0)аЕ(у* 1у* > о)
дх |
к |
дх |
|
+ |
a ~ ^ |
~° ) E (l/* | y < > 0 ) - |
(1235) |
Равенство (12.35) показывает, что изменение экзогенных факто ров приводит к изменению как условного среднего величины у* в положительной области ее распределения, так и вероятности попадания в эту часть распределения.
Для fоМ-модели, так же как для probit- и /cgtt-моделей, су щественную роль играет правильная спецификация модели; рас смотрение проблем, возникающих в связи с ошибками специфи кации, можно найти, например, в (Greene, 1997), (Johnston and DiNardo, 1997).
Модель Хекмана
Анализируя рассмотренную в предыдущем разделе tobit-ыодепь, нетрудно обнаружить одно ее существенное ограничение. Наблю дение yt = 0 можно интерпретировать как отказ индивидуума t от участия в «мероприятии» (например, покупать — не покупать автомобиль, работать — не работать и т. п.). Если же yt > 0, то величину yt можно назвать интенсивностью участия (расходы на покупку, число рабочих часов в неделю и т. п.). Нетрудно понять, что в tobit-иодели одни и те же факторы влияют как на вероят ность, так и иа интенсивность участия.
Предположим, что для некоторого фактора Xj соответствую щий коэффициент больше нуля: fy > 0. Тогда увеличение этого фактора будет повышать вероятность участия и в среднем увели чивать интенсивность участия. Иными словами, с точки зрения изменения вероятности и интенсивности участия каждый фактор действует «в одном направлении». Для многих ситуаций такое предположение оправдано. Например, при покупке автомобиля полный доход семьи может оказывать подобное воздействие. Од нако так бывает далеко не всегда. Противоположная ситуация возникает, например, при анализе расходов на отдых. Тогда ко
12.2. Модели с урезанными и цензурированными выборками |
343 |
личество детей в семье отрицательно влияет на принятие реше ния о поездке в отпуск, но если такое решение принято, то этот же фактор оказывает положительное воздействие на увеличение расходов.
Чтобы преодолеть эти ограничения, рассмотрим модель, в ко торой принятие решения «участвовать — не участвовать» и опре деление степени участия разделены и могут зависеть от разных факторов.
Предположим, что величина у* удовлетворяет уравнению ли нейной регрессии (степень участия)
у? = ®;/3 + <rt. |
(12.36) |
Решение «участвовать — не участвовать» описывается обычной моделью бинарного выбора:
|
д; = г 'л + ии |
(12.37) |
|||
gt = |
1, |
если gl |
> О, |
(12.38) |
|
gt = |
0, |
если gl |
< О, |
||
|
где z t — экозогенные переменные, которые могут иметь общие компоненты с ®*, щ — случайная ошибка. Наблюдения задаются следующим образом:
yt = y*i 9t = 1, |
если gl > 0 , |
|
зд» |
yt не наблюдается, gt = 0 , |
если gl < 0. |
' |
' |
Переменные x t, z t наблюдаются при каждом t. Наконец, пред положим, что [et,ui]' — двумерный нормальный вектор, E(et) = E(ut) = 0, V(et) = <TgtУ(щ) = = l,Cov(eb ttt) = аеи. По t ошиб ки независимы. Напомним, что равенство <х2 = 1 — это обычное условие нормировки в probit-моделях.
Модель (12.36)-(12.39) называется моделью Хекмана (Heck man model, см. (Heckman, 1979))2. Нетрудно проверить, что при x t = z ty/3 = 7 , et = щ мы получаем обычную tobit-иоделъ.
*В англоязычной литературе эта модель называется также s a m p le s e le c t i o n m o d e l Кроме того, используют термины модель t o b i t II и, продолжая
традиции, h e c k it- м о д е л ь .
344 Гл. 12. Дискретные зависимые переменные я цензурированные выборки
Вычислим среднее значение величины yt (при условии, что она наблюдаема). Предварительно заметим (см. упражнение 12.15), что
£t = —5-«t + 4 t = Veilщ + *?t, |
(12.40) |
причем E (rit) = 0, и величины щ и щ независимы (на самом деле, первое слагаемое в правой части (12.40) — это условное среднее E(et | U()). Имеем далее
E(j/t19t — 1) = |
+ E(et | gt = 1) |
|
= х'ф + E(et | щ > -z't~f) |
|
|
= Xj/3 + <TettE(ut | u( > - z 'tf) |
||
= x'tp + &eu |
(12.41) |
|
|
ф(*'л0' |
|
В последнем равенстве |
мы воспользовались |
соотношениями |
( 12.20).
Из равенства (12.41) следует, что применение обычного метода наименьших квадратов к наблюдениям yt приведет, в общем слу чае, к смещенным оценкам параметров /3. Если же сгеи = 0, т. е. когда механизм выбора и степень участия независимы, смещение отсутствует. Величину ¥J(2t7 )/^ (zW) в (12.41) обозначают X(z't‘y) и называют «лямбда Хекмана» (Heckman lambda).
Формально экзогенные переменные x t, z t в (12.36), (12.37) мо гут быть произвольными, однако в реальных моделях, как прави ло, набор факторов, составляющих x t, включается и в zt.
Рассмотрим типичный пример. Пусть нас интересует, от чего зависит и как устанавливается зарплата. Предположим, что зар плата w*, предлагаемая на рынке труда, удовлетворяет обычному уравнению линейной регрессии
wl = х[13 + et, |
(12.42) |
где x t — экзогенные переменные (возраст, стаж работы, уровень образования и т.п.), и это уравнение представляет главный инте рес для исследователя. При оценивании уравнения (12,42) наблю
12.2. Модели с урезанными и цензурированными выборками |
345 |
даться будет только зарплата работающих индивидуумов. Есте ственно, что для тех, кто не работает, величина w* не наблюдает ся. Одна из возможных моделей, описывающая механизм приня тия индивидуумом решения «работать — не работать», основана на понятии резервной зарплаты (reservation wage) (см. (Gronau, 1974)). Содержательно, резервная зарплата — это тот минималь ный уровень зарплаты, который индивидуум считает для себя приемлемым. Если предлагаемая ему зарплата ниже этого уров ня, он просто отказывается работать. Ясно, что резервная зарпла та зависит от других переменных по сравнению с переменными, определяющими зарплату на рынке труда. Можно отметить такие факторы, как социальный статус, семейное положение, общий се мейный доход, возраст и количество детей, которые формируют внутреннее представление индивидуума о минимальном уровне зарплаты, но, как правило, не учитываются работодателями при оплате труда.
Пусть wif — резервная зарплата индивидуума t, и предполо жим, что
Wrt = x'itfa + £Ut
где Xu — набор индивидульных характеристик. Тогда, обозначая
дI = w* - |
получим |
|
|
9 t = |
- x 'u /3 , + e t - £ U > |
что после очевидных переобозначений может быть представлено в виде (12.37):
9t = z 't1 + «t-
Индивидуум t работает и, следовательно, величина w? наблюда ется, если gf > 0, в противном случае зарплата tvf неизвестна. Следовательно, эта модель укладывается в схему модели Хекма на (12.36)—(12.39). При этом переменные z t, входящие в уравнение выбора, содержат переменные x t и еще некоторые дополнитель ные переменные.
Можно считать, что ошибки et и £ц независимы, поэтому в данном случае treu = Cov(gt,£t - еи ) = > 0. Таким образом,
12.2. Модели с урезанными и цензурированными выборками |
347 |
Следовательно,
+ (<7еи/<7?)Ы - а;
\Л - a \J a \
Таким образом, формулы (12.44)-(12.47) решают задачу вычисле ния логарифмической функции правдоподобия для модели Хек мана.
Применение метода максимального правдоподобия для оцени вания модели Хекмана требует, как правило, создания програм мы, реализующей формулы (12.44)-(12.47) и последующую мак симизацию функции (12.44). Чтобы избежать этого, в эмпири ческих исследованиях часто ограничиваются двухшаговым ме тодом оценивания, который основан на формуле (12.41). Дей ствительно, равенство (12.41) можно переписать в следующем виде:
yt = sc't/3 + creuA(z't7) + vu |
(12.48) |
где, как нетрудно проверить, ошибка щ имеет нулевое матема
тическое ожидание |
и некоррелирована с |
X t,y t. Поэтому если |
бы величина At = |
Ц г ' ^ ) была известна, |
то применяя к урав |
нению (12.48) обычный метод наименьших квадратов, можно было бы получить несмещенные и состоятельные оценки пара метров /3. Параметры 7 неизвестны, но их можно состоятель но оценить по модели бинарного выбора (12.37)-(12.38) (пер вый шаг). Подставляя эти оценки вместо 7 в (12.48) и при меняя метод наименьших квадратов, можно получить состоя тельные оценки параметров /3 (второй шаг). Конечно, эти оцен ки не будут эффективными. Одной из причин этого являет ся, например, гетероскедастичность ошибок щ в (12.48). По этому на практике либо корректируют обычный метод наи меньших квадратов (подробнее об этом можно прочесть, на пример, в книге (Greene, 1997)), либо используют МНК-оценки в качестве начального приближения в методе максимального правдоподобия.
348 Гл. 12 Дискретные зависимые переменные и цензурированные выборки
Модели <гвремени жизни>
Цензурирование или урезание наблюдений естественным образом возникает при исследовании длительности какого-либо процесса, времени нахождения в каком-либо состоянии: период безотказной работы прибора, время жизни пациента после трансплантации сердца, промежуток времени между двумя арестами рецидиви ста, период безработицы, длительность забастовки и т. п. Модели подобных явлений называют моделями «времени жизни» (dura tion models). Бели к моменту наблюдения процесс не завершился, то точное значение его длительности неизвестно и она цензуриру ется моментом наблюдения или же это наблюдение исключается из рассмотрения (урезание).
Модели «времени жизни» уже в течение нескольких десятиле тий изучаются в технике, медицине, демографии. В экономике их исследование началось сравнительно недавно ((Lancaster, 1974), (Lancaster, 1985), (Heckman and Singer, 1984), (Kiefer, 1988)).
Будем считать «время жизни» изучаемого объекта случайной величиной и обозначать г. Одной из основных вероятностных ха рактеристик г является интенсивность отказов или коэффици ент смертности (hazard rate):
т = г щ г у |
<1249> |
где F {) — функция, а р( ) — плотность распределения т. Функ цию (12.49) называют также обратным отношением Миллса {in verse Mills ratio). Эта функция уже встречалась ранее (12.19). Она имеет следующий смысл: если к моменту времени t процесс еще не завершился, т.е. г > t, то вероятность его окончания в тече ние следующего малого промежутка времени At есть A(t)At, что оправдывает название функции А(-). В моделях «времени жизни» наибольший интерес представляет именно эта функция. Вот ти пичные вопросы, ответы на которые зависят от поведения функ ции интенсивности отказов:
—Один пациент с пересаженным сердцем прожил после опе рации три года, второй — пять лет. Для кого из них опасность умереть в течение ближайшего года выше?
12.2. Модели с урезанными и цензурированными выборками |
349 |
—Два человека ищут работу, один в течение трех месяцев, другой — в течение полугода. Для кого из них шанс найти работу
втечение ближайшей недели выше?
—Какая забастовка более вероятно закончится завтра: та, что длится уже месяц, или та, что длится всего неделю?
Заметим, что из (12.49) легко следует, что
F{t) = 1 —e x p J A(s)ds'j ,
т.е. распределение «времени жизни» г однозначно восстанавли вается по А(-).
Наиболее часто в моделях «времени жизни» для случайной величины г рассматривают распределения
показательное |
1 - |
F(t) = e_At |
A(t) = А |
Вейбулла |
1 - |
F(t) = е-А*в |
A(t) = A at® -1 |
лог-логистическое |
|
|
|
Здесь А > 0, а > 0 — параметры распределений. Показательное распределение является частным случаем распределения Вейбулла и характеризуется постоянной интенсивностью отказа; для рас пределения Вейбулла функция A(t) возрастает при а > 1 и убыва ет при а < 1; у лог-логистического распределения интенсивность отказа сначала возрастает, а затем убывает. Для оценивания па раметров А, а в условиях цензурирования наблюдений можно вос пользоваться методом максимального правдоподобия, аналогично тому, как делается для tobit-моделк. Пусть п , ... ,тп — наблюде ния реализаций «времени жизни». Если обозначить UCO множе ство нецензурированных наблюдений, а СО — множество цензу рированных наблюдений (UnCensored и Censored Observations), то для логарифмической функции правдоподобия имеем следующее представление:
l = \ n L = ^ |
Inр(т*) + ^ h ( l - F(Ti)). |
(12.50) |
ieuco |
»€CO |
|
350 Гл. 12. Дискретные зависимые переменные и цензурироиаиные выборки
Иногда удобно записывать логарифмическую функцию прав доподобия, используя функцию интенсивности отказов А():
< = |
£ |
1 п А ( п ) + |
£ |
! „ ( 1 - Г ( т , ) ) . |
ieuco iecouuco
Во втором слагаемом суммирование берется по всем наблюдени ям.
В модели «времени жизни» нетрудно ввести экзогенные пере менные. Пусть «время жизни» имеет распределение Вейбулла, и есть набор х = (®|,... ,х*У объясняющих переменных. Предпо лагая некоторую функциональную зависимость параметра А от ®, например, А* = (i — номер наблюдения), и подставляя эти значения в уравнение (12.50), можно построить оценки мак симального правдоподобия параметров /3. Подробнее о проблеме интерпретации коэффициентов см. (Greene, 1997).
Упражнения
12.1. Покажите, что если среди регрессоров линейной модели вероят ности или /o0»t-модели есть константа, то среднее значение прогнозных вероятностей равнодоле единиц во всей выборкезависимой переменной.
12.2 . Докажите равенства (12.20).
(Указание. Воспользуйтесь равенством ф'(и) = —иф(и).)
12.3.Докажите равенство (12.33).
12.4.Проверьте справедливость представления (12.35).
12.5. Рассмотрим модель бинарного выбора Р(yt = 1) = F (a + Pdt), где d — фиктивная переменная (принимающая значения 0 или 1). Ниже представлены результаты 100 наблюдений:
У
0 1
0 20 32
d
1 36 12
а) Оцените параметры о, /3, используя logit-модель. Проверьте ги потезу Но: /3 = 0.