Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Эконометрика. Начальный курс

.pdf
Скачиваний:
15
Добавлен:
20.11.2023
Размер:
21.93 Mб
Скачать

12.2. Модели с урезанными и цензурированными выборками

341

Для получения состоятельных и асимптотически несмещен­ ных оценок параметров /3 можно вновь, как и в предыдущем разделе, воспользоваться методом максимального правдоподобия. Поскольку в данном случае наблюдения (12.30) имеют смешанное распределение, то функция правдоподобия имеет следующий вид:

Первая группа сомножителей соответствует цензурированным на­ блюдениям, вторая — всем остальным. Отметим, что в отличие от probit- или моделей, где параметры (3 и а не идентифи­ цируются по отдельности, здесь они в функции L «разделены» и каждый из них может быть оценен.

Процедура построения оценок максимального правдоподобия путем максимизации функции (12.32) реализована в большинстве современных эконометрических пакетов.

Кратко остановимся на вопросе интерпретации коэффициен­ тов tobit-модели. Дифференцируя (12.31) по х и опуская нижний индекс t, получаем:

(12.33)

т. е. предельный эффект объясняющих факторов является пере­ менным, как и должно быть для нелинейной модели. Как и в случае probitили logit-модели, для определения «среднего» пре­ дельного эффекта рекомендуется вычислять производные (12.33) для средних по выборке значений независимых переменных х.

В работе (McDonald and Moffit, 1980) было предложено следу­ ющее разложение для предельного эффекта (12.33):

= [$(*)(! - г(г + г)) + ф(г){г + г)) /3,

(12.34)

342 Гл. 12. Дискретные зависимые переменные и цензурированные выборки

Можно проверить, что соотношение (12.34) представимо в виде

= ш . >0)аЕ(у* 1у* > о)

дх

к

дх

 

+

a ~ ^

~° ) E (l/* | y < > 0 ) -

(1235)

Равенство (12.35) показывает, что изменение экзогенных факто­ ров приводит к изменению как условного среднего величины у* в положительной области ее распределения, так и вероятности попадания в эту часть распределения.

Для fоМ-модели, так же как для probit- и /cgtt-моделей, су­ щественную роль играет правильная спецификация модели; рас­ смотрение проблем, возникающих в связи с ошибками специфи­ кации, можно найти, например, в (Greene, 1997), (Johnston and DiNardo, 1997).

Модель Хекмана

Анализируя рассмотренную в предыдущем разделе tobit-ыодепь, нетрудно обнаружить одно ее существенное ограничение. Наблю­ дение yt = 0 можно интерпретировать как отказ индивидуума t от участия в «мероприятии» (например, покупать — не покупать автомобиль, работать — не работать и т. п.). Если же yt > 0, то величину yt можно назвать интенсивностью участия (расходы на покупку, число рабочих часов в неделю и т. п.). Нетрудно понять, что в tobit-иодели одни и те же факторы влияют как на вероят­ ность, так и иа интенсивность участия.

Предположим, что для некоторого фактора Xj соответствую­ щий коэффициент больше нуля: fy > 0. Тогда увеличение этого фактора будет повышать вероятность участия и в среднем увели­ чивать интенсивность участия. Иными словами, с точки зрения изменения вероятности и интенсивности участия каждый фактор действует «в одном направлении». Для многих ситуаций такое предположение оправдано. Например, при покупке автомобиля полный доход семьи может оказывать подобное воздействие. Од­ нако так бывает далеко не всегда. Противоположная ситуация возникает, например, при анализе расходов на отдых. Тогда ко­

12.2. Модели с урезанными и цензурированными выборками

343

личество детей в семье отрицательно влияет на принятие реше­ ния о поездке в отпуск, но если такое решение принято, то этот же фактор оказывает положительное воздействие на увеличение расходов.

Чтобы преодолеть эти ограничения, рассмотрим модель, в ко­ торой принятие решения «участвовать — не участвовать» и опре­ деление степени участия разделены и могут зависеть от разных факторов.

Предположим, что величина у* удовлетворяет уравнению ли­ нейной регрессии (степень участия)

у? = ®;/3 + <rt.

(12.36)

Решение «участвовать — не участвовать» описывается обычной моделью бинарного выбора:

 

д; = г 'л + ии

(12.37)

gt =

1,

если gl

> О,

(12.38)

gt =

0,

если gl

< О,

 

где z t — экозогенные переменные, которые могут иметь общие компоненты с ®*, щ — случайная ошибка. Наблюдения задаются следующим образом:

yt = y*i 9t = 1,

если gl > 0 ,

 

зд»

yt не наблюдается, gt = 0 ,

если gl < 0.

'

'

Переменные x t, z t наблюдаются при каждом t. Наконец, пред­ положим, что [et,ui]' — двумерный нормальный вектор, E(et) = E(ut) = 0, V(et) = <TgtУ(щ) = = l,Cov(eb ttt) = аеи. По t ошиб­ ки независимы. Напомним, что равенство <х2 = 1 — это обычное условие нормировки в probit-моделях.

Модель (12.36)-(12.39) называется моделью Хекмана (Heck­ man model, см. (Heckman, 1979))2. Нетрудно проверить, что при x t = z ty/3 = 7 , et = щ мы получаем обычную tobit-иоделъ.

*В англоязычной литературе эта модель называется также s a m p le s e le c ­ t i o n m o d e l Кроме того, используют термины модель t o b i t II и, продолжая

традиции, h e c k it- м о д е л ь .

344 Гл. 12. Дискретные зависимые переменные я цензурированные выборки

Вычислим среднее значение величины yt (при условии, что она наблюдаема). Предварительно заметим (см. упражнение 12.15), что

£t = —5-«t + 4 t = Veilщ + *?t,

(12.40)

причем E (rit) = 0, и величины щ и щ независимы (на самом деле, первое слагаемое в правой части (12.40) — это условное среднее E(et | U()). Имеем далее

E(j/t19t — 1) =

+ E(et | gt = 1)

 

= х'ф + E(et | щ > -z't~f)

 

= Xj/3 + <TettE(ut | u( > - z 'tf)

= x'tp + &eu

(12.41)

 

ф(*'л0'

 

В последнем равенстве

мы воспользовались

соотношениями

( 12.20).

Из равенства (12.41) следует, что применение обычного метода наименьших квадратов к наблюдениям yt приведет, в общем слу­ чае, к смещенным оценкам параметров /3. Если же сгеи = 0, т. е. когда механизм выбора и степень участия независимы, смещение отсутствует. Величину ¥J(2t7 )/^ (zW) в (12.41) обозначают X(z't‘y) и называют «лямбда Хекмана» (Heckman lambda).

Формально экзогенные переменные x t, z t в (12.36), (12.37) мо­ гут быть произвольными, однако в реальных моделях, как прави­ ло, набор факторов, составляющих x t, включается и в zt.

Рассмотрим типичный пример. Пусть нас интересует, от чего зависит и как устанавливается зарплата. Предположим, что зар­ плата w*, предлагаемая на рынке труда, удовлетворяет обычному уравнению линейной регрессии

wl = х[13 + et,

(12.42)

где x t — экзогенные переменные (возраст, стаж работы, уровень образования и т.п.), и это уравнение представляет главный инте­ рес для исследователя. При оценивании уравнения (12,42) наблю­

12.2. Модели с урезанными и цензурированными выборками

345

даться будет только зарплата работающих индивидуумов. Есте­ ственно, что для тех, кто не работает, величина w* не наблюдает­ ся. Одна из возможных моделей, описывающая механизм приня­ тия индивидуумом решения «работать — не работать», основана на понятии резервной зарплаты (reservation wage) (см. (Gronau, 1974)). Содержательно, резервная зарплата — это тот минималь­ ный уровень зарплаты, который индивидуум считает для себя приемлемым. Если предлагаемая ему зарплата ниже этого уров­ ня, он просто отказывается работать. Ясно, что резервная зарпла­ та зависит от других переменных по сравнению с переменными, определяющими зарплату на рынке труда. Можно отметить такие факторы, как социальный статус, семейное положение, общий се­ мейный доход, возраст и количество детей, которые формируют внутреннее представление индивидуума о минимальном уровне зарплаты, но, как правило, не учитываются работодателями при оплате труда.

Пусть wif — резервная зарплата индивидуума t, и предполо­ жим, что

Wrt = x'itfa + £Ut

где Xu — набор индивидульных характеристик. Тогда, обозначая

дI = w* -

получим

 

 

9 t =

- x 'u /3 , + e t - £ U >

что после очевидных переобозначений может быть представлено в виде (12.37):

9t = z 't1 + «t-

Индивидуум t работает и, следовательно, величина w? наблюда­ ется, если gf > 0, в противном случае зарплата tvf неизвестна. Следовательно, эта модель укладывается в схему модели Хекма­ на (12.36)—(12.39). При этом переменные z t, входящие в уравнение выбора, содержат переменные x t и еще некоторые дополнитель­ ные переменные.

Можно считать, что ошибки et и £ц независимы, поэтому в данном случае treu = Cov(gt,£t - еи ) = > 0. Таким образом,

346 Гл. 12. Дискретные зависимые переменные и цензурированные выборки

этот пример показывает, что в общем случае ошибки в уравнениях выбора и интенсивности участия коррелированы.

Оценивать модель Хекмана можно с помощью метода макси­ мального правдоподобия. Обозначим Мо множество тех i, для ко­ торых gt = 0, и Mi — множество тех t, для которых gt = 1. Тогда логарифмическая функция правдоподобия имеет следующий вид:

*(£, 7, ,°eu) = Y L ln Р (& = °) + 5 ZЬ

9t = 1), (12.43)

Mo

Mi

 

где f(yt,gt = 1) — совместное (смешанное) распределение yt и gt- Используя условные распределения, получаем

f(yt,9t = 1) = Р (ft = 1 1yt)f(yt),

где f ( y t ) — плотность распределения yt . Поэтому (12.43) можно переписать так:

1(0Л»0?.0«) =

= °)

 

 

 

Мо

 

 

 

 

+ Ц

Рп Р (& = 1

1Vt) + 1п/ Ы ) •

(12.44)

М,

 

 

 

 

Здесь

 

 

 

 

Р(Л = 0) = 1 - Ф & 7 ) ,

 

(12.45)

/ w = ^

a 4 > ( - k

^

! ) -

(12'4в)

Наконец, для вычисления P(gt = 1 | y t ) воспользуемся результа­ том (приложение МС, п. 4, N13): условное распределение gf | yt является нормальным со средним

Е<9? I » ) = г',Ч +

- <№)

 

а е

и дисперсией

 

v(rf Iш) =

12.2. Модели с урезанными и цензурированными выборками

347

Следовательно,

+ (<7еи/<7?)Ы - а;

\Л - a \J a \

Таким образом, формулы (12.44)-(12.47) решают задачу вычисле­ ния логарифмической функции правдоподобия для модели Хек­ мана.

Применение метода максимального правдоподобия для оцени­ вания модели Хекмана требует, как правило, создания програм­ мы, реализующей формулы (12.44)-(12.47) и последующую мак­ симизацию функции (12.44). Чтобы избежать этого, в эмпири­ ческих исследованиях часто ограничиваются двухшаговым ме­ тодом оценивания, который основан на формуле (12.41). Дей­ ствительно, равенство (12.41) можно переписать в следующем виде:

yt = sc't/3 + creuA(z't7) + vu

(12.48)

где, как нетрудно проверить, ошибка щ имеет нулевое матема­

тическое ожидание

и некоррелирована с

X t,y t. Поэтому если

бы величина At =

Ц г ' ^ ) была известна,

то применяя к урав­

нению (12.48) обычный метод наименьших квадратов, можно было бы получить несмещенные и состоятельные оценки пара­ метров /3. Параметры 7 неизвестны, но их можно состоятель­ но оценить по модели бинарного выбора (12.37)-(12.38) (пер­ вый шаг). Подставляя эти оценки вместо 7 в (12.48) и при­ меняя метод наименьших квадратов, можно получить состоя­ тельные оценки параметров /3 (второй шаг). Конечно, эти оцен­ ки не будут эффективными. Одной из причин этого являет­ ся, например, гетероскедастичность ошибок щ в (12.48). По­ этому на практике либо корректируют обычный метод наи­ меньших квадратов (подробнее об этом можно прочесть, на­ пример, в книге (Greene, 1997)), либо используют МНК-оценки в качестве начального приближения в методе максимального правдоподобия.

348 Гл. 12 Дискретные зависимые переменные и цензурированные выборки

Модели времени жизни>

Цензурирование или урезание наблюдений естественным образом возникает при исследовании длительности какого-либо процесса, времени нахождения в каком-либо состоянии: период безотказной работы прибора, время жизни пациента после трансплантации сердца, промежуток времени между двумя арестами рецидиви­ ста, период безработицы, длительность забастовки и т. п. Модели подобных явлений называют моделями «времени жизни» (dura­ tion models). Бели к моменту наблюдения процесс не завершился, то точное значение его длительности неизвестно и она цензуриру­ ется моментом наблюдения или же это наблюдение исключается из рассмотрения (урезание).

Модели «времени жизни» уже в течение нескольких десятиле­ тий изучаются в технике, медицине, демографии. В экономике их исследование началось сравнительно недавно ((Lancaster, 1974), (Lancaster, 1985), (Heckman and Singer, 1984), (Kiefer, 1988)).

Будем считать «время жизни» изучаемого объекта случайной величиной и обозначать г. Одной из основных вероятностных ха­ рактеристик г является интенсивность отказов или коэффици­ ент смертности (hazard rate):

т = г щ г у

<1249>

где F {) — функция, а р( ) — плотность распределения т. Функ­ цию (12.49) называют также обратным отношением Миллса {in­ verse Mills ratio). Эта функция уже встречалась ранее (12.19). Она имеет следующий смысл: если к моменту времени t процесс еще не завершился, т.е. г > t, то вероятность его окончания в тече­ ние следующего малого промежутка времени At есть A(t)At, что оправдывает название функции А(-). В моделях «времени жизни» наибольший интерес представляет именно эта функция. Вот ти­ пичные вопросы, ответы на которые зависят от поведения функ­ ции интенсивности отказов:

—Один пациент с пересаженным сердцем прожил после опе­ рации три года, второй — пять лет. Для кого из них опасность умереть в течение ближайшего года выше?

12.2. Модели с урезанными и цензурированными выборками

349

Два человека ищут работу, один в течение трех месяцев, другой — в течение полугода. Для кого из них шанс найти работу

втечение ближайшей недели выше?

Какая забастовка более вероятно закончится завтра: та, что длится уже месяц, или та, что длится всего неделю?

Заметим, что из (12.49) легко следует, что

F{t) = 1 —e x p J A(s)ds'j ,

т.е. распределение «времени жизни» г однозначно восстанавли­ вается по А(-).

Наиболее часто в моделях «времени жизни» для случайной величины г рассматривают распределения

показательное

1 -

F(t) = e_At

A(t) = А

Вейбулла

1 -

F(t) = е-А*в

A(t) = A at® -1

лог-логистическое

 

 

 

Здесь А > 0, а > 0 — параметры распределений. Показательное распределение является частным случаем распределения Вейбулла и характеризуется постоянной интенсивностью отказа; для рас­ пределения Вейбулла функция A(t) возрастает при а > 1 и убыва­ ет при а < 1; у лог-логистического распределения интенсивность отказа сначала возрастает, а затем убывает. Для оценивания па­ раметров А, а в условиях цензурирования наблюдений можно вос­ пользоваться методом максимального правдоподобия, аналогично тому, как делается для tobit-моделк. Пусть п , ... ,тп — наблюде­ ния реализаций «времени жизни». Если обозначить UCO множе­ ство нецензурированных наблюдений, а СО — множество цензу­ рированных наблюдений (UnCensored и Censored Observations), то для логарифмической функции правдоподобия имеем следующее представление:

l = \ n L = ^

Inр(т*) + ^ h ( l - F(Ti)).

(12.50)

ieuco

»€CO

 

350 Гл. 12. Дискретные зависимые переменные и цензурироиаиные выборки

Иногда удобно записывать логарифмическую функцию прав­ доподобия, используя функцию интенсивности отказов А():

< =

£

1 п А ( п ) +

£

! „ ( 1 - Г ( т , ) ) .

ieuco iecouuco

Во втором слагаемом суммирование берется по всем наблюдени­ ям.

В модели «времени жизни» нетрудно ввести экзогенные пере­ менные. Пусть «время жизни» имеет распределение Вейбулла, и есть набор х = (®|,... ,х*У объясняющих переменных. Предпо­ лагая некоторую функциональную зависимость параметра А от ®, например, А* = (i — номер наблюдения), и подставляя эти значения в уравнение (12.50), можно построить оценки мак­ симального правдоподобия параметров /3. Подробнее о проблеме интерпретации коэффициентов см. (Greene, 1997).

Упражнения

12.1. Покажите, что если среди регрессоров линейной модели вероят­ ности или /o0»t-модели есть константа, то среднее значение прогнозных вероятностей равнодоле единиц во всей выборкезависимой переменной.

12.2 . Докажите равенства (12.20).

(Указание. Воспользуйтесь равенством ф'(и) = —иф(и).)

12.3.Докажите равенство (12.33).

12.4.Проверьте справедливость представления (12.35).

12.5. Рассмотрим модель бинарного выбора Р(yt = 1) = F (a + Pdt), где d — фиктивная переменная (принимающая значения 0 или 1). Ниже представлены результаты 100 наблюдений:

У

0 1

0 20 32

d

1 36 12

а) Оцените параметры о, /3, используя logit-модель. Проверьте ги потезу Но: /3 = 0.