Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ЭКОНОМЕТРИКА и математическая экономика / Эконометрика. Учебник продвинутый (2005)

.pdf
Скачиваний:
512
Добавлен:
20.04.2015
Размер:
4.02 Mб
Скачать

21.2 Оценивание модели с биномиальной зависимой переменной

633

В этих обозначениях функция правдоподобия приобретет вид

 

 

N S−1

 

ln L(α, δ) =

dis ln pis(α, δ).

 

 

i=1 s=0

 

21.2.3.Моделирование зависимости от посторонних альтернатив в мультиномиальных моделях

Для мультиномиального логита отношение вероятностей двух альтернатив («соотношение шансов») равно

Pr(x = s)

 

e(zs α+s)

 

 

=

 

= e((zs−zt)α+w(δs −δt)).

Pr(x = t)

e(zt α+t)

Оно зависит только от характеристик этих двух альтернатив, но не от характеристик остальных альтернатив. Это свойство называется независимостью от посторонних альтернатив. Оно позволяет оценивать мультиномиальные модели на подмножестве полного множества альтернатив и получать корректные (состоятельные) оценки. Однако это свойство мультиномиального логита во многих ситуациях выбора не очень реалистично.

Рассмотрим, например, выбор между передвижением на поезде, на самолете авиакомпании A и на самолете авиакомпании B. Известно, что 50% пассажиров выбирает поезд, 25% — авиакомпанию A и 25% — авиакомпанию B. Допустим, авиакомпании предоставляют примерно одинаковые услуги по схожей цене, и пассажиры предпочитают одну из двух авиакомпаний по каким-то чисто субъективным причинам. Если авиакомпании объединятся, то естественно ожидать, что соотношение шансов для поезда и самолета будет равно один к одному. Однако с точки зрения мультиномиального логита соотношение шансов должно остаться два к одному, поскольку характеристики передвижения поездом и передвижения самолетом остались теми же.

Предложено несколько модификаций этой модели, которые уже не демонстрируют независимость от посторонних альтернатив, и, следовательно, более реалистичны.

В модели вложенного логита используется иерархическая структура альтернатив. В двухуровневой модели сначала делается выбор между группами альтернатив, а затем делается выбор внутри выбранной группы. В приведенном примере есть две группы альтернатив: «самолет» и «поезд». Внутри группы «самолет» делается выбор между авиакомпаниями A и B. Группа «поезд» содержит только одну альтернативу, поэтому выбор внутри нее тривиален.

Пусть имеется l групп альтернатив. Обозначим через Sk множество альтернатив, принадлежащих k-й группе. Безусловная вероятность того, что будет выбрана

634

Глава 21. Модели с качественными зависимыми переменными

альтернатива s из группы k в модели вложенного логита, определяется формулой (запишем ее только для условного логита, т.е. модели, где от альтернативы зависят факторы, но не коэффициенты)

Pr(x = s) =

e(z˙k α˙ +zsα)

=

ez˙k α˙ ezs α

 

 

 

.

l

l

 

 

 

t Sm eztα

 

m=1 t Sm e(z˙m α˙ +ztα)

 

m=1 ez˙m α˙

Если альтернативы s и t принадлежат одной и той же группе k, то отношение вероятностей равно

Pr(x = s)

=

ez˙k α˙ ezs α

=

ezs α

.

Pr(x = t)

 

ez˙k α˙ eztα

 

 

 

eztα

Это отношение, как и в обычном мультиномиальном логите, зависит только от характеристик этих альтернатив. В то же время, если альтернативы s и t принадлежат разным группам, k и m соответственно, то отношение вероятностей равно

Pr(x = s)

=

ez˙k α˙ ezsα

=

ez˙k α˙ +zsα

.

Pr(x = t) ez˙mα˙ eztα

 

ez˙mα˙ +ztα

Это отношение зависит, кроме характеристик самих альтернатив, также от характеристик групп, к которым они принадлежат.

Другое направление модификации модели мультиномиального логита исходит из того, что независимость от посторонних альтернатив является следствием двух предположений, лежащих в основе модели: то, что ошибки εs одинаково распределены и, следовательно, имеют одинаковую дисперсию, и то, что они независимы.

Во-первых, можно предположить, что имеет место гетероскедастичность. (Имеется в виду не гетероскедастичность по наблюдениям, а гетероскедастичность по альтернативам.) Для того чтобы ввести гетероскедастичность в модель, достаточно дополнить распределения ошибок масштабирующими коэффициентами. При этом ошибка εs имеет функцию распределения

Fs(y) = e−e−y/σs .

Поскольку одновременно все σs идентифицировать нельзя, то требуется нормировка. Например, можно принять, что σ0 = 1. С помощью такой модификации мы получим гетероскедастичную модель с распределением экстремального значения.

Во-вторых, можно предположить, что ошибки εs могут быть коррелированными друг с другом. Обычно в таком случае используют многомерное нормальное

21.3. Упражнения и задачи

 

635

распределение ошибок:

 

 

 

ε0

 

ε =

.

N (0, Σε).

.

.

εS−1

Здесь Σε — ковариационная матрица ошибок, которая обычно предполагается неизвестной. С помощью такой модификации мы получим модель мультиномиального пробита.

Ковариационная матрица Σε не полностью идентифицирована. Дело в том, что, во-первых, важны разности между ошибками, а не сами ошибки, а во-вторых, ковариационная матрица разностей между ошибками идентифицируется только с точностью до множителя. Можно предложить различные варианты нормировки. Как следствие нормировки, количество неизвестных параметров в матрице Σε существенно уменьшается. Если в исходной матрице их S(S + 1)/2, то после нормировки остается S(S − 1)/2 1 неизвестных параметров.

К сожалению, не существует аналитических формул для расчета вероятностей альтернатив в мультиномиальном пробите. Вероятности имеют вид многомерных интегралов. Обозначим через Bs множество таких ошибок ε, которые приводят к выбору s-й альтернативы, т.е.

Bs = {ε|u(s) > u(t), s = t} = {ε|zsαs + εs > ztαt + εt, s = t},

а через ϕ(ε) — многомерную плотность распределения ε. Тогда вероятность того, что будет выбрана альтернатива s, равна2

Pr(x = s) = ϕ(ε)dε.

ε Bs

Для вычисления таких интегралов, как правило, используется метод МонтеКарло.

21.3. Упражнения и задачи

Упражнение 1

В Таблице 9.3 на стр. 306 приведены данные о голосовании по поводу увеличения налогов на содержание школ в городе Троя штата Мичиган в 1973 г. Наблюдения относятся к 95-ти индивидуумам. Приводятся различные их характеристики:

2Реально требуется вычислить не S -мерный интеграл, а (S − 1)-мерный, поскольку важны не сами ошибки, а разности между ними.

636

Глава 21. Модели с качественными зависимыми переменными

Pub = 1, если хотя бы один ребенок посещает государственную школу, иначе 0; Priv = 1, если хотя бы один ребенок посещает частную школу, иначе 0; Years — срок проживания в данном районе; Teach = 1, если человек работает учителем, иначе 0; LnInc — логарифм годового дохода семьи в долл.; PropTax — логарифм налогов на имущество в долл. за год (заменяет плату за обучение — плата зависит от имущественного положения); Yes = 1, если человек проголосовал на референдуме «за», 0, если «против». Зависимая переменная — Yes. В модель включаются все перечисленные факторы, а также квадрат Years.

1.1.Получите приближенные оценки для логита и пробита с помощью линейной регрессии.

1.2.Оцените логит и пробит с помощью ММП и сравните с предыдущим пунктом.

1.3.Вычислите коэффициенты логита через коэффициенты пробита и сравните с предыдущими результатами.

1.4.На основе оценок МП для логита найдите маргинальные значения для Teach, LnInc и PropTax при среднем уровне факторов.

1.5.Постройте график вероятности голосования «за» в зависимости от Years при среднем уровне остальных факторов.

1.6.Постройте аналогичный график маргинального значения Years.

Упражнение 2

Рассматривается модель мультиномиального логита. В модели имеется три альтернативы: 0, 1 и 2. Для каждой из альтернатив s = 0, 1, 2 полезность рассчитывается по формуле us = zsα + βs + εs, где α = 2, βs = s/5, а ошибки εs имеют распределение экстремального значения. Поскольку функция распределения для распределения экстремального значения имеет вид F (ε) = e−e−ε , то ошибки можно генерировать по формуле ε = ln (ln (ξ)), ξ имеет равномерное распределение на отрезке [0; 1]. Зависимая переменная x принимает одно из трех возможных значений (0, 1 или 2) в зависимости от того, какая полезность выше.

2.1.Пусть z1 = 0.4, z2 = 0.3, z3 = 0.2. Проверить методом Монте-Карло формулу для вероятностей:

Pr(x = s) =

ezs α+βs

,

2

 

 

 

eztα+βt

 

 

t=0

 

21.3. Упражнения и задачи

637

сгенерировав выборку из 1000 наблюдений для x и рассчитав эмпирические частоты.

2.2.Сгенерировать данные по модели, взяв zs N (0, 2) для всех s. Сгенерировав набор из 1000 наблюдений (xi, z0i , z1i, z2i), где i = 1, . . . , 1000, получить оценки параметров модели мультиномиального логита, предполагая, что β0 = 0. Сравнить с истинными значениями параметров.

Задачи

1.Чему равны оценки максимального правдоподобия по модели логит с одной константой?

2.Запишите 7 терминов, которые имеют отношение к моделям с качественной зависимой переменной.

3.Рассмотрите модель с биномиальной зависимой переменной x, принимающей значения 0 или 1 и зависящей от фиктивной переменной z, принимающей значения 0 или 1. Модель включает также константу. Данные резюмируются следующей таблицей (в клетках стоят количества соответствующих наблюдений):

 

x = 0

x = 1

 

 

 

z = 0

N00

N01

 

 

 

z = 1

N10

N11

 

 

 

а) Пусть в основе модели лежит некоторая дифференцируемая функция распределения F (·), заданная на всей действительной прямой. Найдите

Pr (x = 1) при z = 0 и при z = 1.

б) Запишите в компактном виде логарифмическую функцию правдоподобия.

в) Запишите условия первого порядка для оценок максимального правдоподобия, обозначая F (y) = f (y).

г) Для N00 = 15, N01 = 5, N10 = 5, N11 = 15 получите оценки логита методом максимального правдоподобия.

д) Для тех же данных получите оценки пробита методом максимального правдоподобия, используя таблицы стандартного нормального распределения.

е) Как можно определить, значима ли фиктивная переменная z? Запишите формулу соответствующей статистики и укажите, как она распределена.

638

Глава 21. Модели с качественными зависимыми переменными

 

ж) Получите формулу для приближенных оценок логита методом усредне-

 

ния (используя линейность отношения шансов для логита). Сравните

 

с формулой для оценок максимального правдоподобия.

4.

Изучается зависимость курения среди студентов от пола. В следующей таб-

 

лице приведены данные по 40 студентам:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пол

Количество наблюдений

 

Доля курящих

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Муж.

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

0.3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Жен.

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

0.4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Оцените по этим данным модель логит методом максимального правдоподо-

 

бия. Используйте при этом то, что ln 2 = 0.693, ln 3 = 1.099 и ln 11 = 2.398.

5.

Пусть переменная x, принимающая значения 0 или 1, зависит от одного

 

фактора z. Модель включает также константу. Данные приведены в таблице:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

0

0

 

1

 

1

0

1

 

0

 

1

 

0

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

z

1

2

 

3

 

4

5

6

 

7

 

8

 

9

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Запишите для этих данных логарифмическую функцию правдоподобия моде-

 

ли с биномиальной зависимой переменной.

 

 

 

 

 

 

 

 

 

 

 

6.

Оцените упорядоченный пробит методом максимального правдоподобия

 

по следующим данным:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

0

 

 

1

 

2

 

3

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

количество на-

50

 

40

 

45

 

 

80

 

35

 

 

 

 

 

блюдений

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7.

Модель с биномиальной зависимой переменной имеет вид:

x˜ = αz + β + ε,

1, x˜ > 0,

x =

0, x˜ < 0,

где z — фиктивная переменная. Связь между x и z задана таблицей (в клетках указано количество наблюданий):

21.3. Упражнения и задачи

 

639

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

0

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

z

0

24

 

28

 

 

 

 

 

 

 

 

1

32

 

16

 

 

 

 

 

 

 

 

 

 

 

 

а) Найдите оценки коэффициентов логита и пробита по методу усреднения сгруппированных наблюдений.

б) Найдите оценки максимального правдоподобия.

в) Проверьте значимость модели в целом по статистике отношения правдоподобия.

8.По некоторым данным был оценен ряд моделей с биномиальной зависимой переменной и факторами z1 и z2 . В таблице приведены результаты оценивания этих моделей методом максимального правдоподобия. В скобках записаны стандартные ошибки коэффициентов. Прочерк означает, что данный фактор не был включен в модель. В последней строке приведено значение логарифмической функции правдоподобия в максимуме.

 

 

Логит

 

 

Пробит

 

 

 

 

 

 

 

 

 

 

 

I

II

III

IV

V

IV

VII

VIII

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Кон

1.87

0.28

1.88

0.28

1.14

0.17

1.16

0.18

станта

(0.38)

(0.20)

(0.38)

(0.20)

(0.21)

(0.12)

(0.21)

(0.12)

 

 

 

 

 

 

 

 

 

Z1

–0.08

0.0012

–0.06

0.0011

(0.33)

(0.19)

(0.19)

(0.12)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Z2

–2.00

–1.99

–1.21

–1.20

(0.44)

(0.44)

(0.24)

(0.25)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ln L

–44.4

–68.2

–44.5

–68.3

–44.2

–68.3

–44.4

–68.5

 

 

 

 

 

 

 

 

 

Какую из моделей следует выбрать? Обоснуйте свой ответ.

9.Рассмотрите модель дискретного выбора из двух альтернатив с линейной случайной функцией полезности вида:

u(s) = αzs + β + εs, s = 0.1,

где все ошибки εs имеют равномерное распределение U [−γ, γ] и независимы по уравнениям и по наблюдениям.

а) Найдите вероятности выбора s = 0 и s = 1 для такой модели.

640

Глава 21. Модели с качественными зависимыми переменными

б) Объясните, идентифицируемы ли одновременно параметры α, β и γ. Если нет, то предложите идентифицирующую нормировку.

в) Запишите функцию правдоподобия для этой модели.

10.Покажите, что логарифмическая функция правдоподобия для биномиального логита является всюду вогнутой по параметрам. Какие преимущества дает это свойство?

11.Рассмотрите модель дискретного выбора из двух альтернатив: s = 1 и s = 2, в основе которого лежит случайная полезность ui(s) = zisα + εis , предполагая, что ошибки двух альтернатив коррелированы и распределены нормально:

ε1i

N

0

σ12

σ12

.

 

,

 

 

ε2i

 

0

σ12

σ22

 

Какие параметры идентифицируемы? Аргументируйте свой ответ. Предложите нормировки, которые позволят оценить такую модель биномиального пробита. Каким методом можно оценить такой «коррелированный» пробит?

12.Пусть Λ (·), Φ (·) — функции распределения логистического и стандартного нормального распределения соответственно.

а) Покажите, что выпуклая комбинация F (y) = (1 − α)Λ(y) + αΦ(y), α [0; 1], также задает функцию распределения (удовлетворяющую всем должным требованиям).

б) Постройте на основе F (y) модель, которая охватывает как логит, так и пробит.

в) Запишите логарифмическую функцию правдоподобия для такой модели.

г) Запишите условия первого порядка для оценок максимального правдоподобия.

д) Является ли параметр α идентифицируемым? (Аргументируйте свой ответ формально.)

13.Рассмотрите модель дискретного выбора из двух альтернатив с линейной случайной функцией полезности вида:

u(s) = zsα + εs, s = 0.1,

где все ошибки ε0 и ε1 независимы и их функция распределения имеет вид

F (y) = e−e−y .

21.3. Упражнения и задачи

641

а) Покажите, что

 

 

Pr ε1 − ε0 < y =

ey

 

.

1 + ey

б) Найдите вероятности выбора s = 0 и s = 1 для такой модели. Покажите, что данная модель совпадает с логитом.

14.Пусть в упорядоченном логите зависимая переменная x принимает три значения (0, 1, 2). Найдите, как вероятность того, что x = 2, зависит от параметра γ1 (границы между 1 и 2), т.е. найдите соответствующее маргинальное значение.

15.Выведите формулу оценок максимального правдоподобия для регрессии с упорядоченной зависимой переменной с одной константой. Для количества наблюдений, соответствующих выбору альтернативы s, используйте обозначение Ns. (Подсказка: удобно перейти от исходных параметров к вероятно-

стям ps = Pr (x = s).)

16.Рассмотрите использование упорядоченной регрессии для моделирования решения индивидуума о получении образования. Пусть в основе принимаемого решения имеется некоторый индекс, выражающий полезность от образования:

Ui = Ziα + εi, εi N (0; σ2 ).

Чем выше индекс, тем более вероятен выбор более высокого уровня образования. Более конкретно, пусть имеются некоторые известные заранее пороговые значения для индекса, γ1 и γ2 , такие что:

при Ui > γ2 индивидуум i заканчивает вуз;

при γ1 < Ui γ2 индивидуум i заканчивает среднюю школу, но не получает высшего образования;

при Ui γ1 индивидуум i получает только неполное среднее образование.

а) Какой вид может иметь зависимая переменная в такой модели?

б) Покажите, что в данной модели нельзя однозначно идентифицировать как β, так и σ.

в) Можно ли однозначно идентифицировать β/σ?

г) Можно ли однозначно идентифицировать β, если положить σ = 1?

642

Глава 21. Модели с качественными зависимыми переменными

д) Возможно было бы идентифицировать γ1 и γ2 , если бы они были неизвестны?

е) Запишите функцию правдоподобия для данной модели.

17.В модели регрессии с упорядоченной зависимой переменной альтернативами

были числа s = 0, . . . , S. Как поменяются оценки максимального правдоподобия, если альтернативами будут числа 1, 2, 22, . . . , 2S ? Аргументируйте свой ответ.

18.В выборах участвуют три кандидата: Иванов (s = 1), Петров (s = 2) и «против всех» (s = 0). Перед выборами был проведен опрос населения. Для каждого из опрошенных собраны данные о том, какого он пола (F или M )

и за кого собирается голосовать. В результате получено 6 чисел: NsF , NsM (s = 0, 1, 2) — количество женщин и мужчин, собирающихся голосовать за каждого из трех кандидатов. Выведите функцию правдоподобия для соответствующей модели мультиномиального логита.

19.С помощью мультиномиального логита изучается выбор индивидуумами способа передвижения между домом и работой: пешком, на автобусе или на личном автомобиле. Имеются следующие данные: среднее время передвижения от дома до работы для каждого индивидуума каждым из способов и средний доход каждого индивидуума. Введите требуемые обозначения и запишите формулы вероятностей выбора каждого из способов передвижения. Предложите нормировку, которая позволяет идентифицировать модель.

20.Работники кафе быстрого обслуживания «Томато-пицца» могут выбрать один из видов фирменной униформы: брюки или юбку, — причем одного из двух цветов: красного и темно-красного. Какой из моделей вы бы описали такую ситуацию? Объясните.

21.Рассмотрите модель дискретного выбора из трех альтернатив с линейной функцией полезности, соответствующую модели мультиномиального пробита. Предложите нормировки, которые позволят оценить такую модель.

22.В чем состоят преимущества и недостатки мультиномиального пробита по сравнению с мультиномиальным логитом?

Рекомендуемая литература

1. Cramer J.S. The Logit Model for Economists. — Adward Arnold, 1991.