diplom25 / suslov_ibragimov_ekonometrika
.pdf9.1.Фиктивные переменные |
293 |
где Zj Ñ j -й столбец матрицы Z ; αOj Ñ k-вектор-столбец параметров влияния качественного фактора на αj ;в векторе α j -я компонента теперь обозначается α0j Ñсредний уровень параметра αj ; ø Ñоперация прямого произведения столбцов матриц.
Прямое произведение матриц A B (произведение Кронекера,см.ПриложениеA.1.2),имеющих размерность,соответственно, mA × nA и mB × nB ,есть матрица размерности (mAmB ) × (nAnB ) следующей структуры:
a11B ááá |
a1nA B |
|
||||
... |
|
... |
|
... |
|
. |
|
|
|
|
|
|
|
a |
B |
|
a |
|
B |
|
|
|
ááá |
|
mAnA |
|
|
mA1 |
|
|
|
|
|
Прямое произведение матриц обладает следующими свойствами:
(A1 ááá Am)(B1 ááá B2) = (A1B1) ááá (AmBm ),
если,конечно,соответствующие матричные произведения имеют смысл:
(A1 ááá Am)" = A"1 ááá A"m, (A1 ááá Am )−1 = A−1 1 ááá A−m1,
если все матрицы A квадратны и неособенны.
Прямое произведение столбцов матриц применимо к матрицам,имеющим одинаковое число строк,и осуществляется путем проведения операции прямого произведения последовательно с векторами-строками матриц:
A ø B = |
A1 |
|
ø |
B1 |
|
= |
A1 B1 |
|
||||||
... |
|
... |
|
|
|
... |
|
|
. |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
|
|
|
B |
|
|
|
A |
m |
|
B |
|
|
|
|
m |
|
|
m |
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Эта операция обладает следующим важным свойством:
(A1 ø ááá ø Am)(B1 ááá B2) = (A1B1) ø ááá ø (AmBm).
Приоритет прямого произведения матриц выше,чем обыч ного матричного произведения.
При использовании способаÇаÈэквивалентная исходной форма уравнения имеет вид(формаÇаÈ):
X = Z |
j α |
j + Z 0β0 + Zj |
ø |
Z 0, ZøG |
Cø |
αj0 |
|
+ ε, |
− |
− |
|
6 |
7 |
|
α÷j |
|
|
|
|
|
|
|
|
|
|
|
9.2.Модели с биномиальной зависимой переменной |
295 |
G,а J Ñегоподмножества.Общееихколичество,включаяпустоеподмножество, равно 2n .Каждому такому подмножеству взаимно-однозначно соответствует чис-
ло,например,в системе исчисления с основанием max kj ,и их можно упорядочить
j
по возрастанию этих чисел.Если пу стое подмножество обозначить 0,то можно записать:
J = 0, 1, . . . , n, {1, 2}, . . . , {1, n}, {2, 3}, . . . , {1, 2, 3}, . . . , G.
Тогда уравнение регрессии записывается следующим образом:
|
|
|
|
|
G |
|
O |
|
O |
|
|
|
|
G |
|
G |
|
X = Z α + |
! |
|
+ ε = Z α + |
! O |
|
J! |
|||||||||||
|
|
Z J βJ |
Z J C J βJ + ε = Z α + |
Z J βJ + ε, |
|||||||||||||
O |
|
|
3 |
|
J =0 |
|
|
|
3 |
|
|
|
J =0 |
|
=0 |
||
J |
= |
ø ÷j |
|
|
J |
= |
|
j |
при j > 0, C |
0 |
= 1.Выражение |
|
|||||
где Z |
|
, C |
|
C |
j J под зна- |
||||||||||||
|
j J |
Z |
|
j J |
|
|
ком произведения означает,что j принимает значения последовательно с первого по последний элемент подмножества J .
Очевидно,что приведенная выше запись уравнения для n = 2 является частным случаем данной записи.
Если ( ) Ñколичествоэлементоввподмножестве ,то OJ OJ или J J Ñ p J J Z β Z β
J -е эффекты, эффекты p(J )-го порядка;при p(J ) = 1 Ñ главные эффекты, при p(J ) > 1 Ñ эффекты взаимодействия,э ффекты совместного влияния или совместные эффекты.
OJ или Ñпараметры соответствующих -х эффектов или также сами эти
β β J
эффекты.
9.2.Модели с биномиальной зависимой переменной
Рассмотрим теперь модели,в которых зависимая переменная принимает только два значения,т.е.является фиктивной переменной.При этом придется отойти от модели линейной регрессии,о которой речь шла выше.
Если изучается спрос на рынке некоторого товара длительного пользования, например,на рынке холодильников определенной марки,то спрос в целом возможно предсказывать с помощью стандартной регрессии.Однако,если изучать спрос на холодильники отдельной семьи, то изучаемая переменная должна быть либо дискретной( 0 или 1),либо качественной(не покупать холодильник,купить холодильник маркиA,купить холодильн ик маркиBи т.д.).Аналогично,разные методы приходится применять при изучении рынка труда и при изучении решения
296 |
Глава9.Целочисленные переменные в регрессии |
отдельного человека по поводу занятости(работать/не работать).Данные о том, произошло какое-либо событие или нет,также можно представить дискретной переменной вида 0 или 1.При этом не обязательно наличие ситуации выбора. Например,можно исследовать данные об экономических кризисах,банкротствах (произошел или не произошел кризис или банкротство).
9.2.1.Линейная модель вероятности,логит и пробит
В биномиальную модель входит изучаемая переменная x,принимающая два значения,а также объясняющие переменные z,которые содержат факторы,определяющие выбор одного из значений.Без потери общности будем предполагать, что x принимает значения0и1.
Предположим,что мы оценили на основе имеющихся наблюдений линейную регрессию
x = zα + ε.
Очевидно,что для почти всех значений z построенная линейная регрессия будет предсказывать абсурдные значения изучаемой переменной x Ñдробные, отрицательные и большие единицы,что дел ает ее не очень полезной на практике.
Более того,линейная модель не может быть вполне корректной с формальной точки зрения.Поскольку у биномиальной зависимой переменной распределение будет распределением Бернулли(биномиальным распределением с одним испытанием Бернулли),то оно полностью задается вероятностью получения единицы. В свою очередь,вероятность того,что x = 1,совпадает с математическим ожиданием x,если эта переменная принимает значения 0 и 1:
E(x) = Pr(x = 1) á 1 + Pr(x = 0) á 1 = Pr(x = 1).
С другой стороны,ожидание x при данной величине z для линейной модели равно
E(x) = zα + E(ε) = zα.
Отсюда следует,что обычная линейная регрессионная модель не совсем подходит для описания рассматриваемой ситуации,поскольку величина za,вообще говоря,не ограничена,в то время как вероятность всегда ограничена нулем и единицей.Ожидаемое значение зависимой переменной, E(x),может описываться только нелинейной функцией.
Желательно каким-то образом модифицировать модель,чтобы она,с одной стороны,принимала во внимание тот факт,что вероятность не может выходить
298 |
Глава9.Целочисленные переменные в регрессии |
||||
а функция распределения равна |
|
|
|
|
|
|
|
ey |
1 |
|
|
|
Λ(y) = |
|
= |
|
. |
|
1 + ey |
1 + e−y |
Модель с биномиальной зависимой переменной с логистически распределенным отклонением называют логит.Для логита
|
ezα |
1 |
|
|
E(x) = Pr(x = 1) =Λ( zα) = |
|
= |
|
. |
1 + ezα |
1 + e−zα |
2)Нормальное распределен ие(см.ПриложениеA.3.2).
Модель с нормально распределенным отклонением ε называют пробит.При этом используется стандартное нормальное распределение,т.е.нормальное распределение с нулевым ожиданием и единичной дисперсией, N (0, 1).Для пробита
|
zα |
|
|
|
zα |
e−t /2dt, |
|
E(x) = Pr(x = 1) =Φ( zα) = - |
ϕ(t)dt = √2π - |
||||
|
|
|
1 |
|
|
2 |
|
−∞ |
|
|
−∞ |
|
|
где |
Φ(á) Ñфункция распределения стандартного нормального распределения, |
|||||
ϕ(á) Ñего плотность. |
|
|
|
|
|
|
|
Логистическое распределение похоже на нормальное с нулевым ожидани- |
|||||
ем |
и дисперсией π2/3 (дисперсия логистического |
распределения).В связи |
с этим оценки коэффициентов в моделях различаются примерно на множитель
√
π/ 3 ≈ 1.8.Если вероятности далеки от границ0и1 (около0,5),то более точной оценкой множителя является величина ϕ(0)/λ(0) = Z8/π ≈ 1.6.При малом количестве наблюдений из-за схожести распределений сложно решить,когда следует применять логит,а когдаÑпробит .Различие наиболее сильно проявляется при вероятностях,близких к0и1,поскольку логистическое распределение имеет более длинные хвосты,чем нормальное(оно характеризуется положительным коэффициентом эксцесса).
Можно использовать в модели и другие распределения,например,асимметричные.
9.2.2.Оценивание моделей с биномиальной зависимой переменной
Требуется поNнаблюдениям (xi, zi ), i = 1, . . . , N ,получить оценки коэффициентов α.Здесь наблюдения xi независимы и имеют биномиальное распределение с одним испытанием(т.е.распределение Бернулли)и вероятностью
Pr(xi = 1) = F (zi α).
9.2.Модели с биномиальной зависимой переменной |
|
299 |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Нормальное |
|
|
|
|
|
|
Логистическое |
|
|
|||
|
|
распределение |
|
|
|
|
|
|
распределение |
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
Распределение |
|
||
|
|
|
|
|
|
|
|
|
|
|
экстремального |
|
||
|
|
|
|
|
|
|
|
|
|
|
значения |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
Ð4 |
Ð3.1 |
Ð2.2 |
Ð1.3 |
Ð0.4 |
0.5 |
1.4 |
2.3 |
3.2 |
4.1 |
5 |
Рис. 9.1
Можно рассматривать модель с биномиальной зависимой переменной как модель регрессии:
xi = F (zi α) + ξi,
где ошибки ξi = xi − F (zi α) имеют нулевое математическое ожидание и независимы.Каждая из ошибок ξi может принимать только два значения,и поэтому их распределение мало похоже на нормальное.Кроме того,имеет место гетероскедастичность.Обозначим
pi = pi(α) = F (zi α).
В этих обозначениях дисперсия ошибки ξi равна
67
var(ξi) = E (xi − pi)2 = E(x2i ) − 2pi E(xi) + p2i = pi(1 − pi).
При выводе этой формулы мы воспользовались тем,что x2i = xi и E(xi) = pi .
Несмотря на эти нарушения стандартных предположений,данную модель,которая в общем случае представляет собой модель нелинейной регрессии,можно оценить нелинейным методом наименьших квадратов,минимизируя по α следующую сумму квадратов:
!N (xi − pi(α))2.
i=1
Для минимизации такой суммы квадратов требуется использовать какой-либо алгоритм нелинейной оптимизации.Э тот метод дает состоятельные оценки коэффициентов α.Гетероскедастичность приводит к двум важным последствиям. Во-первых,оценки параметров будут неэффективными(не самыми точными).Вовторых,чтоболеесерьезно,ковариационнаяматрицакоэффициентов,стандартные
300 |
Глава9.Целочисленные переменные в регрессии |
ошибки коэффициентов иt-статистики будут вычисляться некорректно(если использоватьстандартныепроцедурыоцениваниянелинейнойрегрессиииполучения
вней оценки ковариационной матрицы оценок параметров).
Вчастном случае модели линейной вероятности имеем линейную регрессию с гетероскедастичными ошибками:
xi = zi α + ξi.
Для такой модели можно предложить следующую процедуру,делающую поправку на гетероскедастичность:
1)Оцениваем модель обычным МНК и получаем оценки a. 2)Находим оценки вероятностей:
pi = zia.
3)Используем взвешенную регрессию и получаем оценки a .
Чтобы оценить взвешенную регрессию,сле дует разделить каждое наблюде-
ние исходной модели на корень из оценки дисперсии ошибки,т.е.на величину |
||||||||||
Gpi(1 − pi) = |
Gzi a(1 − zia): |
|
|
|
|
|
|
|
||
|
|
|
xi |
= |
|
zi |
α + |
|
ξi |
, |
|
|
Z |
|
Z |
|
Z |
|
|||
|
|
pi(1 − pi) |
pi(1 − pi) |
pi(1 − pi) |
и далее применить к этой преобразованной регрессии обычный метод наименьших квадратов.При использовании данного метода получим асимптотически эффективные оценки a и корректную ковариационную матрицу этих оценок,на основе которой можно рассчитать t -статистики.
Те же идеи дают метод оценивания модели с произвольной гладкой функцией F (á).Для этого можно использовать линеаризацию в точке0:
F (zi α) ≈ F (0) + f (0)zi α,
где f (á) Ñпроизводная функции F (á) (плотность распределения).Тогда получим следующую приближенную модель:
xi ≈ F (0) + f (0) zi α + ξi |
|
|||||
или |
|
|
|
|
||
|
xi! ≈ ziα + ξi!, |
|
|
|
||
где |
|
|
|
|
||
xi! = |
xi − F (0) |
и ξ! |
= |
ξi |
, |
|
f (0) |
||||||
|
f (0) |
|
|
|
9.2.Модели с биномиальной зависимой переменной |
301 |
которую можно оценить с помощью только что описанной процедуры.Для симметричных относительно нуля распределений F (0) = 0, 5.В случае логита,учитывая λ(0) = 1"4,получаем
x!i = 4xi − 2,
а в случае пробита,учитывая φ(0) = 1"√2π ,получаем
√
x!i = 2π(xi − 0, 5).
Таким образом,можно получить приближенные оценки для коэффициентов пробита и логита,используя в качеств е зависимой переменной регрессии вместо переменной,принимающей значения0и1,переменную,которая принимает зна-
чения ±2 для логита и ±Gπ"2 для пробита( Gπ"2 ≈ 1, 25).Ясно,что это хорошее приближение только когда величины zi α близки к нулю,то есть когда модель плохо описывает данные.
Приближенныеоценкиможно получить также по группированным наблюдениям.Предположим,что все наблюдения ра збиты на несколько непересекающихся подгрупп,в пределах каждой из которых значения факторов zi примерно одинаковы.Введем обозначения:
pøj = 1 ! xi
Nj i Ij
и
zøj = 1 ! zi ,
Nj i Ij
где Ij Ñмножество наблюдений,принадлежащих j -й группе, Nj Ñколичество наблюдений в j -й группе.Величина pøj является оценкой вероятности получения единицы в случае,когда факторы принимают значение zøj ,т.е.
pøj ≈ F (øzj α),
откуда
F −1(øpj ) ≈ zøj α.
Получаем модель регрессии,в которой в к ачестве зависимой переменной выступает F −1(øpj ),а в качестве факторовÑ zøj .В частном случае логистического распределения имеем:
Λ−1(øpj ) = ln ,1 pøj ø .,
− pj