Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ЭКОНОМЕТРИКА и математическая экономика / Эконометрика. Учебник продвинутый (2005)

.pdf
Скачиваний:
511
Добавлен:
20.04.2015
Размер:
4.02 Mб
Скачать

18.3. Метод максимального правдоподобия в эконометрии

583

плотность их совместного распределения, рассматриваемая как функция от θ при данном наборе наблюдений x1, . . . , xN :

N

L (θ) = fx(xi).

i=1

Если изучаемая переменная имеет дискретное распределение, то fx(x|θ) следует понимать как вероятность, а не как плотность. Наряду с функцией L (θ) из соображений удобства рассматривают также ее логарифм, называемый логарифмической функцией правдоподобия.

Оценки максимального правдоподобия θ для параметров θ являются, по определению, аргмаксимумом функции правдоподобия (или, что то же самое, логарифмической функции правдоподобия). Они являются решением уравнения правдоподобия:

ln L = 0. ∂θ

Вболее общем случае нельзя считать наблюдения за изучаемой переменной, x1, . . . , xN , независимыми и одинаково распределенными. В этом случае задается

закон совместного распределения всех наблюдений, fx(x1, . . . , xN ) = fx(x|θ) , и функция правдоподобия для данного вектора наблюдений x полагается равной fx(x|θ).

Известно, что оценки максимального правдоподобия обладают свойствами состоятельности, асимптотической нормальности и асимптотической эффективности.

Оценку ковариационной матрицы оценок θ можно получить на основе матрицы вторых производных (матрицы Гессе) логарифмической функции правдоподобия:

2 ln L(θ )

1

 

.

∂θ∂θ

Другая классическая оценка ковариационной матрицы имеет вид

(I(θ ))1 ,

где

I(θ) = E −2 ln L(θ)

∂θ∂θ

— так называемая информационная матрица.

584

Глава 18. Классические критерии проверки гипотез

18.3.2.Оценки максимального правдоподобия для модели линейной регрессии

Рассмотрим модель линейной регрессии xi = ziα + εi , где вектор коэффициентов имеет размерность n + 1, ошибки εi независимы и распределены нормально: εi N (0, σ2 ), а факторы zi являются детерминированными. При этом изучаемая переменная тоже имеет нормальное распределение: xi N (ziα, σ2 ). Плотность этого распределения равна

1

 

1

2

 

e

2σ2

(xi ziα) .

2πσ2

Перемножая плотности для всех наблюдений (с учетом их независимости), получим функцию правдоподобия:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

(xi−ziα)2

 

 

L (α, σ) =

2σ2

 

.

 

 

 

 

 

e

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(2π)N /2 σN

 

 

 

 

 

 

 

 

 

Соответствующая логарифмическая функция правдоподобия равна

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

1

 

N

 

ln L (α; σ) =

ln (2π) − N ln σ −

 

i=1 (xi

− ziα)2,

 

 

 

 

 

2

 

2σ2

или в матричных обозначениях

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

1

 

 

(X − Zα) (X − Zα) .

ln L (α; σ) =

 

 

ln (2π) − N ln σ −

 

 

2

 

2σ2

Берем производные:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ln L

=

1

 

 

Z

(X − Zα) = 0,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∂α

σ2

 

 

 

 

 

 

 

 

ln L

 

 

 

 

N

1

(X − Zα) (X − Zα) = 0.

 

 

=

 

 

+

 

 

∂σ

σ

σ3

Из первого уравнения получим оценки максимального правдоподобия для коэффициентов α:

a = Z Z 1 Z X.

Видим, что оценки наименьших квадратов и оценки максимального правдоподобия совпадают. Из второго уравнения, подставляя в него оценки a вместо α, получим оценку дисперсии σ2 :

s2 = N1 e e,

18.3. Метод максимального правдоподобия в эконометрии

585

где e e = (X − Za) (X − Za) — сумма квадратов остатков. Оценка максимального правдоподобия для дисперсии ошибки смещена. Несмещенная оценка, используемая в МНК, равна

sˆ2 =

1

e e.

N − n − 1

Тем не менее, оценки (a, s) асимптотически несмещены, состоятельны, асимптотически эффективны в классе любых оценок (а не только линейных, как при МНК).

Чтобы проверить, на самом ли деле мы нашли точку максимума правдоподобия, исследуем матрицу вторых производных:

 

 

 

 

2 ln L

 

 

 

1

 

Z Z,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∂α∂α

σ2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2 ln L

=

 

N

3

 

(X − Zα) (X − Zα) ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∂σ2

σ2

σ4

 

 

 

 

2 ln L

=

 

 

 

2 ln L

 

2

Z (X − Zα) .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

∂α∂σ

 

 

 

∂σ∂α

σ3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2 ln L

 

 

 

 

 

 

 

1

Z Z

 

2

(X − Zα) Z

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

σ2

 

 

 

 

 

 

 

σ3

 

(α; σ)(α; σ)

 

 

2

Z (X − Zα)

3

 

(X − Zα) (X − Zα)

N .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ3

 

σ4

σ2

 

Значение матрицы вторых производных в точке оценок (a, s) равно

 

 

 

 

 

2 ln L

 

 

=

N Z Z

0

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

(α; σ)(α; σ)

 

 

e e

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a,s

 

0

 

Видно, что матрица вторых производных отрицательно определена, то есть найдена точка максимума. Это дает оценку ковариационной матрицы оценок (a, s):

e e

(Z Z)1 0

 

.

 

N

0

1

 

 

2N

 

 

Таким образом, оценка ковариационной матрицы для a является смещенной (поскольку основана на смещенной оценке дисперсии):

Ma = e e Z Z 1 .

N

586

Глава 18. Классические критерии проверки гипотез

В методе наименьших квадратов в качестве оценки берут

 

Ma =

e e

Z Z 1 .

 

N − n − 1

 

 

 

При N → ∞ эти две оценки сходятся.

Метод максимального правдоподобия дает также оценку дисперсии для s:

e e var(s) = 2N 2 .

Рассчитаем также информационную матрицу. Для этого возьмем математиче-

ское ожидание от матрицы вторых производных со знаком минус:

 

 

 

 

 

 

1

Z Z

 

 

2

(X

) Z

 

1

Z Z 0

I = E

 

 

 

 

 

 

= σ2

2

 

σ2

3

 

σ3

 

 

 

,

 

Z (X − Zα)

(X − Zα) (X − Zα)

N

 

0

2N

 

 

σ3

σ4

σ2

σ2

где мы воспользовались тем, что X −Zα представляет собой вектор ошибок модели ε и выполнено E (ε) = 0, E (ε ε) = N σ2. Обращая информационную матрицу в точке (a, s), получим ту же оценку ковариационной матрицы, что и раньше. Таким образом, оба метода дают одинаковый результат.

 

 

 

Рассмотрим

 

логарифмическую

 

Ln L

 

функцию

правдоподобия

как

функ-

 

 

 

 

 

цию одного из

коэффициентов, αj ,

 

 

 

при остальных коэффициентах за-

 

 

 

фиксированных

на

уровне

оценок

 

 

 

максимального правдоподобия, т.е. срез

 

 

 

(n + 2)-мерного пространства (см. рис.

 

 

 

18.1). Видим, что оценка aj

тем точнее,

 

 

 

чем острее пик функции правдоподобия.

 

 

 

А степень

остроты

пика

показывает

 

xj

j

 

вторая производная

(по абсолютному

 

 

 

 

Рис. 18.1

 

значению).

Поэтому

математическое

 

 

 

 

 

 

 

 

ожидание матрицы вторых производных со знаком минус называется информационной матрицей. Эта матрица удовлетворяет естественным требованиям: чем больше имеем информации, тем точнее оценка.

Если в логарифмическую функцию правдоподобия ln L (α; σ) подставить оцен-

ку s2 для σ2 , которая найдена из условия ln L

∂σ

= 0:

 

 

 

 

s2 =

e e

,

 

 

N

 

 

 

 

 

 

18.3. Метод максимального правдоподобия в эконометрии

587

то получится так называемая концентрированная функция правдоподобия, которая зависит уже только от α:

ln Lc (α) =

N

ln (2π)

N

ln

1

e e

N

 

 

 

 

.

2

2

N

2

Очевидно, что максимизация концентрированной функции правдоподобия эквивалентна методу наименьших квадратов (минимизации суммы квадратов остатков).

18.3.3.Три классических теста для метода максимального правдоподобия

Рассмотрим линейную регрессию с нормальными ошибками. Требуется проверить гипотезу о том, что коэффициенты этой регрессии удовлетворяют некоторым линейным ограничениям. Пусть a0 — оценки, полученные методом максимального правдоподобия без учета ограничений, а a1 — оценки, полученные тем же методом с учетом ограничений, и пусть ln L0 — значение логарифмической функции правдоподобия в точке a0 , а ln L1 — значение логарифмической функции правдоподобия в точке a1 . Статистику для проверки такой гипотезы естественно строить как показатель, измеряющий существенность различий между двумя моделями — с ограничениями и без них. Если различия не очень велики (ограничения существенны), то гипотезу о том, что ограничения выполнены, следует принять, а если достаточно велики — то отвергнуть. Рассмотрим три возможных способа измерения этих различий, проиллюстрировав их графически.

Критерий отношения правдоподобия

 

 

 

 

 

 

(Likelihood

ratio test — LR) основан

 

 

Ln L

 

 

 

на различии значений логарифмической

 

 

 

 

 

 

функции правдоподобия в точках a0 и

Ln L0

 

 

 

 

a1 (см. рис. 18.2), или, что то же са-

 

 

 

 

 

 

мое, на логарифме отношения правдопо-

Ln L1

 

 

 

 

добия, т.е. величине

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ln L0 ln L1 = ln

L0

 

 

 

 

 

 

 

.

 

 

 

 

 

 

L1

 

 

 

 

 

 

Критерий

множителей Лагранжа

0

 

a1

a0

a

 

 

 

 

 

 

(Lagrange multiplier test — LM) осно-

 

 

 

Рис. 18.2

 

 

ван на различии тангенса угла наклона

 

 

 

 

 

 

 

 

 

 

 

касательной к логарифмической функции правдоподобия в точках a0

и a1 . По-

скольку в точке a0 он равен нулю, то следует рассмотреть, насколько тангенс угла наклона касательной в точке a1 отличен от нуля (см. рис. 18.3).

588

 

 

 

Глава 18. Классические критерии проверки гипотез

 

 

Ln L

 

 

 

Критерий Вальда (Wald test — W)

 

 

 

 

 

 

основан на невязках рассматриваемых

Ln L0

 

 

 

 

ограничений. В точке a1 , по опреде-

 

 

 

 

 

 

лению, невязки равны нулю. Таким об-

Ln L1

 

α

 

 

разом, следует рассмотреть, насколь-

 

 

 

 

ко невязки в точке a0 отличны от ну-

 

 

 

 

 

 

 

 

 

 

 

 

ля. В случае одного параметра точка

 

 

 

 

 

 

a1 однозначно задается ограничения-

 

 

 

 

 

 

ми, и невязка в точке a0 при линей-

0

 

a1

a0

a

 

ных ограничениях будет некоторой ли-

Рис. 18.3

нейной функцией разности оценок a0

и a1

(см. рис. 18.4).

 

Покажем, как соответствующие кри-

 

 

 

 

 

 

 

терии выводятся в рассматриваемом нами

 

 

Ln L

 

 

 

 

случае линейной регрессии с нормальными

 

 

 

 

 

 

 

ошибками, когда требуется проверить ли-

 

 

 

 

 

 

 

нейные ограничения на коэффициенты. (В

 

 

 

 

 

 

 

общем случае построение критериев про-

 

 

 

 

 

 

 

исходит аналогичным образом.) При выво-

 

 

 

 

 

 

 

де критериев нам понадобится следующая

 

 

 

 

 

 

 

лемма (см. Приложение A.3.2).

 

 

 

 

 

 

 

Лемма: Пусть χ — вектор (χ Rk )

 

 

 

 

 

 

 

0

 

 

a1

a0

a

случайных величин, подчиненных мно-

 

 

 

 

 

 

 

гомерному нормальному распределению:

 

 

 

 

Рис. 18.4

 

 

χ N 0, σ2 Ω , где матрица Ω неособенная. Тогда

 

 

 

 

 

 

 

1

χ 1χ

χk2 .

 

 

 

 

 

 

 

 

 

 

 

σ2

 

 

 

 

Доказательство:

Так как Ω положительно определена (cм. Приложения A.1.2 и A.1.2), то существует неособенная квадратная матрица C, такая, что Ω1 = CC . Рассмотрим

вектор

1

. Ясно, что E

1

= 0, а ковариационная матрица этого вектора

 

 

 

равна

σ

σ

 

 

1

 

E Cχχ C

= CC = Ik .

 

 

 

σ2

 

 

 

 

 

 

 

 

Таким образом, вектор σ1 состоит из k некоррелированных и, как следствие (по свойству многомерного нормального распределения), независимых случайных

18.3. Метод максимального правдоподобия в эконометрии

589

величин, имеющих стандартное нормальное распределение. Тогда (по определению распределения χ-квадрат) сумма квадратов вектора σ1 распределена как χ2k .

Тест Вальда (W-тест)

Для оценки коэффициентов регрессии без ограничений выполнено

a

0

= Z Z 1

Z X

 

N α, σ2

Z Z 1 .

 

 

 

 

 

Рассмотрим невязки ограничений Ra0 − r. Чем они больше, тем более правдоподобно, что ограничения не выполнены. Ясно, что (см. Приложение A.3.2)

Ra0 − r N Rα − r; σ2A ,

где, как и раньше, используется обозначение A = R (Z Z)1 R . Матрица A имеет размерность k × k, где k — количество ограничений. Пусть выполнена нулевая гипотеза

H0: = r.

Тогда Ra0 − r N 0; σ2A . По лемме

σ12 (Ra0 − r) A1 (Ra0 − r) χ2k .

Поскольку известны лишь a0 — оценки без ограничений, то в качестве оценки неизвестной величины σ2 берем N1 e0e0 , где e0 = X − Za0— остатки из модели без ограничений. Отсюда получаем статистику Вальда:

 

N

(Ra0 − r)

R Z Z

1

R

1

 

W =

 

 

(Ra0 − r) .

 

e e0

 

 

 

0

 

 

 

 

 

 

 

Эта статистика распределена примерно как χ2

. Тогда, если W < χ2

, то сле-

 

 

 

 

 

k

 

k,γ

 

дует принять H0, что ограничения выполнены. При W > χ2k,γ ограничения существенны и следует отвергнуть H0 .

Можно увидеть, что статистика Вальда имеет следующую структуру:

W = (Ra0 − r) RMa0 R 1 (Ra0 − r) ,

где Ma0 = e0e0 (Z Z)1 — оценка ковариационной матрицы оценок a0. Фактиче-

N

ски это общая формула для статистики Вальда, применимая в случае произвольной модели, а не только линейной регрессии с нормальными ошибками.

590

Глава 18. Классические критерии проверки гипотез

Тест отношения правдоподобия (LR-тест)

Рассмотрим статистику LR = 2 (ln L1 ln L0) = 2 ln L1 , называемую ста-

L0

тистикой отношения правдоподобия. Здесь L1 и L0 — значения логарифмической функции правдоподобия в точках a0 и a1 :

 

 

 

 

ln L0 =

N

(1 + ln 2π)

N

ln

 

e0e0

 

 

 

 

2

2

 

N

 

 

 

 

ln L1 =

N

(1 + ln 2π)

N

ln

 

e1e1

 

 

 

 

2

2

 

N

Суммы квадратов остатков здесь равны

 

 

 

 

 

 

 

 

 

 

 

 

e

e = (X

Za )

(X

Za )

 

 

 

 

 

 

0

0

 

 

0

 

 

 

0

и

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

e

e = (X

Za )

(X

Za ) =

 

 

 

 

 

 

 

 

 

1

1

1

 

 

1

 

 

 

 

 

 

 

 

 

 

 

= (X − Za0) (X − Za0) + (Ra0

,

.

− r) A1 (Ra0 − r) .

Покажем, что если верна нулевая гипотеза = r, то приближенно выполнено

2 ln (L1/L0) χ2k . Действительно,

 

 

L1

 

e e1

 

(Ra0

r) A1

(Ra0

r)

2 ln

 

= N ln

1

 

= N ln 1 +

 

 

 

 

 

 

 

.

L0

e

e0

(X

 

 

(X

 

 

 

 

 

 

 

Za )

Za )

 

 

 

 

0

 

 

 

 

0

 

 

 

0

 

 

Для натурального логарифма при малых x выполнено ln (1 + x) ≈ x. Рассмотрим последнюю дробь. При большом количестве наблюдений оценки a0 стремятся к вектору α, для которого выполнено H0 : = r. Отсюда следует, что при большом количестве наблюдений дробь — малая величина, и получаем приближенно

LR =

2 ln

L1

N

(Ra0 − r) A1 (Ra0 − r)

= W.

 

 

 

 

L0

 

(X − Za0) (X − Za0)

Таким образом, статистика отношения правдоподобия приближенно равна статистике Вальда, которая приближенно распределена как χ2k . Получили LR-тест: если LR > χ2k,γ , то H0 неверна, ограничения не выполнены, а если LR < χ2k,γ , то наоборот.

18.3. Метод максимального правдоподобия в эконометрии

591

Тест множителей Лагранжа (LM-тест)

Ранее мы получили выражение для множителей Лагранжа, соответствующих ограничению = r:

 

 

 

 

 

λ = A1 (Ra0 − r) .

 

 

Из того,

что

Ra0 − r

 

N Rα − r; σ2A ,

следует, что λ

 

N A1(Rα − r); σ2A1 .

 

 

 

 

 

 

 

Отсюда при H0 : = r выполнено λ N 0; σ2A1

, поэтому в силу леммы

1

λ Aλ χk2 . Поскольку известны только оценки с ограничением,

 

имеем

 

a1 ,

σ2

то в качестве оценки σ2 берем

1

e

e1 .

 

 

 

 

 

Получили статистику

N 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

LM =

N

λ Aλ =

N

λ R Z Z 1 R λ.

 

 

 

 

 

 

 

 

 

 

 

 

 

e e1

 

 

 

e e1

 

 

 

 

 

 

1

 

 

 

1

 

 

 

Если LM > χk,γ2 , то H0

отвергается, ограничения не выполнены. Если

LM < χk,γ2

, то H0

принимается.

 

 

 

 

 

Вспомним, что из нормальных уравнений для оценок при ограничениях

R λ = Z (X − Za1).

В то же время

ln L(a1,

e

e1/N

)

=

N

 

1

 

 

 

 

Z (X − Za1)

∂α

 

 

e

e1

 

 

 

 

 

1

 

 

 

производная логарифмической функции правдоподобия (это функция без учета огра-

ничений) по параметрам в точке оценок при ограничениях a1 и s1 =

 

e

e

1

 

 

 

1

 

.

 

N

 

 

 

 

 

 

Статистика множителей Лагранжа, таким образом, имеет следующую структуру:

LM =

e

e

1

 

ln L(a1

,

e

e1

/N

)

(Z Z)

1

ln L(a1

,

e

e1

/N

)

=

 

 

 

 

 

1

 

 

 

1

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

N

 

 

∂α

 

 

 

 

 

 

 

 

 

∂α

 

 

 

 

 

 

 

 

 

 

 

 

ln L(a1,

 

 

 

 

)

 

 

ln L(a1

 

 

 

)

 

 

 

 

 

 

 

=

 

e1e1

/N

Ma0 (a1)

 

,

e1e1

/N

,

 

 

 

 

 

 

 

 

 

 

∂α

 

 

 

 

 

 

 

 

 

∂α

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где Ma0 (a1) = e1e1 (Z Z)1 — оценка ковариационной матрицы оценок a0 , вы-

N

численная на основе информации, доступной в точке a1 . Это общая формула для статистики множителей Лагранжа, применимая в случае произвольной модели, а не только линейной регрессии с нормальными ошибками. В таком виде тест называется скор-тестом (score test) или тестом Рао.

592 Глава 18. Классические критерии проверки гипотез

18.3.4. Сопоставление классических тестов

Величину (Ra0 − r) R (Z Z)1 R 1 (Ra0 − r), которая фигурирует в формулах для рассматриваемых статистик, можно записать также в виде e1e1 − e0e0 . Таким образом, получаем следующие формулы для трех статистик через суммы квадратов остатков:

W = N e1e1 − e0e0 , e0e0

LM = N e1e1 − e0e0 , e1e1

LR = N ln e1e1 . e0e0

F -статистику для проверки линейных ограничений можно записать аналогичным образом:

F = N − n − 1 e1e1 − e0e0 .

ke0e0

Нетрудно увидеть, что все три статистики можно записать через F -статистику:

LR = N ln 1 +

k

 

F ,

N − n − 1

N

W = N − n − 1 kF,

N

LM = kF + N − n − 1 kF.

Заметим, что по свойству F -распределения kF в пределе при N → ∞ сходится к χ2k , чем можно доказать сходимость распределения всех трех статистик к этому распределению.

Так как e1e1 e0e0 , то W LM . Следовательно, тест Вальда более жесткий, он чаще отвергает ограничения. Статистика отношения правдоподобия лежит всегда между W и LM. Чтобы это показать, обозначим

x =

 

 

k

 

 

F =

e1e1 − e0e0

.

 

 

 

 

1

 

 

N

n

 

e

e0

 

 

 

 

0

 

 

Доказываемое свойство следует из того, что при x > −1 выполнено неравенство

x

1 + x ln (1 + x) x.