Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ЭКОНОМЕТРИКА и математическая экономика / Эконометрика. Учебник продвинутый (2005)

.pdf
Скачиваний:
512
Добавлен:
20.04.2015
Размер:
4.02 Mб
Скачать

6.2. Простая регрессия

203

(соотношения МНК-оценивания (4.37), данные в пункте 4.2 без доказательства, являются частным случаем этого оператора).

Уравнения

 

m−j = M−j a−j ,

(6.14)

решение которых дает первую часть оператора МНК-оценивания (6.11), называется системой нормальных уравнений.

МНК-оценки остатков имеют нулевую среднюю (6.6) и не коррелированы (ортогональны) с объясняющими переменными уравнения (6.12).

Систему нормальных уравнений можно вывести, используя иную логику. Если

обе части уравнения регрессии (6.9) умножить слева на ˆ и разделить на ,

X−j N

то получится условие m

 

j = M

j a

j +

1

Xˆ

 

ej , из которого получается искомая

 

 

 

N

−j

 

система при требованиях e¯j = 0 и cov(X−j , ej ) = 0, следующих из полученных свойств МНК-оценок остатков.

Такая же логика используется в методе инструментальных переменных. Пусть имеется матрица Z размерности N × (n − 1) наблюдений за некоторыми величинами z, называемыми инструментальными переменными, относительно которых известно, что они линейно не зависят от εj и коррелированы с переменными X−j .

Умножение обеих частей уравнения регрессии слева на ˆ и деление их на да-

Z N

ет условие

1

Zˆ Xˆj =

1

Zˆ Xˆ

 

j a

j +

1

Zˆ ej , из которого — после отбрасывания

N

N

N

 

 

 

 

 

второго члена правой части в силу сделанных предположений — следует система нормальных уравнений метода инструментальных переменных:

 

 

 

mz

= M z

az

,

(6.15)

 

 

 

−j

 

 

−j

−j

 

 

где mz

= cov (z, x

), M z

= cov (z, x

−j

).

 

 

 

−j

j

−j

 

 

 

 

 

 

Значения j-й (объясняемой) переменной, лежащие на гиперплоскости регрес-

сии, называются расчетными (по модели регрессии):

 

Xc

= X

a

+ 1 b

,

(6.16)

j

−j

−j

N j

 

 

ˆ c

ˆ

 

.

 

(6.17)

Xj

= X−j a−j

 

Их дисперсия называется объясненной (дисперсия, объясненная регрессией) и может быть представлена в различных вариантах:

 

 

1

XˆjcXˆjc

(6.17)

(6.11)

sqj2

=

 

= a−j M−j a−j

= a−j m−j = m−j a−j = m−j Mj1m−j .

N

(6.18)

204

Глава 6. Алгебра линейной регрессии

Если раскрыть скобки в выражении остаточной дисперсии (6.10) и провести преобразования в соответствии с (6.11, 6.18), то получается s2ej = s2j − s2qj , где s2j — дисперсия j-й (объясняемой) переменной, или

s2

= s2

+ s2 .

(6.19)

j

qj

ej

 

Это — дисперсионное тождество, показывающее разложение общей дисперсии объясняемой переменной на две части — объясненную (регрессией) и остаточную.

Доля объясненной дисперсии в общей называется коэффициентом детерминации:

 

s2

 

s2

 

 

Rj2 =

qj

= 1

ej

,

(6.20)

s2

s2

 

j

 

j

 

 

который является показателем точности аппроксимации исходных значений объясняемой переменной гиперплоскостью регрессии (объясняющими переменными). Он является квадратом коэффициента множественной корреляции между объясняемой и объясняющими переменными rj,−j , который, по определению, равен коэффициенту парной корреляции между исходными и расчетными значениями объясняемой переменной:

rj,−j =

cov xj , xcj

sj sqj

 

1 Xˆj Xˆjc

(6.17)

=

 

 

 

=

N sj sqj

 

 

ˆˆ

1 Xj X−j a−j = N sj sqj

m−j a−j (6.18)

= =

sj sqj

s2

(6.20)

 

 

 

 

qj

= R2.

 

sj sqj

 

j

 

 

 

Из (6.19) следует, что коэффициент корреляции по абсолютной величине не превышает единицы.

Эти утверждения, начиная с (6.16), обобщают положения, представленные в конце пункта 4.2.

Композиция 1 и −aj обозначается a(j) и является одной из оценок вектора α. Всего таких оценок имеется n — по числу простых регрессий, в левой части уравнения которых по очереди остаются переменные xj , j = 1, . . . , n. Эти векторстолбцы образуют матрицу A. По построению ее диагональные элементы равны единице ( ajj = 1 вслед за aj (j) = 1).

Все эти оценки в общем случае различны, т.е. одну из другой нельзя получить

алгебраическим преобразованием соответствующих уравнений регрессии:

 

a (j) =

1

a j ,

j = j .

(6.21)

 

aj (j )

 

 

 

6.3. Ортогональная регрессия

205

Это утверждение доказывалось в пункте 4.2 при n = 2. В данном случае справедливо утверждение, что соотношение (6.21) может (при некоторых j, j ) выполняться как равенство в том и только том случае, если среди переменных xj , j = 1, . . . , n существуют линейно зависимые.

Достаточность этого утверждения очевидна. Действительно, пусть переменные некоторого подмножества J линейно зависимы, т.е. существует такой вектор ξ, в кото-

ром

ξj = 0

при

j

1

j

 

ˆ

 

 

J

 

 

J

и ξ

= 0 при j / J , и = 0. Тогда для любого j

 

справедливо: a(j) =

 

ξ, причем aj (j) =

0 при j

/ J , и ej = 0, т.е. некоторые

ξj

соотношения (6.21) выполняются как равенства.

 

 

 

Для доказательства необходимости утверждения предполагается, что существует такой ξ = 0, что

= 0

(6.22)

(т.е., в частности, некоторые соотношения из (6.21) выполняются как равенства).

Сначала следует обратить внимание на то, что вслед за (6.14) все компоненты век-

тора M a(j) ( M — матрица ковариации всех переменных x: M =

1

Xˆ Xˆ ), кроме

N

j -й, равны нулю, а j -я компонента этого вектора в силу (6.18, 6.19) равна s2 , т.е.

 

 

 

 

ej

 

M A = S2

,

(6.23)

 

e

 

 

 

где S2 — диагональная матрица

s2 .

 

 

 

e

ej

 

 

 

Теперь, после умножения обеих частей полученного матричного соотношения справа на вектор ξ, определенный в (6.22), получается соотношение: 0 = Se2ξ, которое означает, что для всех j , таких, что ξj = 0, s2ej = 0, т.е. переменные xj линейно зависят друг от друга.

Что и требовалось доказать.

Все возможные геометрические иллюстрации простых регрессий в пространстве наблюдений и переменных даны в пункте 4.2.

6.3. Ортогональная регрессия

В случае, когда ограничения на вектор a (или α) состоят в требовании равенства единице длины этого вектора

a a = 1 (α α = 1),

(6.24)

и все переменные остаются в левой части уравнения, получается ортогональная регрессия, в которой расстояния от точек облака наблюдений до гиперплоскости регрессии измеряются перпендикулярно этой гиперплоскости. Разъяснения этому факту давались в пункте 4.2.

1 ˆ ˆ — ковариационная матрица переменных регрессии, при условии
N X X

206 Глава 6. Алгебра линейной регрессии

Оценка параметров регрессии производится из условия минимизации остаточной дисперсии:

 

(6.7)

1

a Xˆ

Xaˆ

= a M a

 

 

s2

=

 

min!,

 

e

 

N

 

 

 

где M = (6.24).

Из требования равенства нулю производной по a соответствующей функции Лагранжа следует, что

(M − λIn) a = 0,

(6.25)

где λ — множитель Лагранжа ограничения (6.24), причем

λ = se2.

(6.26)

Действительно, функция Лагранжа имеет вид:

L(a, λ) = a M a − λa a,

авектор ее производных по a:

∂L

∂a

= 2 (M a − λa) .

Откуда получается соотношение (6.25). А если обе части этого соотношения умножить слева на a и учесть (6.24), то получается (6.26).

Таким образом, применение МНК сводится к поиску минимального собственного числа λ ковариационной матрицы M и соответствующего ему собственного (правого) вектора a (см. также Приложение A.1.2). Благодаря свойствам данной матрицы (вещественность, симметричность и положительная полуопределенность), искомые величины существуют, они вещественны, а собственное число неотрицательно (предполагается, что оно единственно). Пусть эти оценки получены.

В ортогональной регрессии все переменные x выступают объясняемыми, или моделируемыми, их расчетные значения определяются по формуле:

Xˆ c = Xˆ − ea .

(6.27)

6.3. Ортогональная регрессия

 

207

Действительно: Xˆ ca = Xˆ a

e a a = 0, т.е. вектор-строки xˆc , соответствующие

←−→

←→

i

e1

наблюдениям, лежат на гиперплоскости регрессии и являются проекциями на нее вектор-строк фактических наблюдений xˆi (вектор a по построению ортогонален гиперплоскости регрессии, а eia — вектор нормали xˆci на xˆi ), а аналогом коэф-

 

1

λ

, где sΣ2 =

n

фициента детерминации выступает величина

sj2 — суммарная

 

s2

 

 

Σ

 

j=1

дисперсия переменных x, равная следу матрицы M .

Таким образом, к n оценкам вектора a простой регрессии добавляется оценка этого вектора ортогональной регрессии, и общее количество этих оценок становится равным n + 1.

Задачу простой и ортогональной регрессии можно записать в единой, обобщен-

ной форме:

 

 

 

 

 

 

(M

λW ) a = 0,

a W a = 1, λ

min!,

(6.28)

 

 

 

 

 

где W — диагональная n×n-матрица, на диагонали которой могут стоять 0 или 1.

В случае, если в матрице W имеется единственный ненулевой элемент wjj = 1, то это — задача простой регрессии xj по x−j (действительно, это следует из соотношения (6.23)); если W является единичной матрицей, то это — задача ортогональной регрессии. Очевидно, что возможны и все промежуточные случаи, когда некоторое количество n1 , 1 < n1 < n, переменных остается в левой части

уравнения, а остальные

n2

переменных переносятся в правую часть уравнения

регрессии:

 

 

 

 

ˆ

1 1

ˆ 2 2

1

1 1

X

a = X a + e ,

a a = 1.

Если J — множество переменных, оставленных в левой части уравнения, то в записи (6.28) такой регрессии wjj = 1 для j J и wjj = 0 для остальных j. Оценка параметров регрессии производится следующим образом:

a2 = M221M21a1, M11 − M12M221M21 − λIn1 a1 = 0

( a1 находится как правый собственный вектор, соответствующий минимальному собственному числу матрицы M11 − M12M221M21 ), где

 

=

1

 

ˆ 1

 

ˆ 1

 

M11

N

X

1

X

,

M12

= M

=

Xˆ 1 Xˆ 2,

 

 

 

21

 

N

 

 

 

 

1

 

 

 

 

 

=

 

ˆ 2

 

ˆ 2

 

M22

N

X

 

X

 

208

Глава 6. Алгебра линейной регрессии

— соответствующие ковариационные матрицы.

Таким образом, общее количество оценок регрессии — (2n 1). В рамках любой из этих оценок λ в (6.28) является остаточной дисперсией.

Задача ортогональной регрессии легко обобщается на случай нескольких уравнений и альтернативного представления расчетных значений изучаемых переменных.

Матрица M , как уже отмечалось, имеет n вещественных неотрицательных собственных чисел, сумма которых равна s2Σ, и n соответствующих им вещественных взаимноортогональных собственных векторов, дающих ортонормированный базис в пространстве наблюдений (см. также Приложение A.1.2). Пусть собственные числа, упорядоченные по возрастанию, образуют диагональную матрицу Λ, а соответствующие им собственные вектора (столбцы) — матрицу A. Тогда

A A = In, M A = AΛ.

(6.29)

Собственные вектора, если их рассматривать по убыванию соответствующих им собственных чисел, есть главные компоненты облака наблюдений, которые показывают направления наибольшей «вытянутости» (наибольшей дисперсии) этого облака. Количественную оценку степени этой «вытянутости» (дисперсии) дают соответствующие им собственные числа.

Пусть первые k собственных чисел «малы». s2E — сумма этих собственных чисел;

AE — часть матрицы A, соответствующая им (ее первые k стоблцов); это — коэффициенты по k уравнениям регрессии или k младших главных компонент;

AQ — остальная часть матрицы A, это — n − k старших главных компонент или собственно главных компонент;

A = [AE , AQ];

xAE = 0 — гиперплоскость ортогональной регрессии размерности n − k;

ˆ

E

Q

— координаты облака наблюдений в базисе главных

[E, Q] = X A , A

 

компонент;

E — матрица размерности N × k остатков по уравнениям регрессии;

Q — матрица размерности N × (n − k), столбцы которой есть значения так

называемых главных факторов.

 

 

 

 

 

Поскольку A = A1

, можно записать

Xˆ = E AE

+ Q AQ . Откуда

получается два возможных представления расчетных значений переменных:

ˆ c

(1) ˆ

 

E

(2)

Q

(6.30)

X

= X

E A

= Q A .

(6.27)

 

 

 

 

6.3. Ортогональная регрессия

209

Первое из них — по уравнениям ортогональной регрессии, второе (альтерна-

тивное) — по главным факторам (факторная модель).

 

 

 

 

 

1 sE2

sΣ2

— аналог коэффициента детерминации, дающий оценку качества

обеих этих моделей.

 

 

 

 

 

 

 

 

 

 

Факторная модель представляет n

 

 

 

 

 

переменных

через

n

− k

факто-

 

x1

 

 

 

ров

и, тем самым,

«сжимает»

ин-

 

 

A

r

формацию,

содержащуюся в

исход-

 

B

 

 

 

 

 

 

 

 

ных

переменных. В

конкретном

ис-

E

 

 

 

 

 

 

 

D

следовании, если k

мало, то предпо-

 

G

 

 

 

 

 

чтительнее

использовать

ортогональ-

 

F

 

 

 

 

 

 

 

 

ные

регрессии,

если

k

велико

(со-

 

 

 

 

 

 

0

C

x2

ответственно

n −

k

мало),

целе-

 

 

 

 

 

 

 

 

 

 

сообразно

применить факторную

мо-

 

 

 

 

 

дель. При

этом надо

иметь

в

ви-

1

 

 

 

 

 

 

 

 

 

ду

следующее:

главные

факторы —

 

 

 

 

 

расчетные величины, и содержатель-

 

 

 

 

 

ная

интерпретация

их

является,

как

 

Рис. 6.1

 

 

 

правило, достаточно сложной зада-

 

 

 

 

 

чей.

 

 

 

 

 

 

 

 

 

 

 

 

 

Сделанные утверждения можно проиллюстрировать на примере n = 2, предполагая, что λ1 λ2 , и упрощая обозначения (введенные выше матрицы являются в данном случае векторами):

a1 = AE — вектор параметров ортогональной регрессии,

a2 = AQ — вектор первой (в данном случае — единственной) главной компоненты,

e = E — остатки в уравнении ортогональной регрессии,

q = Q — значения первого (в данном случае — единственного) главного фактора.

На рисунке:

OA — вектор-строка

i-го наблюдения

xˆi =

xi1, xˆi2), OD

вектор-строка

расчетных

значений

xˆc , длина OC xˆi1 ,

длина OB xˆi2 ,

 

 

 

i

 

 

OE — вектор-строка a1 ,

OG — вектор-строка a2 ,

длина

OF ei , длина

OD qi .

 

 

 

 

 

Как видно из рисунка 6.1, квадрат длины вектора xˆi равен (из прямоугольных тре-

угольников OAC и OAD) xˆ2

+ xˆ2

= e2

+ q2

, и если сложить все эти уравнения по

i1

i2

i

i

 

i и разделить на N , то получится s21 + s22 = s2e + s2q . Понятно, что s2e = λ1 , s2q = λ2 , и это равенство означает, что след матрицы ковариации равен сумме ее собственных

чисел. Кроме того, как видно из рисунка, s21 показывает дисперсию облака наблюдений (суммарную дисперсию переменных регрессии) в направлении a1 наименьшей «вытянутости» облака, s22 — дисперсию облака наблюдений в направлении a2 его наибольшей «вытянутости».

210

Глава 6. Алгебра линейной регрессии

Вектор OF есть eia1 , а вектор OD qia2 , и рисунок наглядно иллюстрирует выполнение соотношения (6.30):

xˆci = xˆi − eia1 = qia2.

Пусть теперь n = 3, и λ1 , λ2 , λ3 , a1 , a2 , a3 — собственные числа и вектора ковариационной матрицы переменных.

1)Если λ1 ≈ λ2 ≈ λ3 , то облако наблюдений не «растянуто» ни в одном из направлений. Зависимости между переменными отсутствуют.

2)Если λ1 λ2 ≈ λ3 и k = 1, то облако наблюдений имеет форму «блина». Плоскость, в которой лежит этот «блин», является плоскостью ортогональной регрессии, которую описывает уравнение xaˆ 1 = 0, а собственно уравнением регрессии

ˆ

= e.

является Xa1

Эту же плоскость представляют вектора a2 и a3 , являясь ее осями координат. В этих осях координат можно выразить любую точку данной плоскости, в том числе все точки расчетных значений переменных (6.30):

 

 

 

Xˆ c =

a

= q

a

+ q

a

,

 

 

 

2

 

 

 

 

q1 q2

1

2

2

3

 

 

 

 

 

a3

 

 

 

 

 

где

ˆ

,

ˆ

— вектора значений главных факторов или вектора

q1 = Xa2

q2 = Xa3

координат расчетных значений переменных в осях a2 , a3 .

3) Если λ1 ≈ λ2 λ3 и k = 2, то облако наблюдений имеет форму «веретена». Ось этого «веретена» является линией регрессии, образованной пересечением двух

плоскостей xaˆ

1

= 0 и xaˆ 2

= 0. И уравнений ортогональной регрессии в данном

случае два:

ˆ

 

= e1 и

ˆ

= e2 .

Xa1

Xa2

Данную линию регрессии представляет вектор a3 , и через него можно выразить все расчетные значения переменных:

ˆ c = qa3, X

где ˆ — вектор значений главного фактора. q = Xa3

6.4. Многообразие оценок регрессии

Множество оценок регрессии не исчерпывается 2n 1 отмеченными выше элементами. Перед тем как получать любую из этих оценок, можно провести преобразование в пространстве наблюдений или переменных.

Преобразование в пространстве наблюдений проводится с помощью матрицы

D размерности N × N, N N . Обе части исходного уравнения (6.3) умножаются слева на эту матрицу:

DXα = D1N β + Dε,

(6.31)

6.4. Многообразие оценок регрессии

211

после чего проводится оценка параметров любым из указанных 2n 1 способов. Понятно, что полученные оценки будут новыми, если только D D = cIN , где c — любая константа.

В результате такого преобразования β может перестать являться свободным членом, если только D1N = c1N ( c — любая константа). Но, главное, меняется распределение ошибок по наблюдениям. Именно с целью изменить это распределение в нужную сторону (с помощью подбора матрицы D) и проводятся такие преобразования (см. гл. 8).

Преобразование в пространстве переменных осуществляется с помощью квадратной невырожденной матрицы C размерности n × n: Y = XC — преобразованные значения переменных регрессии. И затем оцениваются параметры регрессии в новом пространстве: Y f = 1N g + u.

Это преобразование можно проводить в пространстве центрированных пере-

менных, т.к. ˆ ˆ .

Y = XC

Действительно: ˆ 1 1 ˆ .

XC = IN N 1N 1N XC = IN N 1N 1N Y = Y

То есть исходное уравнение регрессии (6.7) после преобразования приобретает

вид:

 

ˆ

(6.32)

Y f = u.

Оценки f являются новыми, если после «возвращения» их в исходное пространство, которое производится умножением f слева на C, они не совпадут с оценками a, полученными в исходном пространстве, т.е. если a = Cf . Справедливость этого утверждения становится очевидной после следующего алгебраически эквивалентного преобразования исходного уравнения (6.7):

Xˆ C

C1a = e.

(6.33)

←−→Y

←−−→

 

ˆ

f

 

Понятно, что МНК-оценка f совсем не обязательно совпадет с C1a — и тогда это будет новая оценка.

После преобразования меняется распределение ошибок в переменных регрессии. И именно для того, чтобы изменить это распределение в нужную сторону, осуществляются такие преобразования (см. гл. 8).

Результаты преобразований в пространстве переменных различны для простых

иортогональной регрессий.

Вслучае простой регрессии xj по x−j это преобразование не приводит к получению новых оценок, если j-я строка матрицы C является ортом, т.е. в объясняющие переменные правой части не «попадает» — после преобразования — объясняемая переменная.

1 1

212

 

 

 

 

 

 

 

 

 

 

 

 

Глава 6. Алгебра линейной регрессии

Действительно, пусть для определенности j = 1 и

 

 

C =

1

0

(первая

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

c1

C1

 

строка является ортом), C1 =

 

 

1

 

 

 

 

0

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

−C11c1

C11

 

 

 

 

 

 

 

Уравнение (6.33) записывается следующим образом:

 

 

 

 

 

 

 

 

 

 

ˆ

ˆ

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

1

 

 

= e1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X1

+ X1c1

X1C1

 

 

 

 

 

1

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

−C1 c1 − C1 a1

 

 

 

 

←−−−−−−−−−−−−−−−−−−−−→Y

←−−−−−−−−−−−−−−−−−→

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

 

 

 

 

или, после переноса переменных в правую часть:

 

 

 

 

 

 

 

 

 

 

 

 

Xˆ1 + Xˆ1c1 = Xˆ1C1 C11c1 + C11a1 +e1.

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

ˆ

 

←−−−−−−−−−−−−−→1

 

 

 

 

 

 

 

 

 

 

 

 

 

←−−−−→Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

←−−−−−−−−−−→

 

 

1

 

 

 

 

 

f

 

 

 

 

 

 

 

 

 

 

 

Y1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Система нормальных уравнений для оценки f1

имеет следующий вид:

 

1

C

Xˆ

Xˆ

 

+ Xˆ

 

c

 

=

1

C

Xˆ

 

Xˆ

 

 

C

C1c

 

+ C1a

 

 

N

1

1

1

N

1

1

1

 

1

 

1

 

 

 

 

 

1

 

 

1

 

 

1

1

1

 

 

←−−−−→

←−−−−−−−−−−→

 

 

←−−−−→ ←−−−−→ ←−−−−−−−−−−−−−→1

 

 

ˆ

 

1

 

 

 

ˆ

 

1

 

 

ˆ

 

 

 

 

 

 

 

Y

 

 

 

 

ˆ

 

 

 

 

 

 

Y

 

 

 

 

Y

1

 

 

 

 

 

 

 

 

 

Y1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

или, раскрыв скобки:

C1m1 + C1M1c1 = C1M1c1 + C1M1a1.

После взаимного сокращения одинаковых слагаемых в полученном матричном уравнении (2-го в левой части и 1-го в правой) и умножения обеих частей слева на C получается система нормальных уравнений для оценки a1 : m1 = M1a1 .

Это означает, что f1 после «возвращения» в исходное пространство совпадает с a1 , т.е. проведенное преобразование в пространстве переменных новых оценок регрессии не дает.

Верно и обратное утверждение: если j-я строка матрицы C не является ортом, то a и f совпадают с точностью до обратного преобразования только тогда, когда связь функциональна и e = 0.