Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Диплом / Algebra_lineynoy_regressii.docx
Скачиваний:
40
Добавлен:
24.03.2015
Размер:
2.49 Mб
Скачать

7.3. Независимые факторы: спецификация модели

В этом пункте используется модель линейной регрессии в сокращенной фор- ме, поэтому переменные берутся в центрированной форме, а m и M — вектор и матрица соответствующих коэффициентов ковариации переменных.

Под спецификацией модели в данном случае понимается процесс и результат определения набора независимых факторов. При построении эконометрической модели этот набор должен обосновываться экономической теорией. Но это удается не во всех случаях. Во-первых, не все факторы, важные с теоретической точки зрения, удается количественно выразить. Во-вторых, эмпирический анализ часто предшествует попыткам построения теоретической модели, и этот набор просто неизвестен. Потому важную роль играют и методы формального отбора факторов, также рассматриваемые в этом пункте.

В соответствии с гипотезой g2 факторные переменные не должны быть ли- нейно зависимыми. Иначе матрица M в операторе МНК-оценивания будет необ- ратима. Тогда оценки МНК по формуле a = M 1m невозможно будет рассчитать, но их можно найти, решая систему нормальных уравнений (6.14):

Ma = m.

Решений такой системы нормальных уравнений (в случае необратимости матри- цы M ) будет бесконечно много. Следовательно, оценки нельзя найти однозначно, т.е. уравнение регрессии невозможно идентифицировать. Действительно, пусть оценено уравнение

где

xˆ = zˆ1a1 + e, (7.51)

zˆ1 — вектор-строка факторных переменных размерности n1, a1 — вектор-

столбец соответствующих коэффициентов регрессии, и пусть в это уравнение вво- дится дополнительный фактор zˆ2, линейно зависимый от zˆ1, т.е. zˆ2 = zˆ1c21 .

Тогда оценка нового уравнения

1

xˆ = zˆ1a + zˆ2a2 + e (7.52)

(«звездочкой» помечены новые оценки «старых» величин) эквивалентна оценке уравнения xˆ = zˆ1 (a + a2c21)+ e. Очевидно, что a1 = a + a2c21 , e = e, и, про-

1 1

1

извольно задавая a2, можно получать множество новых оценок a = a1 a2c21.

Логичнее всего положить a2 = 0, т.е. не вводить фактор

zˆ2. Хотя, если из со-

держательных соображений этот фактор следует все-таки ввести, то тогда надо исключить из уравнения какой-либо ранее введенный фактор, входящий в zˆ1. Та- ким образом, вводить в модель факторы, линейно зависимые от уже введенных, бессмысленно.

7.3. Независимые факторы: спецификация модели 235

Случаи, когда на факторных переменных су- ществуют точные линейные зависимости, встре- чаются редко. Гораздо более распространена си- туация, в которой зависимости между фактор- ными переменными приближаются к линейным. Такая ситуация называется мультиколлинеарно- O стью. Она чревата высокими ошибками получа- емых оценок и высокой чувствительностью ре- зультатов оценивания к ошибкам в факторных переменных, которые, несмотря на гипотезу g2, обычно присутствуют в эмпирическом анализе.

Действительно, в такой ситуации матрица M

плохо обусловлена и диагональные элементы

A

C

B

Рис. 7.1

M 1 , определяющие дисперсии оценок, могут принимать очень большие значения.

Кроме того, даже небольшие изменения в M , связанные с ошибками в факторных переменных, могут повлечь существенные изменения в M 1 и, как следствие, —

в оценках a.

Последнее наглядно иллюстрируется рисунком (рис. 7.1) в пространстве наблюдений при n = 2.

На этом рисунке: OA xˆ, OB zˆ1 , OC zˆ2 .

Видно, что факторные переменные сильно коррелированы (угол между соответству- ющими векторами мал).

Поэтому даже небольшие колебания этих векторов, связанные с ошибками, зна- чительно меняют положение плоскости, которую они определяют, и, соответствен- но, — нормали на эту плоскость.

Из рисунка видно, что оценки параметров регрессии «с легкостью» меняют не только свою величину, но и знак.

По этим причинам стараются избегать ситуации мультиколлинеарности. Для этого в уравнение регрессии не включают факторы, сильно коррелирован- ные с другими.

Можно попытаться определить такие факторы, анализируя матрицу коэффи- циентов корреляции факторных переменных S1MS1, где S — диагональная матрица среднеквадратических отклонений. Если коэффициент sjjt этой матри- цы достаточно большой, например, выше 0.75, то один из пары факторов j и jt не следует вводить в уравнение. Однако такого элементарного «парного» анализа может оказаться не достаточно. Надежнее построить все регрессии на множестве факторных переменных, последовательно оставляя в левой части уравнения эти переменные по отдельности. И не вводить в уравнение специфицируемой моде- ли (с x в левой части) те факторы, уравнения регрессии для которых достаточно значимы по F -критерию (например, значение pv не превышает 0.05).

236 Глава 7. Основная модель линейной регрессии

A Однако в эмпирических исследованиях могут возникать ситуации, когда только введение сильно

D коррелированных факторов может привести к по- строению значимой модели.

O

Это утверждение можно проиллюстрировать ри- сунком (рис. 7.2) в пространстве наблюдений при n = 2.

На этом рисунке: OA xˆ, OB zˆ1 , OC

C zˆ2 , AD — нормаль на плоскость, определяе- мую векторами OB и OC , OD — проекция

B OA на эту плоскость.

Рис. 7.2

Из рисунка видно, что zˆ1 и

zˆ2 по отдельности

не объясняют xˆ (углы между соответствующими векторами близки к 90 ), но вместе они определяют плоскость, угол между которой

и вектором OA очень мал, т.е. коэффициент детерминации в регрессии xˆ на zˆ1 , zˆ2 близок к единице.

Рисунок также показывает, что такая ситуация возможна только если факторы силь- но коррелированы.

В таких случаях особое внимание должно уделяться точности измерения фак- торов.

Далее определяются последствия введения в уравнение дополнительного фак- тора. Для этого сравниваются оценки уравнений (7.51, 7.52) в предположении, что zˆ2 линейно независим от zˆ1 .

В этом анализе доказываются два утверждения.

  1. Введение дополнительного фактора не может привести к сокращению ко- эффициента детерминации, в большинстве случаев он растет (растет объясненная дисперсия). Коэффициент детерминации остается неизменным тогда и только то- гда, когда вводимый фактор ортогонален остаткам в исходной регрессии (линейно независим от остатков), т.е. когда

m2e = N Zˆ e = 0 (7.53)

1

t

2

(понятно, что коэффициент детерминации не меняется и в случае линейной зависи- мости zˆ2 от zˆ1 , но такой случай исключен сделанным предположением о линейной независимости этих факторов; в дальнейшем это напоминание не делается).

Для доказательства этого факта проводятся следующие действия.

Записываются системы нормальных уравнений для оценки регрессий (7.51, 7.52):

m1 = M11a1, (7.54)

7.3. Независимые факторы: спецификация модели 237

  

m M

  

m a

 1 =  11

12 1

  

m2

m21 m22

   , (7.55)

a2

1 1 1 1

где m1 =

Zˆr Xˆ , m2 = Zˆr Xˆ , M11 = Zˆr Zˆ , m

1

N N N

= mr

= Zˆr Zˆ ,

N

1

m22 = N Zˆr Zˆ .

2 1 1 12

21 1 2

2 2

Далее, с помощью умножения обеих частей уравнения (7.51), расписанного по на-

1

блюдениям, слева на

Zˆr , устанавливается, что

2

N

m2 m21a1

(7.53)

= m2e, (7.56)

2

а из регрессии Zˆ

= Zˆ a21

+ e21

, в которой по предположению e21

ƒ= 0, находится

1

остаточная дисперсия:

s2 1

(7.9) 1

21e21

M m

12

11

e21 = N er

= m22

m21

> 0. (7.57)

Из первой (верхней) части системы уравнений (7.55) определяется:

1

и далее

M11a + m12a2 = m1

(7.54)

= M11a1,

a∗ −1

1 = a1 M11 m12a2. (7.58)

Из второй (нижней) части системы уравнений (7.55) определяется:

1

Откуда

m22a2 = m2 m21a

= m2 m21 .a1 M 1m12a2..

(7.58)

11

11

.m22 m21M 1m12. a2 = m2 m21a1

и, учитывая (7.56, 7.57),

s2

e21a2 = m2e. (7.59)

Наконец, определяется объясненная дисперсия после введения дополнительного фактора:

s2 (7.9)

(7.58)

(7.56)

q = mr a + m2a2

= mr a1 + m2 mr M 1 m12 a2

= s2 + m2ea2,

1 1 1

1 11 q

s

←−−2

q

←−−−r −→

a

1

(7.60)

238 Глава 7. Основная модель линейной регрессии

т.е.

m

2

s2 (7.59) 2e

q

s

q = s2 +

2 .

e21

Что и требовалось доказать.

Это утверждение легко проиллюстрировать рисунком 7.3 в пространстве наблюде- ний при n1 = 1.

На этом рисунке: OA xˆ, OB zˆ1 , OC zˆ2 , AD — нормаль xˆ на ( DA — вектор e).

zˆ1

Рисунок показывает, что если zˆ2 ортогонален e, то нормаль xˆ на плоскость, опре- деляемую zˆ1 и zˆ2 , совпадает с AD, т.е. угол между этой плоскостью и xˆ совпадает с углом между xˆ и zˆ1 , введение в уравнение нового фактора zˆ2 не меняет коэффи- циент детерминации. Понятно также и то, что во всех остальных случаях (когда zˆ2 не ортогонален e) этот угол уменьшается и коэффициент детерминации растет.

После введения дополнительного фактора

zˆ2

в уравнение максимально коэффициент детерми- нации может увеличиться до единицы. Это про- изойдет, если zˆ2 является линейной комбинацией xˆ и zˆ1.

Рост коэффициента детерминации с увеличе- O нием количества факторов — свойство коэффи- циента детерминации, существенно снижающее его содержательное (статистическое) значение.

Введение дополнительных факторов, даже если они по существу не влияют на моделируемую пе-

A

C

D B

Рис. 7.3

ременную, приводит к росту этого коэффициента. И, если таких факторов введено достаточно много, то он начнет приближаться к единице. Он обязательно достигнет единицы при n = N − 1. Более приемлем в роли критерия качества коэффициент детерминации, скорректированный на число степеней свободы:

1

R˜2 = 1 − 1 − R2 N

N n − 1

( 1 − R2 — отношение остаточной дисперсии к объясненной, которые имеют, со- ответственно, N n − 1 и N − 1 степеней свободы), этот коэффициент может снизиться после введения дополнительного фактора. Однако наиболее правильно при оценке качества уравнения ориентироваться на показатель pv статистики F c.

Скорректированный коэффициент детерминации построен так, что он, так сказать, штрафует за то, что в модели используется слишком большой набор факторов. На этом же принципе построено и большинство других критериев, используемых

7.3. Независимые факторы: спецификация модели 239

e

для выбора модели: на них положительно отражается уменьшение остаточной дис- персии s2(z1) (здесь имеется в виду смещенная оценка дисперсии из регрессии по z1 ) и отрицательно — количество включенных факторов n1 (без константы). Укажем только три наиболее известных критерия (из огромного числа предложенных

в литературе):

Критерий Маллоуза:

e

Cp = s2(z1)+

2(n1 + 1)

N

e

sˆ2(z),

e

где sˆ2(z) — несмещенная оценка дисперсии в регрессии с полным набором факто-

ров.

Информационный критерий Акаике:

e

AIC = ln .s2(z1). +

2(n1 + 1) .

N

Байесовский информационный критерий (критерий Шварца):

ln(N )(n1 + 1)

e

BIC = ln .s2(z1). + .

N

В тех же обозначениях скорректированный коэффициент детерминации имеет вид

˜2 e

s2(z1)

R = 1

s2

N − 1 ,

e (∅) N n1 − 1

e

где s2(∅) — остаточная дисперсия из регрессии с одной константой.

Регрессия тем лучше, чем ниже показатель Cp ( AIC , BIC ). Для R˜2 используется противоположное правило — его следует максимизировать. Вместо R˜2 при неиз- менном количестве наблюдений N можно использовать несмещенную остаточную

дисперсию sˆ2 = sˆ2(z1), которую уже следует минимизировать.

e e

В идеале выбор модели должен происходить при помощи полного перебора воз- можных регрессий. А именно, берутся все возможные подмножества факторов z1 , для каждого из них оценивается регрессия и вычисляется критерий, а затем выби-

рается набор z1 , дающий наилучшее значение используемого критерия.

e

Чем отличается поведение критериев R˜2 ( sˆ2 ), Cp , AIC , BIC при выборе моде- ли? Прежде всего, они отличаются по степени жесткости, то есть по тому, насколько велик штраф за большое количество факторов и насколько более «экономную» мо- дель они имеют тенденцию предлагать. R˜2 является наиболее мягким критерием. Критерии Cp и AIC занимают промежуточное положение; при больших N они ве- дут себя очень похоже, но Cp несколько жестче AIC , особенно при малых N . BIC является наиболее жестким критерием, причем, как можно увидеть из приведенной формулы, в отличие от остальных критериев его жесткость возрастает с ростом N .

Различие в жесткости проистекает из различия в целях. Критерии Cp и AIC на- правлены на достижение высокой точности прогноза: Cp направлен на миними- зацию дисперсии ошибки прогноза (о ней речь пойдет в следующем параграфе),

240 Глава 7. Основная модель линейной регрессии

а AIC — на минимизацию расхождения между плотностью распределения по ис- тинной модели и по выбранной модели. В основе BIC лежит цель максимизации вероятности выбора истинной модели.

  1. Оценки коэффициентов регрессии при факторах, ранее введенных в уравне- ние, как правило, меняются после введения дополнительного фактора. Они оста- ются прежними в двух и только двух случаях: а) если неизменным остается ко- эффициент детерминации и выполняется условие (7.53) (в этом случае уравнение в целом остается прежним, т.к. a2 = 0); б) если новый фактор ортогонален старым ( zˆ1 и zˆ2 линейно не зависят друг от друга), т.е.

1

m12 = N Zˆt Zˆ

A

= 0 (7.61)

1 2

(в этом случае объясненная дисперсия равна сумме C дисперсий, объясненных факторами zˆ1 и zˆ2 по от- O F дельности).

11

Действительно, в соотношении (7.58) M 1m12 не может равняться нулю при m12 ƒ= 0, т.к. M11 невырожденная матрица. Поэтому из данного со-

отношения следует, что оценки a1 не меняются, если a2 = 0 (случай «а») или/и m12 = 0 (случай

«б»).

D

E

B

Рис. 7.4

Случай «а», как это следует из (7.59), возникает, когда выполняется (7.53). В случае «б» соотношение (7.60) переписывается следующим образом:

s2 (7.9)

a=a1 r

1

q = mr a + m2a2

= m a1 + m2a2,

1 1 1

т.к. вторая (нижняя) часть системы (7.55) означает в этом случае, что m22a2 = m2 , т.е. a2 — оценка параметра в регрессии xˆ по zˆ2 :

xˆ = zˆ2a2 + e2 = s2 + s2 , (7.62)

q2

где s2

q q2

— дисперсия xˆ, объясненная только zˆ2 .

Что и требовалось доказать.

Иллюстрация случая «а» при n1 = 1 достаточно очевидна и дана выше. Рисунок 7.4 иллюстрирует случай «б». На этом рисунке: OA xˆ, OB zˆ1 , OC zˆ2 ,

EA e, нормаль xˆ

на zˆ1 , FA e2 , нормаль xˆ на

zˆ2 , DA e , нормаль

xˆ на плоскость, определенную

zˆ1 и

zˆ2 , ED — нормаль к

zˆ1 , FD — нормаль

к zˆ2 .

Понятно (геометрически), что такая ситуация, когда точка E является одновре-

менно началом нормалей EA и ED, а точка F — началом нормалей FA и FD, возможна только в случае, если угол COB равен 90 .

7.3. Независимые факторы: спецификация модели 241

1

Но именно этот случай означает (как это следует из рисунка) одновременное вы- полнение соотношений регрессий (7.51) ( OE + EA = OA), (7.52) (при a = a1 )

( OE +OF +DA = OA) и (7.62) ( OF +FA = OA), т.е. что введение нового фактора не меняет оценку при «старом» факторе, а «новая» объясненная дисперсия равна сумме дисперсий, объясненных «старым» и «новым» факторами по отдельности (сумма квадратов длин векторов OE и OF равна квадрату длины вектора OD).

На основании сделанных утверждений можно сформулировать такое правило введения новых факторов в уравнение регрессии: вводить в ре- грессию следует такие факторы, которые имеют высокую корреляцию с остатками по уже введен-

ным факторам и низкую корреляцию с этими уже O введенными факторами. В этом процессе следует пользоваться F -критерием: вводить новые фак-

торы до тех пор, пока уменьшается показатель pv F -статистики.

В таком процессе добавления новых факторов в регрессионную модель некоторые из ранее вве-

A

D C

B

Рис. 7.5

денных факторов могут перестать быть значимыми, и их следует выводить из урав- нения.

Эту возможность иллюстрирует рисунок 7.5 в пространстве наблюдений при n1 = 1.

На этом рисунке: OA xˆ, OB— кость, определенную zˆ1 и zˆ2 .

zˆ1 , OC zˆ2 , AD — нормаль xˆ

на плос-

Рисунок показывает, что нормаль AD «легла» на вектор вновь введенного фактора. Следовательно, «старый» фактор входит в «новую» регрессию с нулевым коэффи- циентом.

Это — крайний случай, когда «старый» фактор автоматически выводится из уравне- ния. Чаще встречается ситуация, в которой коэффициенты при некоторых «старых» факторах оказываются слишком низкими и статистически незначимыми.

Процесс, в котором оценивается целесообразность введения новых факторов и выведения ранее введенных факторов, называется шаговой регрессией. В раз- витой форме этот процесс можно организовать следующим образом.

Пусть z — полный набор факторов, потенциально влияющих на x. Рассмат- ривается процесс обращения матрицы ковариации переменных x, z, в начале ко- торого рядом с этой матрицей записывается единичная матрица. С этой парой мат- риц производятся одновременные линейные преобразования. Известно, что если первую матрицу привести таким образом к единичной, то на месте второй будет по- лучена матрица, обратная к матрице ковариации. Пусть этот процесс не завершен,

242 Глава 7. Основная модель линейной регрессии

и только n1 строк первой матрицы, начиная с ее второй строки (т.е. со стро- ки первого фактора), преобразованы в орты; z1 — множество факторов, строки которых преобразованы в орты, z2 — остальные факторы. Это — ситуация на те- кущем шаге процесса.

В начале процесса пара преобразуемых матриц имеет вид (над матрицами по- казаны переменные, которые соответствуют их столбцам):

x z1 z2

 

m mt mt

x z1 z2

 

1 0 0

xx 1 2   

   

m1 M11 M12

и 0 I1 0 ,

12

m2 M t

M22

 

 

 

0 0 I2

где

N

mxx = 1 Xˆ tXˆ

  • дисперсия x ,

m1 = 1 Zˆ X — вектор-столбец коэффициентов ковариации z1 и x ,

N 1 ˆ

m2 = 1 Zˆ X — вектор-столбец коэффициентов ковариации z2 и x ,

N 2 ˆ

M11 = 1 Zˆt Zˆ

    • матрица коэффициентов ковариации z

между собой,

N 1 1 1

M12 = 1 Zˆt Zˆ

    • матрица коэффициентов ковариации z

и z ,

N 1 2 1 2

M22 = 1 Zˆt Zˆ

    • матрица коэффициентов ковариации z

между собой.

N 2 2 2

На текущем шаге эти матрицы преобразуются к виду:

x z1 z2

 

m mt M 1m

mt M 1

mt mt M 1M12

xx

1 1 1 1 1

2 1 1

←−−a1 −→

←−−−−−−ce2−−−−−→

0 I1 0

 

 

m2 M t

M 1m1 M t

M −1

M2 M t

M −1M12

12 1

12 1

12 1

x z1 z2

 

1 0 0

 

 

и

 .

M 1m1

M −1

M −1

M12

1 

 

0 0 I2

7.3. Независимые факторы: спецификация модели 243

Информация, используемая в шаговой регрессии, расположена в 1-й строке первой матрицы: остаточная дисперсия в текущей регрессии (в столбце x), коэф- фициенты a1 текущей регрессии при переменных z1 (в столбцах z1), коэффи- циенты ce2 ковариации текущих остатков e с переменными z2, не включенными в текущую регрессию (в столбцах z2).

Для введения очередного фактора в регрессию (шаг вперед) следует его строку в первой матрице преобразовать в орт, для исключения фактора из регрессии (шаг назад) следует преобразовать в орт его строку во второй матрице. Шаг вперед увеличивает количество элементов в векторе z1 на единицу и сокращает на единицу количество элементов в векторе z2. Шаг назад приводит к обратным изменениям. Последствия любого из этих шагов можно оценить по F -критерию, рассчитав показатель pv F c-статистики (информацию для такого расчета дает остаточная дисперсия — первый элемент первой строки первой матрицы).

На текущем шаге процесса проверяются последствия введения всех ранее не введенных факторов z2 и исключения всех введенных факторов z1. Выби- рается тот вариант, который дает минимальное значение показателя pv. Процесс заканчивается, как только этот показатель перестает падать. В результате опреде- ляется наилучшая регрессия. Такой процесс не приводит, как правило, к включению в регрессию сильно коррелированных факторов, т.е. позволяет решить проблему мультиколлинеарности.

Если бы расчеты проводились в стандартизированной шкале (по коэффици- ентам корреляции, а не ковариации), «кандидатом» на введение был бы фактор с максимальным значением показателя в множестве ce2 (как было показано вы- ше), а на исключение — фактор с минимальным значением показателя в множе- стве a1. Но даже в этом случае для окончательного выбора (вводить-исключать) и решения вопроса о завершении процесса требуется использование F -критерия. При «работе» с коэффициентами ковариации использование F -критерия необ- ходимо.

На последних шагах процесса, при приближении к минимуму критериального показателя pv, его величина меняется, как правило, весьма незначительно. Поэто- му один из возможных подходов к использованию шаговой регрессии заключается в определении некоторого множества регрессий, получаемых на последних шагах процесса, которые практически одинаковы по своему качеству. И на этом мно- жестве следует делать окончательный выбор, пользуясь содержательными крите- риями.

Иногда процесс шаговой регрессии предлагают строить на основе t-критерия: фактор вводится в уравнение, если его t-статистика больше некоторой заданной величины t1, выводится из уравнения, если эта статистика меньше заданной вели- чины t2; как правило, t1 > t2. Такой процесс не гарантирует получение наилучшей

244 Глава 7. Основная модель линейной регрессии

регрессии, его использовали в то время, когда вычислительные возможности были еще слабо развиты, и, в частности, точные значения показателя pv было трудно определить.

Соседние файлы в папке Диплом