Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Диплом / suslov_ibragimov_ekonometrika

.pdf
Скачиваний:
41
Добавлен:
24.03.2015
Размер:
5.55 Mб
Скачать

232

Глава7.Основная модель линейной регрессии

Рассчитывается t-статистика

 

 

tjc =

aj

,

(7.46)

 

 

 

 

söaj

 

которая в рамках нулевой гипотезы,как это следует из(7.44),имеет

t-распреде-

ление.

 

 

 

 

Проверка нулевой гипотезы осуществляется по схеме,неоднократно применяемой вIчасти книги.В частности,если уровень значимости t-статистики sl (напо-

минание: sl таково,что tcj = tN −n−1,sl )не превышает θ (обычно 0.05),тонулевая гипотеза отвергается с ошибкой(1-го рода) θ и принимается,что αj =! 0.В про-

тивном случае,если нулевую гипотезу не удалось отвергнуть,считается,что j -й фактор не значим,и его не следует вводить в модель.

Операции построения доверительного интервала и проверки нулевой гипотезы в данном случае в определенном смысле эквивалентны.Так,если построенный доверительный интервал содержит нуль,то нулевая гипотеза не отвергается,и наоборот.

Гипотеза о нормальности ошибок позволяет проверить еще один тип нулевой гипотезы: αj = 0, j = 1, . . . , n,т.е.гипотезы о том,что модель некорректна и все факторы введены в нее ошибочно.

При построении критерия проверки данной гипотезы уравнение регрессии используется в сокращенной форме,и условие(7.40)записывается в следующей форме:

a N ,α,

σ2

.,

 

N M −1

(7.47)

где a и α Ñвектора коэффициентов при факторных переменных размерности n, M Ñматрица ковариации факторных переменных.Тогда

σ2

0a! − α!1M (a − α) χn2 .

(7.48)

N

 

 

Действительно:

Матрица M −1 вслед за M являетсявещественной,симметричной и положительно полуопределенной,поэтому ее всегда можно представить в виде:

M −1 = C C ",

(7.49)

где C Ñквадратная неособенная матрица.

Чтобы убедиться в этом,достаточно вспомнить(6.29)и записать аналогичные соотношения: M −1Y = Y Λ, Y "Y = Y Y " = In , Λ " 0,где Y Ñматрица,столбцы

7.2.Основные гипотезы,свойства оценок

 

 

 

 

233

которой есть собственные вектора M −1, Λ Ñдиагональная матрица соответству-

ющих собственных чисел.Тогда

 

 

 

 

 

 

 

 

 

 

M −1 = Y ΛY " = Y Λ0.5 Λ0.5Y "

 

 

 

 

 

 

 

 

 

 

 

C

 

C

 

 

 

 

 

 

 

 

 

←−−−→←−−−→!

 

(см.ПриложениеA.1.2).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вектор случайных величин u =

N

C −1(a −α) обладает следующими свойствами:

 

 

 

σ

по построению E(u) = 0,и в силу того,что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(7.47) σ2

 

 

E ((a − α)(a − α)") =

 

M −1,

 

 

N

 

 

N

 

 

 

 

 

 

 

 

 

(7.49)

cov(u) = E (uu") =

 

C −1E

((a

α)(a

α)") C "−1 = C −1M −1C "−1 =

I .

σ2

 

 

 

 

 

 

 

 

 

 

n

Следовательно,по определению

χ2

случайная величина

 

 

u"u =

N

(a" − α") C "−1C −1 (a − α)

 

 

σ2

 

 

 

 

 

 

 

 

 

 

 

M

 

 

 

 

 

 

 

 

 

 

 

←−−−−−→

 

имеет указанное распределение(см.ПриложениеA.3.2).

Как былопоказано выше, e и a не коррелированы,поэтому не коррелированы случайныевеличины,определенныев(7.43,7.48),ивсоответствиисопределением случайной величины,имеющей F -распределение:

 

σ2 0a! − α!1M (a − α) (N − n − 1) Yσ!2

n Fn, N −n−1.

 

N

 

 

 

 

 

 

 

 

 

 

 

e e

 

 

 

Отсюда следует,что при нулевой гипотезе

α = 0

 

 

 

 

 

 

 

a!M a (N

n

1) (7.9)

s2 (N

n

1)

 

 

 

!

 

=

q

 

 

 

 

F

,

 

 

 

e

 

 

 

 

"N n

 

 

 

 

 

 

 

 

 

n, N −n−1

 

 

 

(e e)

 

 

 

 

 

s2n

 

 

 

 

 

или

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R2 (N − n − 1)

= F c

 

F

 

 

.

(7.50)

 

 

 

 

(1 − R2) n

 

 

 

n, N −n−1

 

 

Сама проверка нулевой гипотезы проводится по обычной схеме.Так,если значениевероятности pv статистики F c (величина,аналогичная sl для t-статистики) не превышает θ (например, 0.05),нулевая гипотеза отвергается с вероятностью ошибки θ,и модель считается корректной.В противном случае нулевая гипотеза не отвергается,и модель следует пересмотреть.

234

Глава7.Основная модель линейной регрессии

7.3.Независимые факторы:спецификация модели

В этом пункте используется модель линейной регрессии в сокращенной форме,поэтому переменные берутся в центрированной форме,а m и M Ñвектор и матрица соответствующих коэффициентов ковариации переменных.

Под спецификацией модели в данном случае понимается процесс и результат определения набора независимых факторов.При построении эконометрической модели этот набор долженобосновываться экономической теорией.Но это удается не во всех случаях.Во-первых,не все факторы,важные с теоретической точки зрения,удается количественно выразить.Во-вторых,эмпирический анализ часто предшествует попыткам построения теоретической модели,и этот набор просто неизвестен.Потому важную роль играют и методы формального отбора факторов, также рассматриваемые в этом пункте.

В соответствии с гипотезой g2 факторные переменные не должны быть линейно зависимыми.Иначе матрица M в операторе МНК-оценивания будет необратима.Тогда оценки МНК по формуле a = M −1m невозможно будет рассчитать, но их можно найти,решая систему нормальных уравнений(6.14):

M a = m.

Решений такой системы нормальных уравнений(в случае необратимости матрицы M )будет бесконечно много.Следовательно,оценки нельзя найти однозначно, т.е.уравнение регрессии невозможно идентифицировать.Действительно,пусть оценено уравнение

xö = zö1a1 + e,

(7.51)

где zö1 Ñвектор-строка факторных переменных размерности n1, a1 Ñвекторстолбец соответствующих коэффициентов регрессии,и пусть в это уравнение вводится дополнительный фактор zö2,линейно зависимый от zö1,т.е. zö2 = zö1c21.

Тогда оценка нового уравнения

xö = zö1a1 + zö2a2 + e

(7.52)

(ÇзвездочкойÈпомечены новые оценкиÇстарыхÈвеличин)эквивалентна оценке

уравнения xö = zö1 (a1 + a2c21) + e .Очевидно,что a1 = a1 + a2c21, e = e ,и,произвольно задавая a2,можно получать множество новых оценок a1 = a1 − a2c21.

Логичнее всего положить a2 = 0,т.е.не вводить фактор zö2.Хотя,если из содержательных соображений этот фактор следует все-таки ввести,то тогда надо исключить из уравнения какой-либо ранее введенный фактор,входящий в zö1.Таким образом,вводить в модель фактор ы,линейно зависимые от уже введенных, бессмысленно.

Рис. 7.1

7.3.Независимые факторы:спецификация модели

235

Случаи,когда на факторных переменных су-

A

ществуют точные линейные зависимости,встре-

 

чаются редко.Гораздо более распространена си-

 

туация,в которой зависим ости между фактор-

 

ными переменными приближаются к линейным.

 

Такаяситуацияназываетсямультиколлинеарно-

O

 

стью.Она чревата высокими ошибками получа-

 

емых оценок и высокой чувствительностью ре-

 

зультатов оценивания к ошибкам в факторных

C

переменных,которые,несмотря на гипотезу g2,

 

обычно присутствуют в эмпирическом анализе.

B

Действительно,в так ой ситуации матрица M плохо обусловлена и диагональные элементы

M −1,определяющие дисперсии оценок,мог ут принимать очень большие значения. Кроме того,даже небольшие изменения в M ,связанные с ошибками в факторных переменных,могут повлечь существенные изменения в M −1 и,как следствие, Ñ в оценках a.

Последнеенаглядноиллюстрируетсярисунком(рис.7.1)впространственаблюдений при n = 2.

На этом рисунке: OA Ñ xö, OB Ñ zö1, OC Ñ zö2.

Видно,что факторные переменные сильно коррелированы(угол между соответствующими векторами мал).

Поэтому даже небольшие колебания этих векторов,связанные с ошибками,значительно меняют положение плоскости,кот орую они определяют,и,соответственно, Ñнормали на эту плоскость.

Изрисункавидно,чтооценкипараметроврегрессииÇслегкостьюÈменяютнетолько свою величину,но и знак.

По этим причинам стараются избегать ситуации мультиколлинеарности. Для этого в уравнение регрессии не включают факторы,сильно коррелированные с другими.

Можно попытаться определить такие факторы,анализируя матрицу коэффициентов корреляции факторных переменных S−1M S−1,где S Ñдиагональная матрица среднеквадратических отклонений.Если коэффициент sj j ! этой матрицы достаточно большой,например,выше 0.75,то один из пары факторов j и j! не следует вводить в уравнение.Однако такого элементарногоÇпарногоÈанализа может оказаться не достаточно.Надежнее построить все регрессии на множестве факторных переменных,последовательн о оставляя в левой части уравнения эти переменные по отдельности.И не вводить в уравнение специфицируемой модели(с x в левой части)те факторы,уравнения регрессии для которых достаточно значимы по F -критерию(например,значение pv не превышает 0.05).

236

Глава7.Основная модель линейной регрессии

AОднако в эмпирических исследованиях могут

возникать ситуации,когда тольковведение сильно

D коррелированных факторов может привести к построению значимой модели.

O

 

Это утверждениеможно проиллюстрироватьри-

 

сунком(рис.7.2)впространственаблюденийпри

 

n = 2.

 

Наэтом рисунке: OA Ñ xö, OB Ñ zö1, OC Ñ

C

2, AD Ñнормаль на плоскость,определяе-

 

мую векторами OB и OC , OD Ñпроекция

B

OA на эту плоскость.

Рис. 7.2

Из рисунка видно,что zö1 и zö2 по отдельности

необъясняют xö (углымеждусоответствующими

 

векторами близки к 90),но вместе они определяют плоскость,угол между которой и вектором OA очень мал,т.е.коэффициент детерминации в регрессии xö на zö1, zö2 близок к единице.

Рисунок такжепоказывает,чтотакая ситуация возможна толькоеслифакторысильно коррелированы.

В таких случаях особое внимание должно уделяться точности измерения факторов.

Далее определяются последствия введения в уравнение дополнительного фактора.Для этого сравниваются оценки уравнений(7.51, 7.52)в предположении, что zö2 линейно независим от zö1.

В этом анализе доказываются два утверждения.

1)Введение дополнительного фактора не может привести к сокращению коэффициента детерминации,в большинст ве случаев он растет(растет объясненная дисперсия).Коэффициент детерминации остается неизменным тогда и только тогда,когда вводимый фактор ортогонале н остаткам в исходной регрессии(линейно независим от остатков),т.е.когда

m

2e

=

1

Zö! e = 0

(7.53)

 

 

 

N

2

 

 

 

 

 

 

(понятно,что коэффициент детерминации не меняется ив случае линейной зависимости zö2 от zö1,но такой случай исключен сделанным предположением о линейной независимости этих факторов;в дальн ейшем это напоминание не делается).

Для доказательства этого факта проводятся следующие действия. Записываются системы нормальных уравнений для оценки регрессий(7.51, 7.52):

m1 = M11a1,

(7.54)

7.3.Независимые факторы:спецификация модели

 

 

 

 

 

 

237

 

 

 

 

 

 

 

 

 

m1

=

M11

m12 a1 ,

 

 

 

 

 

(7.55)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m2

 

m21

m22 a2

 

 

 

 

 

 

 

где m1

=

1

Zö"

Xö ,

m2 =

1

Zö" Xö

, M11 =

1

Zö" Zö1,

m12 = m"

=

1

Zö" Zö2,

 

 

 

 

 

1

 

N

1

 

 

 

 

 

 

 

N

2

 

 

 

N

1

 

 

21

 

N

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m22 =

Zö" Zö2.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Далее,с помощью умножения обеих частей уравнения(7.51),расписанного по на-

блюдениям,слева на

 

1

Zö"

,устанавливается,что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(7.53)

 

 

 

 

 

 

 

 

 

(7.56)

 

 

 

 

 

 

 

 

 

 

 

m2 − m21a1

= m2e ,

 

 

 

 

 

 

а из регрессии

ö

 

 

ö

 

 

+ e21,в которой по предположению e21 != 0,находится

Z2

= Z1a21

остаточная дисперсия:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

(7.9)

 

− m21M11−1m12

 

 

 

 

 

 

 

 

 

 

 

se221 =

 

e21" e21

=

m22

> 0.

 

 

 

 

(7.57)

 

 

 

 

 

N

 

 

 

 

Из первой(верхней)части системы уравнений(7.55)определяется:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(7.54)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M11a1 + m12a2 = m1 =

M11a1,

 

 

 

 

 

 

и далее

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a1 = a1 − M11−1m12a2.

 

 

 

 

 

 

(7.58)

Из второй(нижней)части системы

уравнений(7.55)определяется:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

58)

 

 

 

0a1 − M11−1m12a2

1.

 

 

 

Откуда

m22a2 = m2 − m21a1 (7=.

 

m2

− m21

 

 

 

 

 

 

 

 

 

0m22 − m21M11−1m121a2 = m2 − m21a1

 

 

 

 

 

и,учитывая(7.56, 7.57),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

se221a2 = m2e .

 

 

 

 

 

 

 

 

(7.59)

Наконец,определяется объясненная дисперсия после введения дополнительного

фактора:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(7.9)

 

 

 

 

(7.58)

m1" a1

+ m2 − m1" M11−1 m12

 

(7.56)

+ m2ea2,

sq2 =

m1" a1 + m2a2

=

 

a2 =

sq2

 

 

 

 

 

 

 

 

 

 

 

←−−→sq

 

 

←−−−−→1!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

a

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(7.60)

238

Глава7.Основная модель линейной регрессии

 

т.е.

 

 

 

 

(7.59)

 

m2

 

sq2 =

sq2 +

2e

.

 

s2

 

 

 

e21

Что и требовалось доказать.

Это утверждение легко проиллюстрировать рисунком7.3в пространстве наблюдений при n1 = 1.

На этом рисунке: OA Ñ xö, OB Ñ zö1, OC Ñ zö2, AD Ñнормаль xö на

1

( DA Ñвектор e).

 

 

 

 

Рисунок показывает,что если

2 ортогонален e,то нормаль

xö на плоскость,опре-

деляемую zö1 и zö2,совпадает с

AD ,т.е.угол между этой плоскостью и xö совпадает

с углом между xö и zö1,введение в уравнение нового фактора

2 не меняет коэффи-

циент детерминации.Понятно также и то,что во всех остальных случаях(когда

2

не ортогонален e)этот угол уменьшается и коэффициент детерминации растет.

 

После введения дополнительного фактора zö2

 

 

 

в уравнение максимально коэффициент детерми-

A

 

 

нации может увеличиться до единицы.Это про-

 

 

 

изойдет,если zö2 является линейной комбинацией

 

 

 

xö и zö1.

 

 

 

 

Рост коэффициента детерминации с увеличе- O

 

 

 

нием количества факторовÑсвойство коэффи-

 

 

C

 

 

 

циента детерминации,существенно снижающее

D

B

 

его содержательное(стат истическое)значение.

 

 

 

 

 

 

Введение дополнительных факторов,даже если

Рис. 7.3

 

 

они по существу не влияют на моделируемую пе-

 

 

 

ременную,приводит к росту этого коэффициента.И,если таких факторов введено достаточно много,тоон начнет приближатьсяк единице.Онобязательнодостигнет единицы при n = N − 1.Более приемлем в роли критерия качества коэффициент детерминации,скорректированный на число степеней свободы:

 

(

 

 

) N − n − 1

R÷2 = 1

 

1

 

R2

N − 1

( 1 − R2 Ñотношение остаточной дисперсии к объясненной,которые имеют,соответственно, N − n − 1 и N − 1 степеней свободы),этот коэффициент может снизиться после введения дополнительного фактора.Однако н аиболее правильно при оценке качества уравнения ориентироваться на показатель pv статистики F c .

Скорректированный коэффициент детерминации построен так,что он,так сказать, штрафует за то,что в модели используется слишком большой набор факторов. На этом же принципе построено и большинство других критериев,используемых

7.3.Независимые факторы:спецификация модели

239

для выбора модели:на них положительно отражается уменьшение остаточной дисперсии s2e (z1) (здесь имеется в виду смещенная оценка дисперсии из регрессии по z1)и отрицательноÑколичество включенных факторов n1 (без константы). Укажемтолькотринаиболееизвестныхкритерия(изогромногочислапредложенных в литературе):

Критерий Маллоуза:

 

C

= s2(z

1

) +

2(n1 + 1)

2(z),

 

 

 

 

 

 

 

p

e

 

 

N

 

e

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где sö2

(z) Ñнесмещенная оценка дисперсии в регрессии с полным набором факто-

e

 

 

 

 

 

 

 

 

 

 

 

 

ров.

 

 

 

 

 

 

 

 

 

 

 

 

Информационный критерий Акаике:

 

 

 

 

 

 

 

 

AI C = ln 02πse2(z1)1 +

2(n1 + 1)

.

 

 

 

N

 

 

Байесовский информационный критерий (критерий Шварца):

 

BI C = ln 02πse2(z1)1

+

ln(N )(n1

+ 1)

.

 

 

 

N

 

 

В тех же обозначениях скорректированный коэффициент детерминации имеет вид

 

R÷2 = 1

se2(z1)

N − 1

,

 

 

 

 

 

 

 

 

 

 

 

 

se2( ) N − n1 − 1

 

 

 

 

 

где se2( ) Ñостаточная дисперсия из регрессии с одной константой.

 

 

 

 

 

 

 

 

 

÷

2

используется

Регрессиятемлучше,чемнижепоказатель Cp ( AI C , BI C ).Для R

 

противоположное правилоÑего следует максимизировать.Вместо

 

÷

2

при неиз-

 

R

 

менном количестве наблюдений N можно использовать несмещенную остаточную

дисперсию sö2

= sö2(z1),которую уже следуе т минимизировать.

 

 

 

 

e

e

 

 

 

 

 

 

 

 

В идеале выбор модели должен происходить при помощи полного перебора возможных регрессий.А именно,берутся все возможные подмножества факторов z1, для каждого из них оценивается регрессия и вычисляется критерий,а затем выбирается набор z1,дающий наилучшее значение используемого критерия.

÷2

2

при выборе моде-

Чем отличается поведение критериев R

( söe ), Cp , AI C , BI C

ли?Прежде всего,они отличаются по степени жесткости,то есть по тому,насколько велик штраф за большое количество факторов и насколько болееÇэкономнуюÈмо-

дель они имеют тенденцию предлагать. ÷2 является наиболее мягким критерием.

R

Критерии Cp и AI C занимаютпромежуточноеположение;прибольших N ониведутсебя оченьпохоже,но Cp несколькожестче AI C ,особенно прималых N . BI C является наиболее жестким критерием,причем,как можно увидеть из приведенной формулы,в отличие от остальных критериев его жесткость возрастает с ростом N .

Различие в жесткости проистекает из различия в целях.Критерии Cp и AI C направлены на достижение высокой точности прогноза: Cp направлен на минимизацию дисперсии ошибки прогноза(о ней речь пойдет в следующем параграфе),

240

Глава7.Основная модель линейной регрессии

а AI C Ñна минимизацию расхождения между плотностью распределения по истинной модели и по выбранной модели.В основе BI C лежит цель максимизации вероятности выбора истинной модели.

2)Оценки коэффициентов регрессии при факторах,ранее введенных в уравнение,как правило,меняются после введения дополнительного фактора.Они остаются прежними в двух и только двух случаях:а)если неизменным остается коэффициент детерминации и выполняется условие(7.53) (в этом случае уравнение в целом остается прежним,т.к. a2 = 0);б)если новый фактор ортогонален старым ( zö1 и zö2 линейно не зависят друг от друга),т.е.

 

 

 

1

 

 

 

A

m

12

=

Zö!

Zö = 0

(7.61)

 

 

 

 

 

N

1

2

 

 

 

 

 

 

 

 

 

(в этом случае объясненная дисперсия равна сумме

C

дисперсий,объясн енных факторами zö1

и zö2 по от-

O

 

 

 

 

 

 

 

F

дельности).

 

 

 

 

 

 

 

Действительно,в соотношении(7.58)

M11−1m12

D

E

не может равняться нулю при m12 != 0,т.к. M11

 

невырожденная матрица.Поэтому из данного со-

B

отношения следует,что оценки

a1 не меняются,

 

если a2 = 0 (случайÇаÈ)или/и

m12

= 0 (случай

Рис. 7.4

ÇбÈ).

 

 

 

 

 

СлучайÇаÈ,как это следует из(7.59),воз

никает,когда выполняется(7.53).

В случаеÇбÈсоотношение(7.60)переписывается следующим образом:

(7.9)

a =a1

m1" a1 + m2a2,

sq2 = m1" a1 + m2a2 1=

т.к.вторая(нижняя)часть системы(7.55)означает в этом случае,что m22a2 = m2,

т.е. a2

Ñоценка параметра в регрессии

xö по zö2:

 

 

 

xö = zö a

2

+ e

2

= s2

+ s2

,

(7.62)

 

2

 

 

q

q2

 

 

где s2

Ñдисперсия xö,объясненная только

zö .

 

 

q2

 

 

 

 

 

2

 

 

 

Что и требовалось доказать.

Иллюстрация случаяÇаÈпри n1 = 1 достаточно очевидна и дана выше.Рисунок7.4

иллюстрирует случайÇбÈ.На этом рисунке:

OA Ñ xö, OB Ñ zö1, OC Ñ zö2,

EA Ñ e,нормаль xö на zö1, F A Ñ e2

,нормаль xö на

2, DA Ñ e ,нормаль

xö на плоскость,определенную zö1 и zö2

, ED Ñнормаль к zö1, F D Ñнормаль

к zö2.

 

 

 

Понятно(геометрически),что такая ситуация,когда точка

E является одновре-

менно началом нормалей EA и ED ,а точка

F Ñначалом нормалей F A и F D ,

возможна только в случае,если угол C OB равен 90.

 

7.3.Независимые факторы:спецификация модели

241

Но именно этот случай означает(как это следует из рисунка)одновременное выполнение соотношений регрессий(7.51) ( OE + EA = OA), (7.52) (при a1 = a1) ( OE +OF +DA = OA)и(7.62)( OF +F A = OA),т.е.чтовведениеновогофактора не меняет оценку приÇстаромÈфакторе,аÇноваяÈобъясненная дисперсия равна сумме дисперсий,объясненныхÇстарымÈиÇновымÈфакторами по отдельности (сумма квадратов длин векторов OE и OF равна квадрату длины вектора OD ).

На основании сделанных утверждений можно сформулировать такое правило введения новых факторов в уравнение регрессии:вводить в регрессию следует такие факторы,которые имеют высокую корреляцию с остатками по уже введенным факторам и низкую корреляцию с этими уже введенными факторами.В этом процессе следует пользоваться F -критерием:вводить новые факторы до тех пор,пока уменьшается показатель pv F -статистики.

A

O

D C

B

В таком процессе добавления новых факторов

Рис. 7.5

в регрессионную модель некоторые из ранее вве-

 

денных факторов могут перестать быть значимыми,и их следует выводить из уравнения.

Этувозможностьиллюстрируетрисунок7.5впространственаблюденийпри

n1 = 1.

На этом рисунке: OA Ñ xö, OB Ñ zö1, OC Ñ zö2, AD Ñнормаль xö

на плос-

кость,определенную zö1 и zö2.

 

Рисунокпоказывает,чтонормаль AD ÇлеглаÈнавекторвновьвведенногофактора. Следовательно, ÇстарыйÈфактор входит вÇновуюÈрегрессию с нулевым коэффициентом.

ЭтоÑкрайнийслучай,когдаÇстарыйÈфакто равтоматическивыводитсяиз уравнения.Чаще встречается ситуация,в которой коэффициенты при некоторыхÇстарыхÈ факторах оказываются слишком низкими и статистически незначимыми.

Процесс,в котором оценивается целесообразность введения новых факторов и выведения ранее введенных факторов,называется шаговой регрессией.В развитой форме этот процесс можно организовать следующим образом.

Пусть z Ñполный набор факторов,потенциально влияющих на x.Рассматривается процесс обращения матрицы ковариации переменных x, z,в начале которого рядом с этой матрицей записывается единичная матрица.С этой парой матриц производятся одновременные линейные преобразования.Известно,что если первую матрицу привести таким образом к единичной,то на месте второй будет получена матрица,обратная к матрице ковариации.Пусть этот пр оцесс не завершен,

Соседние файлы в папке Диплом