Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Диплом / suslov_ibragimov_ekonometrika

.pdf
Скачиваний:
41
Добавлен:
24.03.2015
Размер:
5.55 Mб
Скачать

142

Глава4.Введение в анализ связей

В случае независимости признаков,когда αi1i2 = αi1 α i2 ,как несложно убедиться,ковариация равна нулю.Равенство ковариации нулю 2 является необходимым,но не достаточным усл овием независимости признаков,т.к.ковариацияÑ характеристика только линейной связи.Если ковариация равна нулю,признаки линейно независимы,но какая-то другая форма зависимости между ними может существовать.

Меройлинейнойзависимостиявляетсяотносительнаяковариация,называемая

коэффициентом корреляции:

r12 = √ m12 . m11m22

Этот коэффициент по абсолютной величине не превышает единицу(этот факт доказывается ниже).Если его значение близко к нулю,то признаки линейно независимы,если близко к плюс единицеÑме жду признаками существует прямая линейная зависимость,если близко к ми нус единицеÑсуществует обратная ли-

нейная зависимость.В частности,легко убедиться в том,что если

xöi1 = ±a12xö i2

(т.е.между признаками имеет место линейная зависимость),то

r12 = ±1.

Значения ковариацийикоэффициентов корреляциисимметричны: m12 = m21,

r12 = r21.

В дальнейшем рассуждения проводятся так,как будто1-й признак зависит от2-го(хотя с тем же успехом можно было бы говорить о зависимости2-го при- знакаот1-го).В таком случае переменная x1 (значения1-го признака)называется

объясняемой, моделируемой, эндогенной,а переменная x2 (значения2-го признака) Ñ объясняющей, факторной, экзогенной.

Наряду с общей средней1-го признака xø1 полезно рассчитать условные средние 1 | i2 3 Ñсредние1-го признака при условии,что2-й признак зафиксирован на определенном уровне i2.При расчете таких средних усреднение значений признаканаполуинтервалах проводится поотносительным частотам не маргинального (αi1 ),а соответствующих условных распределений( αi1 | i2 ):

xø1 | i2 = !xi1 αi1 | i2 .

Усреднение этих величин по весаммаргинального распределения2-го признака дает общее среднее:

xø1 = !i1

xi1 αi1 = !i2

!i1

xi1 αi1i2 = !i2

!i1

xi1 αi1 | i2 α i2 = !i2

xø1 | i2 α i2 .

 

 

 

2

Равенство или неравенство нулю понимается в статистическом смысле:не отвергается или от-

вергается соответствующая нулевая гипотеза.

 

 

 

 

3

В общем случае вектор условных средних признаков

ø

.

 

 

J обозначается xø ø

 

 

 

 

 

 

 

 

J/I(J)

 

 

4.2.Регрессионный анализ

143

В непрерывном случае эти формулы принимают вид:

E (x1|x2) =

- x1f (x1|x2) dx1, E (x1) =

- E (x1|x2) f (x2) dx2.

 

−∞

−∞

(Об условных и маргинальных распределениях см.Прил ожениеA.3.1.) Условные дисперсии признака рассчитываются следующим образом:

s12 | i2 = !(xi1 − xø1 | i2 )

αi1 | i2 .

 

2

Отклонения фактических значений признака от условных средних

ei1 | i2 = xi1 xø1 | i2

обладают,по определению,следующими свойствами: а)их средние равны нулю:

!

ei1 | i2 αi1 | i2 = 0,

б)их дисперсии,совпадающие с условн ыми дисперсиями признака,минимальны(суммы их квадратов минимальны среди сумм квадратов отклонений от какихлибо фиксированных значений признакаÑналичие этого свойства у дисперсий доказывалось в п. 2.4):

2

2

αi1 | i2

2

=

min

!

(x

i1 c)

2

αi1 | i2 .

se1 | i2

= !ei1 | i2

= s1 | i2

c

 

 

Общая дисперсия связана с условными дисперсиями более сложно:

s12 = !i21 αi1 = !i1

!i2

xöi21 αi1i2 =

 

 

= i1 i2

((xi1 − xø1 | i2 )

+ (1 | i2 − xø1))2 αi1i2 =

 

!!

(xi1 − xø1 | i2 )2

 

(xi1 − xø1 | i2 )(1 | i2 − xø1)αi1i2 +

= i1 i2

αi1i2 + 2 i1 i2

!!

 

 

!!

 

(1 | i2 − xø1)2 αi1i2 =

 

 

 

 

+ i1 i2

 

 

 

 

!!

 

144

 

 

 

 

 

 

 

 

 

Глава4.Введение в анализ связей

 

 

 

 

 

 

 

αi1

| i2

 

 

 

= i2

α i2

i1

 

(xi1 − xø1 | i2 )

 

←−−−→

+

 

 

 

 

 

α i2

 

 

!

 

!

 

 

2

 

α

 

 

 

 

 

 

 

 

 

 

 

 

i1i2

 

 

 

 

 

←−−−−−−−−−−−−−−−−−−−→s2

 

 

 

 

 

 

 

 

e1 | i2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=0

 

 

 

+ 2

i2

α i2 (1 | i2 − xø1)

←−−−−−−−−−−−−−−−−−−→

 

i1 (xi1 xø1 | i2 )

αi1 | i2 +

 

 

!

 

 

 

 

!

 

 

 

 

 

←−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−→

 

 

 

 

 

 

 

 

 

=0

(1 | i2 − xø1)2

i1

αi1i2 = se21 + sq21.

 

 

 

 

 

 

 

 

+ i2

 

 

 

 

 

 

 

 

 

!

 

!

 

←−−−−→

α i2

Равенство нулю среднего слагаемого в этой сумме означает,что отклонения фактических значений1-го признака от условных средних не коррелированы(линейно не связаны)с самим и условными средними.

В терминах регрессионного анализа

s2q1 Ñ объясненная дисперсия,т.е.та дисперсия1-го признака,которая объясняется вариацией2-го признака(в частности,когда признаки независимы и условные распределения1го признака одинаковы при всех уровнях2-го признака,то условные средние не варьирую т и объясненная дисперсия равна нулю);

s2e1 Ñ остаточная дисперсия.

Чем выше объясненная дисперсия по сравнению с остаточной,тем вероятнее, что2-й признак влияет на1-й.Количественную меру того,насколько объясненная дисперсия должна быть больше остаточной,чтобы это влияние можно было признать существенным(значимым),дает критерий Фишера,или F-критерий. Статистика этого критерия F c рассчитывается следующим образом:

F c =

sq21k2 (k1 − 1)

.

 

 

se21 (k2 − 1)

В случае если влияние2-го признака на1-й не существенно,эта величина имеет F-распределение (см.ПриложениеA.3.2).Такое распределение имеет случайная величина,полученная отношением двух случайных величин,имеющих χ2-распределение,деленных на кол ичество своих степеней свободы:

Fdf1, df2

=

χdf2

1 df2

.

χdf2

2 df1

 

 

 

Количество степеней свободы в числителе( df1)и знаменателе( df2)относится к параметрам F -распределения.

4.2.Регрессионный анализ

145

Рассуждая аналогично тому,какэто сделано вконце предыдущегопункта,можноустановить,чтообъясненнаядисперсия(вчислителе F -статистики)имеет k2−1 степеней свободы,а остаточная дисперсия(в знаменателе) Ñ k2(k1 −1) степеней свободы.Это объясняет указанный способ расчета данной статистики.

Чтобыпроверитьгипотезуоналичиивлияния2-гопризнакана1-й,необходимо сравнить расчетное значение статистики F c с теоретическимÑвзятым из соот- ветствующейстатистическойтаблицы95-процентнымквантилем(односторонним)

F -распределенияс k2 −1 и k2(k1 −1) степенямисвободы Fk2−1,k2(k1−1), 0.95.Если расчетное значение не превышает теоретическое,то нулевая гипотеза не отвер-

гается,и влияние считается не существенным.В противном случае(объясненная дисперсия достаточно велика по сравнению с остаточной)нулевая гипотеза отвергается и данное влияние принимается значимым.Современные статистические пакеты прикладных программ дают уровень значимости расчетной статистики,называемый в данном случае значением вероятности pv:

F c = Fk2−1, k2(k1−1), 1−pv .

Если pv < 0.05,то нулевая гипотеза отвергается с вероятностью ошибки 5%.

Линия,соединяющая точки

x i2 , xø1 | i2

в пространстве значений признаков

(абсциссаÑ 2-й признак,

ординатаÑ 1-й)называется линией регрессии,она по-

 

(

)

казывает зависимость1-го признака от2-го

.Условные средние,образующие эту

линию,являютсярасчетными(модельным и)илиобъясненнымиэтойзависимостью значениями1-го признака.Объясненна я дисперсия показывает вариацию значе- ний1-го признака,которые расположены на этой линии,остаточная дисперсияÑ вариацию фактических значений признака вокруг этой линии.

Линию регрессии можно провести непосредственно в таблице сопряженности. Это линия,которая соединяет клетки с максимальными в столбцах плотностями относительныхчастот.Понятно,чтоотакойлинииимеетсмыслговорить,еслиимеются явные концентрации плотностей относительных частот в отдельных клетках таблицы сопряженности.Критерием наличия таких концентраций как раз и является F -критерий.

В непрерывном случае уравнение

x1 = E (x1|x2)

называют уравнением регрессии x1 по x2,т.е.уравнением статистической зави- симости1-го признака от2-го(о свойствах условного математического ожидания см.ПриложениеA.3.1).Это уравнение вы ражаетстатистическую зависимость,поскольку показывает наиболее вероятное значение,которое принимает1-й признак при том или ином уровне2-го признака.В с лучае если2-й признак является единственным существенно влияющим на1-й признак,т.е.это уравнение выражает

s2e1

146

Глава4.Введение в анализ связей

теоретическую,истинную зависимость,э ти наиболее вероятные значения называют теоретическими,а отклонения от них фактических значенийÑ случайными ошибками измерения.Для фактических значений x1 это уравнение записывают со стохастическим членом,т.е.со случайной ошибкой,остатками,отклонением фактических значений от теоретических:

x1 = E (x1|x2) + ε1.

Случайные ошибки по построению уравнения регрессии имеют нулевое математическое ожидание и минимальную дисперсию при любом значении x2,они взаимно независимы со значениями x2.Эти факты обсуждались выше для эмпирического распределения.

В рассмотренной схеме регрессионного анализа уравнение регрессии можно построить лишь теоретически.На практике получают линию регрессии,по виду которой можно лишь делать предположения о форме и,тем более,о параметрах зависимости.

В эконометрии обычно используется другая схема регрессионного анализа. В этой схеме используют исходные значения признаков xi1, xi2, i = 1, . . . , N без предварительной группировки и построения таблицы сопряженности,выдвигают гипотезу о форме зависимости f : x1 = f (x2, A),где A Ñпараметры зависимости,и находят эти параметры так,чтоб ы была минимальной остаточная дисперсия

= 1 %(xi1 − f (xi2, A))2.

N i

Такой метод называется методом наименьших квадратов (МНК).

Ковариация и коэффициент корреляции непосредственно по данным выборки рассчитываются следующим образом:

mj j ! = N

!(xij − xøj )

0xij ! − xøj !

1, rj j ! = Gmj j m!

j !j ! , j, j! = 1, 2.

1

 

 

 

mj j

 

 

Далее в этом пункте рассматривается случай линейной регрессии,т.е.случай, когда

x1 = α12x2 + β1 + ε1,

(4.18)

где α12, β1, ε1 Ñистинные значения параметров регрессии и остатков.

Следует иметь в виду,что регрессия линейна,если форма зависимости признаков линейна относительно оцениваемых параметров,а не самих признаков,

4.2.Регрессионный анализ

147

и уравнения

 

x1 = α12

 

 

+ β1 + ε1,

 

x2

 

x1 = α12

1

+ β1 + ε1,

 

 

 

 

x2

 

ln x1 = α12 ln x2 + ln β1 + ln ε1

(x1 = x2α12 β1ε1) ,

и т.д.также относятся к линейной регрессии.Во всех этих случаях метод наименьших квадратов применяется одинаковым образом.Поэтому можно считать, что в записи(4.18) x1 и x2 являются результатом какого-либо функционального преобразования исходных значений.

Оценки параметров регрессии и остатков обозначаются соответствующими буквами латинского алфавита,и уравнение регрессии,записанное по наблюдениям i,имеет следующий вид:

xi1 = a12xi2 + b1 + ei1, i = 1, . . . , N,

(4.19)

а в матричной форме:

 

X1 = X2a12 + 1N b1 + e1,

(4.20)

где X1, X2 Ñвектор-столбцы наблюдений размерности N ,соответственно, за1-м и2-м признаками, e1 Ñвектор-столбец остатков; 1N Ñвектор-столбец размерности N ,состоящий из единиц.

Прежде чем переходить к оценке параметров

 

 

 

регрессии(применению метода наименьших x

1

 

 

 

 

квадратов),имеет смысл объяснить проис-

 

 

 

 

 

хождение терминаÇрегрессияÈ.Этот термин

 

 

 

введенанглийскимстатистикомФ.Гальтоном

 

 

<45¡

в последней четвертиXIXвека при изучении

 

 

 

 

зависимости роста сыновей от роста отцов.

 

 

 

Оказалось,что если по оси абсцисс распо-

 

 

 

ложить рост отцов( x2),а по оси ординатÑ

 

 

 

 

 

x2

рост сыновей( x1 ),то точки,соответствую-

 

 

 

 

 

щие проведенным наблюдениям(облако то-

 

 

Рис. 4.1

чек наблюдений),расположатсявокругнеко-

 

 

 

 

 

торой прямой(рис. 4.1).

 

 

 

Это означает,что зависимость между ростом сыновей и отцов существует,и эта зависимость близка к линейной.Но угол наклона соответствующей прямой меньше 45.Другими словами,имеет местоÇвозвратÈ ÑрегрессияÑроста сыновей к некоторому среднему росту.Для этой зависимости и был предложен терминÇре-

грессияÈ.Со временем он закрепился за любыми зависимостями статистического характера,т.е.такими,которые выполняютсяÇпо математическому ожиданиюÈ, с погрешностью.

148

 

 

 

 

 

Глава4.Введение в анализ связей

Остаточная дисперсия из(4.19)получает следующее выражение:

se21 =

1

!i

(xi1 − a12xi2 − b1)2,

 

N

или в матричной форме:

 

 

 

 

 

 

 

 

s2

=

1

e!

e ,

 

 

 

 

 

e1

 

N 1

1

где

e1 = X1 − X2a12 − 1N b1, Ñостатки регрессии,

штрихÑзнак транспонирования.Величина e!1e1 называется суммой квадратов остатков.

Для минимизации этой дисперсии ее производные по искомым параметрам (сначала по b1,потом по a12)приравниваются к нулю.

∂b1

= −N !

(xi1 − a12xi2 − b1) = 0,

откуда:

∂se21

2

 

 

 

 

 

 

 

!ei1 = 0,

 

 

 

 

 

b1 = xø1 − a122.

(4.21)

Это означает,что eø1 = 0,т.е.сумма остатков равна нулю,а также,что линия регрессии проходит через точку средних.

После подстановки полученной оценки свободного члена форма уравнения регрессии и остаточной дисперсии упрощается:

 

 

i1 = a12i2 + ei1, i = 1, . . . , N ,

(4.22)

ö

ö

 

 

 

 

 

 

 

 

 

 

(4.23)

X1

= X2a12 + e1, Ñсокращенная запись уравнения регрессии,

 

 

 

 

1

!(öxi1 − a12i2)2.

 

 

 

 

se21 =

 

 

(4.24)

 

 

 

N

Далее:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∂a12

= −N !i2

 

 

ei1

(4.25)

 

 

←−−−−−−−−(öxi1 − a12i2) = 0.

 

 

∂se21

 

2

 

 

 

 

 

 

 

Отсюдаследует,во-первых,то,чтовектора e1 и X2 ортогональны,т.к.ковари-

ация между ними равна нулю

(%i2ei1

= 0);во-вторыхÑвыражение для оценки

углового коэффициента:

 

 

 

 

 

 

 

a12

=

m12

.

(4.26)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m22

 

4.2.Регрессионный анализ

 

 

 

149

Матрица вторых производных остаточной дисперсии в найденной точке равна

2

1

2

 

,

 

2

m220

 

 

 

 

 

 

 

где m022 Ñ 2-й начальный(а не центральный,как m22)момент для x2.Тот же результат можно получить,если не переходить к сокращенной записи уравнения регрессии перед дифференцированием остаточной дисперсии по a12.

Эта матрица положительно определена(ее определитель равен 2m22,то есть всегда неотрицателен),поэтому найденная точка является действительно точкой минимума остаточной дисперсии.

Таким образом,построен оператор МНК-оценивания(4.21, 4.26)и выявлены свойства МНК-остатков:они ортогональны факторной переменной x2,стоящей в правой части уравнения регрессии,и их среднее по наблюдениям равно нулю.

ÇТеоретическиеÈзначения моделируемой переменной x1,лежащие на линии оцененной регрессии:

xic1

= a12xi2

+ b1,

(4.27)

ic1 = a12i2,

 

гдеÇ c È Ñ calculated,часто называют расчетными,или объясненными.ЭтоÑ математические ожидания моделируемой переменной.

Вторую часть оператора МНК-оценивания(4.26)можно получить,используя другую логику рассуждений,часто применяемую в регрессионном анализе.

Обе части уравнения регрессии,зап исанного в сокращенной матричной форме

1

 

 

 

1

 

 

 

1

 

N2

(4.23)умножаются слева на транспонированный вектор

X ! и делятся на N :

 

N

N2

N1

 

N

N2

N2 12

 

N

N2

1

 

 

X !

X

=

 

X !

X a

+

 

X ! e .

Второе слагаемое правой части полученного уравнения отбрасывается,так как в силу отмеченных свойств МНК-остатков оно равно нулю,и получается искомое выражение: m12 = m22a12.

Пользуясь этой логикой,оператор МНК-оценивания можно получить и в полном формате.Для этого используют запись регрессионного уравнения в форме без свободного члена(со скрытым свободным членом):

 

 

X1

= O2O12

+ 1

 

a12

O

 

 

X a

e ,

 

(4.28)

 

[X2, 1N ] размерности N × 2, a÷12 Ñвектор

P

b1Q.

где X2

Ñматрица

150

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Глава4.Введение в анализ связей

Как и прежде,обе части этого уравнения умножаются слева на транспониро-

ваннуюматрицу X2!

иделятсяна N ,второеслагаемоеправойчастиотбрасывается

по тем же

причинам.Получается выражение для оператора МНК-оценивания:

 

 

O

O

 

 

R

O

 

 

т.е.

O

 

R

O

 

(4.29)

 

 

 

1

 

 

 

 

,

 

 

 

 

 

 

 

m12

= M22a12

a12 = M22−1m12,

 

=

 

O

R

=

1

O

O

 

 

 

 

 

 

 

Это

 

 

 

 

 

 

 

 

 

 

 

где m12

 

X2! X1

, M22

 

 

 

X2!

X2.

 

 

 

 

 

 

 

O

 

 

N

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

выражение эквивалентно полученному выше.Действительно,учитывая,

что Xj = Xöj + 1N j , 1N!

Xöj = 0,

 

j = 1, 2,

 

 

 

 

 

 

 

 

 

 

 

12 =

1

 

 

X2! X1

=

 

m12 + xø12

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

1N!

X1

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m0

 

 

 

 

 

 

22 = 1 X2! X2

 

X2! 1N

=

 

m22

22

2

.

 

 

 

 

 

+ xø2

 

 

 

 

 

 

N

 

1N! X2

 

1N! 1N

 

 

←−−−−→2

1

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда матричное уравнение(4.29)пе реписывается следующим образом:

m12 + xø12 = m22a12 + xø22a12 + xø2b1,

1 = xø2a12 + b1.

Из2-го уравнения сразу следует(4.21),а после подстановки b12 в1-е уравнение оно преобразуется к(4.26).Что и требовалось доказать.

Таким образом,выражение(4.29)пред ставляет собой компактную запись оператора МНК-оценивания.

Из проведенных рассуждений полезно,в частности,запомнить,что уравнение регрессии может быть представлено в трех формах:в исходнойÑ (4.19, 4.20), сокращеннойÑ (4.22, 4.23)и со скрытым свободным членомÑ (4.28).Третья форма имеет только матричное выражение.

ОцененноеуравнениелинейнойрегрессииÇнаследуетÈвопределенномсмысле свойства линиирегрессии,введенной вначале этого пунктаподанным совместного распределения двух признаков:миним альность остаточной дисперсии,равенство нулю средних остатков и ортогональность остатков к объясняющей переменнойÑ в данном случае к значениям второго признака. (Последнее для регрессии,построенной поданным совместного распределения,звучалокаклинейная независимость отклонений от условных средних и самих условных средних.)Отличие в том,что теперь линия регрессии является прямой,у словными средними являются расчетные значения моделируемой переменной,а условными дисперсиямиÑостаточная

4.2.Регрессионный анализ

151

дисперсия,котораяпринимаетсяпритакомметодеоцениванияодинаковойдлявсех наблюдений.

Теперь рассматривается остаточная дисперсия(4.24)в точке минимума:

se1 =

N

!(i1

− 2öxi1i2a12

+ xöi2a12)

=

m11

m22 .

(4.30)

2

1

2

 

2 2

(4.26)

 

 

m122

 

Поскольку остаточная дисперсия неотрицательна,

m11

"

m122

, т.е. r122 ! 1.

m22

 

 

 

Это доказывает ранее сделанное утверждение о том,что коэффициент корреляции по абсолютной величине не превышает единицу.

Второе слагаемое(взятое сплюсом)правой частисоотношения(4.30)является дисперсией расчетных значений моделируемой переменной( var Ñобозначение дисперсии):

var (x1c ) = N !

(xic1 − xø1c )2

=

 

N !

(xic1 − xø1)2

=

 

2

 

 

1

 

 

eø 0

 

1

 

 

 

 

(4.27)

 

 

 

 

 

 

 

 

1

!(a12i2)

2

 

2

(4.26)

m12

 

 

 

 

=

 

 

= a12m22

=

 

.

(4.31)

 

 

 

N

 

m22

Эту дисперсию,как и в регрессии,пост роенной по данным совместного распределения признаков,естественно назвать объясненной и обозначить s2q1.Тогда из(4.30)следует,что общая дисперсия мо делируемого признака,как и прежде, распадается на две частиÑобъя сненную и остаточную дисперсии:

s21 = m11 = s2q1 + s2e1.

Доля объясненной дисперсии в общей называется коэффициентом детерминации,который обозначается R2.Такое обозначение не случайно,поскольку этот коэффициент равен квадрату коэффициента корреляции:

R2 =

sq21

=

m2

 

12

.

s12

 

 

 

m11m22

Коэффициент детерминации является показателем точности аппроксимации фактических значений признаков линией регрессии:чем ближе он к единице,тем точнееаппроксимация.Припрочихравныхегозначениебудетрастисуменьшением числа наблюдений.Так,еслинаблюдений всего два,этот коэффициент всегда будет равенединице,т.к.черездветочкиможноп ровестиединственнуюпрямую.Поэтому

Соседние файлы в папке Диплом