Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Артамонов - Введение в эконометрику

.pdf
Скачиваний:
527
Добавлен:
02.06.2015
Размер:
2.19 Mб
Скачать

тельной экономической интерпретации. Как и в случае парной регрессии отдельно рассматривается модель регрессии без константы .

Отклонения от стандартных условий Гаусса–Маркова. По-

дробно рассматриваются два наиболее часто встречающихся в приложениях отклонений от стандартных допущений регрессионной модели: неоднородность (гетероскедастичность) и автокоррелируемость ошибок регрессии. Обсуждаются статистические следствия этих отклонений, тесты на выявление этих отклонений и возможные корректировки регрессионной модели.

Спецификация модели. Рассматриваются вопросы, связанные с выбором спецификации модели регрессии. При этом приводятся как и экономические аргументы в пользу той или иной спецификации, так и формальные тесты на спецификацию. Обсуждаются статистические следствия неправильной спецификации модели регрессии.

Введение в регрессионные модели временных´ рядов. В этом разделе кратко рассматриваются особенности построения регрессионных моделей для временных рядов, обобщения условий Гаусса–Марко- ва для таких моделей, вероятностный и статистические свойства оценок параметров моделей, применимость стандартных тестов, вводится понятие стационарного временного ряда. Рассмотрены статическая регрессионная модель, модель тренда и сезонности, модель распределенных лагов (FDL), модель авторегрессии (AR) стационарных временных рядов, модель распределенных лагов (ADL).

Всилу ограничения по времени в курс не включены следующие разделы, иногда включаемые в базовый курс Эконометрика-1 : модели с бинарной зависимой переменной (Probit- и Logit-модели, линейная вероятностная модель LPM), метод инструментальных переменных (проблема эндогенности), метод максимального правдоподобия оценки параметров линейной модели регрессии и проверки статистических гипотез, системы одновременных уравнений, модели MA (скользящего среднего) и ARMA стационарных временных рядов, модели панельных данных.

Вконце каждой главы приведены упражнения по соответствующей тематике. По ряду причин мало упражнений, связанных с непосредственной оценкой модели регрессии по выборочным данным. Б´ольшую

11

часть составляют задачи на анализ уже оцененных регрессионных моделей и теоретические задачи. Задаче по оценке регрессионных моделей по статистическим данным можно найти, например, в [2, 29].

Статистические данные в Эконометрике

В современной эконометрике различаются следующие основные классы выборочных статистических данных:

пространственные выборки (cross-sectional data);

временные ряды (time series);

панельные данные (panel data).

Пространственные выборки характеризуются тем, что выборочные данные получены в один (или очень близкие) период времени и их следует рассматривать как случайную выборку из некоторой генеральной совокупности (population). Примеры таких выборок дают опросы людей, домашних хозяйств, статистические данные по фирмам, городам, странам.

Временные´ ряда (по одному или нескольким факторам) представляют собой статистические данные, полученные в результате наблюдения в течение некоторого промежутка времени. Как правило, эти данные получены через равные промежутки (кванты) времени. Основное отличие от пространственных выборок состоит в следующем. Фактор времени естественным образом упорядочивает данные временного ряда (в хронологическом порядке), в то время как в пространственных выборках такой естественный порядок отсутствует. Во многих случаях временные ряды уже нельзя рассматривать как реализацию случайной выборки, так как естественно полагать, что на текущие значения могут оказывать влияние прошлые значения временного ряда ( эффект памяти ). Примеры временных рядов дают, например, финансовые данные (котировки и биржевые индексы), индексы цен, макроэкономические данные (ВВП, уровень инфляции и безработицы) и др.

Панельные данные являются обобщением первых двух классов данных: эти данные состоят из временных рядов по каждому члену пространственной выборки. Другими словами, мы имеем набор простран-

12

ственных выборок для одних и тех же объектов, полученные в разные моменты времени. Пример панельных данных дают полученные в течение нескольких лет данные об одних и тех же домашних хозяйствах или индивидуумах.

Иногда для увеличения объема выборочной информации используются pooled cross sectional data, представляющие собой объединение нескольких пространственных выборок, полученных в разные периоды времени. В отличие от панельных данных, pooled data формируется из пространственных выборок, для разных объектов генеральной совокупности в разные моменты времени.

Список обозначений

На протяжении всей книги будут использовать следующие обозначения:

M( )

математическое ожидание случайной величины

Var( )

дисперсия случайной величины

F

случайная величина имеет распределение F (x)

cov( , )

коэффициент ковариации между случайными

 

 

величинами и ;

corr( , )

коэффициент корреляции между случайными

символ ·

величинами и ;

обозначает выборочное значение (например, Var( ) есть

 

(a, σ2)

выборочная дисперсия)

 

ожиданием

N

b

нормальное распределение с математическимd

 

a и дисперсией σ2

 

Φ(x)

функция стандартного нормального распределения

 

χp2

распределение хи-квадрат с p степенями свободы

 

tp

распределение Стьюдента с p степенями свободы

 

 

(t-распределение)

 

Fp,q

распределение Фишера со степенями свободы p и q

 

 

(F -распределение)

 

n

объем выборки

 

k

число влияющих переменных в модели регрессии

 

m

число коэффициентов в модели регрессии

13

Благодарности

Автор благодарит д.э.н., проф. Пересецкого А.А. (ЦЭМИ РАН и Российская Экономическая Школа) за полезные обсуждения в процессе подготовки учебника.

Автор благодарит фонд МГИМО–БиПи и лично советника ректора МГИМО (У) МИД России к.полит.н. Мальгина А.В. за помощь в издании книги.

Автор также благодарит д.э.н., проф. Буторину О.В. за помощь и поддержку в процессе работы над книгой.

14

Глава 1

Парная регрессия

1.1.Парный коэффициент корреляции

1.1.1.Коэффициент корреляции

Пусть (X, Y ) – двумерная нормально распределенная случайная величина. Тогда степень зависимости случайных величин X и Y характеризуется парным коэффициентом корреляции

= corr(X, Y ) =

 

cov(X, Y )

=

M(

XY ) − MX · MY

.

 

 

 

 

pVar(X) · Var(Y )

 

pVar(X) · Var(Y )

Из определения коэффициента корреляции следует, что

1.всегда −1 6 6 1;

2.не меняется при линейных преобразованиях величин, т.е.

corr(X, Y ) = corr(a0 + a1X, b0 + b1Y ), a1, b1 6= 0.

Коэффициент корреляции принимает крайние значения ±1 в том и только том случае, когда между случайными величинами X и Y существует линейная функциональная зависимость, т.е.

= ±1 , Y = β0 + β1X, β1 6= 0,

причем s

Var(Y ) β1 = Var(X),

15

т.е. знак коэффициента β1 совпадает по знаком коэффициента корреляции.

В общем случае коэффициент корреляции возникает при решении следующей экстремальной задачи: подобрать линейную функцию l(x) = β0 + β1x так, чтобы случайная величина l(X) меньше всего отклонялась от Y в среднеквадратичном, т.е.

M (Y − β0 − β1X)2 −! min .

β01

Решение этой задачи задается равенствами

β1 =

cov(X, Y )

= s

Var(Y )

, β0 = MY − β1 · MX

 

 

Var(X)

Var(X)

и наименьшее среднеквадратичное отклонение равно

M (Y − β0 − β1 X)2 = %1 − 2&Var(Y ).

Кроме того, для всех x 2 R верно

M(Y |X = x) = β0 + β1 x,

т.е. наилучший прогноз случайной величины Y , при условии, что из-

вестно значение

случайной величины X = x,

равен Y

= β + β x.

Рассмотрим три случая:

b

0

1

1.> 0. Тогда β1 > 0 и при увеличении x ожидаемое (среднее) значение M(Y |X = x) случайной величины Y также увеличива-

ется. В этом случае говорят о прямой линейной зависимости

между величинами.

2.< 0. Тогда β1 < 0 и при увеличении x ожидаемое (среднее) значение M(Y |X = x) случайной величины y уменьшается. В этом случае говорят об обратной линейной зависимости между величинами.

3.= 0. Тогда β1 = 0, M(Y |X = x) = β0 и знание значения случайной величины X не улучшает прогноз Y .

Важное значение коэффициента корреляции обусловлено следующей теоремой

16

Теорема. Пусть (X, Y ) – двумерная нормально распределенная случайная величина. Тогда случайные величины X и Y независимы тогда и только тогда, когда corr(X, Y ) = 0.

Таким образом, парный коэффициент корреляции можно рассматривать как меру зависимости двух случайных величин (факторов), имеющих совместное нормальное распределение, причем:

= 0 , величины независимы;

= ±1 , между величинами линейная функциональная зависимость: y = β0 + β1 x.

1.1.2.Выборочный коэффициент корреляции

Пусть (xi, yi)ni=1 – выборка из двумерной нормально распределенной случайной величины, n – объем выборки.

Напомним, что выборочные (неисправленные) оценки дисперсий случайных величин X и Y определяются как

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

d

b2

=

Xi

 

 

 

 

 

 

 

 

 

 

2

 

 

 

2

 

n

 

 

 

 

 

Var(X) = σx2

=1

(xi − x¯)2

= (x2) − (¯x)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Var(Y ) = σy

=

 

(yi − y¯) = (y2) − (¯y) ,

 

d

b

 

=1

 

 

 

 

 

 

 

 

 

 

где

n

Xi

 

 

 

n

 

 

 

 

 

 

1

 

 

,

 

=

1

xi2.

 

 

x¯ =

 

 

xi

x2

X

 

 

 

 

 

 

 

 

n

Xi

 

 

 

 

 

 

 

 

 

 

=1

 

 

 

n i=1

 

 

 

Напомним также, что d и d – состоятельные, но смещенные

Var(X) Var(Y )

оценки дисперсий Var(X) и Var(Y ) соответственно.

Выборочный коэффициент ковариации определяется как1

Xn

cov(X, Y ) = (xi − x¯) (yi − y¯) = xy − x¯ · y,¯

i=1

1В MS Excel функция КОВАР(·, ·)

17

а выборочный коэффициент корреляции определяется равенством2

r = corr(X, Y ) =

 

cov(X, Y )

, −1 6 r 6 1

d

q

 

 

d · d

Var(X) Var(Y )

Выборочные коэффициенты ковариации и корреляции являются состоятельными оценками коэффициентов ковариации и корреляции в генеральной совокупности. Выборочный коэффициент корреляции может рассматриваться как выборочная мера линейной зависимости между случайными величинами.

Проверка значимости коэффициента корреляции

Проверка значимости подразумевает проверку статистической гипотезы

H0 : = 0

против двусторонней альтернативы

H0 : 6= 0.

Другими словами, проверяется статистическая гипотеза, что в генеральной совокупности случайные величины (факторы) X и Y некоррелируют. Так как двумерная случайная величина (X, Y ) по предположению имеет совместное нормальное распределение, то некоррелируемость означает независимость факторов. Проверка гипотезы о независимости факторов основана на следующем результате: при справедливости нулевой гипотезы t-статистика

p

t = rp n − 2 tn−2

1 − r2 H0

имеет распределение Стьюдента с (n − 2) степенями свободы. Следовательно, получаем следующий статистический критерий проверки нулевой гипотезы:

при заданном уровне значимости гипотеза H0 отвергается в пользу альтернативы H1 при |t| > tкр,

2В MS Excel функция КОРРЕЛ(·, ·)

18

где tкр = t( ; n − 2) есть двустороннее критическое значение распределения Стьюдента tn−2. Напомним, что двустороннее критическое значение определяется как решение уравнения

P(|tn−2| > tкр) = .

При |t| < tкр говорят, что данные согласуются или не противоречат

нулевой гипотезой, H0 не отвергается.

Пример. Был рассчитан выборочный коэффициент корреляции r = 0.68 между дневными логарифмическими доходностями3 биржевых индексов NASDAQ и FTSE на основе n = 62 выборочных данных. Проверим значимость коэффициента корреляции, т.е. проверим статистическую гипотезу H0 о независимости доходностей обоих биржевых индексов (в предположении их нормальной распределенности!).

Вычислим значение t-статистики: p

t =

0.68 · 62 −

2

 

7.1838.

 

 

 

 

p1 − 0.682

 

 

 

 

Критическое значение распределения Стьюдента при уровне значимо-

сти = 5% равно: tкр = t(5%; 62 − 2) 2.003. Так как |t| > tкр, то гипотеза H0 о независимости доходностей отвергается, коэффициент

корреляции значим.

Доверительный интервал для коэффициента корреляции

Задача о построении доверительного интервала для коэффициента корреляции связана с той проблемой, что в общем случае (при 6= 0) t- статистика имеет неизвестное распределение. Однако Фишер заметил, что если взять z-преобразование Фишера4 от выборочного коэффициента корреляции

z(r) = 12 ln 11 + rr,

то эта статистика при больших объемах выборки (а фактически уже при n > 6) имеет распределение, близкое к нормальному

1 z(r) N z( ), n − 3 .

3Логарифмическая доходность рассчитывается как ht = ln(St/St−1) 4В MS Excel функция ФИШЕР(·)

19

Φ(zγ) =

Следовательно, при заданной доверительной вероятности γ приближенный (асимптотический) доверительный интервал для z-преобразо- вания Фишера коэффициента корреляции определяется как

P

z(r) −

p

z

γ

 

< z( ) < z(r) +

p

z

γ

 

γ.

(1.1)

 

 

 

 

 

 

n

3

n

3

 

 

 

 

 

 

 

 

 

 

 

zγ есть двустороннее критическое значение стандартного нормального распределения при уровне значимости 1−γ и находится как решение уравнения

1 +2 γ ,

где Φ(x) – функция стандартного нормального распределения. Доверительный интервал для коэффициента корреляции получает-

ся применением к интервалу (1.1) обратного преобразования Фишера5

z−1(x) = th(x) = ex − e−x . ex + e−x

Таким образом, асимптотический доверительный интервал для коэф-

фициента корреляции имеет вид

z(r) + pn

 

3 γ.

P z−1

z(r) − pn γ

3 < < z−1

γ

 

 

z

 

 

 

z

 

 

 

 

 

 

 

 

 

 

Замечание. Зная доверительный интервал для коэффициента корреляции можно проверить его значимость, т.е. статистическую гипотезу H0 : = 0 при уровне значимости = 1−γ. Нулевая гипотеза отвергается тогда и только тогда, когда ноль не принадлежит доверительному интервалу.

Пример. Был рассчитан выборочный коэффициент корреляции r = 0, 68 между дневными логарифмическими доходностями биржевых индексов NASDAQ и FTSE на основе n = 100 выборочных данных. Построим доверительный интервал для коэффициента корреляции с доверительной вероятностью γ = 0.95. Применим z-преобразование Фишера z = z(0.68) 0.8291. Критическое значение zγ определяется как решение уравнения

Φ(zγ) = 1 + 0.95 = 0.975, 2

5В MS Excel функция ФИШЕРОБР(·)

20