Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

магистры Эконометр мод-е / из эконометрики / Лекция2-2-множ регрессия, гипотезы

.pdf
Скачиваний:
26
Добавлен:
10.05.2015
Размер:
188.69 Кб
Скачать

1

ЛЕКЦИЯ 3 (2ч) Многомерная регрессионная модель.

1.Основные положения.

2.ÌÍÊ.

3.Статистические свойства МНК-оценок.

4.Дисперсионный анализ.

5.Проверка статистических гипотез.

1 Основные положения.

Естественным обобщением линейной регрессионной модели с двумя переменными являет-

ся многомерная регрессионная модель (multiple regression model) или модель множественной

регрессии:

yi = ¯0 + ¯1xi1 + : : : + ¯kxik + "i;

i = 1; : : : ; n;

 

èëè

yi = ¯1xi1 + ¯2xi2 + : : : + ¯kxik + "i;

i = 1; : : : ; n;

 

k количество признаков, влияющих на результат y. Первая модель содержит свободный член,

вторая нет. В большинстве случаев используется модель со свободным членом, однако, бывают ситуации, когда априори известно, что свободного члена нет. Например, модель затрат: если нет затрат (все факторы x равны 0), то нет и выпуска продукции (y=0).

Для удобства изложения объединим запись обоих моделей в одну. Для этого в первую модель введем новый фактор xi0=1 при параметре ¯0 и перенумеруем факторы, начиная с 1 до m

(m=k+1). Во второй модели только заменим k íà m. Теперь во всех расчетах будем использовать число m количество параметров модели, а не число независимых факторов k. А модель

примет вид:

yi = ¯1xi1

+ ¯2xi2 + : : : + ¯kxim + "i; i = 1; : : : ; n:

(1)

 

Примечание. В специальной литературе часто рассматривается только модель со свободным членом, поэтому в расчетах используется число факторов k. От этого в некоторых случаях мо-

жет быть разночтение между данными лекциями и литературой. Например, степень свободы объясненной вариации в модели со свободным членом равна n¡k¡1, а без свободного члена

n¡k. В то время как в используемых нами обозначениях степень свободы обоих моделей запи-

сывается одинаково n¡m.

Многомерная регрессионная модель (1) записана в скалярном виде. Более удобной формой для расчетов и проведения анализа является матричная форма записи:

Y = + ²;

(2)

ãäå Y =(y1; : : : ; yn)T n-мерный вектор-столбец, составленный из наблюдений за результирующим показателем (результат), X матрица наблюдений, где столбцами матрицы являются

векторы наблюдения за фактором xi, i=1; : : : ; m (если модель со свободным членом, то первый

столбец составлен из 1):

x11

x12

: : : x1m

1

 

 

 

X =

0x21

x22

: : : x2m

;

 

Bx. . .

x

n2

: : : x

 

C

 

 

B n1

 

 

nmC

 

 

@

 

 

 

 

A

 

¯=(¯1; : : : ; ¯m)T n-мерный вектор-столбец, составленный из коэффициентов модели, " n- мерный вектор-столбец ошибок, m количество регрессов в уравнении, n количество на-

блюдений.

Гипотезы, лежащие в основе многомерной регрессионной модели в матричной форме записи имеют вид:

1. Y =+² спецификация модели.

2

2. X детерминированная матрица, имеет максимальный ранг m (векторы X1; : : : ; Xm ëè-

нейно независимы в £Rn).¤

3a,b. M ["] = 0; D ["] = M ""T = ¾2En - статистическая независимость (некоррелированность) ошибок для разных наблюдений и постоянство дисперсии ошибок (символом En будем обозначать единичную матрицу размерности n£n).

Часто добавляется условие

3c. " » N (0; ¾2En) нормально распределенный случайный вектор со средним 0 и матрицей

ковариаций ¾2En. В этом случае модель называется нормальной линейной регрессионной (classical normal linear regression model ).

 

2 ÌÍÊ.

Напомним, что целью метода является такой выбор вектора оценок ^

 

¯, чтобы сумма квад-

^

^

ратов остатков e=Y ¡Y =Y ¡X¯ была миниминальна, т.е.

X X

Q(¯) = Sîñò= e2i = (yi ¡ ¯1xi1 ¡ ¢ ¢ ¢ ¡ ¯mxim)2 ! min :

Необходимые условия минимума функционала Q(¯) получаются дифференцированием по

вектору ¯. Вычисляя частные производные

@Q

и приравнивая их 0, получим систему из m

i

линейных уравнений уравнений:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi21 + xi1xi2 + ¢ ¢ ¢ + xi1xim = xi1yi;

 

 

x

x

+ x2

+ + x

x

im

= x

y

;

 

8P i1

 

i2P

 

i2

¢ ¢ ¢

P i2

 

P i2

i

 

(3)

>

 

 

 

 

 

 

 

 

 

 

 

 

>: : :

 

 

 

P

 

 

 

P

 

 

 

P

 

 

 

>P

 

 

 

 

 

 

 

 

 

 

 

 

<

xi1xim + xi2xim + ¢ ¢ ¢ + xim2 = ximyi

 

>

 

>

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

>

 

 

 

P

 

 

 

 

P

 

P

 

 

 

:P

 

 

 

 

 

 

 

 

 

 

 

или в матричной форме записи:

(XT X)¯ = XT Y:

 

Откуда, учитывая обратимость матрицы XT X (в силу условия 2 rang(X)=m, матрица XT X имеет размерность m£m), находим оценку метода наименьших квадратов:

¯^ = (XT X)¡1XT Y:

(4)

Система (3) называется системой нормальных уравнений метода. Оценка параметров может быть получена непосредственным решением системы (3) или матричными вычислениями по формуле (4).

3 Статистические свойства МНК-оценок.

Теорема. Гаусса-Маркова. В выше приведенных условиях 1 3 МНК оценка

^

¯=(XT X)¡1XT Y

является наиболее эффективной (в смысле наименьшей дисперсии) оценкой в классе линейных

несмещенных оценок.

 

 

При доказательстве теоремы доказаны и получены следующие результаты.

 

^

 

1. Доказано условие несмещенности M[¯] = ¯.

 

2. Подсчитана матрицу ковариаций МНК-оценок:

 

D[¯^] = ¾2(XT X)¡1

(5)

Дисперсии оценок ^

 

 

¯ равны соответствующим диагональным элементам это матрицы:

 

2

^

(6)

¾¯i

=(D[¯])ii:

3. Доказано, что полученная матрица ковариаций (5) определяет наилучшую дисперсию среди всех несмещенных линейных оценок b=W Y , ãäå W некоторая произвольная матрица,

удовлетворяющая условию несмещенности оценки b (M[b] = ¯).

3

Также как и в парной линейной регрессии оценку дисперсии ошибок ¾2 получают через

сумму квадратов остатков

P

ei2

=eT e. Известно, что несмещенной оценкой дисперсии ошибок

является

 

 

e

T

e

2

 

 

 

 

 

¾^2 =

 

=

nP²mi

:

(7)

 

 

 

n

 

m

 

 

 

¡

 

¡

 

 

В предположении нормальной линейной многомерной регрессионной модели МНК-оценки имеют совместное нормальное распределение: ^ 2 T ¡1

¯ » N(¯; ¾ (X X) . Остатки модели e â ýòîì

случае также нормально распределены. Кроме того, удается доказать статистическую незави-

симость оценок ^

2.

¯ è ¾^

 

 

4

Дисперсионный анализ.

 

 

Как и в случае регрессионной модели с одной независимой переменной, вариацию var(y) =

 

(yi¡y¹)2 можно разбить на две части: объясненную регрессионным уравнением и не объяснен-

ную (т.е. связанную с ошибками

"

):

 

P

 

 

 

 

var(y) = X(yi ¡ y¹)2 = X(yi ¡ y^i)2 + X(^yi ¡ y¹)2 + 2 X(yi ¡ y^i)(^yi ¡ y¹):

(8)

Третье слагаемое в (8) равно нулю в случае, если модель содержит свободный член и

var(y) = X(yi ¡ y¹)2

=

X(^yi ¡ y¹)2 + X(yi ¡ y^i)2;

(9)

общая вариация y =

объясненная вариация + остаточная вариация;

 

2

 

2

2

 

Sîáù

= Sобъясн + Sîñò:

 

Как и ранее, определим коэффициент детерминации R2 êàê

 

 

2

 

2

 

 

 

2

 

Sîñò

 

Sобъясн

 

(10)

R

 

= 1 ¡ Sîáù2

=

Sîáù2

:

Отметим, что коэффициент R2 корректно определен только в том случае, если константа, т.е. вектор s=(1; : : : ; 1)T , является регрессором. R2 принимает значения из интервала [0; 1]. Êî- эффициент R2 показывает качество подгонки регрессионной модели к наблюдаемым значениям

yi. Чем ближе R2 к нулю, тем хуже подобрана регрессия Y íà X1; : : : ; Xm.

В какой степени допустимо использовать критерий R2 для выбора между несколькими ре-

грессиоными уравнениями? Следующие два замечания побуждают не полагаться только на значение R2.

1.Определение коэффициентов регрессии осуществляется по критерию минимизации суммы квадратов остатков, т.е. по критерию, отличающемуся от критерия R2.

2.R2, вообще говоря, возрастает при добавлении еще одного регрессора.

Если взять число регрессоров равным числу наблюдений (m=n), всегда можно добиться того, что R2 = 1, т.е. можно провести функцию точно по исходным точкам. Но это вовсе не будет означать наличие содержательной (имеющей экономический смысл) зависимости Y от регрессоров. Попыткой устранить эффект, связанный с ростом R2 при возрастании числа регрессоров, является коррекция R2 на число регрессоров.

Скорректированным (adjusted) R2 называется

R2

= 1

 

²T ²=(n ¡ m)

= 1

 

Dîñò

 

¡

± T ±

¡ Dîáù

 

adj

 

 

(11)

 

 

 

Y Y =(n ¡ 1)

 

 

 

 

Оправданием именно такой коррекции определения (10) является то, что числитель дроби в (11) есть несмещенная оценка дисперсии ошибок, а знаменатель несмещенная оценка дисперсии Y .

Свойства скорректированного R2:

щая нулевая гипотеза следующим образом:

4

1.

R2

 

= 1

¡

R2

n ¡ 1

 

adj

 

 

n

¡

m.

 

2

 

2

 

 

 

 

2.

R2

¸ Radj,

m > 1.

 

3.

Radj

· 1, но может принимать значения < 0.

Использовать скорректированный коэффициент детерминации Radj2 рекомендуется для срав- нения регрессий с различным числом факторов.

5Проверка статистических гипотез.

5.1Проверка гипотезы H0 : ¯i = ¯i0.

Для тестирования нулевой гипотезы H0 :¯i = ¯i0 применяется статистика

^

t = ¯i ¡ ¯i » t(n ¡ m); (12) ¾^¯i

àименно, нулевая гипотеза отклоняется на (1¡®)%-доверительном уровне, если jtj > t®(n¡m).

Ñпомощью t-статистики Стьюдента можно строить доверительные интервалы парамет-

^

^

] (1¡®)%-доверительный интервал для истинного значения

ров модели: [¯i ¡ t®¾^¯i

; ¯i + t®¾^¯i

коэффициента ¯i ãäå t® двусторонняя (1¡®)%-квантиль распределения Стьюдента с n¡m

степенями свободы.

 

 

 

 

 

 

 

 

Наиболее часто проверяют значимость отдельного i-го фактора. Гипотеза H0 :¯i=0 выпол-

няется (1¡®)%-доверительном уровне, если jtj = ¯

¾^¯ii

¯

< t®(n ¡ m) (фактор статистически

 

 

 

 

 

¯

^

¯

 

 

 

 

 

 

¯

¯

¯

 

 

^

 

 

 

 

 

незначим), и отвергается, если ¯

¯i

¯

 

 

¯

 

¯

статистически значим).

¾^¯i

> t®(n ¡ m) (фактор¯ ¯

¯

 

¯

5.2

 

-статистика.

¯

 

¯

 

¯

 

¯

 

F

 

 

 

 

Линейное ограничение общего¯ ¯

âèäà H0 : =r.

Пусть H q£m матрица, ¯ m£1

вектор коэффициентов, r q£1 вектор.

 

 

 

 

 

Естественно считать, что число ограничений не превосходит числа параметров и ограниче-

ния линейно независимы, т.е. q·m и матрица H имеет максимальный ранг: rank(H)=q.

 

Пример. В качестве примера рассмотрим следующие матрицы H, r äëÿ m=3, q=2:

 

1

0

 

¯1

 

2

 

 

 

 

 

01

0¯21

= r, это условие соответствует системе двух линейных ограни-

= 0

1

= 0

µ

 

¡

@¯3A

µ ¶

 

 

 

 

 

¯1 = 2

 

 

 

 

 

 

 

 

 

чений: (¯2 ¡ ¯3 = 0:

 

 

 

 

 

 

 

 

Для проверки гипотезы используется статистика

 

 

 

 

 

 

 

 

[

r]T [H(XT X)¡1HT ]¡1[

r]=q

 

 

 

 

 

F =

 

b¡

 

eT e=(n ¡ m)

b¡

 

» F (q; n ¡ m):

(13)

Если справедлива гипотеза H0 : H¯¡r=0; то статистика F не должна принимать слишком больших значений. C (1¡®)%-доверительной вероятностью принимаем гипотезу H0, åñëè F <F®(q; n¡m), ãäå F®(q; n¡m) åñòü ®%-квантиль распределения фишера F (q; n¡m).

Гипотеза H0 : ¯1= : : : =¯m=0. В случае H=Em (равна единичной матрицы) и r=0 предыду- H0 : =r принимает вид ¯1= : : : =¯m=0. Cтатистика F в (13) выглядит

bT T b

F = ¯ (X X)¯=m » F (m; n ¡ m): eT e=(n ¡ m)

Модель будет незначима (неадекватна), если гипотеза H0 выполняется, т.е. статистика

F <F®(m; n¡m), è ñ (1¡®)%-доверительной вероятностью модель считаем статистически зна- чимой, если F >F®(m; n¡m).

®=0:05).

5

Данная гипотеза может быть использована для проверки на значимость уравнения регрес-

сии в целом, если оно не содержит свободный член. Можно показать, что в этом случае эта

статистика эквивалентна выражению:

 

F =

(^y ¡ y)2=(m ¡ 1) =

R2 n ¡ m:

 

PPei2=(n ¡ m)

1 ¡ R2 m ¡ 1

Гипотеза H0 : ¯m¡q+1= : : : =¯m=0. Гипотеза является, конечно, частным случаем общей ли-

нейной гипотезы = r. Эту гипотезу приходится проверять наиболее часто, и она представ-

Можно показать, что статистика F â ýòîì

 

¡

¢

 

 

ляет самостоятельный интерес. В этом случае H =

0 Eq

, r=0.

 

 

 

 

 

случае принимает вид:

 

F =

(e¤T e¤ ¡ eT e)=q

»

F (q; n

¡

m):

(14)

 

eT e=(n

¡

m)

 

 

 

 

 

 

 

 

 

 

 

 

Здесь e¤ остатки "короткой"регрессии: e¤i =yi¡y^i¤=yi¡¯1xi1¡ : : : ¡¯m¡qxi;m¡q, e остатки обычной "длинной"регрессии ei=yi¡y^i=yi¡¯1xi1¡ : : : ¡¯mxim.

Гипотеза H0 : ¯2= : : : =¯m=0. Эта гипотеза используется для проверки значимости модели

при наличии в ней свободного члена: yi=¯1+¯2xi2+ ¢ ¢ ¢ +¯mxim+"i.

¤ Для проверки этой гипотезы можно воспользоваться результатами предыдущей гипотезы: ei =yi¡¯1 и статистика

F = (e¤T e¤ ¡ eT e)=(m ¡ 1) » F (m ¡ 1; n ¡ m): eT e=(n ¡ m)

Однако, проще вычислять статистику F иначе. Можно показать, что в случае выполнения гипотезы последняя статистика эквивалента статистике

F =

(^y ¡ y)2=(m ¡ 1)

=

 

R2

n ¡ m

:

PPei2=(n ¡ m)

1 ¡ R2 m ¡ 1

 

 

 

Гипотеза H0 выполняется (модель незначима) c (1¡®)%-доверительной вероятностью, если F <F®(1; n¡m) и гипотеза отвергается (считаем модель статистически значимой), если F >F®(1; n¡m) (например,

5.3 Òåñò ×îó.

Предположим, у нас есть две выборки данных. По каждой выборке мы строим регрессионную модель. Вопрос, который нас интересует: верно ли, что эти две модели совпадают?

Рассмотрим модели:

yi =¯0

xi1

+ ¯0 xi2

+ : : : + ¯0

xim + "0;

 

i =1; : : : ; n

1

 

2

m

 

i

 

 

yi =¯00xi1

+ ¯00xi2

+ : : : + ¯00

 

xim + "00

;

i =n + 1; : : : ; n + l

1

 

2

m

i

 

 

(15)

(16)

в первой выборке n наблюдений и l наблюдений во второй. Например, yi заработная плата, xi регрессоры (возраст, стаж, уровень образования и т.п.), и пусть первая выборка относится к

женщинам, вторая к мужчинам. Вопрос: следует ли из оценки моделей (15), (16), что модель зависимости зарплаты от регрессоров одна и та же для мужчин и женщин?

Выдвигаем гипотезу H0 : ¯0 = ¯00; ¾0 = ¾00 (òåñò ×îó(Chow)).

Сведем эту ситуацию к общей схеме проверки линейных ограничений на параметры модели. Регрессией без ограничений здесь является объединение двух регрессий (15), (16), т.е. модель представлена двумя уравнениями, поэтому Sîñò2 (1+2) = Sîñò2 1 + Sîñò2 2 , а число степеней свободы

равно (n¡m)+(l¡m) = n+2m.

6

Предположим теперь, что верна нулевая гипотеза. Тогда регрессия с ограничениями записывается одним уравнением

yi =¯1Xi1 + ¯2Xi2 + : : : + ¯mxim + "i;

t =1; : : : ; n + l;

оценивая которую, получаем Sîñò2 .

Для проверки гипотезы будем использовать статистику (14), проверяющую, что различие между моделью с ограничением и без ограничений не значимо, которая примет вид

2

2

 

 

 

2

2

2

 

 

 

 

 

 

(Sîñò ¡ Sîñò(1+2) )=m

 

(Sîñò ¡ Sîñò1 ¡ Sîñò2 )=m

 

» F (m; n + l ¡ 2m):

(17)

 

 

 

F = S2

=(n + l

¡

2m) =

(S2

+ S2

)=(n + l

¡

2m)

 

îñò(1+2)

 

 

 

îñò1

îñò2

 

 

 

 

 

Åñëè F -статистика (17) больше критического значения Fc; то нулевая гипотеза отвергается. В этом случае мы не можем объединить две выборки в одну.

6 Прогноз.

Рассмотрим безусловную задачу прогнозирования по линейной многомерной регрессионной модели.

Точечный прогноз: y^p = b1 + b2xp2 + ¢ ¢ ¢ + bmxpm, ãäå Xp=(xp1; : : : ; xpm) набор прогнозных

значений влияющих факторов (вектор-строка).

Дисперсия прогноза:

D[yp] = ¾2(1 + Xp(XT X)¡1XpT ):

 

Т.к., дисперсия ошибок модели ¾2 неизвестна, то на практике заменяют ее на оценку ¾^2 è рассчитывают оценку дисперсии прогноза

±2=^¾2(1 + Xp(XT X)¡1XpT ):

Доверительный интервал прогноза с уровнем доверия (1 ¡ ®):

y^p ¡ t®± < yp < y^p + t®±;

ãäå t® квантиль Стьюдента с n¡m) степенями свободы.