Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Бардасов - Эконометрика.pdf
Скачиваний:
358
Добавлен:
06.03.2016
Размер:
2.47 Mб
Скачать

Отметим, что в случае парной регрессии проверка нулевой гипотезы для F-статистики равносильна проверке нулевой гипотезы

для t-статистики t = r xy n2 2 коэффициента корреляции. В этом

1r xy

случае F-статистика равна квадрату t-статистики. Самостоятельную значимость коэффициент R2 приобретает в случае множественной линейной регрессии.

§ 7. Проверка равенства двух коэффициентов детерминации

Пусть R12 — коэффициент детерминации для линейной модели с m объясняющими переменными и n наблюдениями, R22 — коэффициент детерминации для линейной модели с mk объясняющими переменными и теми же n наблюдениями. Во втором случае из модели исключили k объясняющих переменных. Возникает вопрос: существенно ли ухудшилось при этом качество описания поведения зависимой переменной Y? На него можно ответить, прове-

ряя гипотезу H

: R2

R2 =0 и используя статистику:

0

1

2

 

 

 

 

 

 

 

 

 

F =

R12 R22

×

nm1

.

(3.18)

 

 

1R12

 

 

 

 

 

 

 

k

 

В случае справедливости H

: R2

R2 =0

приведенная стати-

 

 

 

 

0

1

2

 

 

стика F имеет распределение Фишера с числами степеней свободы ν1 =k, ν2 =nm1 . По таблицам критических точек распределе-

ния Фишера находят F крит =F α; k ; nm1 (α — требуемый уровень

значимости). Если рассчитанное значение — Fнабл статистики (3.18) превосходит Fкрит, то нулевая гипотеза о равенстве коэффициентов детерминации (фактически об одновременном равенстве нулю отброшенных k коэффициентов регрессии) должна быть отклонена. В этом случае одновременное исключение из рассмотрения k объясняющих переменных некорректно. Это означает, что общее качество первоначального уравнения регрессии существенно лучше качества уравнения регрессии с отброшенными переменными. Если

79

же, наоборот, наблюдаемая Fнабл невелика (т. е. меньше, чем Fкрит), то можно сделать вывод, что в этом случае одновременное отбра-

сывание k объясняющих переменных не привело к существенному ухудшению общего качества уравнения регрессии, и оно вполне допустимо.

Аналогичные рассуждения могут быть использованы и по поводу обоснованности включения новых k объясняющих переменных. В этом случае рассчитывается F-статистика:

F =

R22 R12

×

nm1

.

1R22

 

 

 

k

Если она превышает критическое значение Fкрит, то включение новых переменных объясняет существенную часть не объясненной ранее дисперсии зависимой переменной. Поэтому такое добавление оправдано. Добавлять переменные целесообразно, как правило, по одной. Кроме того, при добавлении объясняющих переменных в уравнение регрессии логично использовать скорректированный коэффициент детерминации, так как обычный R2 всегда растет при

добавлении новой переменной, а в скорректированном R2 одно-

временно растет величина т, уменьшающая его. Если увеличение доли объясненной дисперсии при добавлении новой переменной

незначительно, то R2 может уменьшиться. В этом случае добавле-

ние указанной переменной нецелесообразно.

Для сравнения качества двух уравнений регрессии по коэффициенту детерминации R2 обязательным является требование, чтобы зависимая переменная была представлена в одной и той же форме, и число наблюдений n для обеих моделей было одинаковым.

Например, пусть один и тот же показатель Y моделируется двумя уравнениями:

линейным

Y = β0 1 X 12 X 2 1

и

lnY = β0 1 X 12 X 2 2 .

лог-линейным

Тогда их коэффициенты детерминации R12 и R22 рассчитываются по формулам:

80

2

=1

ei21

 

2

=1

ei22

 

 

R1

 

 

 

 

и R2

 

 

 

 

.

 

 

 

2

 

 

 

2

(yiy)

(ln yiln y)

 

 

 

 

 

 

 

Прямое сравнение коэффициентов детерминации будет некорректным.

§ 8. Проверка гипотезы о совпадении уравнений регрессии для двух выборок

Распространенным тестом проверки данной гипотезы является тест Чоу, суть которого состоит в следующем.

Пусть имеются две выборки объемами n1 и n2 соответственно. Для каждой из этих выборок (k — номер выборки) оценено уравнение регрессии вида:

Y =b0k +b1k X 1+b2k X 2 +...+bmk X m +ek , k =1,2 .

(3.19)

Проверяется нулевая гипотеза о равенстве друг другу соответ-

ствующих коэффициентов регрессии.

 

H0: b j1 =b j 2, j =0,1, ..., m .

 

Другими словами, выясняется, будет ли уравнение регрессии

одним и тем же для обеих выборок. Пусть суммы eik2

(k =1, 2)

i

 

квадратов отклонений значений yi от линий регрессии равны S1 и S2 соответственно для первого и второго уравнений регрессии.

Пусть по объединенной выборке объема (n1+n2) оценено еще

одно уравнение регрессии, для которого сумма квадратов отклонений yi от уравнения регрессии равна S0. Для проверки H0 в этом

случае строится следующая F-статистика:

 

F =

S 0 S1S 2

×n1+n2 2m2 .

(3.20)

 

 

S1+S 2

m+1

 

В случае справедливости H0 построенная F-статистика имеет

распределение Фишера с числами

степеней свободы

ν1 =m+1,

ν2 =n1+n2 2m2 .

F-статистика близка к нулю, если S 0 S1+S 2 , и это фактически означает, что уравнения регрессии для обеих выборок практи-

81

чески одинаковы. В этом случае F <F крит =F α; ν1, ν2 . Если же F >F крит , то нулевая гипотеза отклоняется.

Приведенные выше рассуждения особенно важны для ответа на вопрос, можно ли за весь рассматриваемый период времени построить единое уравнение регрессии или же нужно разбить временной интервал на части и на каждой из них строить свое уравнение регрессии.

Некоторые причины использования различных уравнений регрессии для описания изменения одной и той же зависимой переменной на различных временных интервалах будут анализироваться ниже при рассмотрении фиктивных переменных и временных рядов.

Статистическая значимость коэффициентов регрессии и близкое к единице значение коэффициента детерминации R2 не гарантируют высокое качество уравнения регрессии. Поэтому следующим этапом проверки качества уравнения регрессии является проверка выполнимости предпосылок МНК. Ниже будут рассмотрены причины и последствия невыполнимости этих предпосылок, а также методы корректировки регрессионных моделей.

§9. Стандартизация (центрирование

имасштабирование) данных регрессии

Для каждой переменной X j (j =1, 2, ..., m) и Y по выборочным

данным рассчитываются среднее значение X j ,Y и среднее квадра-

тическое отклонение S x j = Var (X j ),

( )

.

S y = Var Y

Значения стандартизованных переменных для каждого наблюдения рассчитываются по формулам (номер наблюдения не указан):

 

 

 

 

t x j =

X j X j

(j =1, ..., m) ,

S x j

 

(3.21)

 

 

 

Y Y

t y = S y .

82

Среднее значение каждой стандартизованной переменной равно нулю, а среднее квадратическое отклонение — единице.

Уравнение множественной линейной регрессии в стандартизо-

ванных переменных имеет вид:

 

t y 1t x1 2t x1 +...mt xm +ε′.

(3.22)

Заметим, чтовмодели(3.22) отсутствуетсвободныйкоэффициент.

Теоретический

стандартизованный коэффициент

регрессии

αj (j =1, 2, ..., m)

показывает, на сколько среднеквадратических

отклонений σY изменится зависимая переменная Y, если объясняющая переменная Xj вырастет на одно среднеквадратическое отклонение σx j при постоянстве остальных объясняющих перемен-

ных. Для оценок коэффициентов все теоретические величины заменяются их выборочными оценками.

Пусть rij — парный коэффициент корреляции между перемен-

ными

Xi , X j ; r yj

— парный коэффициент

корреляции

 

 

между

Y и

X j .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Формулы для расчета парных коэффициентов корреляции мо-

гут быть записаны в следующем виде:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

n

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nxkj yk −∑ xkj ×∑ yk

 

 

 

 

 

 

 

 

 

r jy =r yj =r x j y

=

 

 

 

 

 

k=1

 

 

 

 

 

k=1

k=1

 

 

 

 

 

 

 

 

 

,

 

 

 

 

n

 

 

 

 

2

n

 

 

 

 

n

 

 

 

 

2

 

 

 

 

 

 

n

 

2

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

n

−∑

xkj

 

× ny

k

−∑ y

k

 

 

 

 

 

 

 

 

xkj

k=1

 

 

 

 

k=1

 

 

 

 

 

 

k=1

 

 

 

k=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nxki xkj −∑ xki ×∑ xkj

 

 

 

 

 

 

 

 

 

rij =r ji =r x j xi

=

 

 

 

 

 

 

k=1

 

 

 

 

 

k=1

k=1

 

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

n

 

 

 

2

n

 

 

 

 

n

 

 

 

2

 

 

 

 

 

 

 

n

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

n

 

2 −∑

xki

 

 

× ny

kj

−∑ y

kj

 

 

 

 

 

 

 

 

k=1

xki

k=1

 

 

 

 

k=1

 

 

 

 

 

 

 

 

 

 

 

 

k=1

 

 

 

 

 

 

 

 

k =1, ..., n — номер наблюдения.

Тогда оценка параметров стандартизованной модели производится по формуле:

83

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]