Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Назаметдинов Анализ данных 2012

.pdf
Скачиваний:
10
Добавлен:
12.11.2022
Размер:
5.66 Mб
Скачать

~

SR ~y1

y2

~

ˆ

~

ˆ

( y1

F1a1)'( y1

F1a1)

ˆ

 

~

 

ˆ

 

 

 

F1a1

 

y1

F1a1

 

 

ˆ

~

 

ˆ

 

 

F2a2

y2

F2a2

 

 

 

~

 

ˆ

~

 

 

ˆ

SR2 ,

( y2 F2a2 )'( y2

F2a2 ) SR1

где S R1 и S R 2

суммы квадратов отклонений регрессии (3.22),

(3.23) соответственно.

 

 

Поэтому, если

 

 

 

 

 

(Sr

SR1 SR2 ) /(k 1)

 

FT [k 1), N1 N 2 2(k 1)]

,

 

(SR1 SR2 ) /[N1 N2 2(k 1)]

 

 

 

то гипотеза H: a1=a2 отвергается.

Заметим, что проблема сравнения регрессий может решаться также с использованием фиктивных переменных (см. п. 4.3).

3.7. Коэффициент детерминации R 2

Рассматривается регрессия со свободным членом. Из системы

 

~

следует:

 

нормальных уравнений (F F) aˆ F y

 

~

~

~

(3.26)

0 F y (F F)aˆ

F ( y Faˆ) F ( y yˆ) F u .

Поскольку первый столбец матрицы F, отвечающий свободному члену a0 , состоит из единиц, то произведение первого столбца F

на вектор u

есть u

и согласно (3.26) равно 0, т.е.

 

ˆ

ˆi

u

 

=0.

 

 

 

 

(3.27)

 

 

ˆi

 

 

 

 

 

 

Просуммировав почленно соотношение

~i

ˆ i

ˆ i

, i=1,2,…,N

y

y

u

и учитывая (3.27), имеем y

y

. Поделив последнее равен-

 

 

~i

 

ˆi

 

 

 

 

 

ство на N, получаем, что средние значения наблюденных и предсказанных значений выходной переменной совпадают, т.е.

~

 

 

 

(3.28)

 

ˆ

y

y y .

Введем единичный вектор 1, состоящий из N единиц. В векторной записи (3.27) примет вид uˆ 1 0 . Опираясь на (3.26) , получаем

uˆ yˆ u Faˆ (F u) aˆ 0 .

71

Рассмотрим сумму квадратов отклонений от среднего:

~i

y)

2

~

 

~

y1

ˆ

 

ˆ

 

 

ˆ

 

 

ˆ

 

( y

 

y y1 y

y y1 u

y y1

u

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y1 uˆ uˆ,

yˆ y1 yˆ y1 2 yˆ y1 uˆ uˆ uˆ yˆ y1 yˆ

которое перепишем так:

y)

 

( y

y)

 

(u

)

 

.

 

 

(3.29)

 

 

 

( y

 

 

 

 

 

 

 

 

~i

 

2

 

ˆi

 

2

 

ˆi

 

2

 

 

 

 

Выходит, разброс наблюденных значений вокруг общего среднего распадается на две составляющие: разброс, «объясненный регрессией» и разброс, который объяснить не удалось.

Коэффициент детерминации вводится следующим образом:

 

 

 

2

 

 

объясненная суммаквадратов

 

 

 

 

 

 

 

ˆi

 

 

y)

2

 

 

 

R

 

 

( y

 

 

 

.

 

 

 

 

 

вся суммаквадратов

 

 

 

 

 

 

~i

 

y)

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( y

 

 

 

 

 

 

С учетом

 

(3.29),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R

2

 

 

 

 

 

 

 

ˆi

)

2

 

 

 

~i

 

y)

2

.

 

 

 

 

 

 

 

 

(3.30)

 

 

 

 

 

 

 

 

 

1 (u

 

 

 

( y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Попутно

 

 

отметим,

 

 

что

 

 

для

 

 

 

парной

 

линейной регрессии

коэффициент детерминации R

2

совпадает с

ˆ2

. С учетом (3.4),

 

r

 

 

 

 

 

 

 

 

2

 

 

 

 

 

ˆ i

y)

2

 

 

 

 

 

 

ˆ

(x

i

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R

 

( y

 

 

 

(a1

 

x))

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~i

y)

2

 

 

 

 

~i

y)

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( y

 

 

 

 

 

 

( y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

2 (xi x)2 /(N 1)

 

 

ˆ

2 sx 2

 

ˆ2

.

 

 

(3.31)

 

 

 

 

 

 

a1

 

 

 

 

~i

y)

 

/(N 1)

a1

 

 

 

 

 

 

 

r

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

sy

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вернемся на время к п. 3.6.3. Для длинной регрессии (3.19) с

учетом (3.30) имеем:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆi

)

2

(1 R

2

 

 

 

 

 

~i

y)

2

 

(1 R

2

)Sr .

 

 

 

 

 

 

SR (u

 

 

) ( y

 

 

 

 

 

 

 

 

Подставим полученное соотношение в (3.21):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Fp

 

 

 

(Sr SR ) / k

 

 

 

 

 

N (k 1)

 

R2

 

 

.

 

 

 

 

 

 

 

 

SR /[N (k 1)]

 

1 R2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Продолжим рассмотрение числового примера. Согласно (3.15)

s

2

 

 

ˆ

2

5 ,

 

поскольку

 

N-(k+1)=1.

 

 

 

Рассчитаем сумму

 

SR u

 

 

 

 

 

 

квадратов отклонений наблюденных значений

 

 

 

~ i

(см. табл.3.1) от

 

 

 

y

 

72

FТ(0,95;2;1)=200.

среднего

~

5,5 :

~i

y)

2

(9 5,5)

2

... (4 5,5)

2

29. Тог-

y

( y

 

 

 

да R2=1–5/29=0,83; Fр=(1/2)(0,83/(1-0,83))=2,44;

Несмотря на довольно высокое значение R2, уравнение регрессии

нельзя признать значимым (F p < F Т ).

 

 

 

 

 

 

Подчеркнем, что R2

корректно определен лишь тогда, когда

свободный член присутствует в уравнении.

 

R 2

характеризует

качество

подгонки

 

регрессионной

модели

 

к

наблюденным

значениям.

При

R

2

=1

все

ˆi

=0,

так

что

~i

ˆi

(точная

 

u

y

y

подгонка).

Если

R 2 =0,

то

регрессия

не

улучшает

качество

предсказания выходной переменной по сравнению с тривиальной

моделью среднего

~i

i

.

y

a0 u

Итак, в регрессиях с детерминированными входными перемен-

ными R 2 необходимо трактовать как показатель, отражающий, насколько модель регрессии лучше модели среднего.

Можно показать, что добавление новых базисных функций не уменьшает R 2 . Однако переизбыток базисных функций, обеспечи-

вающих максимальное значение R 2 =1, вовсе не свидетельствует о содержательной зависимости выхода от входа. Попыткой устра-

нить подобный эффект является коррекция R 2 на число степеней свободы. Скорректированная (adjusted), иначе правленая, оценка

вычисляется так:

 

 

ˆi

)

2

/(N

(k 1))

 

N 1

 

Rпр2 1

(u

 

1 (1 R2 )

.

 

~i

y)

2

/(N 1)

N (k 1)

 

( y

 

 

 

 

Для рассматриваемого примера Rпр2 1–0,17 (4-1)/(4-3) = 0,49.

 

 

3.8. Прогноз по регрессии

 

 

По оцененной

модели регрессии yˆ aˆ f (x)

можно находить

прогноз ожидаемого значения выходной переменной по известным значениям входных переменных. В качестве прогнозного значения

yˆ t при заданном xt естественно рассмотреть

73

~ t ) y

 

yˆt aˆ f (xt ) .

 

 

 

(3.32)

Легко видеть, что прогноз (3.32) является несмещенным:

~t

t

)] M[aˆ

t

t

) .

 

My

M[aˆ f (x

] f (x

) a f (x

 

Найдем дисперсию прогнозного значения:

 

 

Dyˆt M[(yˆt M[yˆt ])2 ] M[(aˆ a) f (xt )]2

 

M[ f (xt )(aˆ a)(aˆ a) f (xt )] f (xt )M[(aˆ a)(aˆ a) ] f (xt )

f (xt ) covaˆ f (xt ) 2 f (xt )(F F) 1 f (xt ) .

Полученная формула

 

 

 

 

 

 

Dyˆt 2 f (xt )(F F) 1 f (xt )

 

(3.33)

оценивает дисперсию ожидаемого (среднего) значения. Само же значение выходной переменной («потенциальное» наблюдение связано с ожидаемым соотношением

 

 

 

 

 

 

y

 

y

 

u

 

,

 

 

 

 

 

 

~t

ˆt

 

t

 

так что

~t

 

2

t

)(F F)

1

 

t

) 1] .

Dy

 

[ f (x

 

f (x

Заменяя σ 2

на оценку s 2 , получают оценку дисперсии прогно-

за. Заметим, что при построении прогноза полагалась адекватность модели регрессии в точках прогноза.

Доказано, что прогноз (3.32) является эффективным в классе

линейных по ~ несмещенных прогнозов. y

Построение доверительного интервала для прогнозных значений возможно при задании распределения ошибок. В случае нор-

мальных отклонений u N (0, σ 2 IN ) с оценкой σ 2 , равной s 2 ,

доверительный интервал строится стандартным образом с применением t-статистики.

Вопросы и упражнения

1.Применим ли метод наименьших квадратов, если число наблюдений меньше числа оцениваемых параметров?

2.В каком случае число столбцов матрицы базисных функций совпадает с числом входных переменных?

74

3.С какой целью вводят «предпосылки регрессии»?

4.Согласно предпосылкам классической регрессии случайные возмущения между собой не коррелируют. Верно ли это утверждение для их оценок?

5.Получите в явном виде оценку МНК в уравнении регрессии

y = a0 , если известны результаты N наблюдений переменной y.

6.Получите в явном виде оценку МНК в уравнении регрессии y = a1х, если известны результаты N наблюдений переменных y и х.

7.Как связаны оценки коэффициента наклона в парной регрес-

сии y a0 a1 x u и коэффициента парной корреляции rxy ?

N

8. В каких случаях равенство uˆ i 0 может не выполняться?

i 1

9.Докажите, что матрица G является идемпотентной.

10.Что означают термины «перебор и недобор факторов»?

11.Покажите, что оценка МНК является линейной по y.

12.Как проверяется значимость коэффициента регрессии?

13.Всегда ли нужно пересчитывать оценки коэффициентов регрессии после отбрасывании незначимых переменных?

14.Что показывает коэффициент детерминации?

15.Дайте геометрическую интерпретацию следующих двух зна-

чений коэффициента детерминации: R2=1 и R2=0.

16.Какие два подхода к оцениванию уравнения регрессии используются при наличии ограничений на коэффициенты?

17.Что показывает тест Чоу?

18.На чем основывается проверка гипотезы об адекватности уравнения регрессии?

19.По какому закону изменяется ошибка прогноза для линейной (по переменным) регрессии?

20.Дайте геометрическую интерпретацию следующих двух зна-

чений коэффициента детерминации: R2=1 и R2=0.

21. Как можно оценить дисперсию случайной компоненты?

75

4. ПРИКЛАДНЫЕ АСПЕКТЫ РЕГРЕССИОННОГО АНАЛИЗА

Практическое использование моделей классической регрессии часто наталкивается на трудности, связанные, в основном, с нарушением предпосылок классической регрессии (п.3.1).

4.1. Ошибки спецификации. Перебор и недобор базисных функций

Под ошибками спецификации в широком смысле понимают нарушение одной или нескольких предпосылок классической регрессии. Рассмотрим вначале случай нарушения гипотезы 1.

Поскольку модель заранее обычно неизвестна, ни количество, ни вид базисных функций не определены. Ошибки спецификации (в узком смысле) сводятся к перебору или недобору базисных функций в уравнении регрессии.

Перебор. Истинная модель есть:

 

~i

a0 ~ a1 f1

i

 

i

 

i

, i=1,2,…,N,

 

(4.1)

 

y

(x

) ak fk (x

) u

 

(в векторной форме y F a u ). Исследователь наряду с базисными

функциями f

ввел дополнительные базисные функции g:

 

 

~i

 

i

 

 

i

 

i

 

i

) u

i

 

y

b0 f0 (x

) bk fk (x

) c0 g0 (x

) cm gm (x

 

 

или в векторной форме

~

Fb Gc u ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

 

где G – матрица значений базисных функций g; с = (c0 ,...,cm )

вектор коэффициентов при дополнительных базисных функциях.

Введем матрицу ZN [ k 1 m 1 ] [F G]

и вектор d k 1 m 1 (b, c) . Оцен-

кой МНК является

 

~

 

 

 

 

ˆ

1

'

 

'

d Z Z

Z y ([FG ]

[ FG ])

 

[ FG ] ( Fa u ) .

Опираясь на формулу Фробениуса обращения блочной матри-

цы, можно показать [4], что

ˆ

a

, что доказывает несмещен-

M[d]

 

 

0

 

ность ˆ . Отсюда следует, что M[ ]=0. d c

76

Доказано, что оценка s

2

~

ˆ

~

ˆ

(m 1)) явля-

 

(y

Zd)'(y

Zd) /(N (k 1)

ется несмещенной оценкой σ2.

Наличие избыточных базисных функций ведет к потере эффективности оценок. Это утверждение доказывается. Качественно это можно объяснить так. Введение незначимых членов в регрессию не скажется сильно на остаточной сумме квадратов, тогда как число степеней свободы сократится на (m+1), что приводит к возраста-

нию s 2 . Однако при ортогональности функций f и g, т.е. при F G 0, потери в точности оценивания практически не происходит.

Таким образом, если круг «основных» базисных функций определен, то дополнительные базисные функции следует вводить в уравнение регрессии так, чтобы они «не коррелировали» с основным множеством базисных функций.

Недобор. Истинная модель есть (4.1), однако оцениваемое уравне-

ние содержит лишь часть базисных функций (для определенности

первые k k ). Пусть F1,F2 – матрицы значений соответственно,

первых k и остальных (k 1) k базисных функций, т.е. F [F1 F2 ] .

 

 

~

F1 a1 u , где

a1 – вектор коэффи-

Оцениваемая регрессия есть y

циентов, отвечающих

первым

k базисным

функциям. Оценка

МНК будет aˆ1 (F1 F1)

1

~

 

 

 

F1 y .

 

 

Легко видеть, что полученная оценка будет смещенной. Действительно,

1

~

1

~

1

F1 M[Fa u]

Maˆ1 M[ F1 F1

F1 y] F1F1

 

F1 M[ y] F1F1

 

F1F1 1 F1 Fa F1 F1 1 F1 F1F2 aa1 F1F1 1 F1 F1a1 F2a2

2

a1 F1 F1 1 F1 F2a2.

Второе слагаемое в последнем выражении отлично от нуля; отсюда вытекает, что оценка МНК для регрессии с недобором явля-

ется смещенной оценкой подвектора a1 .

Заметим, что в случае ортогональности F1 и F2 , т. е. F1 F2 0 , оценка будет несмещенной. Доказано, что оценка МНК в случае

77

недобора не только теряет свойство несмещенности, но становится к тому же несостоятельной. Вот почему недобор считается более существенной ошибкой спецификации, чем перебор.

4.2. Мультиколлинеарность в регрессионном анализе

Мультиколлинеарность исходных данных является одним из существенных препятствий для эффективного применения аппарата регрессионного анализа, порождая проблемы с обращением матрицы F’F. Особенно часто с этой проблемой приходится сталкиваться при анализе экономических данных, содержащих результаты наблюдений по времени, когда входные переменные меняются от точки к точке практически линейно.

4.2.1. Понятие мультиколлинеарности

Обозначим через Fi (i=0,1,…,k) вектор-столбец матрицы значений базисных функций, так что F=[F0F1…Fk]. Мультиколлинеар-

ность означает “почти линейную зависимость” векторов F0,

F1,…,Fk , т.е. существование чисел v0 , v1,…,vk, одновременно не равных нулю, таких, что

v0F0 + v1F1 + … + vkFk 0.

(4.2)

Чем ближе линейная комбинация векторов Fi к нулевому вектору, тем сильнее мультиколлинеарность. В предельном случае, когда имеет место строгое равенство, говорят о строгой, иначе полной, мультиколлинеарности.

В условиях полной мультиколлинеарности невозможно построить оценку МНК в силу вырожденности матрицы F′F. Пусть, например, ищется регрессия от трёх переменных

y = а0 + а1x1 + а2x2 + а3x3 + u,

(4.3)

и входные переменные связаны линейным соотношением

 

x1 = x2 + x3 .

(4.4)

Запишем уравнение (4.3) с учётом (4.4) следующим образом: y = a0 + (a1 – h)x1 + (a2 + h)x2 + (a3 + h)x3 + u ,

где h – произвольная константа. Выходит, что одни и те же наблюдения можно объяснить различными наборами коэффициентов. Если подставить (4.4) в (4.3), исходная система перепишется так:

78

y = a0 + (a1 + a2) x2 + (a1 + a3) x3 + u.

Получается, что по результатам наблюдений можно оценить лишь три параметра: a0, (a1 + a2), (a1 + a3). В общем случае, если ранг матрицы (F’F) равен l<(k+1), то оценить можно только l линейных комбинаций исходных коэффициентов.

На практике строгое равенство является скорее исключением. Это связано с наличием как ошибок измерения, возможно незначительных (см. предпосылку 2 классической регрессии), так и ошибок округления. Основная опасность, которую привносит мультиколлинеарность, связана с потерей эффективности оценок МНК, поскольку дисперсия оценок становится большой. Рассмотрим, к примеру, линейную модель от двух центрированных переменных с нулевым свободным членом (см.п. 3.2), т. е.

~i

 

i

i

i

.

y

a1x1 a2 x2

 

u

Для этой модели матрица F совпадает с матрицей исходных

наблюдений X, т.е. F=[X1X2].

Предположим, что x1 и x2 имеют

одинаковый масштаб измерения. Этого можно добиться нормировкой векторов X1 и X2 на их длину.

Тогда

 

 

 

 

 

 

 

F ' F

 

 

 

1

 

r12

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X ' X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r12

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где r12 cos(X1, X 2 ) x1i x2i

/ (x1i )2

(x2i )2 .

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Отсюда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

r12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 r

2

 

 

r

2

 

 

 

 

 

 

 

 

 

 

 

 

2

 

1

 

 

1

 

2

 

 

 

 

2

 

 

 

 

(F ' F )

12

 

 

 

 

12

 

и

 

(a1)

 

 

(a2 )

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r12

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

1

r122

 

 

 

 

1

r

2

1 r 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если между переменными x1 и

 

x2

существует тесная линейная

 

r12

 

1 ,

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

связь, то

 

и,

следовательно,

 

 

(a1 ) и

 

 

(a2 ) примут

большие значения.

79

Отметим, что в условиях мультиколлинеарности оценки коэффициентов регрессии становятся неустойчивыми: небольшие изменения значений исходных переменных, добавление или удаление нескольких наблюдений существенно сказываются на значениях оценок. Иными словами, оценки становятся зависящими не столько от связи между выходом и входом, сколько от взаимозависимости входных переменных между собой.

4.2.2. Меры мультиколлинеарности

Мультиколлинеарность проявляется в различных аспектах и её трудно охарактеризовать единственной мерой. Рассмотрим наиболее употребительные.

а. Определитель матрицы F'F. Наличие приближенной линейной зависимости между столбцами F делает матрицу плохо обусловленной. У такой матрицы определитель близок к нулю.

б. Минимальное собственное значение матрицы F'F .

Обозначим через w левую часть равенства (4.2) и будем искать такой набор коэффициентов v = (v0 , v1 ,…,vk), который приводит к максимально приближенной к нулю линейной комбинации столбцов матрицы F. В качестве меры расхождения между w и нулевым вектором возьмём квадрат евклидова расстояния ||w – 0||2 = ||w||2.

В введенных обозначениях:

||w||2 = ||v0F0 + v1F1 + … + vkFk||2 = (Fv)(Fv) = v'F'Fv .

Компоненты вектора v не могут одновременно равняться нулю; его норма (длина) принимается за единицу, т. е. v ′ v = 1.

В итоге мы приходим к следующей оптимизационной задаче:

 

v′F′Fv min

(4.5)

при ограничении:

v ′ v = 1.

(4.6)

Составим функцию Лагранжа L = ν ′ F ′ F v – λ (v ′ v – 1).

 

Найдем стационарную точку L:

L

2F ' Fv 2vλ 0 .

 

 

 

 

 

v'

 

Отсюда:

 

 

 

(4.7)

 

F′Fv =λ v.

Решение оптимизационной задачи (4.5)–(4.6) свелось к проблеме собственных значений (4.7). Из (4.5)–(4.7) следует , что

80