Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

эконометрика с косяками

.pdf
Скачиваний:
8
Добавлен:
03.05.2015
Размер:
1.55 Mб
Скачать

Содержательная интерпретация коэффициентов для обобщенной модели К-Д.

 

Y

 

 

 

 

 

 

 

 

Y K

 

 

Y

 

 

 

K

 

 

 

 

 

 

 

 

K Y

 

 

 

 

 

 

 

K

 

 

 

 

 

 

Y

 

 

 

 

 

Y

...

 

L

 

 

 

 

 

L

 

AK 1L K AK L

Как назывались такие величины в матэкономике? Каков их содержательный смысл?

В нашем примере 1 , что это

значит?

Множественная линейная регрессионная модель. Исправленный коэффициент детерминации.

Функция регрессии в предыдущей задаче зависела уже от двух независимых

31

переменных. В общем случае такая модель имеет вид:

Y 0 1 X1 ... k Xk

Оценки коэффициентов обычно ищутся методом наименьших квадратов

ЗАМЕЧАНИЕ

____________________________________________________________________

Для того чтобы оценки, полученные по МНК, давали «наилучшие» результаты, мы потребуем от остаточного члена или ошибки и от X выполнения следующих условий:

Условия Гаусса-Маркова

1.

Y 0 1 X1 ... k X k

- спецификация модели

2. X1,…,Xk – детерминированные вектора, линейно независимые в Rn, т. е. матрица X имеет максимальный ранг k +1

3.

M i

0

 

4.

M

2

D

, 2

 

 

i

i

 

32

дисперсия ошибки не зависит от номера наблюдения;

5.M ( i j ) 0

при i k, т. е. некоррелированность ошибок разных наблюдений;

6. i N(0, )

т. е. . i –нормально распределенная случайная

величина со средним 0 и дисперсией

2

.

Теорема Гаусса - Маркова

В условиях 1-5 МНК-оценки МЛРМ представляют собой наилучшие линейные несмещенные оценки, т. е. в классе линейных несмещенных оценок МНКоценки обладают наименьшей дисперсией.

Best Linear Unbaised Estimation (BLUE)

___________________________________________

Мультиколлинеарность. Пошаговое

исключение незначимых коэффициентов.

Полная мультиколлинеарность

Коэффициенты по методу наименьших квадратов существуют не всегда, а только в том случае, когда определитель матрицы, для линейной системы уравнений отличен от нуля.

Определитель будет равен нулю в случае, если столбцы матрицы X линейно зависимы. Такое может произойти, если между независимыми переменными существует точная линейная связь.

33

Пример

Y 0 1 X 2 D 3W

где

Y - средняя оценка на экзамене состоящую из трех объясняющих переменных:

X доход родителей,

D среднее число часов, затраченных на обучение в день,

W среднее число часов, затраченных на обучение в неделю.

Очевидно, что W=7D.

Найти неизвестные коэффициенты МНК для такого примераStatgraphics не сможет.

Мультиколлинеарность – это проблема,

когда тесная корреляционная зависимость между регрессорами (близость к нулю определителя соответствующей линейной системы), ведет к получению ненадежных оценок коэффициентов регрессионной функции.

(В математике такие системы называют плохо обусловленными)

Пример 3 Стоимость строительства атомной

электростанции.Лаб. раб.№9, с.85 ) ( файл ATOMST.sf )

34

ПОШАГОВАЯ МНОЖЕСТВЕННАЯ РЕГРЕССИЯ

В файле приведены данные о капитальных затратах на строительство атомных электростанций с реактором водяного охлаждения.

Данные собраны для 32 различных станций США.

ОПИСАНИЕ ПЕРЕМЕННЫХ:

C цена в млн долларов, приведенная к курсу

1976 г.,

D — срок разрешения на строительство;

T1 время между обращением и получением разрешения на строительство;

T2 время между получением оперативной лицензии и разрешением на строительство;

S номинальная мощность электростанции, Мвт;

PR наличие в той же самой местности ранее построенной электростанции на РВО (если значение равно 1, то имеется уже построенная станция);

NE — характеристика района, в котором строится станция;

35

CTиспользование нагревательной башни (если значение равно 1, то используется, если 0 — нет);

BW использование силовой установки производства фирмы Wilcox (если значение равно 1,

то используется, 0 — нет);

N — суммарное количество электростанций,

построенное архитектором-инженером станции;

PT электростанции, строящиеся под частичным надзором ( 1 если надзор есть, 0 — если нет).

1. Постройте множественную линейную регрессионную модель, зависимая переменнаяцена, все

остальные —независимые.

(Номер станциине включать в переменные!)

Запишите Radj2 _____?

2. Исключите незначимые переменные «автоматически» используя средства StatGraphics так, как это делается в лабораторной работе.

Запишите:

Какие переменные и с какими коэффициентами остались?

Radj2 _____?

36

x i

3.Вернитесь к исходной модели и исключите незначимые переменные последовательно «в ручную». Опять

запишите результаты.

Сравните результаты. Какая модель предпочтительнее?

4.Сколько будет стоить увеличение мощности станции на 1мгвт ?

Эвристические рекомендации для выявления неполной мультиколлинеарности:

1)Анализ корреляционной матрицы R; rjk 0,8 .

2)Анализ обусловленности матрицы X T X ; det X T X 0 .

3)Анализ собственных чисел матрицы X T X ; min 0 .

4)Анализ коэффициентов детерминации каждой переменной x j по всем остальным объясняющим переменным; R2j j 0,9 .

5)Анализ экономической сущности модели; некоторые оценки j имеют неверные с точки зрения экономической теории значения (неверные знаки, слишком большие или слишком малые значения).

6)Анализ чувствительности модели; небольшое изменение данных (добавление или

изъятие небольшой порции наблюдений) существенно изменяет оценки j коэффициентов модели (вплоть до изменения знаков).

7)Анализ значимости модели; большинство (или даже все) оценки j коэффициентов

модели статистически неотличимы от 0, в то время как модель в целом является значимой.

 

Исследование линейной зависимости

 

объясняющих переменных. Ложная корреляция.

Парные коэффициенты

корреляции

r x i , x j

не

учитывают влияние на эту

связь других

переменных

x k , k i, j

необходим измеритель связи, очищенный

от опосредованного влияния других переменных, то есть дающий оценку тесноты связи между и x j при условии, что значения остальных переменных зафиксированы на некотором постоянном уровне.

Частные (очищенные) коэффициенты корреляции

Приведенные формулы справедливы для многомерного нормального закона и приближенно в общем случае (при достаточно большом объеме выборки)

37

rij ij

 

Rij

частный коэффициент корреляции между переменными x i

и x j

 

 

 

 

 

 

 

 

 

 

Rii R jj

1/ 2

 

 

 

 

 

 

 

 

 

 

при фиксированнных значениях всех остальных переменных.

Rkl – алгебраическое дополнение для rkl

в определителе корреляционной матрицы

 

1

 

r

r

...

r

 

 

 

 

 

 

 

 

 

12

13

 

1k

 

 

 

 

 

 

R

r21

1

r23

...

r1k

1

r12

r13

...

r1k

 

... ... ...

...

...

 

 

 

 

 

 

 

1

r23

...

 

 

 

 

 

 

 

 

. R r21

r1k

 

 

rk1

rk 2

rk 3

...

1

... ...

...

...

...

 

 

 

 

 

r12 r13r23

 

 

 

 

 

 

 

r12 3

 

 

 

rk1

rk 2

rk 3

...

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 r132

1 r232

 

 

 

 

 

 

 

Rkl 1 k l det Akl , матрица Akl получена из R вычеркиванием k-строки и l-столбца.

##

r12 3

 

r12 r13r23

 

 

– формула, примененная к трехмерному признаку.

 

 

 

 

 

1 r132

1 r232

 

 

 

 

 

Методы устранения мультиколлинеарности 1. Переход к смещенным методам оценивания

смещенная оценка может быть более точной, чем несмещенная!

 

 

 

 

 

 

 

 

 

возможные значения оценок

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M см

на разных выборках

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Один из методов – «ридж-регрессия» (ridge – гребень):

 

 

 

 

T

X E p 1

1

X

T

Y

– добавляем к диагональным элементам матрицы X

T

X

«гребень»

 

X

 

 

 

 

0,1; 0,4 , матрица становится хорошо обусловленной.

2.Метод главных компонент – переход к новым объясняющим переменным,

 

линейным комбинациям старых:

1)

Центрирование переменных Xц X

 

,

 

Yц Y

 

;

X

Y

2)

Решение характеристического уравнения

 

E

 

0 :

 

 

 

 

 

 

 

 

 

 

 

 

a)Нахождение собственных чисел 1 2 ... p 0,

b)Нахождение для каждого собственного числа j собственного вектора l j ;

3)Переход к новым переменным Z Xц L , Xц ZL 1 ZLT ;

4)Построение линейной регрессии Yц ZC , вычисление оценок с помощью МНК

Z T Z 1 Z TY diag 1 j Z TY ;

5) Проверка гипотез H0 j : c j 0,

j 1,..., p , исключение несущественных переменных;

38

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

p

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

.

6) При необходимости переход к исходной модели j

 

сk lk

, 0

j x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k Kсущ

 

 

 

 

j 1

 

 

 

3. Отбор наиболее существенных объясняющих переменных

 

 

 

 

 

 

 

1) Версия «всех возможных регрессий»:

 

 

 

 

 

 

 

 

j1 ,..., x jk , дающий

 

 

 

k 1,2,..., p 1

 

 

 

 

 

 

 

 

 

 

 

 

максимальное значение коэффициента детерминации

 

2

k .

 

 

 

 

 

 

 

 

 

 

R

 

 

 

 

 

 

 

 

 

 

 

Увеличиваем число переменных k, пока возрастает нижняя граница ~95%-довери-

тельного интервала для коэффициента детерминации.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R

2

2

k 2

2k n k 1

1

 

2

k ,

2

 

k 1

 

 

2

k

 

 

n k

.

 

k R

 

 

 

R

 

R

 

1 R

 

 

 

 

 

 

min

несм

 

 

 

 

 

 

 

 

несм

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1 n

2

1

 

 

 

 

 

 

 

 

 

n

k 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Проблема: огромное количество переборов (для 20 переменных – более 1млн).

2)Версия «пошагового отбора переменных»:

При переходе от k переменных к k 1 переменной учитываются результаты предыдущего шага – все отобранные переменные остаются.

Проблема: нет гарантии получения оптимума.

Фиктивные переменные

Линейные регрессионные модели с переменной структурой

Проблема неоднородности данных: y зависит не только от X, но и от уровня сопутствующих переменных Z (как правило, не являющихся количественными).

## Сезонность (сезон, квартал, месяц), пол, возраст, социальная страта, регион,…

Способы решения:

1. Разбиение имеющихся статистических данных на однородные порции

(внутри каждой подвыборки значения переменных Z постоянны).

 

Для

 

каждой

 

подвыборки

своя

функция

регрессия

fˆ X , Z* ˆ

Z* ˆ Z* x 1 ... ˆ

p

Z* x p .

 

 

 

 

0

 

1

 

 

 

 

 

 

 

При этом

ˆ

X , Z

*

и

ˆ

**

значимо отличаются.

 

 

f

 

f X , Z

 

 

 

Проблемы:

1) сопутствующие переменные Z ненаблюдаемы, либо эти значения не были зарегистрированы при сборе исходных данных прямое разбиение выборки невозможно, необходимо использование методов классификации объектов (расщепление смеси вероятностных распределений, кластер-анализ);

2) прямое разбиение возможно, но приводит к слишком малым подвыборкам.

2.Введение дамми-переменных (фиктивных переменных, переменных-манекенов)

Преимущества:

1)сильно повышается статистическая надежность оценок;

2)одновременно появляется возможность проверки гипотез о значимом влиянии сопутствующих переменных.

39

zi 2.2 zi 2.3
zi 2.1
1,
0,
1,
0,
1,
0,
zi1.2
zi1.1
1,
0,
1,
0,

Если категоризованная переменная z j имеет k j градаций, то требуется ввести k j 1 бинарных дамми-переменных (принимающих значения 0 или 1)!

## Социальная страта (низкодоходная / среднедоходная / высокодоходная), k1 1 2 если i-наблюдение за среднедоходным домашним хозяйством,

иначе;

если i-наблюдение за высокодоходным домашним хозяйством, иначе.

## Сезонность (зима / весна / лето / осень), k2 1 3 если i-наблюдение осуществлено весной,

иначе;

если i-наблюдение осуществлено летом, иначе;

если i-наблюдение осуществлено осенью, иначе.

Возможны различные варианты зависимостей, например, следующие:

Вариант 1. При переходе из страты в страту и из сезона в сезон меняется только свободный

член регрессии 0 (абсолютное потребление); 1 (склонность к потреблению) постоянна:

yˆ 0 1x 1.1z 1.1 1.2 z 1.2 2.1z 2.1 2.2 z 2.2 2.3z 2.3 .

Вариант 2. При переходе из страты в страту меняется склонность к потреблению; фактор сезонности по-прежнему влияет только на потребляемое количество:

 

 

 

 

 

 

 

 

 

ˆ

;

 

 

 

для низкодоходной страты склонность к потреблению 1

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

ˆ

;

для среднедоходной страты склонность к потреблению 1

1.1

 

 

 

 

 

 

 

 

 

ˆ

 

ˆ

 

для высокодоходной страты склонность к потреблению 1

1.2 ;

yˆ

0

x

z 1.1 x

z 1.2 x

2.1

z 2.1

2.2

z 2.2

2.3

z 2.3 .

 

1

1.1

1.2

 

 

 

 

 

Пример 4 (файл villa.sf )

Стоимость дома и участка в подмосковье.

Описание переменных:

Price

(Y) – стоимость дома и участка

(тыс$),

Dist

(X1) – расстояние от МКАД (км)

House (X2) –площадь дома (м.кв.)

Area (X3) –площадь участка (сот.)

40