эконометрика с косяками
.pdfСодержательная интерпретация коэффициентов для обобщенной модели К-Д.
|
Y |
|
|
|
|
|
|
|
|
|
Y K |
|
|||
|
Y |
|
|
||||
|
K |
|
|
|
|||
|
|
||||||
|
|
|
K Y |
|
|||
|
|
|
|
|
|||
|
K |
|
|
|
|
|
|
Y |
|
|
|
|
|
|
|
Y |
... |
|
|
L |
||
|
|||
|
|
|
|
|
L |
|
AK 1L K AK L
Как назывались такие величины в матэкономике? Каков их содержательный смысл?
В нашем примере 1 , что это
значит?
Множественная линейная регрессионная модель. Исправленный коэффициент детерминации.
Функция регрессии в предыдущей задаче зависела уже от двух независимых
31
переменных. В общем случае такая модель имеет вид:
Y 0 1 X1 ... k Xk
Оценки коэффициентов обычно ищутся методом наименьших квадратов
ЗАМЕЧАНИЕ
____________________________________________________________________
Для того чтобы оценки, полученные по МНК, давали «наилучшие» результаты, мы потребуем от остаточного члена или ошибки и от X выполнения следующих условий:
Условия Гаусса-Маркова
1.
Y 0 1 X1 ... k X k
- спецификация модели
2. X1,…,Xk – детерминированные вектора, линейно независимые в Rn, т. е. матрица X имеет максимальный ранг k +1
3. |
M i |
0 |
|
|
4. |
M |
2 |
D |
, 2 |
|
|
i |
i |
|
32
дисперсия ошибки не зависит от номера наблюдения;
5.M ( i j ) 0
при i k, т. е. некоррелированность ошибок разных наблюдений;
6. i N(0, )
т. е. . i –нормально распределенная случайная
величина со средним 0 и дисперсией |
2 |
. |
Теорема Гаусса - Маркова
В условиях 1-5 МНК-оценки МЛРМ представляют собой наилучшие линейные несмещенные оценки, т. е. в классе линейных несмещенных оценок МНКоценки обладают наименьшей дисперсией.
Best Linear Unbaised Estimation (BLUE)
___________________________________________
Мультиколлинеарность. Пошаговое
исключение незначимых коэффициентов.
Полная мультиколлинеарность
Коэффициенты по методу наименьших квадратов существуют не всегда, а только в том случае, когда определитель матрицы, для линейной системы уравнений отличен от нуля.
Определитель будет равен нулю в случае, если столбцы матрицы X линейно зависимы. Такое может произойти, если между независимыми переменными существует точная линейная связь.
33
Пример
Y 0 1 X 2 D 3W
где
Y - средняя оценка на экзамене состоящую из трех объясняющих переменных:
X доход родителей,
D среднее число часов, затраченных на обучение в день,
W среднее число часов, затраченных на обучение в неделю.
Очевидно, что W=7D.
Найти неизвестные коэффициенты МНК для такого примераStatgraphics не сможет.
Мультиколлинеарность – это проблема,
когда тесная корреляционная зависимость между регрессорами (близость к нулю определителя соответствующей линейной системы), ведет к получению ненадежных оценок коэффициентов регрессионной функции.
(В математике такие системы называют плохо обусловленными)
Пример 3 Стоимость строительства атомной
электростанции.Лаб. раб.№9, с.85 ) ( файл ATOMST.sf )
34
ПОШАГОВАЯ МНОЖЕСТВЕННАЯ РЕГРЕССИЯ
В файле приведены данные о капитальных затратах на строительство атомных электростанций с реактором водяного охлаждения.
Данные собраны для 32 различных станций США.
ОПИСАНИЕ ПЕРЕМЕННЫХ:
C — цена в млн долларов, приведенная к курсу
1976 г.,
D — срок разрешения на строительство;
T1 — время между обращением и получением разрешения на строительство;
T2 — время между получением оперативной лицензии и разрешением на строительство;
S — номинальная мощность электростанции, Мвт;
PR — наличие в той же самой местности ранее построенной электростанции на РВО (если значение равно 1, то имеется уже построенная станция);
NE — характеристика района, в котором строится станция;
35
CT— использование нагревательной башни (если значение равно 1, то используется, если 0 — нет);
BW — использование силовой установки производства фирмы Wilcox (если значение равно 1,
то используется, 0 — нет);
N — суммарное количество электростанций,
построенное архитектором-инженером станции;
PT — электростанции, строящиеся под частичным надзором ( 1 если надзор есть, 0 — если нет).
1. Постройте множественную линейную регрессионную модель, зависимая переменная— цена, все
остальные —независимые.
(Номер станциине включать в переменные!)
Запишите Radj2 _____?
2. Исключите незначимые переменные «автоматически» используя средства StatGraphics так, как это делается в лабораторной работе.
Запишите:
Какие переменные и с какими коэффициентами остались?
Radj2 _____?
36
3.Вернитесь к исходной модели и исключите незначимые переменные последовательно «в ручную». Опять
запишите результаты.
Сравните результаты. Какая модель предпочтительнее?
4.Сколько будет стоить увеличение мощности станции на 1мгвт ?
Эвристические рекомендации для выявления неполной мультиколлинеарности:
1)Анализ корреляционной матрицы R; rjk 0,8 .
2)Анализ обусловленности матрицы X T X ; det X T X 0 .
3)Анализ собственных чисел матрицы X T X ; min 0 .
4)Анализ коэффициентов детерминации каждой переменной x j по всем остальным объясняющим переменным; R2j j 0,9 .
5)Анализ экономической сущности модели; некоторые оценки j имеют неверные с точки зрения экономической теории значения (неверные знаки, слишком большие или слишком малые значения).
6)Анализ чувствительности модели; небольшое изменение данных (добавление или
изъятие небольшой порции наблюдений) существенно изменяет оценки j коэффициентов модели (вплоть до изменения знаков).
7)Анализ значимости модели; большинство (или даже все) оценки j коэффициентов
модели статистически неотличимы от 0, в то время как модель в целом является значимой.
|
Исследование линейной зависимости |
|
||
объясняющих переменных. Ложная корреляция. |
||||
Парные коэффициенты |
корреляции |
r x i , x j |
не |
|
учитывают влияние на эту |
связь других |
переменных |
||
x k , k i, j |
необходим измеритель связи, очищенный |
от опосредованного влияния других переменных, то есть дающий оценку тесноты связи между и x j при условии, что значения остальных переменных зафиксированы на некотором постоянном уровне.
Частные (очищенные) коэффициенты корреляции
Приведенные формулы справедливы для многомерного нормального закона и приближенно в общем случае (при достаточно большом объеме выборки)
37
rij ij |
|
Rij |
частный коэффициент корреляции между переменными x i |
и x j |
|||||||||
|
|
|
– |
|
|
|
|
|
|
|
|||
Rii R jj |
1/ 2 |
|
|
|
|
|
|
|
|||||
|
|
|
при фиксированнных значениях всех остальных переменных. |
||||||||||
Rkl – алгебраическое дополнение для rkl |
в определителе корреляционной матрицы |
||||||||||||
|
1 |
|
r |
r |
... |
r |
|
|
|
|
|
|
|
|
|
|
12 |
13 |
|
1k |
|
|
|
|
|
|
|
R |
r21 |
1 |
r23 |
... |
r1k |
1 |
r12 |
r13 |
... |
r1k |
|
||
... ... ... |
... |
... |
|
|
|
|
|
|
|||||
|
1 |
r23 |
... |
|
|||||||||
|
|
|
|
|
|
|
. R r21 |
r1k |
|
||||
|
rk1 |
rk 2 |
rk 3 |
... |
1 |
... ... |
... |
... |
... |
|
|||
|
|
|
|
r12 r13r23 |
|
|
|
|
|
|
|
||
r12 3 |
|
|
|
rk1 |
rk 2 |
rk 3 |
... |
1 |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
||
|
1 r132 |
1 r232 |
|
|
|
|
|
|
|
Rkl 1 k l det Akl , матрица Akl получена из R вычеркиванием k-строки и l-столбца.
## |
r12 3 |
|
r12 r13r23 |
|
|
– формула, примененная к трехмерному признаку. |
||
|
|
|
|
|
||||
1 r132 |
1 r232 |
|
||||||
|
|
|
|
Методы устранения мультиколлинеарности 1. Переход к смещенным методам оценивания
смещенная оценка может быть более точной, чем несмещенная!
|
|
|
|
|
|
|
|
|
возможные значения оценок |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
M см |
на разных выборках |
|
|||||
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
Один из методов – «ридж-регрессия» (ridge – гребень): |
|
|
|
|||||||||
|
T |
X E p 1 |
1 |
X |
T |
Y |
– добавляем к диагональным элементам матрицы X |
T |
X |
«гребень» |
||
|
||||||||||||
X |
|
|
|
|
0,1; 0,4 , матрица становится хорошо обусловленной.
2.Метод главных компонент – переход к новым объясняющим переменным,
|
линейным комбинациям старых: |
||||||||
1) |
Центрирование переменных Xц X |
|
, |
|
Yц Y |
|
; |
||
X |
Y |
||||||||
2) |
Решение характеристического уравнения |
|
E |
|
0 : |
||||
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
a)Нахождение собственных чисел 1 2 ... p 0,
b)Нахождение для каждого собственного числа j собственного вектора l j ;
3)Переход к новым переменным Z Xц L , Xц ZL 1 ZLT ;
4)Построение линейной регрессии Yц ZC , вычисление оценок с помощью МНК
Z T Z 1 Z TY diag 1 j Z TY ;
5) Проверка гипотез H0 j : c j 0, |
j 1,..., p , исключение несущественных переменных; |
38
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
|
|
p |
|
j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y |
|
|
. |
||||||||
6) При необходимости переход к исходной модели j |
|
сk lk |
, 0 |
j x |
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
k Kсущ |
|
|
|
|
j 1 |
|
|
|
||||||
3. Отбор наиболее существенных объясняющих переменных |
|
|
|
|
|
|
|
||||||||||||||||||||
1) Версия «всех возможных регрессий»: |
|
|
|
|
|
|
|
|
j1 ,..., x jk , дающий |
||||||||||||||||||
|
|
|
k 1,2,..., p 1 |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
максимальное значение коэффициента детерминации |
|
2 |
k . |
|
|
|
|
|
|
|
|
|
|
||||||||||||||
R |
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
Увеличиваем число переменных k, пока возрастает нижняя граница ~95%-довери- |
|||||||||||||||||||||||||||
тельного интервала для коэффициента детерминации. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
R |
2 |
2 |
k 2 |
2k n k 1 |
1 |
|
2 |
k , |
2 |
|
k 1 |
|
|
2 |
k |
|
|
n k |
. |
||||||||
|
k R |
|
|
|
R |
|
R |
|
1 R |
|
|
|
|
|
|
||||||||||||
min |
несм |
|
|
|
|
|
|
|
|
несм |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
n 1 n |
2 |
1 |
|
|
|
|
|
|
|
|
|
n |
k 1 |
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Проблема: огромное количество переборов (для 20 переменных – более 1млн).
2)Версия «пошагового отбора переменных»:
При переходе от k переменных к k 1 переменной учитываются результаты предыдущего шага – все отобранные переменные остаются.
Проблема: нет гарантии получения оптимума.
Фиктивные переменные
Линейные регрессионные модели с переменной структурой
Проблема неоднородности данных: y зависит не только от X, но и от уровня сопутствующих переменных Z (как правило, не являющихся количественными).
## Сезонность (сезон, квартал, месяц), пол, возраст, социальная страта, регион,…
Способы решения:
1. Разбиение имеющихся статистических данных на однородные порции
(внутри каждой подвыборки значения переменных Z постоянны). |
|
|||||||||||
Для |
|
каждой |
|
подвыборки |
своя |
функция |
регрессия |
|||||
fˆ X , Z* ˆ |
Z* ˆ Z* x 1 ... ˆ |
p |
Z* x p . |
|
|
|
||||||
|
0 |
|
1 |
|
|
|
|
|
|
|
||
При этом |
ˆ |
X , Z |
* |
и |
ˆ |
** |
значимо отличаются. |
|
|
|||
f |
|
f X , Z |
|
|
|
Проблемы:
1) сопутствующие переменные Z ненаблюдаемы, либо эти значения не были зарегистрированы при сборе исходных данных прямое разбиение выборки невозможно, необходимо использование методов классификации объектов (расщепление смеси вероятностных распределений, кластер-анализ);
2) прямое разбиение возможно, но приводит к слишком малым подвыборкам.
2.Введение дамми-переменных (фиктивных переменных, переменных-манекенов)
Преимущества:
1)сильно повышается статистическая надежность оценок;
2)одновременно появляется возможность проверки гипотез о значимом влиянии сопутствующих переменных.
39
Если категоризованная переменная z j имеет k j градаций, то требуется ввести k j 1 бинарных дамми-переменных (принимающих значения 0 или 1)!
## Социальная страта (низкодоходная / среднедоходная / высокодоходная), k1 1 2 если i-наблюдение за среднедоходным домашним хозяйством,
иначе;
если i-наблюдение за высокодоходным домашним хозяйством, иначе.
## Сезонность (зима / весна / лето / осень), k2 1 3 если i-наблюдение осуществлено весной,
иначе;
если i-наблюдение осуществлено летом, иначе;
если i-наблюдение осуществлено осенью, иначе.
Возможны различные варианты зависимостей, например, следующие:
Вариант 1. При переходе из страты в страту и из сезона в сезон меняется только свободный
член регрессии 0 (абсолютное потребление); 1 (склонность к потреблению) постоянна:
yˆ 0 1x 1.1z 1.1 1.2 z 1.2 2.1z 2.1 2.2 z 2.2 2.3z 2.3 .
Вариант 2. При переходе из страты в страту меняется склонность к потреблению; фактор сезонности по-прежнему влияет только на потребляемое количество:
|
|
|
|
|
|
|
|
|
ˆ |
; |
|
|
|
для низкодоходной страты склонность к потреблению 1 |
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
ˆ |
|
ˆ |
; |
|
для среднедоходной страты склонность к потреблению 1 |
1.1 |
||||||||||||
|
|
|
|
|
|
|
|
|
ˆ |
|
ˆ |
|
|
для высокодоходной страты склонность к потреблению 1 |
1.2 ; |
||||||||||||
yˆ |
0 |
x |
z 1.1 x |
z 1.2 x |
2.1 |
z 2.1 |
2.2 |
z 2.2 |
2.3 |
z 2.3 . |
|||
|
1 |
1.1 |
1.2 |
|
|
|
|
|
Пример 4 (файл villa.sf )
Стоимость дома и участка в подмосковье.
Описание переменных:
Price |
(Y) – стоимость дома и участка |
(тыс$), |
|
Dist |
(X1) – расстояние от МКАД (км) |
House (X2) –площадь дома (м.кв.)
Area (X3) –площадь участка (сот.)
40