эконометрика с косяками
.pdf
Содержательная интерпретация коэффициентов для обобщенной модели К-Д.
  | 
	Y  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|
  | 
	
  | 
	
  | 
	Y K  | 
	
  | 
|||
  | 
	Y  | 
	
  | 
	
  | 
||||
  | 
	K  | 
	
  | 
	
  | 
	
  | 
|||
  | 
	
  | 
||||||
  | 
	
  | 
	
  | 
	K Y  | 
	
  | 
|||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|||
  | 
	K  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|
  | 
	Y  | 
	
  | 
|
  | 
	
  | 
	
  | 
|
  | 
	Y  | 
	...  | 
|
  | 
	L  | 
||
  | 
|||
  | 
	
  | 
	
  | 
|
  | 
	L  | 
	
  | 
AK 1L K AK L
Как назывались такие величины в матэкономике? Каков их содержательный смысл?
В нашем примере 1 , что это
значит?
Множественная линейная регрессионная модель. Исправленный коэффициент детерминации.
Функция регрессии в предыдущей задаче зависела уже от двух независимых
31
переменных. В общем случае такая модель имеет вид:
Y 0 1 X1 ... k Xk
Оценки коэффициентов обычно ищутся методом наименьших квадратов
ЗАМЕЧАНИЕ
____________________________________________________________________
Для того чтобы оценки, полученные по МНК, давали «наилучшие» результаты, мы потребуем от остаточного члена или ошибки и от X выполнения следующих условий:
Условия Гаусса-Маркова
1.
Y 0 1 X1 ... k X k
- спецификация модели
2. X1,…,Xk – детерминированные вектора, линейно независимые в Rn, т. е. матрица X имеет максимальный ранг k +1
3.  | 
	M i  | 
	0  | 
	
  | 
|
4.  | 
	M  | 
	2  | 
	D  | 
	, 2  | 
  | 
	
  | 
	i  | 
	i  | 
	
  | 
32
дисперсия ошибки не зависит от номера наблюдения;
5.M ( i j ) 0
при i k, т. е. некоррелированность ошибок разных наблюдений;
6. i N(0, )
т. е. . i –нормально распределенная случайная
величина со средним 0 и дисперсией  | 
	2  | 
.  | 
Теорема Гаусса - Маркова
В условиях 1-5 МНК-оценки МЛРМ представляют собой наилучшие линейные несмещенные оценки, т. е. в классе линейных несмещенных оценок МНКоценки обладают наименьшей дисперсией.
Best Linear Unbaised Estimation (BLUE)
___________________________________________
Мультиколлинеарность. Пошаговое
исключение незначимых коэффициентов.
Полная мультиколлинеарность
Коэффициенты по методу наименьших квадратов существуют не всегда, а только в том случае, когда определитель матрицы, для линейной системы уравнений отличен от нуля.
Определитель будет равен нулю в случае, если столбцы матрицы X линейно зависимы. Такое может произойти, если между независимыми переменными существует точная линейная связь.
33
Пример
Y 0 1 X 2 D 3W
где
Y - средняя оценка на экзамене состоящую из трех объясняющих переменных:
X доход родителей,
D среднее число часов, затраченных на обучение в день,
W среднее число часов, затраченных на обучение в неделю.
Очевидно, что W=7D.
Найти неизвестные коэффициенты МНК для такого примераStatgraphics не сможет.
Мультиколлинеарность – это проблема,
когда тесная корреляционная зависимость между регрессорами (близость к нулю определителя соответствующей линейной системы), ведет к получению ненадежных оценок коэффициентов регрессионной функции.
(В математике такие системы называют плохо обусловленными)
Пример 3 Стоимость строительства атомной
электростанции.Лаб. раб.№9, с.85 ) ( файл ATOMST.sf )
34
ПОШАГОВАЯ МНОЖЕСТВЕННАЯ РЕГРЕССИЯ
В файле приведены данные о капитальных затратах на строительство атомных электростанций с реактором водяного охлаждения.
Данные собраны для 32 различных станций США.
ОПИСАНИЕ ПЕРЕМЕННЫХ:
C — цена в млн долларов, приведенная к курсу
1976 г.,
D — срок разрешения на строительство;
T1 — время между обращением и получением разрешения на строительство;
T2 — время между получением оперативной лицензии и разрешением на строительство;
S — номинальная мощность электростанции, Мвт;
PR — наличие в той же самой местности ранее построенной электростанции на РВО (если значение равно 1, то имеется уже построенная станция);
NE — характеристика района, в котором строится станция;
35
CT— использование нагревательной башни (если значение равно 1, то используется, если 0 — нет);
BW — использование силовой установки производства фирмы Wilcox (если значение равно 1,
то используется, 0 — нет);
N — суммарное количество электростанций,
построенное архитектором-инженером станции;
PT — электростанции, строящиеся под частичным надзором ( 1 если надзор есть, 0 — если нет).
1. Постройте множественную линейную регрессионную модель, зависимая переменная— цена, все
остальные —независимые.
(Номер станциине включать в переменные!)
Запишите Radj2 _____?
2. Исключите незначимые переменные «автоматически» используя средства StatGraphics так, как это делается в лабораторной работе.
Запишите:
Какие переменные и с какими коэффициентами остались?
Radj2 _____?
36
3.Вернитесь к исходной модели и исключите незначимые переменные последовательно «в ручную». Опять
запишите результаты.
Сравните результаты. Какая модель предпочтительнее?
4.Сколько будет стоить увеличение мощности станции на 1мгвт ?
Эвристические рекомендации для выявления неполной мультиколлинеарности:
1)Анализ корреляционной матрицы R; rjk 0,8 .
2)Анализ обусловленности матрицы X T X ; det X T X 0 .
3)Анализ собственных чисел матрицы X T X ; min 0 .
4)Анализ коэффициентов детерминации каждой переменной x j по всем остальным объясняющим переменным; R2j j 0,9 .
5)Анализ экономической сущности модели; некоторые оценки j имеют неверные с точки зрения экономической теории значения (неверные знаки, слишком большие или слишком малые значения).
6)Анализ чувствительности модели; небольшое изменение данных (добавление или
изъятие небольшой порции наблюдений) существенно изменяет оценки j коэффициентов модели (вплоть до изменения знаков).
7)Анализ значимости модели; большинство (или даже все) оценки j коэффициентов
модели статистически неотличимы от 0, в то время как модель в целом является значимой.
  | 
	Исследование линейной зависимости  | 
	
  | 
||
объясняющих переменных. Ложная корреляция.  | 
||||
Парные коэффициенты  | 
	корреляции  | 
	r x i , x j  | 
	не  | 
|
учитывают влияние на эту  | 
	связь других  | 
	переменных  | 
||
x k , k i, j  | 
	необходим измеритель связи, очищенный  | 
|||
от опосредованного влияния других переменных, то есть дающий оценку тесноты связи между и x j при условии, что значения остальных переменных зафиксированы на некотором постоянном уровне.
Частные (очищенные) коэффициенты корреляции
Приведенные формулы справедливы для многомерного нормального закона и приближенно в общем случае (при достаточно большом объеме выборки)
37
rij ij  | 
	
  | 
	Rij  | 
	частный коэффициент корреляции между переменными x i  | 
	и x j  | 
|||||||||
  | 
	
  | 
	
  | 
	–  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|||
Rii R jj  | 
	1/ 2  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|||||
  | 
	
  | 
	
  | 
	при фиксированнных значениях всех остальных переменных.  | 
||||||||||
Rkl – алгебраическое дополнение для rkl  | 
	в определителе корреляционной матрицы  | 
||||||||||||
  | 
	1  | 
	
  | 
	r  | 
	r  | 
	...  | 
	r  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|
  | 
	
  | 
	
  | 
	12  | 
	13  | 
	
  | 
	1k  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|
R  | 
	r21  | 
	1  | 
	r23  | 
	...  | 
	r1k  | 
	1  | 
	r12  | 
	r13  | 
	...  | 
	r1k  | 
	
  | 
||
... ... ...  | 
	...  | 
	...  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|||||
  | 
	1  | 
	r23  | 
	...  | 
	
  | 
|||||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	. R r21  | 
	r1k  | 
	
  | 
||||
  | 
	rk1  | 
	rk 2  | 
	rk 3  | 
	...  | 
	1  | 
	... ...  | 
	...  | 
	...  | 
	...  | 
	
  | 
|||
  | 
	
  | 
	
  | 
	
  | 
	r12 r13r23  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||
r12 3  | 
	
  | 
	
  | 
	
  | 
	rk1  | 
	rk 2  | 
	rk 3  | 
	...  | 
	1  | 
	
  | 
||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||
  | 
	1 r132  | 
	1 r232  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||
Rkl 1 k l det Akl , матрица Akl получена из R вычеркиванием k-строки и l-столбца.
##  | 
	r12 3  | 
	
  | 
	r12 r13r23  | 
	
  | 
	
  | 
	– формула, примененная к трехмерному признаку.  | 
||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||
1 r132  | 
	1 r232  | 
	
  | 
||||||
  | 
	
  | 
	
  | 
	
  | 
|||||
Методы устранения мультиколлинеарности 1. Переход к смещенным методам оценивания
смещенная оценка может быть более точной, чем несмещенная!
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	возможные значения оценок  | 
|||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	M см  | 
	на разных выборках  | 
	
  | 
|||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
Один из методов – «ридж-регрессия» (ridge – гребень):  | 
	
  | 
	
  | 
	
  | 
|||||||||
  | 
	T  | 
	X E p 1  | 
	1  | 
	X  | 
	T  | 
	Y  | 
	– добавляем к диагональным элементам матрицы X  | 
	T  | 
	X  | 
	«гребень»  | 
||
  | 
||||||||||||
X  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||||||
0,1; 0,4 , матрица становится хорошо обусловленной.
2.Метод главных компонент – переход к новым объясняющим переменным,
  | 
	линейным комбинациям старых:  | 
||||||||
1)  | 
	Центрирование переменных Xц X  | 
	
  | 
	,  | 
	
  | 
	Yц Y  | 
	
  | 
	;  | 
||
X  | 
	Y  | 
||||||||
2)  | 
	Решение характеристического уравнения  | 
	
  | 
	E  | 
	
  | 
	0 :  | 
||||
  | 
	
  | 
||||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
a)Нахождение собственных чисел 1 2 ... p 0,
b)Нахождение для каждого собственного числа j собственного вектора l j ;
3)Переход к новым переменным Z Xц L , Xц ZL 1 ZLT ;
4)Построение линейной регрессии Yц ZC , вычисление оценок с помощью МНК
Z T Z 1 Z TY diag 1 j Z TY ;
5) Проверка гипотез H0 j : c j 0,  | 
	j 1,..., p , исключение несущественных переменных;  | 
38
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	j  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	p  | 
	
  | 
	j  | 
	
  | 
|
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	y  | 
	
  | 
	
  | 
	.  | 
||||||||
6) При необходимости переход к исходной модели j  | 
	
  | 
	сk lk  | 
	, 0  | 
	j x  | 
	
  | 
	
  | 
|||||||||||||||||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	k Kсущ  | 
	
  | 
	
  | 
	
  | 
	
  | 
	j 1  | 
	
  | 
	
  | 
	
  | 
||||||
3. Отбор наиболее существенных объясняющих переменных  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||||||||||||||||||
1) Версия «всех возможных регрессий»:  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	j1 ,..., x jk , дающий  | 
||||||||||||||||||
  | 
	
  | 
	
  | 
	k 1,2,..., p 1  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||||||||||
максимальное значение коэффициента детерминации  | 
	
  | 
	2  | 
	k .  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||||||||||||
R  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||||||||||||||
Увеличиваем число переменных k, пока возрастает нижняя граница ~95%-довери-  | 
|||||||||||||||||||||||||||
тельного интервала для коэффициента детерминации.  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|||||||||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|||
R  | 
	2  | 
	2  | 
	k 2  | 
	2k n k 1  | 
	1  | 
	
  | 
	2  | 
	k ,  | 
	2  | 
	
  | 
	k 1  | 
	
  | 
	
  | 
	2  | 
	k  | 
	
  | 
	
  | 
	n k  | 
	.  | 
||||||||
  | 
	k R  | 
	
  | 
	
  | 
	
  | 
	R  | 
	
  | 
	R  | 
	
  | 
	1 R  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||||||||||
min  | 
	несм  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	несм  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||
  | 
	
  | 
	n 1 n  | 
	2  | 
	1  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	n  | 
	k 1  | 
	
  | 
|||||||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||
Проблема: огромное количество переборов (для 20 переменных – более 1млн).
2)Версия «пошагового отбора переменных»:
При переходе от k переменных к k 1 переменной учитываются результаты предыдущего шага – все отобранные переменные остаются.
Проблема: нет гарантии получения оптимума.
Фиктивные переменные
Линейные регрессионные модели с переменной структурой
Проблема неоднородности данных: y зависит не только от X, но и от уровня сопутствующих переменных Z (как правило, не являющихся количественными).
## Сезонность (сезон, квартал, месяц), пол, возраст, социальная страта, регион,…
Способы решения:
1. Разбиение имеющихся статистических данных на однородные порции
(внутри каждой подвыборки значения переменных Z постоянны).  | 
	
  | 
|||||||||||
Для  | 
	
  | 
	каждой  | 
	
  | 
	подвыборки  | 
	своя  | 
	функция  | 
	регрессия  | 
|||||
fˆ X , Z* ˆ  | 
	Z* ˆ Z* x 1 ... ˆ  | 
	p  | 
	Z* x p .  | 
	
  | 
	
  | 
	
  | 
||||||
  | 
	0  | 
	
  | 
	1  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||
При этом  | 
	ˆ  | 
	X , Z  | 
	*  | 
	и  | 
	ˆ  | 
	**  | 
	значимо отличаются.  | 
	
  | 
	
  | 
|||
f  | 
	
  | 
	f X , Z  | 
	
  | 
	
  | 
	
  | 
|||||||
Проблемы:
1) сопутствующие переменные Z ненаблюдаемы, либо эти значения не были зарегистрированы при сборе исходных данных прямое разбиение выборки невозможно, необходимо использование методов классификации объектов (расщепление смеси вероятностных распределений, кластер-анализ);
2) прямое разбиение возможно, но приводит к слишком малым подвыборкам.
2.Введение дамми-переменных (фиктивных переменных, переменных-манекенов)
Преимущества:
1)сильно повышается статистическая надежность оценок;
2)одновременно появляется возможность проверки гипотез о значимом влиянии сопутствующих переменных.
39
Если категоризованная переменная z j имеет k j градаций, то требуется ввести k j 1 бинарных дамми-переменных (принимающих значения 0 или 1)!
## Социальная страта (низкодоходная / среднедоходная / высокодоходная), k1 1 2 если i-наблюдение за среднедоходным домашним хозяйством,
иначе;
если i-наблюдение за высокодоходным домашним хозяйством, иначе.
## Сезонность (зима / весна / лето / осень), k2 1 3 если i-наблюдение осуществлено весной,
иначе;
если i-наблюдение осуществлено летом, иначе;
если i-наблюдение осуществлено осенью, иначе.
Возможны различные варианты зависимостей, например, следующие:
Вариант 1. При переходе из страты в страту и из сезона в сезон меняется только свободный
член регрессии 0 (абсолютное потребление); 1 (склонность к потреблению) постоянна:
yˆ 0 1x 1.1z 1.1 1.2 z 1.2 2.1z 2.1 2.2 z 2.2 2.3z 2.3 .
Вариант 2. При переходе из страты в страту меняется склонность к потреблению; фактор сезонности по-прежнему влияет только на потребляемое количество:
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	ˆ  | 
	;  | 
	
  | 
	
  | 
	
  | 
для низкодоходной страты склонность к потреблению 1  | 
	
  | 
	
  | 
	
  | 
||||||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	ˆ  | 
	
  | 
	ˆ  | 
	;  | 
|
для среднедоходной страты склонность к потреблению 1  | 
	1.1  | 
||||||||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	ˆ  | 
	
  | 
	ˆ  | 
	
  | 
|
для высокодоходной страты склонность к потреблению 1  | 
	1.2 ;  | 
||||||||||||
yˆ  | 
	0  | 
	x  | 
	z 1.1 x  | 
	z 1.2 x  | 
	2.1  | 
	z 2.1  | 
	2.2  | 
	z 2.2  | 
	2.3  | 
	z 2.3 .  | 
|||
  | 
	1  | 
	1.1  | 
	1.2  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|||||
Пример 4 (файл villa.sf )
Стоимость дома и участка в подмосковье.
Описание переменных:
Price  | 
	(Y) – стоимость дома и участка  | 
(тыс$),  | 
|
Dist  | 
	(X1) – расстояние от МКАД (км)  | 
House (X2) –площадь дома (м.кв.)
Area (X3) –площадь участка (сот.)
40
