Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет экономики, статистики и информатики (МЭСИ)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

41_4_Econometrics_Polyansky__Part_4

.pdf

Скачиваний:

Добавлен:

05.06.2015

Размер:

1.44 Mб

Скачать

☆

1 / 31 2 3 > Следующая >>>

Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование.

ГЛАВА НЕКОТОРЫЕ ОСОБЕННОСТИ ПРАКТИЧЕСКОГО4. ПРИМЕНЕНИЯ РЕГРЕССИОННЫХ МОДЕЛЕЙ

4.1. ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ

Нарушения тех или иных допущений классического МНК (см. введе- ние) приводит к тому, что получается недостаточно адекватная модель.

4.1.1. Мультиколлинеарность

Мультиколлинеарность - это высокая взаимная коррелированность объясняющих переменных между собой. Формы мультиколлинеарности: функциональная (явная) и стохастическая (неявная).

Функциональная форма мультиколлинеарности наблюдается, ко-

гда хотя бы одна пара связей между объясняющими переменными является линейной функциональной зависимостью. При этом матрица X T X в (3.2) содержит линейно зависимые векторы-столбцы (т.е. вырождена). Её опре-

делитель	=det( X Т X ) =0 , поэтому её обратная матрица (X Т	X )−1 не су-
ществует	[14]. Следовательно, вычислить матрицу-столбец коэффициентов
регрессии нельзя. Пример: С =b0 +b1 S +b2 N +b3T +ε , где C - потребле-
ние; S - зарплата; N - доход вне работы; T - общий доход. Здесь		T = S + N -
линейная функциональная зависимость.

Стохастическая форма мультиколлинеарности наблюдается, когда хотя бы между двумя объясняющими переменными существует тесная кор- реляционная связь. При этом матрица X T X хоть и невырожденная, но её определитель очень мал ( = det( X Т X ) → 0 ). Расчеты хоть и возможны, но могут наблюдаться значительные ошибки, качество модели низкое.

!Замечание.

Выявление и устранение мультиколлинеарности напоминает лечение болезни:

−сначала наблюдаются некоторые её внешние проявления («симптомы»);

−потом тесты («анализы») помогают сделать окончательный вывод («диа- гноз»),

−наконец, проводится более или менее эффективное устранение или умень- шение мультиколлинеарности («лечение болезни»).

1)Внешние признаки мультиколлинеарности:

Полянский Ю.Н.

Эконометрика. Экономическое моделирование и прогнозирование.

•небольшое изменение исходных данных (например, добавление но- вых наблюдений) приводит к значительному изменению получающихся ре- зультатов;

•при высокой значимости модели в целом (большой F-статистике) мало значимы оценки некоторых коэффициентов регрессии (низкие некото-

рые	tb j	);
рые	tb j	);
	•	оценки некоторых коэффициентов регрессии ( b j ) не соответствуют
		ˆ

экономическому смыслу по величине или знаку.

2) Выявление мультиколлинеарности:

•анализ выборочной корреляционной матрицы; о мультиколлинеар- ности может свидетельствовать:

−наличие в модели пар переменных, имеющих высокие (>0,8) пар- ные (другой подход - частные) коэффициенты корреляции;

−очень малое значение определителя матрицы межфакторной кор- реляции (3.8) det( Σr11 ) << 1 ;

•анализ величин множественных коэффициентов детерминации; вы-

сокий (>0,6) R 2			между какой-либо объясняющей переменной и некоторой
их группой может свидетельствовать о мультиколлинеарности;
• анализ матрицы X T X ;							мультиколлинеарность выявляется, если:
−	её определитель =det( X Т X ) очень мал (близок к нулю);
−	минимальное собственное значение λmin мало (близко к нулю);
−	очень велика разность между максимальным и минимальным
	собственными значениями.
3) Устранение (уменьшение) мультиколлинеарности:
• исключение одной из объясняющих переменных, имеющих высо-
кий (>0,8)	парный (частный) коэффициент корреляции; из этих двух обычно
устраняется та, которая по экономическим соображениям менее важна или у
которой меньший коэффициент корреляции с Y ;
• переход от коррелирующих объясняющих переменных к новым в
виде линейной комбинации исходных (например, их суммы);
• переход			от несмещённых оценок коэффициентов к смещённым
(например, расчеты методом максимального правдоподобия);
• использование гребневой регрессии («ридж-регрессии»). Вместо
матрицы несмещённых оценок b (3.2) используется матрица смещённых
оценок bτ	=( X		X +τE p+1 )		X		ˆ
		Т				Т	Y ,
ˆ				−1

Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование.

где τ - малое положительное число («гребень», «хребет»); E p+1 - единичная матрица ( p +1 ) -го порядка.

Т.е. в матрице X T X элементы главной диагонали искусственно увели- чивают на некоторое малое число, подбираемое экспериментально (напри-

мер, τ =0 ,01 ).

• использование пошаговых процедур отбора переменных (пошаго- вого присоединения, удаления или присоединения-удаления).

а) Процедура пошагового присоединения.

	1. Из всего набора имеющихся в наличии объясняющих переменных
определяется конкретная				X j , имеющая с			Y наибольший коэффициент де-
терминации R2		(>0,8).					перебора оставшихся факторов
	2. Далее	путём последовательного
определяется тот, добавление которого в модель даёт наибольший эффект
(скорректированный			R	по сравнению с			1-м шагом увеличится наиболее
			ˆ 2
значительно). Его вводят в модель.
	3. Опять перебираются оставшиеся факторы, поочередно и последо-
вательно включаясь в модель. Определяется тот фактор, добавление которо-
го позволяет ещё более повысить R					.	Его и оставляют в модели.
				ˆ 2		пока добавление в модель любой из
	4. Так повторяется до тех пор,
оставшихся объясняющих переменных практически не сказывается на каче-
стве модели, т.е. R			практически перестаёт увеличиваться.
		ˆ 2
!	Замечания.
	• Возможны некоторые другие подходы. В частности, может анализироваться не
R , а корреляционная матрица (3.7), т.е. парные коэффициенты корреляции.
ˆ 2	• Необходимо также в получающихся моделях обращать внимание на значи-

мость коэффициентов регрессии b	j (т.е. на их t-статистики) и соответствие их знаков
ˆ
экономическому смыслу.

б) Процедура пошагового удаления.

Она во многом обратна пошаговому присоединению.

1. Строится первоначальная модель для всех имеющихся объясняю- щих переменных и определяются её характеристики.

2. Из модели шаг за шагом исключаются (если они есть) объясняемые переменные, которые:

• не значимы, т.е. их tb j <t1−α;n−m (3.22); при наличии нескольких та- ких переменных исключается та, у которой меньше tb j ;

Полянский Ю.Н.

Эконометрика. Экономическое моделирование и прогнозирование.

•

сильно коррелированы (

> 0,8 ) с другими объясняющими пере-

менными; из двух коррелирующих

объясняющих переменных удаляется та,

которая имеет наименьший по модулю коэффициент парной корреляции с

объясняемой переменной Y ;

•

имеют несоответствующий экономическому смыслу знак (модуль).

Процедура заканчивается тогда, когда в модели остаются только

значимые объясняемые переменные (у которых

tb j

> t1−α;n−m ), мало корре-

лированные друг с другом (их парные

< 0,8 )

имеющие экономически

интерпретируемые величины и знаки bj .

Замечания.

•

В процессе использования процедур отбора получается модель не оптимальная,

но близкая к оптимальной (в смысле МНК).

•

Порядок отсеивания переменных

и их состав может несколько отличаться

(например, у различных исследователей). В

этих случаях получаются модели в боль-

шей или меньшей степени близкие к опти-

мальной.

Не рекомендуется исключать из

•

модели несколько переменных одновре-

менно.

4.1.2. Гетероскедастичность

Гетероскедастичность – это

Рис. 4.1

непостоянство дисперсий ошибок

регрессии ε i при различных значениях какой-либо из объясняющих пере-

менных. При этом нарушается допущение (0.6) классической регрессионной

модели.

В противном случае говорят о гомоскедастичности.

1) Методы определения гетероскедастичности

•

визуальный – анализ вида графика зависимости объясняемой пере-

менной от какой-либо объясняющей переменной. Когда разброс наблюдае-

мых значений объясняемой переменной от своих средних значений суще-

ственно

различен при различных значениях

объясняющей переменной

(рис.4.1), можно сделать вывод о наличии в модели гетероскедастичности.

•

тестовый – использование различных тестов, что позволяет выявить

гетероскедастичность в не столь явно выраженных случаях.

2) Выявление гетероскедастичности

Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование.

а) Тест ранговой корреляции Спирмена

Коэффициент ранговой корреляции Спирмена ρx , y известен из мате-

матической статистики [13].

Суть теста: при наличии в модели гетероскедастичности абсолютные

xi коррелированны.

величины остатков ei и значения регрессора

Алгоритм теста:

− наблюдения упорядочиваются по возрастанию конкретного

определяются ранги N x наблюдений;

− аналогично наблюдения упорядочиваются по возрастанию

определяются ранги Ne наблюдений;

− вычисляются разности рангов di

= N xi − Nei ;

− определяется коэффициент ранговой корреляции

∑n

di2

ρx ,e = 1 −

i=1

;

(4.1)

− n

− если он близок к ±1 , то xi и

коррелированы, т.е. модель счита-

ется гетероскедастичной;

коэффициент ранговой корреляции

− определяется значимость

ρx ,e ;

Спирмена значим на уровне α при n > 10 , если его t-статистика

ρx ,e

> t1−α;n−2

n − 2

(4.2)

1 − ρx2

б) Тест Голдфелда-Квандта

Предполагается, что ошибки наблюдений имеют нормальное распре- деление.

Суть теста: в гомоскедастичной выборке после упорядочивания наблюдений по возрастанию объясняющей переменной дисперсии остатков, вычисленные для различных участков заданной выборки, должны быть практически одинаковыми, т.е. ∑ei2 , вычисленные при малых и при боль-

ших xi не должны значительно отличаться. Алгоритм теста:

− выборка упорядочивается по возрастанию объясняющей перемен- ной, подозреваемой в инициировании в модели гетероскедастичности;

− выбирается одинаковое количество наблюдений k (мощность те- ста) в начале и в конце выборки;

Полянский Ю.Н.

Эконометрика. Экономическое моделирование и прогнозирование.

− вычисляются для каждой из этих подвыборок суммы квадратов

остатков: S1 =∑k

ei2 , S2 =

∑n

ei2 ;

i =1

i =n−k +1

определяются минимальное и мак-

− из полученных величин S1 и S2

симальное:

Smax =max S1

; S2

, Smin

=min S1 ; S2 .

−

определяется F-статистика

− если вычисленная F-

F = Smax

Smin

;

(4.3)

статистика

F > Fα;k − p ;k − p , то гипотеза H0 (о

гомоскедастичности) отвергается (т.е. модель гетероскедастична).

Замечания.

•

Наилучшие результаты получаются при выборе мощности теста k ,

близкой к n

, т.е. надо сравнивать приблизительно 30% первых и 30% последних

наблюдений.

•

Для полного исследования на гетероскедастичность можно сравнить не

только первые и последние, но и первые-центральные,

последние-центральные и

т.п. подвыборки одинакового объёма.

в) Тест Уайта

что дисперсия ошибок регрессии представляет собой

Предполагается,

одну и ту же функцию

σε2

= f ( x ) ,

i =1,2 ,...,n .

Суть теста:

гетероскедастичность наблюдается, если ошибки не зави-

сят от

величины объясняемой переменной, т.е. уравнение ei2 = f ( xi

) +ui

является значимым на уровне

α ( ui - ошибки описываемой модели).

Чаще

всего f

выбирается квадратичной,

чтобы σ зависела от

xi приближённо

линейно.

Алгоритм теста:

и их квадраты ei2 ;

−

вычисляются остатки регрессии ei

−

строится модель

ei2

= f ( xi ) +ui

(обычно

f выбирается квадра-

тичной);

− оценивается её значимость; если модель незначима, то отвергается

гипотеза

(о

гетероскедастичности модели),

т.е. модель го-

москедастична.

г) Тест Глейзера

Тест во многом аналогичен тесту Уайта.

Суть теста: как и в тесте Уайта, анализируется значимость функции

качестве

обычно выбирается

функция

вида

= f ( xi

) +ui

Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование.

f =α +γxδ . Расчеты проводятся при различных δ , а выбирается то зна-

чение, при котором

наиболее значим

(имеет наибольшую t-статистику).

Замечания.

Невыявление гетероскедастичности не означает её отсутствие (аналогично

тому, что недиагностированная болезнь не означает здоровье пациента). Напри-

мер,

могут оказаться неверными начальные предположения рассмотренных те-

стов, например о виде функций. Процесс выявления гетероскедастичности может

оказаться сложным.

2) Устранение гетероскедастичности

Для устранения гетероскедастичности часто используется взвешен-

ный МНК.

Суть: осуществляется переход от исходной гетероскедастичной моде-

ли

y =b0 +∑p

bj x j

+ε

исходными

объясняющими

переменными X j

j=1

( j =1,2 ,..., p ) и объясняемой переменной Y к модели

~ ~

(4.4)

=b0

+∑bj x j

+ε

j=1

X j

с нормированными переменными Y

X j =

( j =1,2,..., p ) и новыми

возмущениями ε =

. Здесь σi

соответствуют i-ым (i = 1, 2, …, n)

диаго-

нальным элементам ковариационной матрицы

σ 2

ε 2

)

Σ B =

0 0

M (

σ 22

0 0

M ( ε 22

) 0

...

0 0 σ n

0 M ( ε n

)

Величину M ( ε i2 ) можно оценить средним арифметическим квадратов

остатков i-го наблюдения

ε i2

) =1.

Новая модель гомоскедастична: дисперсия возмущений D( ε i

ния

Состоятельными оценками могут быть, например, прогнозные значе-

ei квадратичной регрессии теста Уайта.

ˆ 2

4.1.3. Однородность двух выборок

Пусть имеется 2 выборки объемами n и n , полученные в несколько различных условиях. Насколько они однородны1 2в регрессионном смысле?

Полянский Ю.Н.

Эконометрика. Экономическое моделирование и прогнозирование.

Иначе: насколько правомочно объединять их в одну выборку и рассматри- вать единую регрессию?

Известны различные тесты на однородность двух выборок [13]. В эконометрике, например, широко используется тест Г.Чоу.

Тест Г. Чоу

Суть теста: если для обеих выборок получаются регрессионные моде- ли с примерно одинаковыми коэффициентами регрессий и примерно одина- ковыми дисперсиями ошибок, то выборки однородны.

Алгоритм теста:
•	для каждой		выборки отдельно построить две регрессионные модели
	yi	=b0( 1 ) +∑p		b(j	1 ) xij	+εi( 1 ) ,	i =1,2 ,...,n1 ;
			j=1
	yi	=b0( 2 ) +∑p		b(j	2 ) xij	+εi( 2 ) ,	i =1,2 ,...,n2 ;

j=1

•для каждой получить сумму квадратов остатков

		Se( 1 ) =∑n1			( ei( 1 ) )2 и Se( 2 ) =∑n2			( ei( 2 ) )2 ;
			i=1				i =1
•	построить модель для объединённой выборки объёмом n =n1 +n2
	y =b0 +∑p			bj x j +ε ,			i =1,2 ,...,n ;
			j=1
•	получить для неё сумму квадратов остатков
					Se =	∑n	ei2 ;
	вычислить F-статистику					i =1
•	вычислить F-статистику
		F =	( Se − Se( 1 ) − Se( 2 )				)( n − 2 p − 2 )		;	(4.5)
• гипотеза		F =		( Se( 1 ) + Se( 2 )			)( p + 1 )		;	(4.5)
				( Se( 1 ) + Se( 2 )			)( p + 1 )
		H0 (об однородности выборок) отвергается (т.е. выборки
нельзя объединять в одну), если

F> Fα; p+1;n−2 p−2 .

4.2.ПРАКТИЧЕСКИЕ ЗАДАНИЯ.

Задача 4.1

Аналитическое подразделение МВД проводит анализ влияния факто- ров на стоимость строящихся квартир в г.Санкт-Петербурге [6]. В про- цессе предварительного исследования систематизированы данные 2000 года о стоимости случайно отобранных n = 40 квартир с различными па-

Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование.

раметрами, проанализирован и сформирован набор факторов, оказываю-
щих	(по мнению исследователей)			наиболее существенное влияние на сто-
имость квартиры		(тыс.$) - объясняемую переменную Y :
X 1 - количество комнат (шт.),				X	2 -	общая площадь (кв.м), X 3 - жилая
площадь (кв.м),		X 4 - площадь кухни				(кв.м),		X 5 - высота потолка	(м),
Z 6 - этаж (0- первый или последний, 1-							не первый и не последний),		X 7 -
количество балконов/лоджий (шт.),					X		8 - удаленность от центра города
(км),	X 9 - расстояние до метро		(минут			ходьбы),		X 10 - планируемый срок
до сдачи дома (месяцев).			данным:
По приведенным на рис. 4.2
1)	построить модель множественной линейной регрессии Y на X 1 ,								X 2 ,
	X 3 , X 4 , X 5	, Z 6 , X 7 , X 8 ,	X	9 ,	X 10		(модель расчета рыночной стои-
	мости строящегося жилья г.Санкт-Петербурга);
2)	определить качество и статистическую значимость модели в целом, а
	также статистическую значимость и экономическую интерпретируе-
	мость всех полученных коэффициентов регрессии;
3)	исследовать модель на мультиколлинеарность;
4)	сделать вывод о возможности применения полученной модели мно-
	жественной линейной регрессии.

Решение.

1) Воспользуемся пакетом анализа (см. задачу 1.4). Его результаты удобно выводить на один лист с исходными данными. Для этого вызовем пакет анализа и в диалоговом окне (рис.4.3) в поле «Выходной интервал» укажем «$A$47:$J$119», а в поле «Остатки» - поставим галочку. Вывод ито- гов произведется под таблицей исходных данных.

В ячейках B50:B52 (таблица «Регрессионная статистика») выведены показатели регрессионной статистики. В B63:B73 – оценки коэффициентов регрессии (рис.4.4). Имеем уравнение множественной линейной регрессии

ˆy = −9,860 + 3,036 x1 + 0,375 x2 − 0,142 x3 + 1,974 x4 + 3,498 x5 +

+4,053z6 − 5,384x7 − 1,518 x8 − 0,080 x9 − 0,409 x10 .

2)Данная модель имеет высокие величины множественного коэффи- циента корреляции ry / 1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 ,10 =0 ,993 (ячейка B50 в таблице вывода итогов), коэффициента детерминации R 2 =0 ,986 (ячейка B51) и скорректи-

рованного коэффициента детерминации R		=0 ,981 (ячейка B52).
ˆ	2

Полянский Ю.Н.

Эконометрика. Экономическое моделирование и прогнозирование.

Рис. 4.2

Средняя относительная ошибка пакетом анализа не рассчитыва- ется. Её получим рядом со столбцом абсолютных остатков. Для этого в ячейке D80 введем формулу «=ABS(C80/L6)» и протянем по D80:D119. Далее в ячейке D120 осредним результаты с помощью СРЗНАЧ. Вели- чина A =6 ,56% <8...10% , что вполне приемлемо. В целом модель зна- чима на уровне α =0 ,05 по F-критерию (ячейка E58 в таблице диспер-

сионного анализа): F =200 ,6 > Fα;m −1 ;n−m = F0 ,05 ;11−1;40−11 = F0 ,05 ;10 ;29 =2 ,18 .

1 / 31 2 3 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025375.81 Кб841-48.doc
#
05.06.2015279.58 Кб6941_0_Econometrics_Polyansky__Part_0.pdf
#
05.06.20151.7 Mб5841_1_Econometrics_Polyansky__Part_1.pdf
#
05.06.20151.55 Mб4141_2_Econometrics_Polyansky__Part_2.pdf
#
05.06.20151.08 Mб4641_3_Econometrics_Polyansky__Part_3.pdf
#
05.06.20151.44 Mб4841_4_Econometrics_Polyansky__Part_4.pdf
#
05.06.20151.45 Mб4341_5_Econometrics_Polyansky__Part_5.pdf
#
05.06.2015676.83 Кб5141_6_Econometrics_Polyansky__Part_6.pdf
#
05.06.20153.64 Mб6041_7_Econometrics_Polyansky__Additions.pdf
#
25.04.201998.7 Кб18436329_A7C72_shpory_po_pravovedeniyu.docx
#
05.06.20153.65 Mб61464591.rtf