Обобщенная линейная модель множественной регрессии гетероскедастичными остатками в пакете Statistika (90
..pdfCopyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Министерство образования и науки Российской Федерации
Государственное образовательное учреждение высшего профессионального образования «Оренбургский государственный университет»
Кафедра математических методов и моделей в экономике
В.И. Васянина, Ю.А. Жемчужникова, О.И. Стебунова
ОБОБЩЕННАЯ ЛИНЕЙНАЯ МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ С ГЕТЕРОСКЕДАСТИЧНЫМИ ОСТАТКАМИ В ПАКЕТЕ STATISTICA
Методические указания к семинарским занятиям, лабораторному практикуму, курсовым работам, диплом-
ному проектированию и самостоятельной работе студентов
Рекомендовано к изданию Редакционно-издательским советом Государственного образовательного учреждения высшего профессионального образования «Оренбургский государственный университет»
Оренбург ИПК ГОУ ОГУ 2011
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
УДК 330: 519.862 ББК 65В631
В 19
Рецензент - доцент, кандидат экономических наук Е.С.Щукина
Васянина, В.И.
В19 Обобщенная линейная модель множественной регрессии с гетероскедастичными остатками в пакете Statistica: методические указания к лабораторному практикуму, семинарским занятиям, курсовой работе, дипломному проектированию и самостоятельной работе студентов / В.И. Васянина, Ю.А. Жемчужникова, О.И. Стебунова; Оренбургский гос. ун-т.– Оренбург: ОГУ, 2011. – 37 с.
Методические указания к семинарским занятиям, лабораторному практикуму, самостоятельной работе студентов, в том числе для выполнения расчетнографических заданий, курсовых и дипломных работ, связанных с регрессионным анализом. Предназначены для специальности 080116 – Математические методы в экономике, направлений 231300 – Прикладная математика, 080500 – Бизнес-информатика и других экономических специальностей и направлений, изучающих дисциплины, использующие инструментарий регрессионного анализа.
© Васянина В.И., 2011 © Жемчужникова Ю.А., 2011 © Стебунова О.И., 2011 © ГОУ ОГУ, 2011
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  | 
	Содержание  | 
	
  | 
Введение...............................................................................................................................  | 
	4  | 
|
1 Теоретическая часть.........................................................................................................  | 
	5  | 
|
1.1  | 
	Общая постановка задачи регрессионного анализа..............................................  | 
	5  | 
1.2  | 
	ОМНК – оценки ОЛММР........................................................................................  | 
	6  | 
1.3  | 
	Внешние признаки и тесты для проверки гипотезы о наличии/отсутствии гете-  | 
|
роскедастичности................................................................................................................  | 
	8  | 
|
1.4  | 
	Уточнение стандартных ошибок в форме Уайта и Невье-Веста.......................  | 
	11  | 
1.5  | 
	Вопросы для практическо-семинарских занятий по теме «ОЛММР с гетерос-  | 
|
кедастичными остатками»................................................................................................  | 
	13  | 
|
2 Практическая часть.........................................................................................................  | 
	15  | 
|
2.1  | 
	Содержание лабораторной работы ......................................................................  | 
	15  | 
2.2  | 
	Задание к лабораторной работе ............................................................................  | 
	15  | 
2.3  | 
	Порядок выполнения лабораторной работы в пакете Statistica.........................  | 
	15  | 
2.5  | 
	Содержание письменного отчета..........................................................................  | 
	32  | 
2.6  | 
	Вопросы к защите лабораторной работы.............................................................  | 
	32  | 
Список использованных источников...............................................................................  | 
	33  | 
|
Приложение А....................................................................................................................  | 
	34  | 
|
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Введение
Для исследования регрессионных взаимосвязей между показателями в области экономики достаточно типична ситуация, связанная с неравноточностью измерений (наблюдений). Это связано с тем, что дисперсии регрессионных остатков, соответствующие значениям объясняющей переменной x j , если они характеризуют объекты, различающиеся по своим масштабам, могут быть различными. Например, при исследовании зависимости среднедушевых сбережений от дохода, вариация среднедушевых сбережений в семьях с более высокими доходами, будет отличаться от вариации среднедушевых сбережений для семей с более низкими доходами, т.е. дисперсия регрессионных остатков не постоянна.
Игнорирование гетероскедастичности регрессионных остатков сказывается на свойствах оценок и может вести к недостоверным статистическим выводам. В связи с этим актуальными являются вопросы, связанные с выявлением гетероскедастичности, ее тестированием, способами устранения, либо уточнения результатов.
Цель работы заключается в выработке навыков исследования регрессионных моделей с гетероскедастичными остатками.
4
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Теоретическая часть
1.1 Общая постановка задачи регрессионного анализа
Изучается регрессионная зависимость результативной переменной  | 
	y от  | 
объясняющих переменных x = ( x1 , x2 ,..., xk )T  | 
	
  | 
y = β 0 + β 1x1 + ... + β k x k ,  | 
	(1.1)  | 
~  | 
	
  | 
где  | 
	y  | 
	– условное среднее значение результативной переменной y .  | 
||||
  | 
	~  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
  | 
	
  | 
	Результаты наблюдений результативной и объясняющих переменных для «n»  | 
||||
  | 
	и матрицей Х типа «объект-свой-  | 
|||||
объектов представлены вектором  | 
	Y = ( y1 ,..., yn )T  | 
|||||
ство» наблюденных значений признаков х1,…хк:  | 
	
  | 
|||||
  | 
	
  | 
	æ 1  | 
	x11  | 
	x12 ...  | 
	x1k ö  | 
|
  | 
	
  | 
	ç  | 
	x21  | 
	x22 ...  | 
	÷  | 
|
  | 
	
  | 
	ç 1  | 
	x2k ÷  | 
|||
  | 
	
  | 
	X = ç  | 
	
  | 
	. ...  | 
	÷ .  | 
|
  | 
	
  | 
	ç . .  | 
	. ÷  | 
|||
  | 
	
  | 
	ç  | 
	xn1  | 
	xn2 ...  | 
	÷  | 
|
  | 
	
  | 
	è 1  | 
	xnk ø  | 
|||
Связь между наблюденными значениями Y и X в данном случае имеет вид:
Y = Xβ + Z  | 
	(1.2)  | 
где β = ( β 0 β 1 ...β k )T - вектор коэффициентов линейной модели множественной регрессии (ЛММР);
Z = ( z1 ,...,zn )T - возможные значения случайного вектора ε - характеризующие отклонения наблюденных значений yi от модельных значений yi для i–го объекта.
На y смотрим как на возможные значения случайной величины η , где
ηi - случайная величина, для которой уi - наблюденное значение на i–м объекте наблюдения .
5
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Тогда выборочная модель имеет вид:
η1,n= Xβ ε ,  | 
	(1.3)  | 
где η1,n= η1 , η2 , ... ,ηn T - случайный вектор, а (1.2) –реализация этой модели.
В рамках классической линейной модели множественной регрессии предполагается выполнение всех условий Гаусса-Маркова
1)х1,…,хк – детерминированные переменные;
2)ранг матрицы Х равен "к+1" – среди признаков нет линейно зависимых;
3)  | 
	
  | 
	
  | 
	Mεi=0  | 
	,  | 
	i=  | 
	
  | 
	
  | 
	
  | 
	- нет систематических ошибок в измерении у;  | 
||||||||||||||||
  | 
	1, n  | 
||||||||||||||||||||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||||
4)  | 
	
  | 
	
  | 
	Dεi=Mεi2=σ 2 ,  | 
	i=  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|||||||
  | 
	1, n  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|||||||||||||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||||||||
5)  | 
	
  | 
	
  | 
	cov εi , ε j =M εi ε j =0 ,  | 
	i≠ j  | 
	,  | 
	
  | 
	i=  | 
	
  | 
	
  | 
	j=  | 
	
  | 
	
  | 
	
  | 
||||||||||||
  | 
	1, n  | 
	1, n  | 
|||||||||||||||||||||||
4`)  | 
	Σ ε=M ε εT =σ 2 En .  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|||||||||||||||||
  | 
	Предположим, что нарушено 4-е условие Гаусса – Маркова, т.е. Dεi=Mεi2=σi2 ,  | 
||||||||||||||||||||||||
  | 
	
  | 
	
  | 
	
  | 
	обобщенной линейной моделью множе-  | 
|||||||||||||||||||||
где  | 
	i=  | 
	
  | 
	
  | 
	
  | 
	
  | 
	, тогда ЛММР (1.3) является  | 
|||||||||||||||||||
1, n  | 
|||||||||||||||||||||||||
ственной регрессии с гетероскедастичными остатками. Ковариационная матрица регрессионных остатков будет иметь вид:
  | 
	
  | 
	
  | 
	
  | 
	σ12  | 
	0  | 
	
  | 
	0  | 
	0  | 
	
  | 
	
  | 
||||
Σ ε=  | 
	
  | 
	
  | 
	0  | 
	σ 22  | 
	0  | 
	0  | 
	
  | 
	.  | 
||||||
  | 
	... ... ... ...  | 
	
  | 
||||||||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||||||||
  | 
	
  | 
	
  | 
	0  | 
	0  | 
	
  | 
	0  | 
	σ n2  | 
	
  | 
||||||
Условие 4`) можно записать в виде: Σ  | 
	
  | 
	
  | 
	=  | 
	M (  | 
	
  | 
	
  | 
	
  | 
	T  | 
	) = σ  | 
	2Σ  | 
	
  | 
	, где Σ 0 - некоторая симмет-  | 
||
ε  | 
	
  | 
	ε  | 
	ε  | 
	0  | 
||||||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	0  | 
	
  | 
||
ричная положительно-определенная матрица с  | 
	неравными элементами на главной  | 
|||||||||||||
диагонали.  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
6
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1.2 ОМНК – оценки ОЛММР
Если игнорировать гетероскедастичность регрессионных остатков и оценить коэффициенты ЛММР обычным методом наименьших квадратов (МНК), то оценки коэффициентов регрессионной модели остаются несмещенными и состоятельными, при тех же условиях, что и в КЛММР (/1/). Однако оценка ковариационной матри-
цы  | 
	ˆ  | 
	является смещенной и таким образом, оценка β ÌÍÊ  | 
	не является эффек-  | 
β ÌÍÊ  | 
|||
  | 
	Σ ˆ  | 
	
  | 
	
  | 
тивной.
Для ОЛММР несмещенные, состоятельные и эффективные оценки получить с помощью обобщенного метода наименьших квадратов (ОМНК)
ˆ  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
β ÎÌÍÊ = (X  | 
	T  | 
	−1  | 
	X )  | 
	− 1  | 
	X  | 
	T  | 
	−1  | 
	(1.4)  | 
|
  | 
	Σ 0  | 
	
  | 
	
  | 
	Σ 0 Y ,  | 
|||||
который требует знания матрицы Σ 0  | 
	с точностью до постоянного множителя, сов-  | 
||||||||
падающим с Σ ε . Но для этого надо найти матрицу C , такую что выполняется соотношение Σ 0 = СС T , (где C - квадратная, невырожденная, ортогональная матрица), и с помощью умножения правой и левой части (1.3) на С −1 :
Ñ − 1η1,n = C − 1 Xβ + C− 1ε , (Ñ − 1Y = C − 1 Xβ + C − 1Z )
перейти к модели вида (1.5):
η 1,nïð = X ïð β + ε ïð  | 
	(Yïð = X ïð β + Zïð )  | 
	(1.5)  | 
в которой ε пр удовлетворяет условиям КЛММР.
Таким образом, оценка параметров β получена для КЛММР (1.5):
β ÎÌÍÊ = (X ïðÒ X ïð )− 1 X ïðÒ Yïð  | 
	(1.6)  | 
7
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Несмещенная оценка остаточной дисперсии, ковариационной матрицы имеют вид:
Sˆ
β ÎÌÍÊ
2  | 
	
  | 
	1  | 
	
  | 
	æ  | 
	
  | 
	
  | 
	
  | 
	ö T  | 
	S 0−  | 
	1  | 
	æ  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	ö  | 
	,  | 
	(1.7)  | 
|
S îñò  | 
	=  | 
	
  | 
	
  | 
	ç  | 
	Y -  | 
	X b ÎÌÍÊ  | 
	÷  | 
	
  | 
	ç  | 
	Y -  | 
	X b ÎÌÍÊ  | 
	
  | 
	÷  | 
|||||||
n - k - 1  | 
	
  | 
	
  | 
||||||||||||||||||
  | 
	
  | 
	è  | 
	
  | 
	
  | 
	
  | 
	ø  | 
	
  | 
	
  | 
	
  | 
	è  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	ø  | 
	
  | 
	
  | 
||
  | 
	
  | 
	ˆ  | 
	β ÎÌÍÊ  | 
	ˆ  | 
	2  | 
	
  | 
	)  | 
	
  | 
	
  | 
	
  | 
	T  | 
	− 1  | 
	
  | 
	− 1  | 
	.  | 
	
  | 
	
  | 
	(1.8)  | 
||
  | 
	
  | 
	S  | 
	= S  | 
	îñò ( ÎÌÍÊ  | 
	( X S  | 
	0  | 
	X )  | 
	
  | 
	
  | 
	
  | 
||||||||||
  | 
	
  | 
	ˆ  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||||||
Несмещенная оценка факторной дисперсии:
2  | 
	=  | 
	1  | 
	æ  | 
	
  | 
	
  | 
	
  | 
	ö T  | 
	1  | 
	æ  | 
	
  | 
	
  | 
	
  | 
	ö  | 
	(1.9)  | 
  | 
	
  | 
	
  | 
||||||||||||
S ôàêò  | 
	k  | 
	ç  | 
	X b ÎÌÍÊ  | 
	- Y ÷  | 
	S 0−  | 
	ç  | 
	X b ÎÌÍÊ  | 
	- Y ÷  | 
||||||
  | 
	
  | 
	è  | 
	
  | 
	ø  | 
	
  | 
	è  | 
	
  | 
	ø  | 
	
  | 
|||||
Выборочный коэффициент детерминации определяется по формуле:
  | 
	
  | 
	
  | 
	æ  | 
	Y -  | 
	
  | 
	ö T  | 
	S 0−  | 
	1  | 
	æ  | 
	
  | 
	
  | 
	
  | 
	ö  | 
	
  | 
	
  | 
||
  | 
	2  | 
	
  | 
	ç  | 
	X b ÎÌÍÊ  | 
	÷  | 
	
  | 
	ç Y -  | 
	X b  | 
	ÎÌÍÊ  | 
	÷  | 
	
  | 
	(1.10)  | 
|||||
  | 
	
  | 
	
  | 
	è  | 
	
  | 
	
  | 
	ø  | 
	
  | 
	
  | 
	è  | 
	
  | 
	
  | 
	
  | 
	ø  | 
	
  | 
|||
RÎÌÍÊ  | 
	= 1  | 
	-  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
|||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||||||
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	(Y - Y  | 
	)T S 0−1  | 
	(Y - Y  | 
	)  | 
	R  | 
	2  | 
	
  | 
	
  | 
||||
Для ОМНК-оценок  | 
	коэффициентов ОЛММР  | 
	
  | 
	может принимать как  | 
||||||||||||||
ОМНК  | 
|||||||||||||||||
значения больше 1, так и отрицательные значения и при анализе модели регрессии используется лишь как приближенная характеристика.
1.3 Внешние признаки и тесты для проверки гипотезы о наличии/отсутствии гетероскедастичности
Выяснить, под влиянием какой объясняющей переменной появляется гетероскедастичность регрессионных остатков можно визуально.
Для этого строим МНК-оценки параметров модели регрессии, находим оценки регрессионных остатков ˆzi и изучаем характер изменения регрессионных остатков
8
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
в зависимости от изменения анализируемой объясняющей переменной. Если по мере возрастания упорядоченной объясняющей переменной регрессионные остатки ˆzi возрастают (или убывают), то на основе визуального анализа делаем предположение о наличии гетероскедастичности, порождаемой соответствующей переменной. Данная процедура проделывается для каждой из объясняющих переменных.
Предположение о наличии гетероскедастичности проверяется с помощью различных тестов.
1.3.1 Тест Голдфелда-Квандта
Этот тест применяется в том случае, если регрессионные остатки можно считать нормально распределенными случайными величинами. При выполнении данного теста будем считать, что дисперсия регрессионных остатков прямо или обратно пропорциональна значению объясняющей переменной (xl ) , вариацией которых порождается гетероскедастичность.
Выдвигается гипотеза:
H0 :σ 12 = σ 22 = = σ  | 
	n2 (нет гетероскедастичности)  | 
H1 : $ i ¹ j :σ i2 ¹ σ 2j  | 
	(есть гетероскедастичность)  | 
Шаги теста:  | 
	
  | 
1)Проранжировать в порядке возрастания значения объясняющей переменной, которая подозревается на порождение гетероскедастичности (xl ) ;
2)Упорядочить наблюдаемые значения результативного признака и объясняющих переменных в порядке возрастания объясняющей переменной (xl ) ;
3)Взять n′ первых наблюдаемых значений результативного признака (y′) и объясняющих переменных (Х′) и n′′ последних наблюдаемых значений, соответ-
ственно обозначив y′′ и Х′′: n′ = n′′ =  | 
	n − 0.25n ;  | 
  | 
	2  | 
4)Оцениваются уравнения регрессии y′ по n′ значениям и y′′ по n′′.
5)Вычисляется оценка регрессионных остатков ˆz' и ˆz'' и их суммы квадра-
тов отклонений: Q' = ( ˆz' )T × ˆz' и Q'' = ( ˆz'' )T × ˆz'' .
9
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  | 
	6)  | 
	Для  | 
	проверки  | 
	нулевой  | 
	гипотезы  | 
	строится  | 
	статистика  | 
|||
F =  | 
	max {Q ;Q  | 
	
  | 
	}/ n' - k - 1  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
||
1  | 
	2  | 
	
  | 
	
  | 
	, которая в случае справедливости нулевой гипотезы имеет  | 
||||||
min{Q ;Q  | 
	}/ n' - k - 1  | 
|||||||||
  | 
	1  | 
	2  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
	
  | 
закон распределения Фишера-Снедекора с числом степеней свободы ν 1 = n′ - k - 1, n 2 = n′′ - k - 1.
Если Q1 < Q2 , то наблюдается прямая зависимость между регрессионными остатками и объясняющей переменной (xl ) , матрица
  | 
	
  | 
	æ  | 
	x2  | 
	0  | 
	
  | 
	0  | 
	ö  | 
  | 
	
  | 
	ç  | 
	1l  | 
	x22l  | 
	
  | 
	
  | 
	÷  | 
ˆ  | 
	=  | 
	ç  | 
	0  | 
	
  | 
	0  | 
	÷  | 
|
S 0  | 
	ç  | 
	
  | 
	
  | 
	...  | 
	
  | 
	÷  | 
|
  | 
	
  | 
	ç  | 
	÷  | 
||||
  | 
	
  | 
	ç  | 
	0  | 
	0  | 
	
  | 
	2  | 
	÷  | 
  | 
	
  | 
	è  | 
	xnl ø  | 
||||
Если Q1 > Q2 , то наблюдается обратная зависимость между регрессионными остатками и объясняющей переменной (xl ) , матрица
  | 
	æ  | 
	1  | 
	0  | 
	
  | 
	0  | 
	ö  | 
|
  | 
	ç  | 
	
  | 
	
  | 
	÷  | 
|||
  | 
	x2  | 
||||||
  | 
	ç  | 
	1l  | 
	1  | 
	
  | 
	
  | 
	÷  | 
|
Sˆ 0 =  | 
	ç  | 
	0  | 
	
  | 
	0  | 
	÷  | 
||
ç  | 
	
  | 
	
  | 
	÷ .  | 
||||
  | 
	x22l  | 
||||||
  | 
	ç  | 
	
  | 
	
  | 
	
  | 
	...  | 
	
  | 
	÷  | 
  | 
	ç  | 
	
  | 
	÷  | 
||||
  | 
	ç  | 
	0  | 
	0  | 
	
  | 
	1  | 
	÷  | 
|
  | 
	2  | 
||||||
  | 
	ç  | 
	
  | 
	
  | 
	
  | 
	
  | 
	÷  | 
|
  | 
	è  | 
	
  | 
	
  | 
	
  | 
	
  | 
	xnl ø  | 
|
1.3.2Тест Глейзера
Врамках рассмотренных ранее тестов, достаточно грубо оценивается характер вариации дисперсий. Более тонким в этом плане является тест Глейзера, который предполагает другие виды зависимостей между дисперсией регрессионных остатков и объясняющей переменной (xl ) . Как и ранее, находятся МНК-оценки, находится оценка регрессионных остатков ˆzi и ищется зависимость абсолютных значений оценок регрессионных остатков от xl :
10
