Обобщенная линейная модель множественной регрессии гетероскедастичными остатками в пакете Statistika (90
..pdfCopyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Министерство образования и науки Российской Федерации
Государственное образовательное учреждение высшего профессионального образования «Оренбургский государственный университет»
Кафедра математических методов и моделей в экономике
В.И. Васянина, Ю.А. Жемчужникова, О.И. Стебунова
ОБОБЩЕННАЯ ЛИНЕЙНАЯ МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ С ГЕТЕРОСКЕДАСТИЧНЫМИ ОСТАТКАМИ В ПАКЕТЕ STATISTICA
Методические указания к семинарским занятиям, лабораторному практикуму, курсовым работам, диплом-
ному проектированию и самостоятельной работе студентов
Рекомендовано к изданию Редакционно-издательским советом Государственного образовательного учреждения высшего профессионального образования «Оренбургский государственный университет»
Оренбург ИПК ГОУ ОГУ 2011
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
УДК 330: 519.862 ББК 65В631
В 19
Рецензент - доцент, кандидат экономических наук Е.С.Щукина
Васянина, В.И.
В19 Обобщенная линейная модель множественной регрессии с гетероскедастичными остатками в пакете Statistica: методические указания к лабораторному практикуму, семинарским занятиям, курсовой работе, дипломному проектированию и самостоятельной работе студентов / В.И. Васянина, Ю.А. Жемчужникова, О.И. Стебунова; Оренбургский гос. ун-т.– Оренбург: ОГУ, 2011. – 37 с.
Методические указания к семинарским занятиям, лабораторному практикуму, самостоятельной работе студентов, в том числе для выполнения расчетнографических заданий, курсовых и дипломных работ, связанных с регрессионным анализом. Предназначены для специальности 080116 – Математические методы в экономике, направлений 231300 – Прикладная математика, 080500 – Бизнес-информатика и других экономических специальностей и направлений, изучающих дисциплины, использующие инструментарий регрессионного анализа.
© Васянина В.И., 2011 © Жемчужникова Ю.А., 2011 © Стебунова О.И., 2011 © ГОУ ОГУ, 2011
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
|
Содержание |
|
Введение............................................................................................................................... |
4 |
|
1 Теоретическая часть......................................................................................................... |
5 |
|
1.1 |
Общая постановка задачи регрессионного анализа.............................................. |
5 |
1.2 |
ОМНК – оценки ОЛММР........................................................................................ |
6 |
1.3 |
Внешние признаки и тесты для проверки гипотезы о наличии/отсутствии гете- |
|
роскедастичности................................................................................................................ |
8 |
|
1.4 |
Уточнение стандартных ошибок в форме Уайта и Невье-Веста....................... |
11 |
1.5 |
Вопросы для практическо-семинарских занятий по теме «ОЛММР с гетерос- |
|
кедастичными остатками»................................................................................................ |
13 |
|
2 Практическая часть......................................................................................................... |
15 |
|
2.1 |
Содержание лабораторной работы ...................................................................... |
15 |
2.2 |
Задание к лабораторной работе ............................................................................ |
15 |
2.3 |
Порядок выполнения лабораторной работы в пакете Statistica......................... |
15 |
2.5 |
Содержание письменного отчета.......................................................................... |
32 |
2.6 |
Вопросы к защите лабораторной работы............................................................. |
32 |
Список использованных источников............................................................................... |
33 |
|
Приложение А.................................................................................................................... |
34 |
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Введение
Для исследования регрессионных взаимосвязей между показателями в области экономики достаточно типична ситуация, связанная с неравноточностью измерений (наблюдений). Это связано с тем, что дисперсии регрессионных остатков, соответствующие значениям объясняющей переменной x j , если они характеризуют объекты, различающиеся по своим масштабам, могут быть различными. Например, при исследовании зависимости среднедушевых сбережений от дохода, вариация среднедушевых сбережений в семьях с более высокими доходами, будет отличаться от вариации среднедушевых сбережений для семей с более низкими доходами, т.е. дисперсия регрессионных остатков не постоянна.
Игнорирование гетероскедастичности регрессионных остатков сказывается на свойствах оценок и может вести к недостоверным статистическим выводам. В связи с этим актуальными являются вопросы, связанные с выявлением гетероскедастичности, ее тестированием, способами устранения, либо уточнения результатов.
Цель работы заключается в выработке навыков исследования регрессионных моделей с гетероскедастичными остатками.
4
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Теоретическая часть
1.1 Общая постановка задачи регрессионного анализа
Изучается регрессионная зависимость результативной переменной |
y от |
объясняющих переменных x = ( x1 , x2 ,..., xk )T |
|
y = β 0 + β 1x1 + ... + β k x k , |
(1.1) |
~ |
|
где |
y |
– условное среднее значение результативной переменной y . |
||||
|
~ |
|
|
|
|
|
|
|
Результаты наблюдений результативной и объясняющих переменных для «n» |
||||
|
и матрицей Х типа «объект-свой- |
|||||
объектов представлены вектором |
Y = ( y1 ,..., yn )T |
|||||
ство» наблюденных значений признаков х1,…хк: |
|
|||||
|
|
æ 1 |
x11 |
x12 ... |
x1k ö |
|
|
|
ç |
x21 |
x22 ... |
÷ |
|
|
|
ç 1 |
x2k ÷ |
|||
|
|
X = ç |
|
. ... |
÷ . |
|
|
|
ç . . |
. ÷ |
|||
|
|
ç |
xn1 |
xn2 ... |
÷ |
|
|
|
è 1 |
xnk ø |
Связь между наблюденными значениями Y и X в данном случае имеет вид:
Y = Xβ + Z |
(1.2) |
где β = ( β 0 β 1 ...β k )T - вектор коэффициентов линейной модели множественной регрессии (ЛММР);
Z = ( z1 ,...,zn )T - возможные значения случайного вектора ε - характеризующие отклонения наблюденных значений yi от модельных значений yi для i–го объекта.
На y смотрим как на возможные значения случайной величины η , где
ηi - случайная величина, для которой уi - наблюденное значение на i–м объекте наблюдения .
5
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Тогда выборочная модель имеет вид:
η1,n= Xβ ε , |
(1.3) |
где η1,n= η1 , η2 , ... ,ηn T - случайный вектор, а (1.2) –реализация этой модели.
В рамках классической линейной модели множественной регрессии предполагается выполнение всех условий Гаусса-Маркова
1)х1,…,хк – детерминированные переменные;
2)ранг матрицы Х равен "к+1" – среди признаков нет линейно зависимых;
3) |
|
|
Mεi=0 |
, |
i= |
|
|
|
- нет систематических ошибок в измерении у; |
||||||||||||||||
|
1, n |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
4) |
|
|
Dεi=Mεi2=σ 2 , |
i= |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
1, n |
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
5) |
|
|
cov εi , ε j =M εi ε j =0 , |
i≠ j |
, |
|
i= |
|
|
j= |
|
|
|
||||||||||||
|
1, n |
1, n |
|||||||||||||||||||||||
4`) |
Σ ε=M ε εT =σ 2 En . |
|
|
|
|
|
|
|
|||||||||||||||||
|
Предположим, что нарушено 4-е условие Гаусса – Маркова, т.е. Dεi=Mεi2=σi2 , |
||||||||||||||||||||||||
|
|
|
|
обобщенной линейной моделью множе- |
|||||||||||||||||||||
где |
i= |
|
|
|
|
, тогда ЛММР (1.3) является |
|||||||||||||||||||
1, n |
ственной регрессии с гетероскедастичными остатками. Ковариационная матрица регрессионных остатков будет иметь вид:
|
|
|
|
σ12 |
0 |
|
0 |
0 |
|
|
||||
Σ ε= |
|
|
0 |
σ 22 |
0 |
0 |
|
. |
||||||
|
... ... ... ... |
|
||||||||||||
|
|
|
|
|
||||||||||
|
|
|
0 |
0 |
|
0 |
σ n2 |
|
||||||
Условие 4`) можно записать в виде: Σ |
|
|
= |
M ( |
|
|
|
T |
) = σ |
2Σ |
|
, где Σ 0 - некоторая симмет- |
||
ε |
|
ε |
ε |
0 |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
0 |
|
||
ричная положительно-определенная матрица с |
неравными элементами на главной |
|||||||||||||
диагонали. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
6
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1.2 ОМНК – оценки ОЛММР
Если игнорировать гетероскедастичность регрессионных остатков и оценить коэффициенты ЛММР обычным методом наименьших квадратов (МНК), то оценки коэффициентов регрессионной модели остаются несмещенными и состоятельными, при тех же условиях, что и в КЛММР (/1/). Однако оценка ковариационной матри-
цы |
ˆ |
является смещенной и таким образом, оценка β ÌÍÊ |
не является эффек- |
β ÌÍÊ |
|||
|
Σ ˆ |
|
|
тивной.
Для ОЛММР несмещенные, состоятельные и эффективные оценки получить с помощью обобщенного метода наименьших квадратов (ОМНК)
ˆ |
|
|
|
|
|
|
|
|
|
β ÎÌÍÊ = (X |
T |
−1 |
X ) |
− 1 |
X |
T |
−1 |
(1.4) |
|
|
Σ 0 |
|
|
Σ 0 Y , |
|||||
который требует знания матрицы Σ 0 |
с точностью до постоянного множителя, сов- |
падающим с Σ ε . Но для этого надо найти матрицу C , такую что выполняется соотношение Σ 0 = СС T , (где C - квадратная, невырожденная, ортогональная матрица), и с помощью умножения правой и левой части (1.3) на С −1 :
Ñ − 1η1,n = C − 1 Xβ + C− 1ε , (Ñ − 1Y = C − 1 Xβ + C − 1Z )
перейти к модели вида (1.5):
η 1,nïð = X ïð β + ε ïð |
(Yïð = X ïð β + Zïð ) |
(1.5) |
в которой ε пр удовлетворяет условиям КЛММР.
Таким образом, оценка параметров β получена для КЛММР (1.5):
β ÎÌÍÊ = (X ïðÒ X ïð )− 1 X ïðÒ Yïð |
(1.6) |
7
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Несмещенная оценка остаточной дисперсии, ковариационной матрицы имеют вид:
Sˆ
β ÎÌÍÊ
2 |
|
1 |
|
æ |
|
|
|
ö T |
S 0− |
1 |
æ |
|
|
|
|
|
ö |
, |
(1.7) |
|
S îñò |
= |
|
|
ç |
Y - |
X b ÎÌÍÊ |
÷ |
|
ç |
Y - |
X b ÎÌÍÊ |
|
÷ |
|||||||
n - k - 1 |
|
|
||||||||||||||||||
|
|
è |
|
|
|
ø |
|
|
|
è |
|
|
|
|
|
ø |
|
|
||
|
|
ˆ |
β ÎÌÍÊ |
ˆ |
2 |
|
) |
|
|
|
T |
− 1 |
|
− 1 |
. |
|
|
(1.8) |
||
|
|
S |
= S |
îñò ( ÎÌÍÊ |
( X S |
0 |
X ) |
|
|
|
||||||||||
|
|
ˆ |
|
|
|
|
|
|
|
|
|
|
Несмещенная оценка факторной дисперсии:
2 |
= |
1 |
æ |
|
|
|
ö T |
1 |
æ |
|
|
|
ö |
(1.9) |
|
|
|
||||||||||||
S ôàêò |
k |
ç |
X b ÎÌÍÊ |
- Y ÷ |
S 0− |
ç |
X b ÎÌÍÊ |
- Y ÷ |
||||||
|
|
è |
|
ø |
|
è |
|
ø |
|
Выборочный коэффициент детерминации определяется по формуле:
|
|
|
æ |
Y - |
|
ö T |
S 0− |
1 |
æ |
|
|
|
ö |
|
|
||
|
2 |
|
ç |
X b ÎÌÍÊ |
÷ |
|
ç Y - |
X b |
ÎÌÍÊ |
÷ |
|
(1.10) |
|||||
|
|
|
è |
|
|
ø |
|
|
è |
|
|
|
ø |
|
|||
RÎÌÍÊ |
= 1 |
- |
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
(Y - Y |
)T S 0−1 |
(Y - Y |
) |
R |
2 |
|
|
||||
Для ОМНК-оценок |
коэффициентов ОЛММР |
|
может принимать как |
||||||||||||||
ОМНК |
значения больше 1, так и отрицательные значения и при анализе модели регрессии используется лишь как приближенная характеристика.
1.3 Внешние признаки и тесты для проверки гипотезы о наличии/отсутствии гетероскедастичности
Выяснить, под влиянием какой объясняющей переменной появляется гетероскедастичность регрессионных остатков можно визуально.
Для этого строим МНК-оценки параметров модели регрессии, находим оценки регрессионных остатков ˆzi и изучаем характер изменения регрессионных остатков
8
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
в зависимости от изменения анализируемой объясняющей переменной. Если по мере возрастания упорядоченной объясняющей переменной регрессионные остатки ˆzi возрастают (или убывают), то на основе визуального анализа делаем предположение о наличии гетероскедастичности, порождаемой соответствующей переменной. Данная процедура проделывается для каждой из объясняющих переменных.
Предположение о наличии гетероскедастичности проверяется с помощью различных тестов.
1.3.1 Тест Голдфелда-Квандта
Этот тест применяется в том случае, если регрессионные остатки можно считать нормально распределенными случайными величинами. При выполнении данного теста будем считать, что дисперсия регрессионных остатков прямо или обратно пропорциональна значению объясняющей переменной (xl ) , вариацией которых порождается гетероскедастичность.
Выдвигается гипотеза:
H0 :σ 12 = σ 22 = = σ |
n2 (нет гетероскедастичности) |
H1 : $ i ¹ j :σ i2 ¹ σ 2j |
(есть гетероскедастичность) |
Шаги теста: |
|
1)Проранжировать в порядке возрастания значения объясняющей переменной, которая подозревается на порождение гетероскедастичности (xl ) ;
2)Упорядочить наблюдаемые значения результативного признака и объясняющих переменных в порядке возрастания объясняющей переменной (xl ) ;
3)Взять n′ первых наблюдаемых значений результативного признака (y′) и объясняющих переменных (Х′) и n′′ последних наблюдаемых значений, соответ-
ственно обозначив y′′ и Х′′: n′ = n′′ = |
n − 0.25n ; |
|
2 |
4)Оцениваются уравнения регрессии y′ по n′ значениям и y′′ по n′′.
5)Вычисляется оценка регрессионных остатков ˆz' и ˆz'' и их суммы квадра-
тов отклонений: Q' = ( ˆz' )T × ˆz' и Q'' = ( ˆz'' )T × ˆz'' .
9
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
|
6) |
Для |
проверки |
нулевой |
гипотезы |
строится |
статистика |
|||
F = |
max {Q ;Q |
|
}/ n' - k - 1 |
|
|
|
|
|
||
1 |
2 |
|
|
, которая в случае справедливости нулевой гипотезы имеет |
||||||
min{Q ;Q |
}/ n' - k - 1 |
|||||||||
|
1 |
2 |
|
|
|
|
|
|
|
|
закон распределения Фишера-Снедекора с числом степеней свободы ν 1 = n′ - k - 1, n 2 = n′′ - k - 1.
Если Q1 < Q2 , то наблюдается прямая зависимость между регрессионными остатками и объясняющей переменной (xl ) , матрица
|
|
æ |
x2 |
0 |
|
0 |
ö |
|
|
ç |
1l |
x22l |
|
|
÷ |
ˆ |
= |
ç |
0 |
|
0 |
÷ |
|
S 0 |
ç |
|
|
... |
|
÷ |
|
|
|
ç |
÷ |
||||
|
|
ç |
0 |
0 |
|
2 |
÷ |
|
|
è |
xnl ø |
Если Q1 > Q2 , то наблюдается обратная зависимость между регрессионными остатками и объясняющей переменной (xl ) , матрица
|
æ |
1 |
0 |
|
0 |
ö |
|
|
ç |
|
|
÷ |
|||
|
x2 |
||||||
|
ç |
1l |
1 |
|
|
÷ |
|
Sˆ 0 = |
ç |
0 |
|
0 |
÷ |
||
ç |
|
|
÷ . |
||||
|
x22l |
||||||
|
ç |
|
|
|
... |
|
÷ |
|
ç |
|
÷ |
||||
|
ç |
0 |
0 |
|
1 |
÷ |
|
|
2 |
||||||
|
ç |
|
|
|
|
÷ |
|
|
è |
|
|
|
|
xnl ø |
1.3.2Тест Глейзера
Врамках рассмотренных ранее тестов, достаточно грубо оценивается характер вариации дисперсий. Более тонким в этом плане является тест Глейзера, который предполагает другие виды зависимостей между дисперсией регрессионных остатков и объясняющей переменной (xl ) . Как и ранее, находятся МНК-оценки, находится оценка регрессионных остатков ˆzi и ищется зависимость абсолютных значений оценок регрессионных остатков от xl :
10