- •Лабораторная работа №1 Парная линейная регрессия
- •Лабораторная работа №2 Нелинейные модели парной регрессии
- •Лабораторная работа №3 Множественная регрессия
- •Лабораторная работа №4 Проверка адекватности модели регрессии по особенностям остаточных величин
- •Значения статистики Дарбина-Уотсона
- •Лабораторная работа №5 Анализ построенной модели регрессии на гетерокедастичность остатков
- •Лабораторная работа №6 Анализ динамики временных рядов
- •Лабораторная работа №7 Моделирование временных рядов с сезонными колебаниями
- •Лабораторная работа №8 Анализ взаимосвязи двух временных рядов
- •Уравнение линейной регрессии по уровням временных рядов
- •Уравнение регрессии по уровням временных рядов с включенным фактором времени
- •Уравнение регрессии по первым разностям
- •Лабораторная работа №9 Моделирование временных рядов с распределенным лагом
Лабораторная работа №5 Анализ построенной модели регрессии на гетерокедастичность остатков
Практические рекомендации к выполнению задания
Представлены данные о доходах по акциям x и балансовой прибыли y по 11 предприятиям одной отрасли, ден. ед.
x |
3 |
4 |
5 |
7 |
8 |
10 |
11 |
12 |
15 |
20 |
30 |
y |
12 |
13 |
20 |
19 |
31 |
24 |
41 |
28 |
52 |
55 |
103 |
Задание
1. Проверить гипотезу о наличии гетерокедастичности в линейной регрессии с помощью теста ранговой корреляции Спирмена при доверительной вероятности 0,95.
2. Проверить гипотезу о гетерокедастичности с помощью теста Гольфельда-Квандта.
3. Дайте график зависимости остатков регрессии от фактора x.
4. Оцените количественно гетерокедастичность остатков с помощью теста Уайта.
5. Если гетерокедастичность обнаружена, попытаться сгладить ее с помощью обобщенного МНК.
Решение.
1) Суть проверки заключается в том, что в случае гетерокедастичности абсолютные остатки коррелированны со значениями фактора . Эту корреляцию можно измерить с помощью коэффициента ранговой корреляции Спирмена:
,
где d – абсолютная разность между рангами и . Статистическая значимость коэффициента оценивается по критерию Стъюдента. Расчетное значение t-критерия вычисляется по формуле:
.
Данная величина сравнивается с критической величиной при и числе степеней свободы . Если , то корреляция между и статистически значима, т.е. имеет место гетерокедастичность остатков. В противном случае принимается гипотеза об отсутствии гетерокедастичности остатков.
Прежде всего найдем уравнение линейной регрессии.
ВЫВОД ИТОГОВ |
|
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
Множественный R |
0,970082893 |
|
|
|
R-квадрат |
0,941060819 |
|
|
|
Нормированный R-квадрат |
0,934512021 |
|
|
|
Стандартная ошибка |
6,777232983 |
|
|
|
Наблюдения |
11 |
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
df |
SS |
MS |
F |
Регрессия |
1 |
6600,258 |
6600,258 |
143,6998 |
Остаток |
9 |
413,378 |
45,93089 |
|
Итого |
10 |
7013,636 |
|
|
|
|
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Y-пересечение |
-0,525438344 |
3,681329 |
-0,14273 |
0,889647 |
x |
3,230238574 |
0,269468 |
11,98748 |
7,77E-07 |
Уравнение регрессии .
Чтобы рассчитать параметр , составим вспомогательную таблицу. Рангом величин, выстроенных в упорядоченный ряд, называется порядковый номер по возрастанию. Переменная x в условиях уже упорядочена. Ранги остатков предстоит найти либо вручную, либо с помощью функции Ранг.
|
x |
y |
|
Остатки |
|
Ранг x |
Ранг |
d |
d2 |
|
3 |
12 |
9,165277 |
2,834723 |
2,834723 |
1 |
2 |
1 |
1 |
|
4 |
13 |
12,39552 |
0,604484 |
0,604484 |
2 |
1 |
1 |
1 |
|
5 |
20 |
15,62576 |
4,374245 |
4,374245 |
3 |
5 |
2 |
4 |
|
7 |
19 |
22,08623 |
-3,086233 |
3,086233 |
4 |
3 |
1 |
1 |
|
8 |
31 |
25,31647 |
5,683528 |
5,683528 |
5 |
6 |
1 |
1 |
|
10 |
24 |
31,77695 |
-7,77695 |
7,77695 |
6 |
9 |
3 |
9 |
|
11 |
41 |
35,00719 |
5,992811 |
5,992811 |
7 |
7 |
0 |
0 |
|
12 |
28 |
38,23743 |
-10,237428 |
10,237428 |
8 |
11 |
3 |
9 |
|
15 |
52 |
47,92815 |
4,071855 |
4,071855 |
9 |
4 |
5 |
25 |
|
20 |
55 |
64,07934 |
-9,07934 |
9,07934 |
10 |
10 |
0 |
0 |
|
30 |
103 |
96,38173 |
6,61827 |
6,61827 |
11 |
8 |
3 |
9 |
Среднее |
|
|
|
-3,18182E-06 |
|
|
|
|
|
Сумма |
|
|
|
|
|
|
|
|
60 |
Тогда коэффициент ранговой корреляции Спирмена равен . Для оценки его статистической значимости найдем расчетное значение критерия Стъюдента . По функции СТЪЮДРАСПОБР (вероятность 0,05, степеней свободы n-2) находим соответствующее критическое значение Стъюдента . Делаем вывод о наличии гетерокедастичности в остатках регрессии.
2) Применим тест Гольдфельда-Квандта для подтверждения гетерокедастичности остатков.
В расчетной таблице разделим исходные данные на две примерно равные группы (верхнюю и нижнюю).
x |
y |
|
Остатки |
3 |
12 |
9,165277 |
2,834723 |
4 |
13 |
12,39552 |
0,604484 |
5 |
20 |
15,62576 |
4,374245 |
7 |
19 |
22,08623 |
-3,086233 |
8 |
31 |
25,31647 |
5,683528 |
10 |
24 |
31,77695 |
-7,77695 |
11 |
41 |
35,00719 |
5,992811 |
12 |
28 |
38,23743 |
-10,237428 |
15 |
52 |
47,92815 |
4,071855 |
20 |
55 |
64,07934 |
-9,07934 |
30 |
103 |
96,38173 |
6,61827 |
Построим линейную регрессию по каждой группе.
Для верхней группы
ВЫВОД ИТОГОВ |
|
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
Множественный R |
0,890348 |
|
|
|
R-квадрат |
0,79272 |
|
|
|
Нормированный R-квадрат |
0,723627 |
|
|
|
Стандартная ошибка |
3,986411 |
|
|
|
Наблюдения |
5 |
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
df |
SS |
MS |
F |
Регрессия |
1 |
182,3256 |
182,3256 |
11,47317 |
Остаток |
3 |
47,67442 |
15,89147 |
|
Итого |
4 |
230 |
|
|
|
|
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Y-пересечение |
1,418605 |
5,488159 |
0,258485 |
0,812752 |
Переменная X 1 |
3,255814 |
0,961209 |
3,387207 |
0,042863 |
Из всего объема данных нам необходима только остаточная дисперсия , которая в протоколе регресс обозначена как остаточная SS. .
Для нижней группы
ВЫВОД ИТОГОВ |
|
|
|
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
|
Множественный R |
0,964861689 |
|
|
|
|
R-квадрат |
0,930958079 |
|
|
|
|
Нормированный R-квадрат |
0,913697599 |
|
|
|
|
Стандартная ошибка |
8,389255527 |
|
|
|
|
Наблюдения |
6 |
|
|
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
1 |
3795,982 |
3795,982 |
53,93582 |
0,00183 |
Остаток |
4 |
281,5184 |
70,37961 |
|
|
Итого |
5 |
4077,5 |
|
|
|
|
|
|
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Y-пересечение |
-8,661290323 |
8,753454 |
-0,98947 |
0,378445 |
-32,9648 |
Переменная X 1 |
3,622119816 |
0,493201 |
7,344101 |
0,00183 |
2,252774 |
.
Расчетное значение теста получается как отношение большей остаточной дисперсии к меньшей. . Критической значение теста получаем по функции FРАСПОБР, в которой число степеней свободы равно
n-2, в данном случае оно равно 6,59. Поскольку расчетное значение больше критического, остатки признаются гетерокедастичными.
3) Применим тест Уайта, чтобы количественно оценить зависимость дисперсии остатков от значений фактора x.
В эконометрических исследованиях достаточно часто выдвигается гипотеза о том, что
остатки пропорциональны значениям фактора x: ;
дисперсия остатков прямопропорциональна самим значениям x, т.е. ;
зависимость между дисперсией остатков и значениями фактора x квадратичная .
Параметры этих регрессии можно найти МНК. Составим расчетную таблицу.
x |
y |
|
Остатки |
|
3 |
12 |
9,165277 |
2,834723 |
8,035654487 |
4 |
13 |
12,39552 |
0,604484 |
0,365400906 |
5 |
20 |
15,62576 |
4,374245 |
19,13401932 |
7 |
19 |
22,08623 |
-3,086233 |
9,52483413 |
8 |
31 |
25,31647 |
5,683528 |
32,30249053 |
10 |
24 |
31,77695 |
-7,77695 |
60,4809513 |
11 |
41 |
35,00719 |
5,992811 |
35,91378368 |
12 |
28 |
38,23743 |
-10,237428 |
104,8049321 |
15 |
52 |
47,92815 |
4,071855 |
16,58000314 |
20 |
55 |
64,07934 |
-9,07934 |
82,43441484 |
30 |
103 |
96,38173 |
6,61827 |
43,80149779 |
Для регрессии пользуемся Сервис/Анализ данных/Регрессия/…Поставить флажок «Константа-нуль».
Получаем протокол
ВЫВОД ИТОГОВ |
|
|
|
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
|
Множественный R |
0,304158793 |
|
|
|
|
R-квадрат |
0,092512571 |
|
|
|
|
Нормированный R-квадрат |
-0,01859854 |
|
|
|
|
Стандартная ошибка |
6,104515756 |
|
|
|
|
Наблюдения |
10 |
|
|
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
1 |
34,19047 |
34,19047084 |
0,917493 |
0,366182 |
Остаток |
9 |
335,386 |
37,26511262 |
|
|
Итого |
10 |
369,5765 |
|
|
|
|
|
|
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
|
Y-пересечение |
0 |
#Н/Д |
#Н/Д |
#Н/Д |
|
Переменная X |
-0,172201879 |
0,179778 |
-0,957858421 |
0,363156 |
|
Результат неудовлетворительный. коэффициент детерминации всего 0,09.
Аналогично строим регрессию , взяв в качестве входного интервала Y столбец . Получаем протокол
ВЫВОД ИТОГОВ |
|
|
|
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
|
Множественный R |
0,864535947 |
|
|
|
|
R-квадрат |
0,747422404 |
|
|
|
|
Нормированный R-квадрат |
0,636311293 |
|
|
|
|
Стандартная ошибка |
26,25750385 |
|
|
|
|
Наблюдения |
10 |
|
|
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
1 |
18362,0291 |
18362,0291 |
26,632614 |
0,000862939 |
Остаток |
9 |
6205,108576 |
689,4565085 |
|
|
Итого |
10 |
24567,13768 |
|
|
|
|
|
|
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
|
Y-пересечение |
0 |
#Н/Д |
#Н/Д |
#Н/Д |
|
Переменная X 1 |
3,990668767 |
0,773283573 |
5,160679613 |
0,0005945 |
|
В данном уравнении достаточная степень детерминации – 0,74, кроме того значимость по критерию Фишера не превосходит допустимые 5% ошибки в расчетах. Принимаем гипотезу о том, что дисперсия остатков прямопропорциональна самим значениям x.
Для проверки гипотезы о квадратичной зависимости решают методом определителей систему уравнений (см. ЛР Нелинейная регрессия):
Определяют индекс корреляции . О наличии или отсутствии гетерокедастичности судят по величине F-критерия Фишера для функции , . При выполнении условия имеет место гетерокедастичность остатков и количественно она выражена значением . По данному расчету предположение о квадратичной зависимости дисперсии остатков от значений x не проверяем (поскольку принята гипотеза ).
5) Улучшим модель, смягчив гетерокедастичность, пользуясь обобщенным методом наименьших квадратов. Если , тогда сами остатки пропорциональны .
Чтобы избавиться от этого, разделим уравнение линейной регрессии на . Получим преобразованное уравнение регрессии, в котором можно сделать замену переменной:
. Пусть , , . Тогда .
Построим вспомогательную таблицу
x |
y |
X |
z |
Y |
3 |
12 |
1,732051 |
0,577350269 |
6,92820323 |
4 |
13 |
2 |
0,5 |
6,5 |
5 |
20 |
2,236068 |
0,447213595 |
8,94427191 |
7 |
19 |
2,645751 |
0,377964473 |
7,181324987 |
8 |
31 |
2,828427 |
0,353553391 |
10,96015511 |
10 |
24 |
3,162278 |
0,316227766 |
7,589466384 |
11 |
41 |
3,316625 |
0,301511345 |
12,36196513 |
12 |
28 |
3,464102 |
0,288675135 |
8,082903769 |
15 |
52 |
3,872983 |
0,25819889 |
13,42634227 |
20 |
55 |
4,472136 |
0,223606798 |
12,29837388 |
30 |
103 |
5,477226 |
0,182574186 |
18,80514114 |
Протокол регрессионного анализа имеет вид:
ВЫВОД ИТОГОВ |
|
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
Множественный R |
0,986894 |
|
|
|
R-квадрат |
0,9739597 |
|
|
|
Нормированный R-квадрат |
0,8599553 |
|
|
|
Стандартная ошибка |
1,9415488 |
|
|
|
Наблюдения |
11 |
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
||
|
df |
SS |
MS |
F |
Регрессия |
2 |
1268,921 |
634,4607182 |
168,3092927 |
Остаток |
9 |
33,92651 |
3,769611932 |
|
Итого |
11 |
1302,848 |
|
|
|
|
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Y-пересечение |
0 |
#Н/Д |
#Н/Д |
#Н/Д |
X |
3,02343 |
0,296117 |
10,21024561 |
3,00843E-06 |
z |
1,8246585 |
2,72558 |
0,669456856 |
0,520006975 |
Получаем уравнение регрессии . Или .
Показатели статистической значимости уравнения регрессии улучшены. Увеличился коэффициент детерминации с 94% до 97%. Существенно уменьшилась остаточная дисперсия с 413 ед. до 33 ед.
Задание:
По своим данным ЛР1 выполнить анализ гетерокедастичности остатков. А именно:
1. Проверить гипотезу о наличии гетерокедастичности в линейной регрессии с помощью теста ранговой корреляции Спирмена при доверительной вероятности 0,95.
2. Проверить гипотезу о гетерокедастичности с помощью теста Гольфельда-Квандта.
3. Оцените количественно гетерокедастичность остатков.
4. При наличии гетерокедастичности, применить обобщенный МНК для ее сглаживания.