
- •Лекция №2. Парная регрессия и корреляция
- •1. Корреляционный анализ
- •1.1.Задачи корреляционно анализа
- •1.2.Ковариация
- •1.3.Дисперсия
- •1.4.Коэффициент парной корреляции
- •1.5.Качественная оценка коэффициента корреляции
- •1.6.Оценка значимости коэффициента парной корреляции
- •1.7.Парный коэффициент детерминации
- •2.Регрессионный анализ
- •2.1.Задачи регрессионного анализа
- •2.2.Линейная парная регрессия
- •2.3.Коэффициент эластичности
- •2.4.Формула определения бета - коэффициента
- •3.4.1.Проверка на случайность ряда остатков
- •3.4.2.Проверка на равенство нулю математического ожидания ряда остатков
- •3.4.3.Проверка на постоянство дисперсии ряда остатков
- •3.4.4.Проверка на независимость ряда остатков
- •3.4.5.Проверка на распределение ряда остатков по нормальному закону
- •3.5.Определение меры точности модели
- •3.6.Точечный и интервальный прогноз
3.4.1.Проверка на случайность ряда остатков
Для проверки случайности остаточной компоненты ε можно использовать критерий поворотных точек (пиков).
Опр. Точки считаются поворотными, если:
или
.
Пусть число поворотных точек равно р, тогда если
2,
то гипотеза о случайности остаточной компоненты ε с доверительной вероятностью 0,95 выполняется.
3.4.2.Проверка на равенство нулю математического ожидания ряда остатков
Среднее значение ряда остатков рассчитывается по формуле:
.
Если
,
то модель не содержит постоянной
систематической ошибки и адекватна по
критерию нулевого среднего.
Если
,
то для проверки гипотезы о M[ε]
= 0 используем t ‑ критерия Стьюдента.
Расчетное значение этого критерия задается формулой:
Если то модель гипотеза о том M[ε] = 0 не выполняется.
3.4.3.Проверка на постоянство дисперсии ряда остатков
Если D[ε] ≠ 0, то используют метод Гольдфельда-Квандта:
- необходимо ранжировать переменную xi;
- разделить полученную совокупность на две части;
- по каждой группе построить уравнение регрессии;
- определить остаточные суммы квадратов по формулам:
и
,
где n1 – число наблюдений в первой группе;
n2 – число наблюдений во второй группе.
- если S1> S2
критерий
;
- если S2> S1
критерий
.
- чем Fрасч > Fтабл, тем больше нарушена предпосылка о постоянстве дисперсий остаточных величин.
3.4.4.Проверка на независимость ряда остатков
Независимости уровней ряда остатков проверяем по критерию Дарбина-Уотсона.
Вычислить значение:
.
dрасч сравнивают с нижним d1 и верхним d2, по таблице.
Если dрасч> d1, то гипотеза о независимости ряда остатков выполняется.
Если d1 <dрасч< d1, то используют первым коэффициентом автокорреляции:
.
И если r1 по модулю меньше табличного критического уровня rкрит, то гипотеза о независимости ряда остатков выполняется.
Если d2 < dрасч < 2, то гипотеза о независимости ряда остатков выполняется.
Если dрасч > 2, то модель остатки коррелируют отрицательно,
Необходимо принять за d/ = 4 – d.
3.4.5.Проверка на распределение ряда остатков по нормальному закону
Используем R/S – критерий.
В нашем случае
.
Расчетное значение R/Sε сравнивают с табличными значениями (нижней и верхней границами данного отношения), и если значение не попадает в интервал между критическими границами, то с заданным уровнем значимости гипотеза о нормальном распределении отвергается; в противном случае гипотеза принимается.
Если ВСЕ вышеперечисленные критерии дают положительный ответ, модель АДЕКВАТНА.
3.5.Определение меры точности модели
Точностные характеристики |
Расчет и содержание характеристики |
Максимальная ошибка |
Соответствует Rmax
= |
Средняя абсолютная ошибка |
|
Дисперсия ряда остатков |
|
Средняя квадратическая ошибка |
|
Средняя относительная ошибка аппроксимации |
|
3.6.Точечный и интервальный прогноз
Если модель регрессии адекватна, а параметры модели значимы, то переходят к построению прогноза.
Прогнозное значение результативного
признака
определяется путем подстановки в
уравнение регрессии
соответствующего (прогнозного) значения
.
Далее вычисляется средняя стандартная ошибка прогноза:
,
значит
3
и строится доверительный интервал прогноза:
.
Пример
Оценить адекватность и точность модели парной регрессии по представленным данным о спросе и доходе населения за ряд текущих лет и сделать выводы.
Год |
Спрос, yi |
|
|
|
Точки поворота |
|
|
|
1 |
6 |
6,1 |
-0,10 |
0,01 |
- |
- |
- |
0,017 |
2 |
8 |
7,38 |
0,62 |
0,38 |
1 |
0,72 |
0,52 |
0,078 |
3 |
8 |
8,66 |
-0,66 |
0,44 |
1 |
-1,28 |
1,64 |
0,083 |
4 |
10,3 |
9,94 |
0,36 |
0,13 |
1 |
1,02 |
1,04 |
0,035 |
5 |
10,5 |
11,22 |
-0,72 |
0,52 |
1 |
-1,08 |
1,17 |
0,069 |
6 |
13 |
12,5 |
0,50 |
0,25 |
- |
1,22 |
1,49 |
0,038 |
Итого |
55,8 |
- |
0,00 |
1,73 |
4 |
- |
5,85 |
0,319 |
Уравнение парной регрессии имеет вид: .
Проверка адекватности модели осуществляется на основе анализа остатков .
Проверка значимости модели
Значимость параметров модели оценивается с помощью t – критерия Стьюдента:
;
,
где
;
,
где
.
;
,
то параметр b значим;
,
то параметр a не значим.
Для проверки значимости уравнения регрессии в целом используем F критерий Фишера:
.
Воспользуемся встроенными возможности электронных таблиц Excel: FРАСПОБР, которое возвращает обратное значение для F-распределения вероятностей.
Синтаксис функции:
FРАСПОБР(вероятность;степени_свободы1;степени_свободы2)
Вероятность — это вероятность, связанная с F-распределением.
Степени_свободы1 — это числитель степеней свободы.
Степени_свободы2 — это знаменатель степеней свободы.
Fтабл = FРАСПОБР(0,05;1;4) = 7,71
Поскольку: Fрасч > Fтабл, модель считается значимой.
Проверка выполнения предпосылок МНК
1) Проверим свойство случайности ряда остатков на основании критерия поворотных точек:
Точки считаются поворотными, если:
или .
Для выявления поворотных точек воспользуемся встроенными логическими функциями Excel: ЕСЛИ; И; ИЛИ (рисунок)
Число поворотных точек равно р = 4, тогда
4,
Следовательно, гипотеза о случайности остаточной компоненты ε с доверительной вероятностью 0,95 выполняется.
2) Проверим M[ε] = 0
Среднее значение ряда остатков:
,
значит модель не содержит постоянной
систематической ошибки и адекватна по
критерию нулевого среднего.
3) Для проверка свойство на гомоскедастичности разделим совокупность на две группы.
Год |
1 |
2 |
3 |
4 |
5 |
6 |
Доход, Х |
10 |
12 |
14 |
16 |
18 |
20 |
Спрос, Y |
6 |
8 |
8 |
10,3 |
10,5 |
13 |
Для каждой группы с помощью программы «Анализ данных» Excel инструмент «Регрессия», определяются параметры уравнений регрессии и остаточные суммы квадратов:
Группа |
Уравнение регрессии |
Остаток |
1 |
|
= 0,666 |
2 |
|
= 0,882 |
S2> S1
, значит
.
Fтабл = FРАСПОБР(0,05;1;1) = 161,44
Поскольку: Fрасч > Fтабл, свойство гомоскедастичности выполняется.
4) Проверка независимость последовательности остатков ( отсутствие автокорреляции) по критерию Дарбина-Уотсона.
.
-
n
d1
d2
6
0,61
1,40
dрасч > 2, значит остатки коррелируют отрицательно принимаем за d/расч = 4 – d = 0,62.
Так как 0,61 < d/расч < 1,40 используют первый коэффициент автокорреляции:
.
,
гипотеза о независимости ряда остатков
выполняется.
5)
.
Сравнивая значение R/Sε с табличными значениями, видим, что оно попадает в интервал между критическими границами (0,1 – 0,25), значит гипотеза о нормальном распределении подтверждается.
Оценка точности модели
Средняя относительная ошибка аппроксимации:
%,
а поскольку это больше 8 %, значит уровень
точности можно признать приемлемым.
1 Мы определяем Var и Cov, деля соответствующие суммы квадратов на n. Это имеет свое объяснение, которое пока выходит за рамки нашего обсуждения. Вместе с тем, в разных руководствах по эконометрике Var и Cov определяются по-разному. Деление на (n – 1) используется, например, в книгах Доугерти (1997), Айвазяна и Мхитаряна (1998), тогда как в книге Магнуса, Катышева и Пересецкого (1997) соответствующие суммы квадратов делятся, на n.
2 квадратные скобки означают целую часть числа
3 tтабл - определяется по таблице распределения Стьюдента
4 квадратные скобки означают целую часть числа