
- •2. Линейная парная регрессия
- •3. Основные предпосылки регрессионной модели
- •4. Точность уравнения линейной регрессии
- •5. Оценка значимости уравнения регрессии
- •6. Нелинейная регрессия
- •7. Множественная линейная регрессия
- •8. Оценка значимости отдельных факторов множественной регрессии
- •9. Фиктивные переменные в множественной регрессии
- •10. Системы эконометрических уравнений
- •11. Косвенный метод наименьших квадратов
- •12. Временные ряды. Общие понятия
- •13. Методы выделения тенденции временного ряда. Кривые роста.
- •14. Выделение циклической составляющей временного ряда
- •15. Экспоненциальное сглаживание
- •16. Выявление структурных изменений временного ряда
- •17. Оценка соблюдения условий применимости мнк
- •19. Взвешенный и обобщенный мнк
- •21. Оценка взаимосвязи двух временных рядов
- •22. Динамические эконометрические модели
5. Оценка значимости уравнения регрессии
Даже если СВ x, y независимы друг от друга, множество эмпирических пар {xi, yi}, i = 1,2...n можно нанести на график и получить картину типа изображенной на рис. 5.1, где также приведена линия регрессии, полученная по МНК для этих данных. Коэффициент b1 при этом близок к нулю, а b0 – к среднему значению результирующего признака y.
Рис. 5.1. Случай сомнительной связи величин
Рассмотрим т.н. общую сумму квадратов
отклонений от среднего (СКОС)
.
Можно показать, что она может быть
представлена в виде суммы двух сотавляющих,
а именно
(5.1)
Первая справа сумма называется суммой квадратов регрессии относительно среднего (РСК), вторая – остаточной суммой квадратов (ОСК).
Если бы линия регрессии на графике прошла точно через эмпирические точки, ОСК была бы равна нулю, а РСК сравнительно велика. В случае, изображенном на рис. 5.1, наоборот, РСК мала, а ОСК велика. Еще более чувствительным будет отношение РСК к ОСК. На этом и основана процедура проверки значимости (существенности) регрессии, получившая название дисперсионный анализ.
Вначале формулируются две взаимоисключающие гипотезы: H0 ~ b1 =0 и H1 ~b1 ≠ 0.
Далее заполняется т.н. таблица дисперсионного анализа
Табл. 5.1
Источник вариации |
Сумма квадратов |
Число степеней свободы |
Приведенная сумма квадратов |
1 |
2 |
3 |
(4) = (2)/(3) |
I РСК |
|
1 |
ПРСК |
II ОСК |
|
n-2 |
ПОСК |
III СКОС |
III = II + I |
n-1 |
- |
В третьей колонке этой таблицы фигурирует
понятие степень свободы. Проще всего
пояснить его для строки III.
Прежде чем вычислять СКОС необходимо
вычислить выборочное среднее
.
Это накладывает одно ограничение на
массив значений {yk},
k = 1,2...n,
в том смысле, что можно брать какие
угодно (k-1) значений
этой случайной величины, но последнее
k-ое значение должно быть
выбрано так, чтобы не изменилось
.
Величины в последней колонке таблицы 5.1 образуются путем деления соответствующей суммы квадратов на ее число степеней свободы, причем вычисление приведенной СКОС не обязательно. Английский статистик Р.Фишер доказал, что в случае справедливости гипотезы H0 критериальная статистика F = ПРСК/ПОСК подчиняется вполне определенному закону распределения, получившего название распределение Фишера – Снедекора. Оно относится к числу стандартных и табулировано в справочниках, а также вычисляется в специализированных пакетах программ, например, Excel. Данное распределение имеет три параметра, два из которых называются первой и второй степенью свободы, а третий – уровнем значимости α. Последний обычно выбирается равным 0,05 и характеризует вероятность ошибочного вывода. Полученная из таблицы дисперсионного анализа величина F сравнивается с табличным значением F1, n-2(α), где 1 и n-2 – первая и вторая степени свободы.
При F > F1, n-2(α) гипотеза H0 отвергается и говорят, что предположение о независимости СВ противоречит опытным данным и необходимо принять гипотезу H1. Вероятность того, что этот вывод ошибочен равна уровню значимости.
При F < F1, n-2(α) гипотеза H0 принимается и говорят, что предположение о независимости СВ не противоречит опытным данным.
Для данных, представленных на рис.5.1 F = 0,2; F1,5(0,05) = 6,6 и у нас нет оснований отвергать предположение об отсутствии связи между этими СВ.
Определенную информацию о степени связи фактора с результирующим признаком несет коэффициент детерминации R2, равный отношению РСК к СКОС. В случае парной линейной регрессии он численно равен квадрату коэффициента корреляции и, следовательно, может принимать значения в интервале [0,1]. Коэффициент детерминации характеризует долю в вариации (изменении) результирующего признака у, объясняемую регрессией. В примере по таблице 2.1 R2 = r2 = 0.9872 = 0.974, следовательно, уравнением регрессии объясняется 97.4% вариации результирующего признака, а на долю остальных неучтенных факторов приходится лишь 2.6% (ОСК)
А вот для данных, представленных на рис.5.1, коэффициент детерминации получился равным 0,04, что говорит о ничтожном влиянии фактора х и подтверждает гипотезу H0.
Возможен несколько другой подход к оценке значимости регрессии, в основе которого лежит построение доверительного интервала для оценки коэффициента регрессии b1. Для этого сначала вычисляется СКО b1
,
а затем статистика Стьюдента t
= b1/
.
Последняя сравнивается с табличным
значением распределения Стьюдента с
(n-2) степенью
свободы и уровнем значимости α = 0.05 (
обозначается
).
Если вычисленное значение критерия
окажется больше табличного, коэффициент
b1 считается
значимо отличным от нуля, т.е. регрессия
значима. Доверительный интервал для
коэффициента регрессии определяется
как b1±
.
В случае если этот интервал включает
ноль, можно также утверждать, что
регрессия незначима.
Можно показать, что распределения Фишера и Стьюдента связаны между собой. Действительно