
- •8.2. Проверка гипотез о значимости коэффициентов линейного уравнения регрессии
- •8.3. Доверительные интервалы для зависимой переменной
- •8.4. Задание к лабораторной работе № 7 «Построение доверительных интервалов прогноза для линейного уравнения регрессии»
- •8.5. Проверка значимости всего уравнения регрессии в целом
- •8.6. Дисперсионный анализ для разложения общей суммы квадратов отклонений. Степени свободы для соответствующих сумм квадратов отклонений
- •8.7. Задание на лабораторную работу № 8 «Проверка значимости отдельных коэффициентов уравнения регрессии и всего уравнения регрессии в целом»
8.4. Задание к лабораторной работе № 7 «Построение доверительных интервалов прогноза для линейного уравнения регрессии»
Возьмите данные вашего варианта из задания №1 и постройте нижние и верхние доверительные границы для yteor(xp) = b0+b1xp и индивидуальных фактических значений.
Шаг 1. Скопируйте данные по факторам X и Y из первой лабораторной работы на новый лист MS EXCEL.
Шаг 2. Постройте линейную регрессию вторым способом.
Шаг 3. Найдите оценку S как вычисленную величину остаточной дисперсии в выводе итогов второго способа на пересечении столбца MS и строки Остаток (в примере эта величина равна 284,0394, в вашем варианте найдите сами).
Шаг 4. По исходным
данным вашего варианта для фактора X
вычислите величину
.
Шаг 5. Немного в стороне от исходных данных задайте равномерную сетку с постоянным шагом x = h для независимой переменной X, в пределах которой будет принимать значения xp точек прогноза.
Шаг 6. Вычислите yteor(xp) = b0 + b1xp , а также нижнюю и верхнюю доверительные границы. Постройте точечную диаграмму, аналогичную диаграмме, приведённой на рис.8.1.
Шаг 7. Возьмите некоторую точку на оси OX (в которой выполняется прогноз) и сделайте содержательный вывод в терминах исходной задачи о границах доверия зависимой переменной Y для этой точки прогноза xp.
8.5. Проверка значимости всего уравнения регрессии в целом
После оценки индивидуальной статистической значимости каждого из коэффициентов регрессии обычно анализируется совокупная значимость коэффициентов, т.е. всего уравнения в целом. Такой анализ осуществляется на основе проверки гипотезы об общей значимости гипотезы об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:
H0: 1 = 2 = ... = m = 0.
Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех m объясняющих переменных Х1, Х2, ..., Хm модели на зависимую переменную Y можно считать статистически несущественным, а общее качество уравнения регрессии – невысоким.
Проверка данной гипотезы осуществляется на основе дисперсионного анализа сравнения объясненной и остаточной дисперсии.
Н0: (объясненная дисперсия) = (остаточная дисперсия),
H1: (объясненная дисперсия) > (остаточная дисперсия).
Строится F-статистика:
,
(8.19)
где
– объясненная регрессией дисперсия;
–остаточная
дисперсия (сумма квадратов отклонений,
поделённая на число степеней свободы
n-m-1). При выполнении предпосылок МНК
построенная F-статистика
имеет распределение Фишера с числами
степеней свободы 1
= m,
2
= n–m–1.
Поэтому, если при требуемом уровне
значимости
Fнабл
> F;
m;
n-m-1
= F
(где F;
m;
n-m-1
— критическая точка распределения
Фишера), то Н0
отклоняется в пользу Н1.
Это означает, что объяснённая регрессией
дисперсия существенно больше остаточной
дисперсии, а следовательно, уравнение
регрессии достаточно качественно
отражает динамику изменения зависимой
переменной Y.
Если Fнабл
< F;
m;
n-m-1
= Fкр.,
то нет основания для отклонения Н0.
Значит, объясненная дисперсия соизмерима
с дисперсией, вызванной случайными
факторами. Это дает основание считать,
что совокупное влияние объясняющих
переменных модели несущественно, а
следовательно, общее качество модели
невысоко.
Однако на практике чаще вместо указанной гипотезы проверяют тесно связанную с ней гипотезу о статистической значимости коэффициента детерминации R2:
Н0: R2 = 0,
Н0: R2 > 0.
Для проверки данной гипотезы используется следующая F-статистика:
. (8.20)
Величина
F
при выполнении предпосылок МНК и при
справедливости H0
имеет распределение Фишера, аналогичное
распределению F-статистики
(8.19). Действительно, разделив числитель
и знаменатель дроби в (8.19) на общую сумму
квадратов отклонений
и зная, что она распадается на сумму
квадратов отклонений, объяснённую
регрессией, и остаточную сумму квадратов
отклонений (это является следствием,
как будет показано позже, системы
нормальных уравнений)
,
мы получим формулу (8.20):
.
Из
(8.20) очевидно, что показатели F
и R2
равны или не равны нулю одновременно.
Если F
= 0, то R2
= 0, и линия регрессии Y
=
является наилучшей по МНК, и, следовательно,
величинаY
линейно не зависит от Х1,
Х2,
..., Хm.
Для проверки нулевой гипотезы Н0:
F
= 0 при заданном уровне значимости
по таблицам критических точек распределения
Фишера находится критическое значение
Fкр
= F;
m;
n-m-1.
Нулевая гипотеза отклоняется, если F
> Fкр.
Это равносильно тому, что R2
> 0, т.е. R2
статистически значим.
Анализ статистики F позволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии коэффициент детерминации R2 не должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.
Пусть, например, при оценке регрессии с двумя объясняющими переменными X1i, X2i по 30 наблюдениям R2 = 0,65. Тогда
Fнабл
=
=25,07.
По таблицам критических точек распределения Фишера найдем F0,05; 2; 27 = 3,36; F0,01; 2; 27 = 5,49. Поскольку Fнабл = 25,07 > Fкр как при 5%–м, так и при 1%–м уровне значимости, то нулевая гипотеза в обоих случаях отклоняется.
Если в той же ситуации R2 = 0,4, то
Fнабл
=
=
9.
Предположение о незначимости связи отвергается и здесь.
Отметим, что в случае парной регрессии проверка нулевой гипотезы для F-статистики равносильна проверке нулевой гипотезы для t-статистики
коэффициента корреляции. В этом случае F-статистика равна квадрату t-статистики. Самостоятельную значимость коэффициент R2 приобретает в случае множественной линейной регрессии.