- •Тема 5. Регрессионный анализ § 5.1. Простая линейная регрессионная модель и оценивание по методу наименьших квадратов
- •5.2. Проверка гипотез и доверительные интервалы
- •§ 5.3. Множественная линейная регрессия и ее исследование
- •§ 5.4. Проверка адекватности регрессионной модели
- •§ 5.5. Анализ остатков
- •Р ис. 5.3. Примеры графиков остатков. А – адекватная модель;
- •§ 5.6. Интерпретация оценок параметров линейного уравнения множественной регрессии
- •§ 5.7. Понятие о нелинейной регрессии
- •§ 5.8. Вопросы для самопроверки
- •§ 5.9. Задачи
- •Тема 6. Однофакторный дисперсионный анализ § 6.1. Постановка задачи
- •Представление данных для однофакторного дисперсионного анализа
- •§ 6.2. Проверка гипотез
- •§ 6.2. Вопросы для самопроверки
- •§ 6.3. Задачи
5.2. Проверка гипотез и доверительные интервалы
Чтобы сделать
статистические выводы об а0,
а1 и
,
сначала необходимо оценить дисперсию
2, а затем
описать распределение ошибки случайной
переменной
.
Согласно теории общей линейной модели,
обычная несмещенная оценка для 2
определяется через дисперсию оценки
.
Положительный корень
из этой величины называют стандартной
ошибкой оценки. Если ошибки
предполагаются нормальными, т.е.
распределенными по закону
,
и независимыми, то можно проверить
гипотезы о параметрах и построить для
них доверительные интервалы. Для проверки
гипотезы
,
где
– некоторая константа, например
,
используем статистику
,
где
.
Для проверки гипотезы
,
где
– некоторая константа, используем
статистику
,
где
.
Если гипотеза Н0 верна, то Т1 и Т2 имеют распределение Стьюдента с n – 2 степенями свободы.
Если гипотеза Н0 принимается для а0, то прямая проходит через начало координат.
Если гипотеза Н0 принимается для а1, то этот параметр незначим, т.е. отсутствует влияние х на зависимую переменную и математической модели зависимости Y от Х не существует.
Если гипотеза Н0
отвергается, то параметр а1
интерпретируется следующим образом:
если независимая переменная Х
изменится на одну единицу своего
измерения, то (при прочих равных условиях)
зависимая переменная изменится в
среднем на
единиц своего измерения (смотри далее
эластичность).
Для проверки гипотезы
о том, что простая линейная регрессия
Y по Х отсутствует,
т.е. гипотез
мы воспользуемся F-отношением
из таблицы дисперсионного анализа
(табл. 5.1).
Таблица 5.1. Анализ дисперсий.
(Формулы для вычисления SSD,
SSR, SST, nD, nR приведены в § 5.4.)
|
Источник вариации |
Суммы квадратов |
Степени свободы |
Средние квадраты |
F-отношение (Тнабл) |
Уровень значимости |
|
Модель |
SSD |
nD |
MSD = SSD / nD |
F = MSD/ MSR |
набл. |
|
Ошибка |
SSR |
nR |
MSR = SSR/ nR |
|
|
|
Итого (скорр.) |
SST |
nT = n – 1 |
|
|
|
Принятие Н0 означает, что модель в целом не адекватна, так как фактор Х, включенный в модель, не оказывает влияния на зависимую переменную Y и может быть исключен из модели. Принятие Н1 означает, что Х оказывает значимое влияние на зависимую переменную Y.
Доверительные интервалы для а0 и а1 с доверительной вероятностью вычисляются по формулам:

где
– квантиль уровня
распределения Стьюдента с
k
= n – 2 степенями
свободы,
– среднеквадратические (стандартные)
ошибки оценок а0 и а1
соответственно.
Доверительные интервалы для прямой регрессии.
Каждая заданная прямая
регрессии при изменении
смещается параллельно самой себе вверх
или вниз. Если изменяется а1,
то прямая поворачивается вокруг точки
.
Определим две стандартные ошибки:
1. для среднего значения
в точке х:
,
2. для индивидуального
значения
в точке х:
.
Тогда доверительные интервалы для
1) всей прямой регрессии:
;
где
– квантиль уровня
F-распределения
с n1
= 2 и
n2
= n – 2
степенями свободы;
2) среднего значения наблюдения в точке х:
;
3) индивидуального
наблюдения
в точке х:
.
Эти интервалы справедливы
только для области измерений (наблюдений).
При удалении от точки
статистическая ненадежность оценок
возрастает. Наибольший доверительный
интервал – для (1), наименьший – для (2).
Пример. В теме «Корреляционный анализ» рассматривается зависимость веса женщин (Y) от роста (Х). Выборочный коэффициент корреляции rXY = 0,9, следовательно, существует линейная зависимость между ростом женщины и ее весом:
.
Определим оценки
неизвестных параметров а0 и
а1, а также дисперсию отклонений
.
Обратившись к методу наименьших
квадратов, получим систему уравнений:
решив
которую, получим:
.
Запишем уравнение простой регрессии:
.
Проверим на уровне
значимости = 0, 05
гипотезу
против альтернативы
.
Вычислим
,
где
.
Находим по таблице
t-распределения
значение
.
Так как
,
то гипотеза Н0 отвергается.
Интерпретация
:
если рост женщины увеличится на 1 см, то
при прочих равных условиях ее вес в
среднем увеличится на 0,8113 кг.
