- •Лекция 2
- •2.1 Показатели тесноты и силы связи
- •2.2 Оценка значимости параметров линейной регрессии и корреляции
- •2.2.1 Анализ вариации (дисперсии) зависимой переменной в регрессии.
- •2.2.2 Статистика – коэффициент детерминации.
- •2.2.3 Дисперсионный анализ
- •2.2.4 Оценка значимости параметров регрессии
- •2.3 Интервальный прогноз на основе линейного уравнения регрессии
2.2.4 Оценка значимости параметров регрессии
В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка: тb и та.
Стандартная ошибка коэффициента регрессии параметра b рассчитывается по формуле:
Где остаточная дисперсия на одну степень свободы.
Отношение коэффициента регрессии к его стандартной ошибке дает t-статистику, которая подчиняется статистике Стьюдента при степенях свободы. Эта статистика применяется для проверки статистической значимости коэффициента регрессии и для расчета его доверительных интервалов.
Для оценки значимости коэффициента регрессии его величину сравнивают с его стандартной ошибкой, т.е. определяют фактическое значение t-критерия Стьюдента: , которое затем сравнивают с табличным значением при определенном уровне значимостиα и числе степеней свободы .
Справедливо равенство
Доверительный интервал для коэффициента регрессии определяется как .
Стандартная ошибка параметра а определяется по формуле
Процедура оценивания значимости данного параметра не отличается от рассмотренной выше для коэффициента регрессии: вычисляется t-критерий:
Его величина сравнивается с табличным значением при степенях свободы.
Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции mr:
Фактическое значение t-критерия Стьюдента определяется как
Данная формула свидетельствует, что в парной линейной регрессии , ибо как уже указывалось, . Кроме того,, следовательно,.
Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о значимости линейного уравнения регрессии.
Рассмотренную формулу оценки коэффициента корреляции рекомендуется применять при большом числе наблюдений, а также если r не близко к +1 или –1.
2.3 Интервальный прогноз на основе линейного уравнения регрессии
В прогнозных расчетах по уравнению регрессии определяется предсказываемое yр значение как точечный прогноз х при хр = хk т. е. путем подстановки в линейное уравнение регрессии соответствующего значения х. Однако точечный прогноз явно нереален, поэтому он дополняется расчетом стандартной ошибки х, т. е. , и соответственно мы получаем интервальную оценку прогнозного значения у*:
Считая, что прогнозное значение фактора хр = хk получим следующую формулу расчета стандартной ошибки предсказываемого по линии регрессии значения, т. е. имеет выражение:
Рассмотренная формула стандартной ошибки предсказываемого среднего значения у при заданном значении хk характеризует ошибку положения линии регрессии. Величина стандартной ошибки достигает минимума при и возрастает по мере того, как «удаляется» от в любом направлении. Иными словами, чем больше разность междуи, тем больше ошибка, с которой предсказывается среднее значение у для заданного значения . Можно ожидать наилучшие результаты прогноза, если признак-фактор х находится в центре области наблюдений х, и нельзя ожидать хороших результатов прогноза при удалении. от. Если же значение. оказывается за пределами наблюдаемых значенийх, используемых при построении линейной регрессии, то результаты прогноза ухудшаются в зависимости от того, насколько . отклоняется от области наблюдаемых значений факторах.
На графике, приведенном на рис. 1, доверительные границы для представляют собой гиперболы, расположенные по обе стороны от линии регрессии. Рис. 1 показывает, как изменяются пределы в зависимости от изменения .: две гиперболы по обе стороны от линии регрессии определяют 95 %-ные доверительные интервалы для среднего значенияу при заданном значении х.
Однако фактические значения у варьируют около среднего значения . Индивидуальные значения у могут отклоняться от на величину случайной ошибки ε, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы . Поэтому ошибка предсказываемого индивидуального значенияу должна включать не только стандартную ошибку , но и случайную ошибкуs.
Рис. 1. Доверительный интервал линии регрессии:
а - верхняя доверительная граница; б - линия регрессии;
в — доверительный интервал для при ;
г - нижняя доверительная граница.
Средняя ошибка прогнозируемого индивидуального значения у составит:
При прогнозировании на основе уравнения регрессии следует помнить, что величина прогноза зависит не только от стандартной ошибки индивидуального значения у, но и от точности прогноза значения фактора х. Его величина может задаваться на основе анализа других моделей исходя из конкретной ситуации, а также анализа динамики данного фактора.
Рассмотренная формула средней ошибки индивидуального значения признака у может быть использована также для оценки существенности различия предсказываемого значения и некоторого гипотетического значения.