
- •5. Проверка качества уравнения регрессии
- •5.1. Классическая линейная регрессионная модель. Предпосылки метода наименьших квадратов
- •Дисперсии и стандартные ошибки коэффициентов регрессии
- •5.3. Проверка гипотез относительно коэффициентов линейного уравнения регрессии
- •5.4. Интервальные оценки коэффициентов линейного уравнения регрессии
- •5.5. Доверительные интервалы для зависимой переменной
- •5.6. Проверка общего качества уравнения регрессии. Коэффициент детерминации r2
5. Проверка качества уравнения регрессии
5.1. Классическая линейная регрессионная модель. Предпосылки метода наименьших квадратов
Регрессионный
анализ позволяет определить оценки
коэффициентов
регрессии. Но, являясь лишь оценками,
они не позволяют
сделать вывод, насколько точно эмпирическое
уравнение регрессии соответствует
уравнению для всей генеральной
совокупности,
насколько близки оценки
и
коэффициентов к
своим теоретическим значениям
и
,
как близко оцененное
значение
к
условному математическому ожиданию
,
насколько
надежны найденные оценки. Для ответа
на эти вопросы необходимы определенные
дополнительные исследования.
Значения
зависят от значений
и случайных отклонений
.
Следовательно, переменная
Y
является
СВ, напрямую связанной с
.
Это означает, что
до тех пор, пока не будет определенности
в вероятностном поведении
,
мы не сможем быть уверенными в качестве
оценок.
Доказано, что для получения по МНК наилучших результатов необходимо, чтобы выполнялся ряд предпосылок относительно случайного отклонения.
Предпосылки МНК (условия Гаусса—Маркова)
Математическое ожидание случайного отклонения , равно нулю:
для всех наблюдений.
Дисперсия случайных отклонений постоянна:
для любых наблюдений i и j.
Выполнимость данной предпосылки называется гомоскедастичностью (постоянством дисперсии отклонений). Невыполнимость данной предпосылки называется гетероскедастичностью (непостоянством дисперсий отклонений).
Случайные отклонения и
являются независимыми друг от друга для
.
Случайное отклонение должно быть независимо от объясняющих переменных.
Модель является линейной относительно параметров.
Теорема Гаусса-Маркова.
Если предпосылки 1-5 выполнены, то оценки, полученные по МНК, обладают следующими свойствами:
Оценки являются несмещенными.
Оценки состоятельны.
3. Оценки эффективны.
В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators) — наилучшие линейные не смещенные оценки.
Если
предпосылки 2 и 3 нарушены, т.е. дисперсия
отклонений
непостоянна и (или) значения
и
связаны
друг с другом,
то свойства несмещенности и состоятельности
сохраняются,
но свойство эффективности — нет.
Наряду с выполнимостью указанных предпосылок при построении классических линейных регрессионных моделей делаются еще некоторые предположения. Например:
объясняющие переменные не являются СВ;
случайные отклонения имеют нормальное распределение;
число наблюдений существенно больше числа объясняющих переменных;
отсутствуют ошибки спецификации;
отсутствует совершенная мультиколлинеарность.
Дисперсии и стандартные ошибки коэффициентов регрессии
В
силу случайного отбора элементов в
выборку случайными являются
также оценки
и
коэффициентов
и
теоретического
уравнения регрессии. Их математические
ожидания при
выполнении предпосылок об отклонениях
равны соответственно
,
.
При этом оценки тем надежнее,
чем меньше их разброс вокруг
и
,
т.е.
чем меньше дисперсии
и
оценок. Надежность получаемых оценок
тесно связана с дисперсией случайных
отклонений
.
Приведем
формулы связи дисперсий коэффициентов
и
с
дисперсией
случайных отклонений
.
Для
этого представим
формулы определения коэффициентов
и
в
виде линейных
функций относительно значений Y:
,
так как
.
Обозначив
,
имеем
|
(5.7) |
Аналогично:
.
Обозначая
,
имеем:
|
(5.8) |
Так
как предполагается, что дисперсия Y
постоянна
и не зависит от значений X,
то
и
можно рассматривать как некоторые
постоянные. Следовательно,
,
.
Очевидны следующие выводы:
Дисперсии и прямо пропорциональны дисперсии случайного отклонения . Следовательно, чем больше фактор случайности, тем менее точными будут оценки.
Чем больше число п наблюдений, тем меньше дисперсии оценок. Это вполне логично, так как чем большим числом данных мы располагаем, тем вероятнее получение более точных оценок.
Чем больше дисперсия (разброс значений
) объясняющей переменной, тем меньше дисперсия оценок коэффициентов. Другими словами, чем шире область изменений объясняющей переменной, тем точнее будут оценки (тем меньше доля случайности в их определении).
В силу того что
случайные отклонения
по выборке определены быть не могут,
при анализе надежности оценок коэффициентов
регрессии они заменяются отклонениями
значений
переменной Y
от оцененной линии регрессии. Дисперсия
случайных отклонений
заменяется ее несмещенной оценкой
|
(5.9) |
Тогда
|
(5.10) |
|
(5.11) |
- необъясненная
дисперсия (мера разброса зависимой
переменной вокруг линии регрессии).
Корень квадратный
из необъясненной дисперсии, т.е.
называется
стандартной
ошибкой оценки (стандартной ошибкой
регрессии).
и
—
стандартные отклонения случайных
величин
и
,
называемые
стандартными
ошибками коэффициентов
регрессии.
Коэффициент определяет наклон прямой регрессии. Чем больше разброс значений Y вокруг линии регрессии, тем больше (в среднем) ошибка определения наклона прямой регрессии. Действительно, если такой разброс совсем отсутствует ( =0), то прямая определяется однозначно .
В
знаменателе дроби (5.10), определяющей
значение
,
стоит
сумма
квадратов отклонений
от среднего значения
.
Эта
сумма велика
(а следовательно, вся дробь мала, и
дисперсия
оценки меньше),
если регрессия определяется на широком
диапазоне значений
переменной X.
Согласно
соотношению (5.11), дисперсия свободного
члена уравнения
регрессии
пропорциональна дисперсии
.
Действительно, чем сильнее меняется
наклон прямой, проведенной
через данную точку
,
тем
больше разброс значений
свободного члена, характеризующего
точку пересечения этой
прямой с осью OY.
Кроме
того, разброс значений свободного члена
тем больше,
чем больше средняя величина
.
Это
связано с тем, что при
больших по модулю значениях X
даже
небольшое изменение
наклона регрессионной прямой может
вызвать большое
изменение оценки свободного члена,
поскольку в этом случае в среднем велико
расстояние от точек наблюдений до оси
OY.