
- •Тема 7. Предпосылки применения метода наименьших квадратов. Статистика Дарбина-Ватсона
- •7.1. Предпосылки метода наименьших квадратов. Классическая линейная регрессионная модель
- •7.2. Предпосылки применимости метода наименьших квадратов (мнк). Расчёт остатков (ошибок) I. Несмещённость, эффективность и состоятельность оценок. Гомоскедатичность. Теорема Гаусса-Маркова
- •7.3. Проверка выполнимости предпосылок мнк. Статистика Дарбина-Уотсона
- •7.4. Задание к лабораторной работе № 6 «Проверка наличия автокорреляции отклонений с помощью статистики Дарбина-Уотсона»
- •Тема 8. Проверка гипотез о значимости отдельных коэффициентов и значимости уравнения регрессии в целом. Построение доверительных интервалов прогноза для линейного уравнения регрессии
- •8.1. Анализ точности определения оценок коэффициентов регрессии
Тема 7. Предпосылки применения метода наименьших квадратов. Статистика Дарбина-Ватсона
7.1. Предпосылки метода наименьших квадратов. Классическая линейная регрессионная модель.
7.2. Предпосылки применимости метода наименьших квадратов (МНК). Расчёт остатков (ошибок) i. Несмещённость, эффективность и состоятельность оценок. Гомоскедатичность. Теорема Гаусса-Маркова.
7.3. Проверка выполнимости предпосылок МНК. Статистика Дарбина-Уотсона.
7.4. Задание к лабораторной работе № 6 «Проверка наличия автокорреляции отклонений с помощью статистики Дарбина-Уотсона».
7.1. Предпосылки метода наименьших квадратов. Классическая линейная регрессионная модель
Регрессионный анализ позволяет определить оценки коэф-фициентов регрессии. Но, являясь лишь оценками (приближениями), они не позволяют сделать вывод, насколько точно эмпирическое уравнение регрессии соответствует уравнению для всей генеральной совокупности, насколько близки оценки b0 и b1 коэффициентов к своим теоретическим прототипам 0 и 1, как близко оцененное значение уteor(xi), к условному математическому ожиданию M(YX=xi), насколько надежны найденные оценки. Для ответа на эти вопросы необходимы определенные дополнительные исследования [1, 3, 12, 14].
Как следует из следующего соотношения
Yi = M(YX=xi) = 0 + 1xi + i
значения уi зависят от значений хi и случайных отклонений i. Следовательно, переменная Y является случайной величиной, напрямую связанной с i. Это означает, что до тех пор, пока не будет определенности в вероятностном поведении i, мы не сможем быть уверенными в качестве оценок. Действительно, можно показать, что оценки (приближения) коэффициентов регрессии — это случайные величины, зависящие от случайного члена в уравнении регрессии.
Рассмотрим модель парной линейной регрессии
Y = 0 + 1X + (7.1)
Пусть на основе выборки из n наблюдений оценивается регрессия
Yteor(X) = b0 + b1X. (7.2)
Пример 1. Возьмём актуальный пример про учёбу студентов. Будем опрашивать их на тему, сколько они занимались дней в сессию и какие в среднем получили оценки за сессию. Результаты опроса занесём в следующую таблицу.
Таблица 1
i — номер измерения (опрошенного студента) |
Количество дней подготовки к экзам., Xi, чел.-дн. |
Средняя оценка за сессию, Yi |
Средняя оценка за сессию, Yteor(Xi) = b0+b1*Xi |
1 |
10 |
5 |
4,888268 |
2 |
8 |
4 |
4,117318 |
3 |
3 |
2 |
2,189944 |
4 |
2 |
2 |
1,804469 |
Значения b0 и b1, использованные в последнем столбце, мы получим, например, первым способом с помощью функции ЛИНЕЙН:
0,385475 |
1,03352 |
0,03352 |
0,222974 |
0,985102 |
0,224231 |
132,25 |
2 |
6,649441 |
0,100559 |
Отсюда видно, что b1 = 0,385477. Главное, что эта приближенная величина положительна. Это означает, что с каждым новым днём усиленных занятий ваша средняя оценка за сессию увеличивается в среднем на величину 0,385477. Интуитивно это ясно каждому нормальному человеку. Но разные причины и искушения каждого дня мешают нам работать. Речь далее идёт о количестве однородных наблюдений.
Генеральной совокупностью называется множество всех возможных значений или реализаций исследуемой случайной величины при данном реальном комплексе условий.
Именно невозможность использовать данные всей генеральной совокупности, а только конкретной выборки (в нашем примере данные таблицы 1) позволяет всегда вместо задачи (7.1) рассматривать её приближение, т.е. задачу (7.2).
Как показано в формуле (3.17)
, (7.3)
означает, что коэффициент b1 также является случайным. В самом деле значение выборочной ковариации Sxy зависит от того, какие значения принимают Х и Y.
.
Если Х можно рассматривать как экзогенный фактор, значения которого известны, то значения Y зависят от случайной составляющей i. Коэффициент ковариации вычисляется по формуле
xy = cov(X,Y) = M((X-MX)(Y-MY))=
= M(XY) - MXMY.
Теоретически коэффициент b1 можно разложить на неслучайную и случайную составляющие. Вначале разложим числитель выражения (7.3)
Sxy = cov(X, 0 + 1X + ) = cov(X, 0)+ cov(X, 1X) + cov(X, )
Таким образом,
Sxy = cov(X, 0)+ 1Sx2 +cov(X, ) = 0 + 1Sx2 +cov(X, ). (7.4)
Здесь использовались правила вычисления ковариации:
cov(X, 0) = 0, так как 0 = const,
cov(X, 1X) = 1cov(X, X) = 1Sx2.
Следовательно,
. (7.5)
Здесь
1
— постоянная величина (истинное значение
коэффициента регрессии),
— случайная компонента. Аналогичный
результат можно получить и для коэффициента
b0.
Отметим при этом, что на практике такое
разложение осуществить невозможно,
поскольку неизвестны истинные значения
0
и 1,
а также значения отклонений для всей
генеральной совокупности.
Итак, мы показали, что свойства оценок коэффициентов регрессии, а следовательно, и качество построенной регрессии существенно зависят от свойств случайной составляющей. Доказано, что для получения по МНК наилучших результатов необходимо, чтобы выполнялся ряд предпосылок относительно случайного отклонения.