
- •2. Линейная парная регрессия
- •3. Основные предпосылки регрессионной модели
- •4. Точность уравнения линейной регрессии
- •5. Оценка значимости уравнения регрессии
- •6. Нелинейная регрессия
- •7. Множественная линейная регрессия
- •8. Оценка значимости отдельных факторов множественной регрессии
- •9. Фиктивные переменные в множественной регрессии
- •10. Системы эконометрических уравнений
- •11. Косвенный метод наименьших квадратов
- •12. Временные ряды. Общие понятия
- •13. Методы выделения тенденции временного ряда. Кривые роста.
- •14. Выделение циклической составляющей временного ряда
- •15. Экспоненциальное сглаживание
- •16. Выявление структурных изменений временного ряда
- •17. Оценка соблюдения условий применимости мнк
- •19. Взвешенный и обобщенный мнк
- •21. Оценка взаимосвязи двух временных рядов
- •22. Динамические эконометрические модели
3. Основные предпосылки регрессионной модели
Изложенный выше подход к оценке параметров регрессионной модели на основе МНК базируется на допущениях:
Ошибка ε в уравнении (1.1) является случайной величиной с математическим ожиданием E[ε] = 0 и постоянной дисперсией D[ε] = σ2 = const;
Ошибки εi, εj при любых i ≠ j, i, j = 1,2...n некоррелированы между собой, т.е.
.
Только в этом случае согласно основной теореме (Гаусса – Маркова) регрессионного анализа оценки параметров регрессионной модели обладают свойствами несмещенности, эффективности и состоятельности. Эти свойства означают, что получаемая оценка, например, коэффициента регрессии b1, как СВ, обладает нулевым математическим ожиданием относительно истинного значения этого параметра (несмещенность) и наименьшей среди других возможных видов оценок дисперсией (эффективность), которая к тому же уменьшается по мере увеличения объема выборки n (состоятельность). Значительную часть эконометрических исследований занимает проверка соблюдения этих предпосылок и работа по устранению последствий в случае их нарушения. Более подробно эти проблемы будут рассмотрены позже.
4. Точность уравнения линейной регрессии
Выражение (1.2) соответствует т.н. множественной регрессии. Несколько позже будет получено матричное выражение для коэффициентов линейной множественной регрессии (7.3), основанное на МНК. Полагая y = Xβ + u, где β – вектор истинных, но неизвестных нам коэффициентов, а u – нормально распределенная случайная величина c нулевым средним значением и дисперсией σ2, получаем
b = (XTX)-1 XT(Xβ+u) = (XTX)-1(XTX) β +(XTX)-1 XTu = β +(XTX)-1 XTu
или
b-β = (XTX)-1 XTu. (4.1)
Определим ковариационную матрицу
Σb = E[(b-β)(
b-β)T]
=
, (4.2)
где Е – символ математического ожидания
На главной диагонали этой матрицы
расположены дисперсии коэффициентов
регрессии, а вне ее – соответствующие
ковариации. В силу равенства
=
ковариационная матрица является
симметричной.
Подставляя (4.1) в (4.2), будем иметь
Поскольку E[uuT] = σ2 I, где I – единичная матрица, окончательно получаем
(4.3)
Диагональные элементы матрицы (4.3) являются дисперсиями соответствующих коэффициентов регрессии, т.е.оценками их разброса относительно истинного значения.
В случае линейной парной регрессии
Нетрудно показать, что
.
Тогда интересующие нас диагональные элементы матрицы (4.3)
. (4.4)
В качестве оценки σ2 в практических расчетах берут величину приведенной остаточной суммы квадратов.
Если из первого уравнения системы (2.4) выразить b0 и подставить результат в уравнение (2.1), то получим
Из теории вероятностей известно, что дисперсия суммы независимых СВ равна сумме дисперсий слагаемых, а постоянный множитель можно вынести за знак дисперсии, предварительно возведя его в квадрат. Это позволяет записать
.
Поскольку дисперсия оценки среднего значения СВ в n раз меньше дисперсии самой СВ, окончательно получаем
, (4.5)
где
-
оценка D[Y]
Доказано, что при соблюдении основных предпосылок регрессионного анализа (см. разд. 3) СВ
(4.6)
имеет вполне определенный закон распределения, имеющий название t-распределение Стъюдента. Это распределение находит широкое применение в статистике при проверке гипотез и относится к числу стандартных. Оно имеет 2 параметра, называемые число степеней свободы и уровень значимости. В данном применении число степеней свободы равно n-2. Уровень значимости определяет допустимую вероятность ошибки и выбирается исходя из стоимости этой ошибки. Обычное его значение α = 0,05. Задание указанных параметров позволяет получить из таблиц t-распределения некоторое число tn-2(α) и на основании (4.6) указать возможный диапазон для величины Y (x) при конкретном значении х, как
(4.7)
Из выражений (4.5) и (4.7) следует, что чем дальше значение х от его среднего значения, тем шире диапазон возможных значений регрессии, причем зависимость эта параболическая (квадратичная). Данное обстоятельство заставляет осторожно относиться к прогнозу (экстраполяции) уравнения регрессии, поскольку в этом случае значение х существенно удалено от его среднего значения.
Полученные интервалы относятся к математическому ожиданию результирующего признака Y. Фактические его значения y отличаются на величину оценки остаточного СКО σ, что эквивалентно появлению в скобках выражения (4.5) дополнительного слагаемого равного 1. На рисунке 4.1 к линии регрессии рисунка 2.1 добавлены граничные линии, показывающие возможные интервалы для величин Y(x) и y(x). Интервал для последней приблизительно в 2 раза шире.
Рис. 4.1. Интервалы возможных значений функции регрессии и результирующего признака