
- •Учебно-методические материалы к изучению дисциплины «Эконометрика»
- •Введение
- •1 Эконометрика и математическая статистика
- •Особенности статистических данных. Источники информации
- •1.2. Выборочная ковариация и выборочная дисперсия
- •Потребительские расходы на бензин и его реальная цена в условных единицах
- •Расчет выборочной ковариации
- •1.3 Метод Монте-Карло
- •2. Метод наименьших квадратов
- •2.1. Модель парной регрессии
- •2.2. Регрессия по методу наименьших квадратов
- •2.3. Формулы для коэффициентов регрессии. Обязательные свойства линии регрессии. Недостатки метода наименьших квадратов
- •2.4. Объясненная и необъясненная дисперсия зависимой переменной. Коэффициент r2, его связь с коэффициентом корреляции
- •Расчетная таблица
- •3 Свойства коэффициентов регрессии
- •3.1 Теорема Гаусса - Маркова. Смысл условий теоремы
- •Расчеты значений y
- •Результаты оценки значений a и b
- •Результаты расчетов значений y
- •Результаты оценки значений a и b
- •3.2. Стандартные отклонения и стандартные ошибки коэффициентов регрессии
- •Результаты расчетов стандартных ошибок
- •Результаты расчетов
- •4. Проверка гипотез
- •4.1. Выбор нулевой и альтернативной гипотезы
- •4.2. Уровень значимости
- •4.3 Ошибки I и II рода, степени свободы критическое значение, доверительный интервал. Т-тест для коэффициентов регрессии
- •4. 4. Односторонние и двусторонние тесты
- •4.7. Связь между тестами
- •5. Нелинейная регрессия. Простейшие модели
- •5.1. Нелинейность по переменным и нелинейность по параметрам
- •Соотношение между ежегодным потреблением бананов и годовым доходом
- •5.2. Логарифмирование
- •5.3. Эластичность и ее моделирование
- •5.4 Случайный член как множитель
- •5.5. Тест Бокса – Кокса (решетчатый поиск). Подбор функции методом Зарембки
- •Регрессии расходов на питание и жилье
- •Результаты оценивания регрессий для расходов
- •Алгоритмы вычисления эконометрических показателей
- •Список рекомендуемых литературных источников
2.4. Объясненная и необъясненная дисперсия зависимой переменной. Коэффициент r2, его связь с коэффициентом корреляции
Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у. В любой данной выборке у оказывается сравнительно низким в одних наблюдениях и сравнительно высоким - в других. Мы хотим знать, почему это так. Разброс значений у в любой выборке можно суммарно описать с помощью выборочной дисперсии Var(у). Мы должны уметь рассчитывать величину этой дисперсии.
В
парном регрессионном анализе мы пытаемся
объяснить поведение у путем определения
регрессионной зависимости у от
соответственно выбранной независимой
переменной х. После построения уравнения
регрессии мы можем разбить значение
в каждом наблюдении на две составляющих
—
и
:
(2.23)
Величина
- расчетное значение у в наблюдении i
- это то значение, которое имел бы у при
условии, что уравнение регрессии было
правильным, и отсутствии случайного
фактора. Это, иными словами величина у,
спрогнозированная по значению х в данном
наблюдении.
Тогда
остаток
есть расхождение между фактическим и
спрогнозированным значениями величины
.
Это та часть
,
которую мы не можем объяснить с помощью
уравнения регрессии. Используя (2.23),
разложим дисперсию
:
Далее
оказывается, что
должна быть равна нулю, что можно
доказать, используя равенство
и ковариационные правила. Следовательно,
мы получаем:
(2.23а)
Это
означает, что мы можем разложить
на две части:
- часть, которая "объясняется"
уравнением регрессии в вышеописанном
смысле, и
- "необъясненную" часть.
Другими
словами, объясненная дисперсия зависимой
переменной - выборочная дисперсия
расчетных значений величины
:
;
необъясненная
дисперсия зависимой переменной -
выборочная дисперсия остатков в
наблюдениях:
.
Выборочная дисперсия зависимой переменной регрессии равна сумме объясненной дисперсии зависимой переменной и необъясненной дисперсии зависимой переменной.
Согласно
2.23а,
- это часть дисперсии
,
объясненная уравнением регрессии. Это
отношение известно как коэффициент
детерминации, и его обычно обозначают
:
,
(2.24)
что равносильно
,
(2.25)
Часто коэффициент детерминации иллюстрируют рис.2.7.
Рис. 2.7 Соотношение TSS, ESSv\ RSS
Общая
сумма квадратов отклонений (TSS - Total Sum
of Squares) - сумма квадратов отклонений
величины
от своего выборочного среднего
.
Объясненная
сумма квадратов отклонений (ESS - Explained
Sum of Squares) - сумма квадратов отклонений
величины
от своего выборочного среднего
.
Необъясненная (остаточная) сумма квадратов отклонений (RSS - Residue Sum of Squares) - сумма квадратов остатков всех наблюдений.
Таким образом, коэффициент детерминации - доля объясненной дисперсии зависимой переменной во всей выборочной дисперсии :
.
Отметим
также, что общая сумма квадратов
отклонений равна объясненной сумме
квадратов отклонений плюс необъясненная
сумма квадратов отклонений:
.
Из
рисунка видно, что с увеличением
объясненной доли разброса коэффициент
приближается к единице. Кроме того, из
рисунка видно, что с добавлением еще
одной переменной
обычно увеличивается, однако если
объясняющие переменные
и
сильно коррелируют между собой, то они
объясняют одну и ту же часть разброса
переменной
,
и в этом случае трудно идентифицировать
вклад каждой из переменных в объяснение
поведения
.
На
интуитивном уровне представляется
очевидным, что чем больше соответствие,
обеспечиваемое уравнением регрессии,
тем больше должен быть коэффициент
корреляции для фактических и прогнозных
значений
,
и наоборот. Покажем, что
фактически равен квадрату такого
коэффициента корреляции между
и
,
который мы обозначим
(заметим, что
).
.
(2.26)
То есть коэффициент детерминации равен квадрату выборочной корреляции между и :
,
поэтому
.
Коэффициент детерминации для модели парной регрессии равен 1, только если все наблюдения лежат на одной прямой - линии регрессии.
Если
в выборке отсутствует видимая связь
между
и
,
то коэффициент
будет близок к нулю.
При
прочих равных условиях желательно,
чтобы коэффициент
был как можно больше. В частности, мы
заинтересованы в таком выборе коэффициентов
и
,
чтобы максимизировать
.
Не противоречит ли это нашему критерию,
в соответствии с которым
и
должны быть выбраны таким образом, чтобы
минимизировать сумму квадратов остатков?
Нет, легко показать, что эти критерии
эквиваленты, если (2.25) используется как
определение коэффициента
.
Отметим сначала, что
,
откуда,
беря среднее значение
по выборке и используя уравнение (2.9),
получим:
.
(2.27)
Следовательно,
.
(2.28)
Отсюда следует, что принцип минимизации суммы квадратов остатков эквивалентен минимизации дисперсии остатков при условии выполнения (2.8). Однако если мы минимизируем , то при этом в соответствии с (2.29) автоматически максимизируется коэффициент .
Тем самым МНК автоматически дает максимальное возможное для данной выборки значение коэффициента детерминации .
Вычисление коэффициента выполняется на компьютере в рамках программы оценивания регрессии, поэтому данный пример приведен лишь в целях иллюстрации. Будем использовать простейший пример с тремя наблюдениями, описанный в разделе 2.3, где уравнение регрессии
(2.29)
Построения
по наблюдениям
и
приведены в табл. 2.1. В таблице также
даны
и
для каждого наблюдения, вычисленные с
помощью уравнения регрессии (2.29), и все
остальные данные, необходимые для
вычисления
,
и
.
Заметим, что
должно быть равно нулю, так что величина
.
Таблица 2.1