
Лек1 Парная регрессия и корреляция
.docxЛекция 1 Парная регрессия и корреляция
1.1 Спецификация модели
Ставя цель дать количественное описание взаимосвязей между экономическими переменными, эконометрика прежде всего связана с такими методами статистики, как регрессия и корреляция.
В зависимости от количества факторов (переменных х), включенных в уравнение регрессии, принято различать парную и множественную регрессии.
Парная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция одной независимой (объясняющей) переменной х, т.е. это модель вида
Множественная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция нескольких независимых (объясняющих) переменных х1,х2, …, т.е. это модель вида
Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем по совокупности наблюдений.
В уравнении регрессии корреляционная по сути связь признаков представляется в виде функциональной связи, выраженной соответствующей математической функцией. Практически в каждом отдельном случае величина у складывается их двух слагаемых:
где
– фактическое значение результативного
признака;
–
теоретическое
значение результативного признака,
найденное исходя из соответствующей
математической функции связи у и х, т.е.
из уравнения регрессии;
– случайная
величина, характеризующая отклонения
реального значения результативного
признака от теоретического, найденного
по уравнению регрессии.
Запишем
уравнение зависимости
от
в виде регрессионного уравнения:
где
– неслучайная (детерминированная)
величина;
– случайные величины.
– регрессионные остатки модели
(отклонения модельных данных от
фактических)
– называется объясняемой (зависимой)
переменной [выходной, результирующей,
эндогенной переменной, результативным
признаком]
– называется объясняющей (независимой)
переменной или регрессором [входной,
экзогенной переменной, фактором,
факторным признаком]
Причины появления в модели случайной величины ε или возмущения:
1) ошибки спецификации модели
Неправильный
выбор математической функции для
и недоучет в уравнении регрессии
какого-либо существенного фактора, т.е.
использование парной регрессии вместо
множественной.
2) выборочный характер исходных данных
Ошибки выборки имеют место в силу неоднородности данных в исходной статистической совокупности.
3) ошибки измерения переменных
т.о.
– случайная величина с некоторой
функцией распределения, которой
соответствует функция распределения
случайной величины
Спецификация модели – формулировка вида модели исходя из соответствующей теории связи между переменными.
Основное внимание в эконометрических исследованиях уделяется ошибкам спецификации модели:
В парной регрессии спецификация модели связана с выбором вида математической функции, а в множественной – также с отбором факторов, включаемых в модель.
В
парной регресcии
выбор вида математической функции
может быть осуществлен тремя методами:
– графическим (базируется на поле корреляции);
– аналитическим, т.е. исходя из теории изучаемой взаимосвязи;
– экспериментальным (путем сравнения величины остаточной дисперсии Dост, рассчитанной при разных моделях).
Результаты многих исследований подтверждают, что число наблюдений должно в 6-7 раз превышать число рассчитываемых параметров при переменной х.
1.2 Метод наименьших квадратов
Построение линейной регрессии сводится к оценке её параметров – a и b .
Одним из методов оценки параметров линейной регрессии является метод наименьших квадратов.
Метод
наименьших квадратов позволяет получить
такие оценки параметров а и b,
при которых сумма квадратов отклонений
фактических значений результативного
признака у от расчетных (теоретических)
минимальна:
Иными словами, из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной:
Следовательно,
Т.е.
задача наилучшей аппроксимации набора
наблюдений
линейной функцией
сводится к минимизации функционала
Запишем
необходимые условия экстремума функции
двух переменных
,
т.е. приравняем к нулю её частные
производные:
или
Раскроем скобки и получим систему нормальных уравнений для оценки параметров а и b:
Решение a и b системы можно легко найти:
где
– выборочная дисперсия
переменной х;
cov(x,y) – выборочный корреляционный момент или выборочная ковариация
Замечание:
1)
Уравнение прямой линии
,
полученное в результате минимизации
функционала F
проходит через точку
.
2)
Подставляя полученное значение а
из первого уравнения системы ( ) в
уравнение регрессии
получим
или
где параметр b называется коэффициентом регрессии у по х. Его величина показывает на сколько единиц в среднем изменяется переменная у при увеличении переменной х на одну единицу.
1.3 Уравнения в отклонениях
Обозначим
через
и
отклонения от средних по выборке значений
и
,
,
.
Решим ту же задачу:
Подобрать
линейную функцию
минимизирующую функционал
Из
геометрических соображений ясно, что
решением задачи будет та же прямая на
плоскости (x,y),
что и для исходных данных
.
Переход от х,у
к отклонениям хʹ,уʹ
означает
лишь перенос начала координат в точку
Решая задачу, мы получим
и
уравнение регрессии в отклонениях
примет вид
1.4 Парное уравнение регрессии может быть записано в матричной форме:
где Y
– вектор-столбец размерности (
фактических значений результативного
признака;
B
– вектор-столбец
размерности (
подлежащих оценке параметров модели,
т.е. коэффициента регрессии b
и свободного члена (параметра а
в уравнении
);
X=(x0,x1)
– матрица размерности (
значений факторов. При этом х0=1
и связано с наличием в уравнении регрессии
свободного члена, а х1 –
собственно реальные значения включенного
в уравнение регрессии фактора;
Е
– вектор-столбец случайной величины
размерности .
Матрица исходных данных примет вид:
Оценка вектора В после применения МНК в матричной форме составит:
1.5 Основные гипотезы, лежащие в основе классической линейной модели парной регрессии
1. Спецификация модели
2.
детерминированная величина
Вектор
не коллинеарен вектору
3.
, т.е. математическое ожидание ошибок
(остатков) равно нулю.
4.
неизменность дисперсий ошибок (остатков),
дисперсия не зависит от i.
5.
некоррелированность ошибок для разных
наблюдений
6.
Ошибки
имеют совместное нормальное распределение
Комментарии к основным гипотезам:
Спецификация
модели отражает наше представление о
механизме зависимости
от
и сам выбор объясняющей переменной
.
Условие
означает, что
,
т.е. при фиксированном
среднее ожидаемое значение
равно a+bxi.
Условие
независимости дисперсии ошибки от
номера наблюдения (от регрессора
)
:
,
i=1,…,n
называется гомоскедастичностью.
Случай,
когда условие гомоскедастичности не
выполняется называется гетероскедастичностью.
Условие
указывает на некоррелированность
ошибок для разных наблюдений. Это условие
часто нарушается в случае, когда наши
данные являются временными рядами.
В случае, когда это условие не выполняется, говорят об автокорреляции ошибок.