- •Оглавление
- •1. Основы эконометрики. Типы данных, используемых в эконометрике. Оценка тесноты линейной связи. 3
- •Введение
- •Основы эконометрики. Типы данных, используемых в эконометрике. Оценка тесноты линейной связи.
- •Линейные регрессионные модели.
- •Использование средств Excel для проведения регрессионного анализа
- •3. Примеры использования различных функций Excel для оценки параметров парной линейной регрессии
- •Вычисляем обратную матрицу .
- •4. Умножаем обратную матрицу на транспонированную матрицу .
- •5. Умножаем матрицу на y.
- •4. Некоторые вопросы применения моделей множественной регрессии.
- •Свойства оценок мнк.
- •4.1. Проверка условия гомоскедастичности случайной составляющей (возмущения).
- •Упорядочение п наблюдений по мере возрастания переменной х.
- •4.2. Проверка условия независимости случайных составляющих в различных наблюдениях.
- •4.3. Проверка условия независимости объясняющих факторов
- •4.4. Регрессионные модели с переменной структурой (фиктивные переменные).
- •5. Комплексный пример исследования экономических данных с использованием корреляционно-регрессионного анализа
- •5.1. Матрица коэффициентов парной корреляции. Выбор факторных признаков для построения регрессионной модели
- •5.2.А. Выбор факторных признаков для построения регрессионной модели на основе анализа матрицы коэффициентов парной корреляции.
- •5.2.Б. Выбор факторных признаков для построения регрессионной модели методом исключения.
- •5.3. Оценка качества модели регрессии
- •5.4. Оценка значимости уравнения регрессии и его коэффициентов
- •5.5. Проверка условия независимости остатков
- •5.6. Оценка влияния факторов, включенных в модель, на объем реализации
- •5.7. Оценка точечных и интервальных прогнозных оценок объема реализации на два квартала вперед
- •Задачи для самостоятельного решения.
- •7. Задания для выполнения контрольной работы
- •Литература
- •Приложение. Значения статистик Дарбина-Уотсона при 5%-ном уровне значимости.
Линейные регрессионные модели.
Используемые обозначения
y – зависимая (эндогенная) переменная;
-
объясняющие (экзогенные, независимые)
переменные, регрессоры;по каждой переменной n наблюдений:
;
;
;
-
ошибка, ошибка модели, случайная
составляющая;
-
предсказанное по модели значение y,
прогноз, прогнозное значение;
-
остаток,
ошибка прогноза.
Регрессионный анализ предназначен для исследования зависимости исследуемой переменной от различных факторов и отображения их взаимосвязи в форме регрессионной модели. В регрессионных моделях зависимая (объясняемая) переменная y может быть представлена в виде функции f ( ), где - независимые (объясняющие) переменные, или факторы.
В то время как зависимая переменная должна быть непрерывной (за исключением логистической регрессии), независимые переменные могут быть как прерывными, так и категориальными, такими как «пол» или «тип применяемого препарата».
Функция
,
описывающая
зависимость показателя от параметров,
называется уравнением (функцией)
регрессии.
В зависимости от количества включенных в модель факторов x модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии).
В зависимости от вида функции модели делятся на линейные и нелинейные.
Рассмотрим
две переменные x
и y.
Между x
и y
существует регрессионная зависимость,
если найдется функция
такая, что имеет место равенство
,
в котором
случайная величина, отражает тот факт,
что изменение
будет неточно описываться изменением
х
– присутствуют другие факторы, неучтенные
в данной модели. Рассмотрим случай, для
которого функция
линейна относительно описываемых
параметров:
(2.1).
Слагаемое называется функцией или уравнением регрессии y на x.
Предположим,
что для оценки линейной регрессии (2.1)
взята выборка, состоящая из n
пар значений переменных
где i=1,2,…n
. Тогда
можно представить в виде:
,
(2.2)
Где
- параметры регрессии, которые должны
быть определены по выборочным данным,
с помощью
метода наименьших квадратов (МНК).
Согласно принципу метода наименьших квадратов, оценки находятся путем минимизации суммы квадратов
(2.3)
по
всем возможным значениям
при заданных
(наблюдаемых) значениях
.
Задача
сводится к математической задаче поиска
точки минимума функции двух переменных.
Точка минимума находится путем
приравнивания нулю частных производных
функции
по переменным
.
Оценки МНК параметров имеют вид
(2.4).
Оценки
называют
оценками наименьших квадратов. Обратим
внимание на полученное выражение для
параметра
.
Используя
формулы для вычисления выборочной
дисперсии и коэффициента парной
корреляции (формулы 1.3 -1.4), параметр
можно получить следующим образом:
=
=
=
(2.5)
Оценка параметров модели множественной регрессии с помощью метода наименьших квадратов.
Формулу для вычисления параметров регрессионного уравнения приведем без вывода
(2.6),
где
y
=
,
X
=
,
=
Используемые обозначения
-
Сумма квадратов остатков (Residual
Sum
of
Squares),
-
Общая
сумма
квадратов
(Total Sum of Squares),
-
Объясненная
сумма
квадратов
(Explained Sum of Squares).
Качество
модели
регрессии проверяется на основе анализа
остатков регрессии
.
Анализ
остатков позволяет получить представление,
насколько хорошо подобрана сама модель
и насколько правильно выбран метод
оценки коэффициентов.
При анализе качества модели регрессии, в первую очередь, используется коэффициент детерминации, который определяется следующим образом:
,
(2.7)
где
- среднее значение зависимой переменной,
-
предсказанное (рассчитанное по уравнению
регрессии) значение зависимой переменной.
Коэффициент детерминации показывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т. е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов, включенных в модель.
Чем
ближе
к 1, тем выше качество модели.
Для оценки качества регрессионных моделей целесообразно также использовать коэффициент множественной корреляции (индекс корреляции) R
R
=
=
(2.8)
Данный коэффициент является универсальным, так как он отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных.
Важным моментом является проверка значимости построенного уравнения в целом и отдельных параметров.
Для проверки значимости модели регрессии используется F-критерий Фишера. Если расчетное значение с 1= k и 2 = (n - k - 1) степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.
(2.9)
В
качестве меры
точности
применяют несмещенную оценку дисперсии
остаточной компоненты, которая
представляет собой отношение суммы
квадратов уровней остаточной компоненты
к величине (n- k -1), где k – количество
факторов, включенных в модель. Квадратный
корень из этой величины (
)
называется стандартной
ошибкой:
(2.10)
Также для оценки качества регрессионных моделей целесообразно использовать среднюю ошибку аппроксимации(%):
(2.11)
Чем меньше
рассеяние эмпирических точек вокруг
теоретической линии регрессии, тем
меньше средняя ошибка аппроксимации.
Ошибка аппроксимации меньше 7 %
свидетельствует о хорошем качестве
модели.
значимость отдельных коэффициентов регрессии проверяется по t-статистике путем проверки гипотезы о равенстве нулю j-го параметра уравнения (кроме свободного члена):
,
(2.12)
где
—
это стандартное (среднеквадратическое)
отклонение коэффициента уравнения
регрессии aj.
Величина
представляет собой квадратный корень
из произведения несмещенной оценки
дисперсии
и
j
-го диагонального элемента матрицы,
обратной матрице системы нормальных
уравнений.
(2.13)
где
- диагональный элемент матрицы
.
Если расчетное значение t-критерия с (n - k - 1) степенями свободы превосходит его табличное значение при заданном уровне значимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует исключить из модели (при этом ее качество не ухудшится).
Если
модель адекватна и достаточно точна,
то её можно использовать для анализа и
прогнозирования. Анализ на основе
регрессионных моделей проводят,
во-первых, для выявления факторов,
наиболее сильно влияющих
на зависимую
переменную, а, во-вторых, с целью
ранжирования объектов по степени их
эффективности. Выбор факторов, наиболее
сильно влияющих на зависимую переменную
важен для принятия решений по улучшению
результатов деятельности исследуемой
системы. Значительную
роль при оценке влияния факторов играют
коэффициенты регрессионной модели.
Однако непосредственно с их помощью
нельзя сопоставить факторы по степени
их влияния на зависимую переменную
из-за различия единиц измерения и разной
степени колеблемости. Для устранения
таких различий при интерпретации
применяются средние частные коэффициенты
эластичности
бета-коэффициенты
(j)
или
коэффициенты регрессии в стандартизированном
масштабе и дельта - коэффициенты.
Эластичность
y
по отношению к
определяется
как процентное изменение Y,
отнесенное к соответствующему процентному
изменению x.
В общем случае эластичности не постоянны,
они различаются, если измерены для
различных точек на линии регрессии. По
умолчанию стандартные программы,
оценивающие эластичность, вычисляют
ее в точках средних значений:
(2.14)
Коэффициент эластичности показывает, на сколько процентов изменится зависимая переменная при изменении j-го фактора на 1%.
Эластичность
не нормирована и может изменяться от
-
до +
.
Высокий уровень эластичности означает
сильное влияние независимой переменной
на объясняемую переменную.
Однако средний частный коэффициент эластичности не учитывает степени колеблемости факторов, которая может значительно различаться у отдельных факторов. Поэтому для устранения различий в измерении и степени колеблемости факторов используется другой показатель - коэффициент регрессии в стандартизированном масштабе (бета-коэффициент).
(2.15)
где Sxj — среднеквадратическое отклонение фактора j
где
.
Он показывает, на какую часть величины среднего квадратического отклонения изменяется среднее значение зависимой переменной с изменением соответствующей независимой переменной на одно среднее квадратическое отклонение при фиксированном на постоянном уровне значении остальных независимых переменных.
Долю влияния фактора в суммарном влиянии всех факторов можно оценить по величине дельта - коэффициентов (j):
(2.16)
где
—
коэффициент парной корреляции между
фактором j и зависимой переменной.
В практических задачах при корректно проведенном анализе величины дельта - коэффициентов положительны, то есть все коэффициенты регрессии имеют тот же знак, что и соответствующие парные коэффициенты корреляции. Указанные характеристики позволяют упорядочить факторы по степени влияния факторов на зависимую переменную.
Уравнение регрессии применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции.
Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза.
Для линейной модели множественной регрессии при прогнозировании индивидуальных значений доверительный интервал рассчитывается по формуле (2.17) для этого оценивается величина отклонения от линии регрессии (обозначим ее U):
,
(2.17) где
.
т.е.
.
Для модели парной регрессии формула (2.17) может быть записана в следующем виде
(2.18)
