
- •Множественная регрессия.
- •Модель множественной регрессии
- •Тест – линейное ограничение на коэффициенты
- •Тест Чоу (Chow) – тест на структурные изменения
- •Различие между остатками регрессии и ошибками
- •Мультиколлинеарность
- •Фиктивные переменные
- •Гетероскедастичность
- •Тесты на гетероскедастичность
- •Автокорреляция остатков
- •Точечный прогноз
- •Статистика Дарбина-Уотсона (dw)
- •Причинность по Гренджеру
- •Модели с лагами
- •Геометрическая структура лага
- •Подбор параметра
- •Полиномиальная лаговая структура (Алмонд)
Фиктивные переменные
Как правило, независимые переменные в регрессионных моделях имеют «непрерывные» области изменения (национальный доход, уровень безработицы, размер зарплаты и т.д.). Однако теория не накладывает никаких ограничений на характер регрессоров, в частности некоторые переменные могут принимать всего два значения или, в более общей ситуации, дискретное множество значений. Необходимость в таких переменных возникает при принятии во внимание какого-либо качественного признака. Например, при исследовании зависимости зарплаты от различных факторов может возникнуть вопрос о влиянии на размер зарплаты высшего образования. В принципе можно оценивать соответствующие уравнения внутри каждой категории, а затем изучить различия между ними, но введение дискретных переменных позволяет оценить одно уравнение сразу по всем категориям.
Рассмотрим
на примере. Пусть
- набор объясняющих переменных, т.е.
первоначальная модель описывается
уравнениями
,
где
- размер зарплаты t-го
работника. Включим в рассмотрение
наличие или отсутствие высшего
образования. Введем новую, бинарную,
переменную d,
полагая
,
если в t-м
наблюдении индивидуум имеет высшее
образование, и
в противном случае, и рассмотрим новую
систему
,
где
.
Таким образом, в этой модели средняя
зарплата есть
при отсутствии высшего образования и
- при его наличии. Т.е. величину
можно интерпретировать как среднее
изменением зарплаты при переходе из
одной категории (без высшего образования)
в другую (с высшим образованием) при
неизменных значениях остальных
параметров. К данной модели можно
применить метод наименьших квадратов
и получить оценки коэффициентов. При
этом тестируя гипотезу
,
мы проверяем предположение о несущественном
различии в зарплате между категориями.
При этом фиктивность вводимых переменных состоит в том, что они количественным образом описывают качественный признак.
Если включаемый в рассмотрение качественный признак имеет не два, а несколько значений, то можно ввести в рассмотрение дискретную переменную, принимающую столько же значений. Но в этой ситуации будет трудно дать содержательную оценку параметру регрессии. Обычно используют несколько бинарных переменных.
Пример. Исследование влияния сезонных колебаний.
Пусть
- объем потребления некоторого продукта
в месяц t,
и есть все основания считать, что
потребление зависит от времени года.
Для выявления влияния сезонности можно
ввести три бинарные переменные:
,
если месяц t
является зимним,
в остальных случаях;
,
если месяц t
является весенним,
в остальных случаях;
,
если месяц t
является летним,
в остальных случаях,
и оценивать уравнение
.
Мы
не вводим здесь четвертую бинарную
переменную для осени, так как иначе для
любого месяца
,
что означает линейную зависимость
регрессоров и, как следствие, невозможность
получения МНК-оценок.
Фиктивные переменные являются достаточно гибким инструментом для исследования качественных признаков.
Пример.
Введем в предыдущем примере новую
независимую переменную i
– доход, используемый на потребление.
В регрессии
коэффициента
носит название склонность к потреблению.
Поэтому естественного поставить задачу
исследовать влияние сезонности на
склонность к потреблению. Для этого
достаточно рассмотреть модель
,
согласно
которой склонность к потреблению зимой,
весной, летом и осенью есть
,
,
,
и
соответственно. Можно исследовать
гипотезы об отсутствии сезонных влияний
на склонность к потреблению.
Фиктивные переменные позволяют строить и оценивать кусочно-линейные модели, которые можно применять при исследовании структурных изменений.
Пример.
Пусть y
–
зависимая переменная и пусть для простоты
есть только две независимые переменные:
x
и постоянный член. Предположим, что x
и y
представлены в виде временных рядов
(например,
- размер основного фонда некоторого
предприятия в период t,
- объем продукции, выпущенной в этот же
период). Из некоторых априорных данных
полагаем, что в момент
произошла структурная перестройка и
линия регрессии изменилась, но общая
линия осталась непрерывной.
Для
оценки этой модели вводим бинарную
переменную r,
полагая
,
если
и
,
если
,
и запишем следующее регрессионное
уравнение:
.
Таким
образом, тестируя гипотезу
,
мы проверяем предположение о том, что
фактически структурного изменения не
произошло.
Этот подход обобщается на случай нескольких структурных изменений в пределах одного временного интервала.
При включении нескольких бинарных переменных необходимо не нарушить линейную независимость регрессоров.
Выводы:
-
Для исследования влияния качественных признаков в модель можно вводить бинарные (фиктивные) переменные, которые, как правило, принимают значение 1, если данный качественный признак присутствует в наблюдении.
-
Способ включения фиктивных переменных зависит от априорной информации относительно влияния соответствующих качественных признаков на зависимую переменную и от гипотез, которые проверяются с помощью модели.
-
От способа включения фиктивной переменной зависит и интерпретация оценки коэффициента при ней.
Для введении фиктивных переменных возможны следующие показания:
-
регрессионная неоднородность исходных статистических данных;
-
линейная регрессионная модель с переменной структурой.
Первый
случай. Итак, постулируется, что
,
здесь
- вектор-столбец наблюдений. Можно
предположить, что на связь оказывают
влияние
- сопутствующие переменные (они могут
быть качественные, категоризованные).
Пример.
Зависимость между удельным потреблением услуг и среднедушевым доходом. Предполагаемый вид модели:
.
Тогда
коэффициент
- склонность к потреблению. Предположим,
что
- номер социально-экономической страты,
типа потребительского потребления.
Будем считать, что их всего 3 вида. Кроме
того, возможна еще одна переменная,
например, если имеем в виду потребление
прохладительных напитков, - сезонность
(четыре значения), поэтому модель может
иметь следующий вид:
.
Данные регрессионно-неоднородные. Допустим, имеется 12 домашних хозяйств по 4 из каждой страты. Проводятся наблюдения в течение 12 месяцев, таким образом, необходимо рассмотреть двенадцать моделей и разбить данные на регрессионно-однородные. В этом случае отпадает необходимость в фиктивных переменных. Но тогда снижается точность оценивания в силу низкого соотношения числа наблюдений и числа оцениваемых параметров.
Второй случай. Пусть имеется модель с переменной структурой. Возможны две постановки.
-
значения
- наблюдаются;
-
значения
- не наблюдаются.
В
первом случае один из приемов – введение
фиктивных переменных. Если изменения
сопутствующих переменных приводит к
изменению только части оцениваемых
коэффициентов регрессии, то целесообразно
использовать фиктивные переменные. В
противном случае единственно возможный
вариант – разбивать данные на
регрессионно-однородные. В рассматриваемом
примере, тип потребительского поведения
влияет только на коэффициент
,
а сезонность на коэффициент
.
Для каждой сопутствующей переменной вводится соответствующее количество фиктивных (на единицу меньше, чем количество значений).
Аналогично по сезонности вводим три переменных:
Такая модель имеет вид:
.
Теперь матрица X имеет размерность 144*7. На каждый коэффициент имеется 18 наблюдений. Т.е. есть явное улучшение по сравнению с изучением каждой страты и каждого сезона отдельно, так как в этом случае будет только 4 наблюдения на коэффициент. После оценивания коэффициентов, можно выписать 12 типов моделей, например:
«зима
– 1 страта» -
;
«зима
– 2 страта» -
.
Иногда в моделях используется также взаимодействие сопутствующих факторов.
Второй случай. Если при наблюдении не были учтены сопутствующие данные. Так в качестве примера можно рассмотреть исследование о зависимости миграции между городами от уровня образования.
Получены
следующие данные зависимости. При этом,
как выяснилось позже, в облако 1 попали
преимущественно люди с техническим и
математическим образованием, а в облако
2 в основном гуманитарии. Т.е. при
формировании выборки был упущен
сопутствующий фактор – тип образования.
При этом бывает полезно использовать
методы классификации. Например, кластерный
анализ в обобщенном пространстве. А
далее строить свою линию регрессии в
каждом кластере.