22. Фиктивные переменные
Обычно факторы в регрессионной модели имеют непрерывные области изменения (национальный доход, уровень безработицы и т.п.). Но часто некоторые регрессоры могут принимать только два значения или в общем случае дискретное множество значений. Такие ситуации возникают, если в качестве факторов используются ранжированные данные. Например, исследуя зависимость зарплаты от различных факторов возникает вопрос, влияет ли на ее размер наличие у работника высшего образования или его пол. Можно оценивать соответствующие уравнения внутри каждой категории, а затем изучать различия между ними. Но введение дискретных переменных позволяет оценивать одно уравнение сразу по всем категориям.
Рассмотрим пример с зарплатой. Пусть xt=(xt1,…,xtk)ˊ - набор объясняющих переменных, т.е. первоначальная модель описывается уравнениями
yt = xt1β1+…+ xtkβk + εt = x'tβ + εt, t = 1,…, n ,
где yt - размер зарплаты t-го работника. Теперь мы хотим включить в рассмотрение такой фактор, как наличие или отсутствие высшего образования. Введем новую бинарную переменную d, полагая dt = 1, если в t-ом наблюдении субъект имеет высшее образование и dt = 0 в противном случае, рассмотрим новую систему yt = xt1β1+…+ xtkβk + dtδ + εt = z'tγ + εt, t = 1,…,n
где z = (xt1,…, xtk, dt)', γ = (β1,… , βk , δ)'. С точки зрения этой модели средняя зарплата есть x'tβ + δ - при наличии высшего образования и x'tβ - при его отсутствии. Т.о., величина δ интерпретируется как среднее изменение зарплаты при переходе из одной категории (без высшего образования) в другую (с высшим образованием) при неизменных значениях других параметров. Применяя к системе МНК получаем оценки соответствующих коэффициентов. Тестируя гипотезу δ = 0, проверяем предположение о несущественности в зарплате между категориями.
В англоязычной литературе по эконометрике такие переменные как d называются dummy variables, что на часто переводится как «фиктивные переменные». Однако это такая же «равноправная» переменная, как и любой из регрес-соров. Ее «фиктивность» состоит только в том, что она количественно описывает качественный признак.
Качественное различие можно формализовать с помощью любой переменной принимающей два различных значения не обязательно 0 и 1. Но в современной эконометрике почти всегда используют фиктивные переменные со значениями 0 и 1, т.к. в этом случае интерпретация выглядит наиболее просто.
Если включаемый в рассмотрение качественный признак имеет не два, а несколько значений, то в принципе можно было бы ввести дискретную переменную, принимающую такое же количество значений. Но такую модель было бы трудно содержательно интерпретировать. Обычно используют несколько бинарных переменных. Типичным примером может служить модель исследования сезонных колебаний. Пусть yt - объем потребления некоторого продукта в месяц t, и есть все основания считать, что потребление зависит от времени года. Введем три бинарные переменные d1, d2, d3:
dt1 = 1, если месяц t является зимним, dt1 = 0 в остальных случаях;
dt2 = 1, если месяц t является весенним, dt2 = 0 в остальных случаях;
dtз = 1, если месяц t является летним, dt3 = 0 в остальных случаях; и оцениваем уравнение
yt = β0 + dt1 β1 + dt2 β2 + dt3 β3 + εt
Замечание. В модель не вводится четвертая бинарная переменная d4 относящаяся к осени, т.к. иначе для любого месяца t выполнялось бы тождество
d1 + d2 + d3 + d4 = 1, что означало бы линейную зависимость регрессоров и как следствие, невозможность получения МНК-оценок. По этой модели среднемесячный объем потребления есть β0 для осенних месяцев, β0 + β1 - для зимних, β0 + β2 - для весенних и β0 + β3 - для летних.