Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эконометрика_2.doc
Скачиваний:
12
Добавлен:
07.11.2018
Размер:
715.26 Кб
Скачать

Фиктивные переменные

Как правило, независимые переменные в регрессионных моделях имеют «непрерывные» области изменения (национальный доход, уровень безработицы, размер зарплаты и т.д.). Однако теория не накладывает никаких ограничений на характер регрессоров, в частности некоторые переменные могут принимать всего два значения или, в более общей ситуации, дискретное множество значений. Необходимость в таких переменных возникает при принятии во внимание какого-либо качественного признака. Например, при исследовании зависимости зарплаты от различных факторов может возникнуть вопрос о влиянии на размер зарплаты высшего образования. В принципе можно оценивать соответствующие уравнения внутри каждой категории, а затем изучить различия между ними, но введение дискретных переменных позволяет оценить одно уравнение сразу по всем категориям.

Рассмотрим на примере. Пусть - набор объясняющих переменных, т.е. первоначальная модель описывается уравнениями

,

где - размер зарплаты t-го работника. Включим в рассмотрение наличие или отсутствие высшего образования. Введем новую, бинарную, переменную d, полагая , если в t-м наблюдении индивидуум имеет высшее образование, и в противном случае, и рассмотрим новую систему

,

где . Таким образом, в этой модели средняя зарплата есть при отсутствии высшего образования и - при его наличии. Т.е. величину можно интерпретировать как среднее изменением зарплаты при переходе из одной категории (без высшего образования) в другую (с высшим образованием) при неизменных значениях остальных параметров. К данной модели можно применить метод наименьших квадратов и получить оценки коэффициентов. При этом тестируя гипотезу , мы проверяем предположение о несущественном различии в зарплате между категориями.

При этом фиктивность вводимых переменных состоит в том, что они количественным образом описывают качественный признак.

Если включаемый в рассмотрение качественный признак имеет не два, а несколько значений, то можно ввести в рассмотрение дискретную переменную, принимающую столько же значений. Но в этой ситуации будет трудно дать содержательную оценку параметру регрессии. Обычно используют несколько бинарных переменных.

Пример. Исследование влияния сезонных колебаний.

Пусть - объем потребления некоторого продукта в месяц t, и есть все основания считать, что потребление зависит от времени года. Для выявления влияния сезонности можно ввести три бинарные переменные:

, если месяц t является зимним, в остальных случаях;

, если месяц t является весенним, в остальных случаях;

, если месяц t является летним, в остальных случаях,

и оценивать уравнение

.

Мы не вводим здесь четвертую бинарную переменную для осени, так как иначе для любого месяца , что означает линейную зависимость регрессоров и, как следствие, невозможность получения МНК-оценок.

Фиктивные переменные являются достаточно гибким инструментом для исследования качественных признаков.

Пример. Введем в предыдущем примере новую независимую переменную i – доход, используемый на потребление. В регрессии коэффициента носит название склонность к потреблению. Поэтому естественного поставить задачу исследовать влияние сезонности на склонность к потреблению. Для этого достаточно рассмотреть модель

,

согласно которой склонность к потреблению зимой, весной, летом и осенью есть , , , и соответственно. Можно исследовать гипотезы об отсутствии сезонных влияний на склонность к потреблению.

Фиктивные переменные позволяют строить и оценивать кусочно-линейные модели, которые можно применять при исследовании структурных изменений.

Пример. Пусть y­ – зависимая переменная и пусть для простоты есть только две независимые переменные: x и постоянный член. Предположим, что x и y представлены в виде временных рядов (например, - размер основного фонда некоторого предприятия в период t, - объем продукции, выпущенной в этот же период). Из некоторых априорных данных полагаем, что в момент произошла структурная перестройка и линия регрессии изменилась, но общая линия осталась непрерывной.

Для оценки этой модели вводим бинарную переменную r, полагая , если и , если , и запишем следующее регрессионное уравнение:

.

Таким образом, тестируя гипотезу , мы проверяем предположение о том, что фактически структурного изменения не произошло.

Этот подход обобщается на случай нескольких структурных изменений в пределах одного временного интервала.

При включении нескольких бинарных переменных необходимо не нарушить линейную независимость регрессоров.

Выводы:

  1. Для исследования влияния качественных признаков в модель можно вводить бинарные (фиктивные) переменные, которые, как правило, принимают значение 1, если данный качественный признак присутствует в наблюдении.

  2. Способ включения фиктивных переменных зависит от априорной информации относительно влияния соответствующих качественных признаков на зависимую переменную и от гипотез, которые проверяются с помощью модели.

  3. От способа включения фиктивной переменной зависит и интерпретация оценки коэффициента при ней.

Для введении фиктивных переменных возможны следующие показания:

  1. регрессионная неоднородность исходных статистических данных;

  2. линейная регрессионная модель с переменной структурой.

Первый случай. Итак, постулируется, что , здесь - вектор-столбец наблюдений. Можно предположить, что на связь оказывают влияние - сопутствующие переменные (они могут быть качественные, категоризованные).

Пример.

Зависимость между удельным потреблением услуг и среднедушевым доходом. Предполагаемый вид модели:

.

Тогда коэффициент - склонность к потреблению. Предположим, что - номер социально-экономической страты, типа потребительского потребления. Будем считать, что их всего 3 вида. Кроме того, возможна еще одна переменная, например, если имеем в виду потребление прохладительных напитков, - сезонность (четыре значения), поэтому модель может иметь следующий вид:

.

Данные регрессионно-неоднородные. Допустим, имеется 12 домашних хозяйств по 4 из каждой страты. Проводятся наблюдения в течение 12 месяцев, таким образом, необходимо рассмотреть двенадцать моделей и разбить данные на регрессионно-однородные. В этом случае отпадает необходимость в фиктивных переменных. Но тогда снижается точность оценивания в силу низкого соотношения числа наблюдений и числа оцениваемых параметров.

Второй случай. Пусть имеется модель с переменной структурой. Возможны две постановки.

  1. значения - наблюдаются;

  2. значения - не наблюдаются.

В первом случае один из приемов – введение фиктивных переменных. Если изменения сопутствующих переменных приводит к изменению только части оцениваемых коэффициентов регрессии, то целесообразно использовать фиктивные переменные. В противном случае единственно возможный вариант – разбивать данные на регрессионно-однородные. В рассматриваемом примере, тип потребительского поведения влияет только на коэффициент , а сезонность на коэффициент .

Для каждой сопутствующей переменной вводится соответствующее количество фиктивных (на единицу меньше, чем количество значений).

Аналогично по сезонности вводим три переменных:

Такая модель имеет вид:

.

Теперь матрица X имеет размерность 144*7. На каждый коэффициент имеется 18 наблюдений. Т.е. есть явное улучшение по сравнению с изучением каждой страты и каждого сезона отдельно, так как в этом случае будет только 4 наблюдения на коэффициент. После оценивания коэффициентов, можно выписать 12 типов моделей, например:

«зима – 1 страта» - ;

«зима – 2 страта» - .

Иногда в моделях используется также взаимодействие сопутствующих факторов.

Второй случай. Если при наблюдении не были учтены сопутствующие данные. Так в качестве примера можно рассмотреть исследование о зависимости миграции между городами от уровня образования.

Получены следующие данные зависимости. При этом, как выяснилось позже, в облако 1 попали преимущественно люди с техническим и математическим образованием, а в облако 2 в основном гуманитарии. Т.е. при формировании выборки был упущен сопутствующий фактор – тип образования. При этом бывает полезно использовать методы классификации. Например, кластерный анализ в обобщенном пространстве. А далее строить свою линию регрессии в каждом кластере.