Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эконометрика, все лекции.doc
Скачиваний:
857
Добавлен:
01.06.2015
Размер:
3.64 Mб
Скачать

Тема 9. Фиктивные переменные в регрессионных моделях

В регрессионных моделях наряду с количественными переменными часто используются качественные переменные, такие как профессия, пол, образование, климатические условия и т.п.

Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные должны быть преобразованы в количественные.

Такого рода переменные в эконометрике называются фиктивными (структурными, или искусственными) переменными, а также индикатором.

Фиктивные переменные отражают два противоположных состояния качественного фактора: фактор действует – фактор не действует. (Например, сезон летний – сезон зимний, пол мужской – женский, есть высшее образование – нет высшего образования).

В этом случае фиктивные переменные выражаются в двоичной форме:

. (Например, z=0, если потребитель не имеет высшего образования, z=1, если потребитель имеет высшее образование).

Таким образом, кроме моделей, содержащих только количественные переменные , в регрессионном анализе рассматриваются также модели, содержащие лишь качественные переменные (обозначаемыеzi), либо те и другие одновременно.

1. Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA – моделями (моделями дисперсионного анализа).

Например, зависимость начальной заработной платы от образования может быть записана так: ,

где z=0, если претендент на рабочее место не имеет высшего образования, z=1, если имеет. Тогда при отсутствии высшего образования начальная заработная плата равна:

а при его наличии:

При этом параметр а определяет среднюю начальную заработную плату при отсутствии высшего образования. Коэффициент g показывает, на какую величину отличаются средние начальные заработные платы при наличии и при отсутствии высшего образования у претендента. Проверяя статистическую значимость коэффициента g с помощью t – статистики (или значение с помощьюF- статистики), можно определить, влияет или нет наличие высшего образования на начальную заработную плату.

ANOVA – модели представляют собой кусочно–постоянные функции. Такие модели в экономике встречаются редко.

2. Гораздо чаще встречаются модели, содержащие как количественные, так и качественные переменные. Такие модели называются ANCOVA – моделями (моделями ковариационного анализа).

Рассмотрим ANCOVA – модель при наличии у фиктивной переменной двух альтернатив.

Простейшая модель с одной количественной и одной качественной переменными имеет вид:

Где у – заработная плата сотрудника фирмы, х – стаж работы, z – пол сотрудника,

Тогда для женщин ожидаемое значение заработной платы при х годах трудового стажа будет:

а для мужчин –

Эти зависимости являются линейными относительно стажа работы х и различаются только величиной свободного члена. Если коэффициент g является статистически значимым, то можно сделать вывод, что в фирме имеет место дискриминация в заработной плате по половому признаку. При g>0 она будет в пользу мужчин, при g<0 – в пользу женщин. На графике такие зависимости изображаются параллельными прямыми.

Нулевой уровень (z = 0) качественной переменной называется базовым или сравнительным.

Коэффициент g в модели называется дифференциальным коэффициентом свободного члена, т.к. он показывает, на сколько отличается свободный член в модели при значении z = 1 от свободного члена при базовом значении фиктивной переменной.

Кроме того, значения фиктивных переменных можно изменять на противоположные. Суть модели от этого не изменится. Изменится только знак коэффициента g в модели.

3. С помощью большего числа фиктивных переменных можно обрисовать более сложные ситуации.

В этом случае может возникнуть ситуация, которая называется ловушкой фиктивной переменной. Она возникает, когда для моделирования k значений качественного признака используется ровно k бинарных (фиктивных) переменных. В этом случае одна из таких переменных линейно выражается через все остальные, и матрица значений переменных становится вырожденной. Тогда исследователь попадает в ситуацию совершенной мультиколлинеарности. Избежать подобной ловушки позволяет правило:

Если качественная переменная имеет k альтернативных значений, то при моделировании используется только (k-1) фиктивных переменных.

Например, если качественная переменная имеет 3 уровня, то для моделирования достаточно двух фиктивных переменных z1 и z2. Тогда для обозначения третьего уровня достаточно принять, например, обе переменные равными нулю: z1=z2=0. В частности, для обозначения уровня экономического развития страны (развитая, развивающаяся или страна «третьего мира») можно использовать обозначения:

Тогда z1=z2=0 означает страну «третьего мира».

Рассмотрим модель с двумя объясняющими переменными, одна из которых количественная, а другая – фиктивная, причем имеющая 3 альтернативы. Например, расходы на содержание ребёнка могут быть связаны с доходами домохозяйств и возрастом ребёнка: дошкольный, младший школьный и старший школьный.

Т.к. качественная переменная связана с 3 альтернативами, то по общему правилу моделирования необходимо использовать 2 фиктивные переменные:

, где у – расходы на содержание ребёнка, х – доходы домохозяйств,

, .

Тогда образуются частные уравнения регрессии для отдельного возраста:

- расходы на дошкольника: ;

- расходы на младшего школьника: ;

- расходы на старшего школьника: .

Базовым значением качественной переменной является значение «дошкольник», - дифференциальные свободные члены. Т.о. получаем три параллельные регрессионные прямые:

П

a+g1+g2

осле вычисления коэффициентов регрессий определяется статистическая значимостьна основе обычныхt – статистик. Если они оказываются статистически незначимыми, то можно сделать вывод, что возраст ребёнка не оказывает существенного влияния на расходы по его содержанию.

4. В отдельных случаях может оказаться необходимым введение двух и более фиктивных переменных.

Для простоты рассмотрим регрессию с одной количественной и двумя качественными переменными. Пусть у – заработная плата сотрудников, х – стаж работы, z1 – наличие высшего образования, z2 – пол сотрудника.

, .

Т.о. модель имеет вид: .

Из неё получаем следующие зависимости:

- зарплата женщины без высшего образования: ;

- зарплата женщины с высшим образованием: ;

- зарплата мужчины без высшего образования: ;

- зарплата мужчины с высшим образованием: .

Очевидно, что все отдельные регрессии отличаются друг от друга только свободным членом. Определение статистической значимости коэффициентов показывает, влияют ли образование и пол сотрудника на его зарплату.

5. Фиктивные переменные широко используются и для оценки сезонных различий в потреблении. Например, спрос на туристические путёвки, охлаждённую воду, мороженное существенно выше летом, чем зимой. Спрос на обогреватели, шубы – наоборот.

Обычно сезонные колебания характерны для временных рядов. Устранение и нейтрализация сезонного фактора позволяет сконцентрироваться на других важных количественных и качественных характеристиках модели (тренде).

Устранение сезонного фактора называется сезонной корректировкой. Существует несколько методов сезонной корректировки, одним из которых является метод фиктивных переменных.

Пусть у зависит от количественной переменной х, причём зависимость отличается по кварталам, тогда общую модель можно представить в виде:

,

где ,,.I квартал – база.

6. Иногда (достаточно редко) фиктивные переменные могут быть использованы для объяснения поведения зависимой переменной (т.е. зависимая переменная является фиктивной).

Например, исследуется зависимость наличия автомобиля от дохода, пола субъекта и т.п. Тогда .

Такие модели являются вероятностными (линейными) моделями:

.

Зависимая переменная у принимает значение 0 с вероятностью р и 1 с вероятностью (1–р).

Для оценки параметров линейно-вероятностной модели применяются методы Logit -, Probit-, Tobit- анализа.

7. Фиктивные переменные могут вводиться не только в линейные, но и в нелинейные модели, приводимые путём преобразования к линейному виду.

Например, .

Логарифмируем, .

Наибольшими прогностическими возможностями обладают модели, зависящие от нескольких количественных факторов и от нескольких фиктивных.

Влияние качественного фактора может сказываться не только на значении свободного члена, но и на угловом коэффициенте линейной регрессионной модели. Обычно это характерно для временных рядов экономических данных при изменении институциональных условий, введении новых правовых или налоговых ограничений. Тогда зависимость может быть выражена так: ,

где

В этой ситуации ожидаемое значение зависимой переменной определяется следующим образом:

Коэффициенты g1 и g2 называются соответственно дифференциальным свободным членом и дифференциальным угловым коэффициентом. Фиктивная переменная разбивает зависимость на две части – до и после внесения изменений в условия её действия.

х

Общая зависимость имеет вид кусочно – линейной функции, а изменения условий отображаются изменением угла наклона прямой к оси абсцисс (линии 1 – 2).

Здесь исследователь должен принять решение, стоит ли разбивать выборку на части и строить для каждой из них уравнение регрессии (прямые 1 и 2) или ограничиться одной общей линией регрессии (линия 3). Для этого используют тест Чоу, который опирается на F–статистику , (см. тема «Статистика Фишера в регрессионном анализе»).

Если гипотеза о структурной стабильности выборки отклоняется, то исследуется вопрос о причинах структурных различий в подвыборках. Пусть данные в подвыборках описываются двумя уравнениями регрессии:

Тогда возможны следующие варианты:

1. Различие между а1 и а2 является статистически значимым, а коэффициенты b1 и b2 статистически не различаются. При этом наблюдается скачкообразное изменение зависимости при сохранении наклона линии регрессии.

2. Различие между b1 и b2 статистически значимо, а различие между а1 и а2 статистически незначимо.

3. Статистически значимыми являются и различия междуа1 и а2, и различия между b1 и b2.

Для тестирования всех этих ситуаций применяется следующая методика, предложенная Гуйарати. Она основана на включении в модель регрессии фиктивной переменной z, которая равна 1 для всех x<x* и равна 0 для всех x>x*. Далее определяются параметры следующего уравнения регрессии: .

Отсюда видно, что а1=(а+b); b1=(c+d) (z=1),

a2=a; b2=b; (z=0).

Следовательно, параметр b есть разница между a1 и а2, параметр d – разница между b1 и b2. Если в уравнении b является статистически значимым, а d – нет, то имеем первый вариант структурной перестройки. Если, наоборот, статистически значимым является d, а b – незначим, имеем второй вариант структурных изменений. Наконец, третий вариант имеем в случае, если оба коэффициента b и d являются статистически значимыми.

В заключение следует отметить, что преимущество метода Гуйарати перед тестом Чоу состоит в том, что нужно построить только одно, а не три уравнения регрессии.