- •Введение
- •Основные этапы эконометрического исследования:
- •Основные типы моделей:
- •Тема 1. Основные понятия теории вероятностей
- •1.1. Вероятностный эксперимент, событие, вероятность.
- •1.2. Случайные величины
- •1.3. Числовые характеристики св
- •Свойства математического ожидания:
- •Свойства дисперсии:
- •1.4. Законы распределений св
- •1. Закон равномерного распределения вероятностей
- •2. Нормальный закон распределения
- •3. Распределение
- •4. Распределение Стьюдента(t – распределение)
- •5. Распределение Фишера (f – распределение)
- •( Число степеней свободы)
- •Тема 2. Базовые понятия статистики.
- •2.1. Выборка и генеральная совокупность
- •2.2. Способы представления и обработки экономических данных
- •2.3. Статистические оценки параметров распределения
- •2.4. Статистическая проверка гипотез
- •Тема 3. Соотношения между экономическими переменными. Линейная связь. Корреляция
- •3.1. Коэффициент линейной корреляции
- •3.2. Оценка значимости (достоверности) коэффициента корреляции
- •Тема 4. Парная линейная регрессия. Метод наименьших квадратов
- •Тема 5. Оценка качества полученного уравнения (верификация)
- •5.1. Оценка общего качества уравнения регрессии
- •5.2. Оценка существенности параметров линейной регрессии и всего уравнения в целом
- •5.2.1. Анализ статистической значимости коэффициентов линейной регрессии
- •5.2.2. Анализ статистической значимости уравнения в целом. Распределение Фишера в регрессионном анализе
- •5.3. Проверка предпосылок, лежащих в основе мнк
- •5.3.1. Проверка первой предпосылки мнк
- •5.3.2. Проверка второй предпосылки мнк
- •5.3.3. Автокорреляция ошибок. Статистика Дарбина-Уотсона
- •Методы устранения автокорреляции. Авторегрессионное преобразование
- •5.3.4. Проверка гомоскедастичности дисперсии ошибок
- •Обобщенный метод наименьших квадратов (омнк)
- •Тема 6. Множественная корреляция и линейная регрессия
- •6.1. Спецификация модели. Отбор факторов при построении уравнения множественной регрессии
- •6.2. Метод наименьших квадратов (мнк)
- •6.3. Анализ качества эмпирического уравнения множественной линейной регрессии
- •Тема 7. Прогнозирование
- •7.1. Оценка прогнозных качеств модели
- •7.2. Интервалы прогноза по линейному уравнению регрессии
- •Тема 8. Нелинейные модели регрессии. Простейшие методы линеаризации
- •Тема 9. Фиктивные переменные в регрессионных моделях
- •Тема 10. Системы эконометрических уравнений
- •10.1. Общее понятие о системах уравнений, используемых в эконометрике
- •10.2. Структурная и приведенная формы модели
- •10.3. Проблема идентификации
- •Косвенный метод наименьших квадратов (кмнк);
- •Двухшаговый метод наименьших квадратов (дмнк);
- •Тема 11. Временные ряды в эконометрических исследованиях в.1. Выявление структуры временного ряда
Тема 9. Фиктивные переменные в регрессионных моделях
В регрессионных моделях наряду с количественными переменными часто используются качественные переменные, такие как профессия, пол, образование, климатические условия и т.п.
Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные должны быть преобразованы в количественные.
Такого рода переменные в эконометрике называются фиктивными (структурными, или искусственными) переменными, а также индикатором.
Фиктивные переменные отражают два противоположных состояния качественного фактора: фактор действует – фактор не действует. (Например, сезон летний – сезон зимний, пол мужской – женский, есть высшее образование – нет высшего образования).
В этом случае фиктивные переменные выражаются в двоичной форме:
. (Например, z=0, если потребитель не имеет высшего образования, z=1, если потребитель имеет высшее образование).
Таким образом, кроме моделей, содержащих только количественные переменные , в регрессионном анализе рассматриваются также модели, содержащие лишь качественные переменные (обозначаемыеzi), либо те и другие одновременно.
1. Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA – моделями (моделями дисперсионного анализа).
Например, зависимость начальной заработной платы от образования может быть записана так: ,
где z=0, если претендент на рабочее место не имеет высшего образования, z=1, если имеет. Тогда при отсутствии высшего образования начальная заработная плата равна:
а при его наличии:
При этом параметр а определяет среднюю начальную заработную плату при отсутствии высшего образования. Коэффициент g показывает, на какую величину отличаются средние начальные заработные платы при наличии и при отсутствии высшего образования у претендента. Проверяя статистическую значимость коэффициента g с помощью t – статистики (или значение с помощьюF- статистики), можно определить, влияет или нет наличие высшего образования на начальную заработную плату.
ANOVA – модели представляют собой кусочно–постоянные функции. Такие модели в экономике встречаются редко.
2. Гораздо чаще встречаются модели, содержащие как количественные, так и качественные переменные. Такие модели называются ANCOVA – моделями (моделями ковариационного анализа).
Рассмотрим ANCOVA – модель при наличии у фиктивной переменной двух альтернатив.
Простейшая модель с одной количественной и одной качественной переменными имеет вид:
Где у – заработная плата сотрудника фирмы, х – стаж работы, z – пол сотрудника,
Тогда для женщин ожидаемое значение заработной платы при х годах трудового стажа будет:
а для мужчин –
Эти зависимости являются линейными относительно стажа работы х и различаются только величиной свободного члена. Если коэффициент g является статистически значимым, то можно сделать вывод, что в фирме имеет место дискриминация в заработной плате по половому признаку. При g>0 она будет в пользу мужчин, при g<0 – в пользу женщин. На графике такие зависимости изображаются параллельными прямыми.
Нулевой уровень (z = 0) качественной переменной называется базовым или сравнительным.
Коэффициент g в модели называется дифференциальным коэффициентом свободного члена, т.к. он показывает, на сколько отличается свободный член в модели при значении z = 1 от свободного члена при базовом значении фиктивной переменной.
Кроме того, значения фиктивных переменных можно изменять на противоположные. Суть модели от этого не изменится. Изменится только знак коэффициента g в модели.
3. С помощью большего числа фиктивных переменных можно обрисовать более сложные ситуации.
В этом случае может возникнуть ситуация, которая называется ловушкой фиктивной переменной. Она возникает, когда для моделирования k значений качественного признака используется ровно k бинарных (фиктивных) переменных. В этом случае одна из таких переменных линейно выражается через все остальные, и матрица значений переменных становится вырожденной. Тогда исследователь попадает в ситуацию совершенной мультиколлинеарности. Избежать подобной ловушки позволяет правило:
Если качественная переменная имеет k альтернативных значений, то при моделировании используется только (k-1) фиктивных переменных.
Например, если качественная переменная имеет 3 уровня, то для моделирования достаточно двух фиктивных переменных z1 и z2. Тогда для обозначения третьего уровня достаточно принять, например, обе переменные равными нулю: z1=z2=0. В частности, для обозначения уровня экономического развития страны (развитая, развивающаяся или страна «третьего мира») можно использовать обозначения:
Тогда z1=z2=0 означает страну «третьего мира».
Рассмотрим модель с двумя объясняющими переменными, одна из которых количественная, а другая – фиктивная, причем имеющая 3 альтернативы. Например, расходы на содержание ребёнка могут быть связаны с доходами домохозяйств и возрастом ребёнка: дошкольный, младший школьный и старший школьный.
Т.к. качественная переменная связана с 3 альтернативами, то по общему правилу моделирования необходимо использовать 2 фиктивные переменные:
, где у – расходы на содержание ребёнка, х – доходы домохозяйств,
, .
Тогда образуются частные уравнения регрессии для отдельного возраста:
- расходы на дошкольника: ;
- расходы на младшего школьника: ;
- расходы на старшего школьника: .
Базовым значением качественной переменной является значение «дошкольник», - дифференциальные свободные члены. Т.о. получаем три параллельные регрессионные прямые:
П
a+g1+g2
4. В отдельных случаях может оказаться необходимым введение двух и более фиктивных переменных.
Для простоты рассмотрим регрессию с одной количественной и двумя качественными переменными. Пусть у – заработная плата сотрудников, х – стаж работы, z1 – наличие высшего образования, z2 – пол сотрудника.
, .
Т.о. модель имеет вид: .
Из неё получаем следующие зависимости:
- зарплата женщины без высшего образования: ;
- зарплата женщины с высшим образованием: ;
- зарплата мужчины без высшего образования: ;
- зарплата мужчины с высшим образованием: .
Очевидно, что все отдельные регрессии отличаются друг от друга только свободным членом. Определение статистической значимости коэффициентов показывает, влияют ли образование и пол сотрудника на его зарплату.
5. Фиктивные переменные широко используются и для оценки сезонных различий в потреблении. Например, спрос на туристические путёвки, охлаждённую воду, мороженное существенно выше летом, чем зимой. Спрос на обогреватели, шубы – наоборот.
Обычно сезонные колебания характерны для временных рядов. Устранение и нейтрализация сезонного фактора позволяет сконцентрироваться на других важных количественных и качественных характеристиках модели (тренде).
Устранение сезонного фактора называется сезонной корректировкой. Существует несколько методов сезонной корректировки, одним из которых является метод фиктивных переменных.
Пусть у зависит от количественной переменной х, причём зависимость отличается по кварталам, тогда общую модель можно представить в виде:
,
где ,,.I квартал – база.
6. Иногда (достаточно редко) фиктивные переменные могут быть использованы для объяснения поведения зависимой переменной (т.е. зависимая переменная является фиктивной).
Например, исследуется зависимость наличия автомобиля от дохода, пола субъекта и т.п. Тогда .
Такие модели являются вероятностными (линейными) моделями:
.
Зависимая переменная у принимает значение 0 с вероятностью р и 1 с вероятностью (1–р).
Для оценки параметров линейно-вероятностной модели применяются методы Logit -, Probit-, Tobit- анализа.
7. Фиктивные переменные могут вводиться не только в линейные, но и в нелинейные модели, приводимые путём преобразования к линейному виду.
Например, .
Логарифмируем, .
Наибольшими прогностическими возможностями обладают модели, зависящие от нескольких количественных факторов и от нескольких фиктивных.
Влияние качественного фактора может сказываться не только на значении свободного члена, но и на угловом коэффициенте линейной регрессионной модели. Обычно это характерно для временных рядов экономических данных при изменении институциональных условий, введении новых правовых или налоговых ограничений. Тогда зависимость может быть выражена так: ,
где
В этой ситуации ожидаемое значение зависимой переменной определяется следующим образом:
Коэффициенты g1 и g2 называются соответственно дифференциальным свободным членом и дифференциальным угловым коэффициентом. Фиктивная переменная разбивает зависимость на две части – до и после внесения изменений в условия её действия.
х
Общая зависимость имеет вид кусочно – линейной функции, а изменения условий отображаются изменением угла наклона прямой к оси абсцисс (линии 1 – 2).
Здесь исследователь должен принять решение, стоит ли разбивать выборку на части и строить для каждой из них уравнение регрессии (прямые 1 и 2) или ограничиться одной общей линией регрессии (линия 3). Для этого используют тест Чоу, который опирается на F–статистику , (см. тема «Статистика Фишера в регрессионном анализе»).
Если гипотеза о структурной стабильности выборки отклоняется, то исследуется вопрос о причинах структурных различий в подвыборках. Пусть данные в подвыборках описываются двумя уравнениями регрессии:
Тогда возможны следующие варианты:
1. Различие между а1 и а2 является статистически значимым, а коэффициенты b1 и b2 статистически не различаются. При этом наблюдается скачкообразное изменение зависимости при сохранении наклона линии регрессии. |
2. Различие между b1 и b2 статистически значимо, а различие между а1 и а2 статистически незначимо.
|
3. Статистически значимыми являются и различия междуа1 и а2, и различия между b1 и b2. |
Для тестирования всех этих ситуаций применяется следующая методика, предложенная Гуйарати. Она основана на включении в модель регрессии фиктивной переменной z, которая равна 1 для всех x<x* и равна 0 для всех x>x*. Далее определяются параметры следующего уравнения регрессии: .
Отсюда видно, что а1=(а+b); b1=(c+d) (z=1),
a2=a; b2=b; (z=0).
Следовательно, параметр b есть разница между a1 и а2, параметр d – разница между b1 и b2. Если в уравнении b является статистически значимым, а d – нет, то имеем первый вариант структурной перестройки. Если, наоборот, статистически значимым является d, а b – незначим, имеем второй вариант структурных изменений. Наконец, третий вариант имеем в случае, если оба коэффициента b и d являются статистически значимыми.
В заключение следует отметить, что преимущество метода Гуйарати перед тестом Чоу состоит в том, что нужно построить только одно, а не три уравнения регрессии.