- •Введение
- •Основные этапы эконометрического исследования:
- •Основные типы моделей:
- •Тема 1. Основные понятия теории вероятностей
- •1.1. Вероятностный эксперимент, событие, вероятность.
- •1.2. Случайные величины
- •1.3. Числовые характеристики св
- •Свойства математического ожидания:
- •Свойства дисперсии:
- •1.4. Законы распределений св
- •1. Закон равномерного распределения вероятностей
- •2. Нормальный закон распределения
- •3. Распределение
- •4. Распределение Стьюдента(t – распределение)
- •5. Распределение Фишера (f – распределение)
- •( Число степеней свободы)
- •Тема 2. Базовые понятия статистики.
- •2.1. Выборка и генеральная совокупность
- •2.2. Способы представления и обработки экономических данных
- •2.3. Статистические оценки параметров распределения
- •2.4. Статистическая проверка гипотез
- •Тема 3. Соотношения между экономическими переменными. Линейная связь. Корреляция
- •3.1. Коэффициент линейной корреляции
- •3.2. Оценка значимости (достоверности) коэффициента корреляции
- •Тема 4. Парная линейная регрессия. Метод наименьших квадратов
- •Тема 5. Оценка качества полученного уравнения (верификация)
- •5.1. Оценка общего качества уравнения регрессии
- •5.2. Оценка существенности параметров линейной регрессии и всего уравнения в целом
- •5.2.1. Анализ статистической значимости коэффициентов линейной регрессии
- •5.2.2. Анализ статистической значимости уравнения в целом. Распределение Фишера в регрессионном анализе
- •5.3. Проверка предпосылок, лежащих в основе мнк
- •5.3.1. Проверка первой предпосылки мнк
- •5.3.2. Проверка второй предпосылки мнк
- •5.3.3. Автокорреляция ошибок. Статистика Дарбина-Уотсона
- •Методы устранения автокорреляции. Авторегрессионное преобразование
- •5.3.4. Проверка гомоскедастичности дисперсии ошибок
- •Обобщенный метод наименьших квадратов (омнк)
- •Тема 6. Множественная корреляция и линейная регрессия
- •6.1. Спецификация модели. Отбор факторов при построении уравнения множественной регрессии
- •6.2. Метод наименьших квадратов (мнк)
- •6.3. Анализ качества эмпирического уравнения множественной линейной регрессии
- •Тема 7. Прогнозирование
- •7.1. Оценка прогнозных качеств модели
- •7.2. Интервалы прогноза по линейному уравнению регрессии
- •Тема 8. Нелинейные модели регрессии. Простейшие методы линеаризации
- •Тема 9. Фиктивные переменные в регрессионных моделях
- •Тема 10. Системы эконометрических уравнений
- •10.1. Общее понятие о системах уравнений, используемых в эконометрике
- •10.2. Структурная и приведенная формы модели
- •10.3. Проблема идентификации
- •Косвенный метод наименьших квадратов (кмнк);
- •Двухшаговый метод наименьших квадратов (дмнк);
- •Тема 11. Временные ряды в эконометрических исследованиях в.1. Выявление структуры временного ряда
Тема 9. Фиктивные переменные в регрессионных моделях
В регрессионных моделях наряду с количественными переменными часто используются качественные переменные, такие как профессия, пол, образование, климатические условия и т.п.
Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные должны быть преобразованы в количественные.
Такого рода переменные в эконометрике называются фиктивными (структурными, или искусственными) переменными, а также индикатором.
Фиктивные переменные отражают два противоположных состояния качественного фактора: фактор действует – фактор не действует. (Например, сезон летний – сезон зимний, пол мужской – женский, есть высшее образование – нет высшего образования).
В этом случае фиктивные переменные выражаются в двоичной форме:
.
(Например, z=0,
если потребитель не имеет высшего
образования, z=1,
если потребитель имеет высшее образование).
Таким образом,
кроме моделей, содержащих только
количественные переменные
,
в регрессионном анализе рассматриваются
также модели, содержащие лишь качественные
переменные (обозначаемыеzi),
либо те и другие одновременно.
1. Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA – моделями (моделями дисперсионного анализа).
Например, зависимость
начальной заработной платы от образования
может быть записана так:
,
где z=0,
если претендент на рабочее место не
имеет высшего образования, z=1,
если имеет. Тогда при отсутствии высшего
образования начальная заработная плата
равна:
![]()
а при его наличии:
![]()
При этом параметр
а
определяет среднюю начальную заработную
плату при отсутствии высшего образования.
Коэффициент g
показывает, на какую величину отличаются
средние начальные заработные платы при
наличии и при отсутствии высшего
образования у претендента. Проверяя
статистическую значимость коэффициента
g
с помощью t
– статистики (или значение
с помощьюF-
статистики), можно определить, влияет
или нет наличие высшего образования на
начальную заработную плату.
ANOVA – модели представляют собой кусочно–постоянные функции. Такие модели в экономике встречаются редко.
2. Гораздо чаще встречаются модели, содержащие как количественные, так и качественные переменные. Такие модели называются ANCOVA – моделями (моделями ковариационного анализа).
Рассмотрим ANCOVA – модель при наличии у фиктивной переменной двух альтернатив.
Простейшая модель с одной количественной и одной качественной переменными имеет вид:
![]()
Где у – заработная плата сотрудника фирмы, х – стаж работы, z – пол сотрудника,
![]()
Тогда для женщин
ожидаемое значение заработной платы
при х
годах трудового стажа будет: ![]()
а для мужчин – ![]()
Эти зависимости являются линейными относительно стажа работы х и различаются только величиной свободного члена. Если коэффициент g является статистически значимым, то можно сделать вывод, что в фирме имеет место дискриминация в заработной плате по половому признаку. При g>0 она будет в пользу мужчин, при g<0 – в пользу женщин. На графике такие зависимости изображаются параллельными прямыми.
Н
улевой
уровень (z
= 0) качественной переменной называется
базовым
или сравнительным.
Коэффициент g в модели называется дифференциальным коэффициентом свободного члена, т.к. он показывает, на сколько отличается свободный член в модели при значении z = 1 от свободного члена при базовом значении фиктивной переменной.
Кроме того, значения фиктивных переменных можно изменять на противоположные. Суть модели от этого не изменится. Изменится только знак коэффициента g в модели.
3. С помощью большего числа фиктивных переменных можно обрисовать более сложные ситуации.
В этом случае может возникнуть ситуация, которая называется ловушкой фиктивной переменной. Она возникает, когда для моделирования k значений качественного признака используется ровно k бинарных (фиктивных) переменных. В этом случае одна из таких переменных линейно выражается через все остальные, и матрица значений переменных становится вырожденной. Тогда исследователь попадает в ситуацию совершенной мультиколлинеарности. Избежать подобной ловушки позволяет правило:
Если качественная переменная имеет k альтернативных значений, то при моделировании используется только (k-1) фиктивных переменных.
Например, если качественная переменная имеет 3 уровня, то для моделирования достаточно двух фиктивных переменных z1 и z2. Тогда для обозначения третьего уровня достаточно принять, например, обе переменные равными нулю: z1=z2=0. В частности, для обозначения уровня экономического развития страны (развитая, развивающаяся или страна «третьего мира») можно использовать обозначения:
![]()
Тогда z1=z2=0 означает страну «третьего мира».
Рассмотрим модель с двумя объясняющими переменными, одна из которых количественная, а другая – фиктивная, причем имеющая 3 альтернативы. Например, расходы на содержание ребёнка могут быть связаны с доходами домохозяйств и возрастом ребёнка: дошкольный, младший школьный и старший школьный.
Т.к. качественная переменная связана с 3 альтернативами, то по общему правилу моделирования необходимо использовать 2 фиктивные переменные:
,
где у
– расходы на содержание ребёнка, х
– доходы домохозяйств,
,
.
Тогда образуются частные уравнения регрессии для отдельного возраста:
- расходы на
дошкольника:
;
- расходы на младшего
школьника:
![]()
;
- расходы на
старшего
школьника:
![]()
.
Базовым значением
качественной переменной является
значение «дошкольник»,
- дифференциальные свободные члены.
Т.о. получаем три параллельные регрессионные
прямые:
П
a+g1+g2
на основе обычныхt
– статистик. Если они
оказываются статистически незначимыми,
то можно сделать вывод, что возраст
ребёнка не оказывает существенного
влияния на расходы по его содержанию.
4. В отдельных случаях может оказаться необходимым введение двух и более фиктивных переменных.
Для простоты рассмотрим регрессию с одной количественной и двумя качественными переменными. Пусть у – заработная плата сотрудников, х – стаж работы, z1 – наличие высшего образования, z2 – пол сотрудника.
,
.
Т.о. модель имеет
вид:
.
Из неё получаем следующие зависимости:
- зарплата женщины
без высшего образования:
;
- зарплата женщины
с высшим образованием:
![]()
;
- зарплата мужчины
без высшего образования:
![]()
;
- зарплата мужчины
с высшим образованием:
![]()
.
Очевидно, что все
отдельные регрессии отличаются друг
от друга только свободным членом.
Определение статистической значимости
коэффициентов
показывает, влияют ли образование и пол
сотрудника на его зарплату.
5. Фиктивные переменные широко используются и для оценки сезонных различий в потреблении. Например, спрос на туристические путёвки, охлаждённую воду, мороженное существенно выше летом, чем зимой. Спрос на обогреватели, шубы – наоборот.
Обычно сезонные колебания характерны для временных рядов. Устранение и нейтрализация сезонного фактора позволяет сконцентрироваться на других важных количественных и качественных характеристиках модели (тренде).
Устранение сезонного фактора называется сезонной корректировкой. Существует несколько методов сезонной корректировки, одним из которых является метод фиктивных переменных.
Пусть у зависит от количественной переменной х, причём зависимость отличается по кварталам, тогда общую модель можно представить в виде:
,
где
,
,
.I
квартал – база.
6. Иногда (достаточно редко) фиктивные переменные могут быть использованы для объяснения поведения зависимой переменной (т.е. зависимая переменная является фиктивной).
Например, исследуется
зависимость наличия автомобиля от
дохода, пола субъекта и т.п. Тогда
.
Такие модели являются вероятностными (линейными) моделями:
.
Зависимая переменная у принимает значение 0 с вероятностью р и 1 с вероятностью (1–р).
Для оценки параметров линейно-вероятностной модели применяются методы Logit -, Probit-, Tobit- анализа.
7. Фиктивные переменные могут вводиться не только в линейные, но и в нелинейные модели, приводимые путём преобразования к линейному виду.
Например,
.
Логарифмируем,
![]()
.
Наибольшими прогностическими возможностями обладают модели, зависящие от нескольких количественных факторов и от нескольких фиктивных.
Влияние качественного
фактора может сказываться не только на
значении свободного члена, но и на
угловом коэффициенте линейной
регрессионной модели. Обычно это
характерно для временных рядов
экономических данных при изменении
институциональных условий, введении
новых правовых или налоговых ограничений.
Тогда зависимость может быть выражена
так:
,
где ![]()
В этой ситуации ожидаемое значение зависимой переменной определяется следующим образом:
![]()
Коэффициенты g1 и g2 называются соответственно дифференциальным свободным членом и дифференциальным угловым коэффициентом. Фиктивная переменная разбивает зависимость на две части – до и после внесения изменений в условия её действия.
х
Общая зависимость имеет вид кусочно – линейной функции, а изменения условий отображаются изменением угла наклона прямой к оси абсцисс (линии 1 – 2).
Здесь исследователь
должен принять решение, стоит ли разбивать
выборку на части и строить для каждой
из них уравнение регрессии (прямые 1 и
2) или ограничиться одной общей линией
регрессии (линия 3). Для этого используют
тест Чоу,
который опирается на F–статистику
,
(см. тема «Статистика Фишера в регрессионном
анализе»).
Если гипотеза о
структурной стабильности выборки
отклоняется, то исследуется вопрос о
причинах структурных различий в
подвыборках. Пусть данные в подвыборках
описываются двумя уравнениями
регрессии: ![]()
Тогда возможны следующие варианты:
|
1.
Различие между а1
и а2
является статистически значимым, а
коэффициенты b1
и b2
статистически не различаются. При
этом наблюдается скачкообразное
изменение зависимости при сохранении
наклона линии регрессии. |
2. Различие между b1 и b2 статистически значимо, а различие между а1 и а2 статистически незначимо.
|
3 |
Для тестирования
всех этих ситуаций применяется следующая
методика, предложенная Гуйарати. Она
основана на включении в модель регрессии
фиктивной переменной z,
которая равна 1 для всех x<x*
и равна 0 для всех x>x*.
Далее определяются параметры следующего
уравнения регрессии:
.
Отсюда видно, что а1=(а+b); b1=(c+d) (z=1),
a2=a; b2=b; (z=0).
Следовательно, параметр b есть разница между a1 и а2, параметр d – разница между b1 и b2. Если в уравнении b является статистически значимым, а d – нет, то имеем первый вариант структурной перестройки. Если, наоборот, статистически значимым является d, а b – незначим, имеем второй вариант структурных изменений. Наконец, третий вариант имеем в случае, если оба коэффициента b и d являются статистически значимыми.
В заключение следует отметить, что преимущество метода Гуйарати перед тестом Чоу состоит в том, что нужно построить только одно, а не три уравнения регрессии.



.
Статистически значимыми являются и
различия междуа1
и а2,
и различия между b1
и b2.