- •Эконометрика Практическое занятие 7. Дисперсионный анализ. Модели с фиктивными переменными
- •Информация по вариантам
- •Выполнение в Excel
- •1. Однофакторный дисперсионный анализ (anova).
- •2. Регрессия с фиктивными переменными
- •Выполнение в Gretl
- •3. Однофакторный дисперсионный анализ (anova)
- •4. Регрессия с фиктивными переменными
Эконометрика Практическое занятие 7. Дисперсионный анализ. Модели с фиктивными переменными
В файле Эконометрика Практика 7.xls содержатся данные о характеристиках 100 объектов (предприятий, стран, индивидов и т.д.). В столбце A – зависимая переменная (y), в столбце B количественный фактор, в столбце C – качественный фактор, влияние которого на зависимую переменную изучается в работе.
Требуется:
1) Провести однофакторный дисперсионный анализ в Excel. Для этого:
1.1) Структурировать данные надлежащим образом (разбить по столбцам).
1.2) Провести однофакторный дисперсионный анализ. Сделать выводы о влиянии качественного фактора на зависимую переменную.
1.3) Проверить равенство средних для групп, средние которых достаточно близки. Для тех же групп проверить равенство дисперсий.
2) Построить регрессионную модель с фиктивными переменными в Excel. Для этого:
2.1) Создать необходимые фиктивные переменные.
2.2) Оценить уравнение линейной регрессии только с фиктивными переменными. Сделать выводы о значимости модели в целом и отдельных коэффициентов. Если возможно, перестроить модель (объединить фиктивные переменные).
2.3) Включить в модель количественный фактор.
3) Провести однофакторный дисперсионный анализ тех же данных в Gretl. Для этого:
3.1) Провести анализ. Сделать выводы о влиянии качественного фактора на зависимую переменную.
3.2) Проверить равенство средних для групп, средние которых достаточно близки. Для тех же групп проверить равенство дисперсий.
4) Построить регрессионную модель с фиктивными переменными в Gretl. Для этого:
4.1) Создать необходимые фиктивные переменные.
4.2) Оценить уравнение линейной регрессии. Сделать выводы о значимости модели в целом и отдельных коэффициентов.
4.3) Проверить равенство коэффициентов при фиктивных переменных (если они близки).
4.4) Если возможно, заменить несколько фиктивных переменных одной новой и построить более простую модель.
4.5) Включить в модель количественный фактор. Провести тест Чоу на структурную стабильность (Примечание: если в пункте 4.4 фиктивные переменные не объединялись, то тест Чоу должен проводиться дважды: сначала строится модель с количественным фактором и без фиктивных переменных, проводится тест для первой фиктивной переменной; затем стоится модель с количественным фактором и первой фиктивной переменной, проводится тест для второй фиктивной переменной. Окончательно строится итоговая модель с количественным фактором и обеими фиктивными переменными).
Информация по вариантам
Вариант 2. ROS – рентабельность продаж (в процентах), Expenses – расходы на обучение одного сотрудника (тыс.руб./год), Size – размер предприятия (Качественный фактор: 1 – малое, 2 – среднее, 3 – крупное). Проверить, зависит ли рентабельность от размера предприятия (действительно ли мелкие предприятия работают эффективнее крупных?). Использовать фиктивные переменные для малых (1) и средних (2) предприятий.
Выполнение в Excel
1. Однофакторный дисперсионный анализ (anova).
Для наглядности построим график зависимости рентабельности от размера предприятия.
Видим, что рентабельность малых и средних предприятий выше, чем у крцпных.
Графику можно придать более привлекательный вид. Для этого: Правой кнопкой мыши по графику – Изменить тип диаграммы – Ящик с усами:
(Коробчатая диаграмма / «ящик с усами»: нижняя граница коробки – 1-й квартиль, верхняя граница – 3-й квартиль; средняя черта – медиана; верхний ус и нижний ус – max и min).
1.1. Для проведения однофакторного дисперсионного анализа необходимо разбить выборку по столбцам, соответствующим значениям 1, 2 и 3 переменной SIZE (самим столбцам можно дать более понятные названия, чем "1", "2", "3").
1.2. Данные – Анализ данных – Однофакторный дисперсионный анализ.
Проводим анализ:
1) Выбирается уровень значимости α.
2) H0: Ey(1)=Ey(2)=…=Ey(q). H1: равенство нарушается хотя бы раз.
3) Рассчитывается наблюдаемое значение F-статистики.
4) Для Fнабл определяется p-value. Если p-value<α, то нулевая гипотеза H0 отвергается и различии математических ожиданий признака y при разных значениях качественного фактора f (т.е. качественный фактор f оказывает влияние на y).
В данном случае:
Нулевая гипотеза H0 отвергается, качественный фактор ROS оказывает влияние на Size.
Обратим внимание, что средние зарплаты для двух групп (малые и средние предприятия) принимаю довольно близкие значения. Если математические ожидания для двух групп равны, то их можно объединить в одну группу. Сравним средние для этих двух групп.
1.3. Для сравнения групповых средних:
Данные – Анализ данных - Двухвыборочный t-тест с одинаковыми дисперсиями
Проводим тест:
1) Выбирается уровень значимости α.
2) H0: Ey(i) = Ey(j). H1: Ey(i) ≠ Ey(j).
3) Рассчитывается наблюдаемое значение t-статистики.
4) Для рассчитанного значения tнабл определяется p-value. Если p-value < α, нулевая гипотеза H0 отвергается и делается вывод о различии математических ожиданий признака y при двух разных значениях i и j качественного фактора f.
В данном случае:
0,201
Нулевая гипотеза H0 не отвергается. Средние значения рентабельности у малых и средних предприятий можно считать равными
Проверим равенство дисперсий для тех же групп: Данные – Анализ данных – Двухвыборочный F-тест для дисперсии:
ё
Проводим тест:
1) Выбирается уровень значимости α.
2) Нулевая гипотеза H0: Dy(1)=Dy(2).
Альтернативная гипотеза H1: Dy(1)≠Dy(2).
3) Рассчитывается наблюдаемое значение F-статистики.
4) Для рассчитанного Fнабл определяется p-value. Если p-value<α, нулевая гипотеза H0 отклоняется и делается вывод о различии дисперсий в группах.
В данном случае:
1) α=0,05.
2) H0: D(ROS(1))=D(ROS (2)), H1: D(ROS(1))≠D(ROS(2))..
3) Fнабл= 0,137.
4) p-value > α (7,56E-07 < 0,05).
Нулевая гипотеза H0 отвергается. Дисперсии рентабельности средних и малых предприятий нельзя считать одинаковыми.
