Крючкова практика 3 отчет
.docxВыполнение в Gretl.
Импортируем данные из файла Практика 3.xls в Gretl.
ВАЖНО: используется исходный файл безо всяких расчетов. Желательно предварительно удалить лишние листы, оставив только свой вариант.
Поскольку в данном случае анализируются перекрестные данные, интерпретировать данные как временной ряд или панельные данные не нужно.
1.1) Построение корреляционной матрицы: Вид – Корреляционная матрица.
Получаем ту же матрицу, что и ранее (здесь приводится часть матрицы над главной диагональю). Gretl подсказывает, что значимыми (уровень значимости 0,05) следует считать коэффициенты корреляции, превышающие 0,1966. Явно коллинеарными факторами являются только X1 и X2 (коэффициент корреляции превышает 0,9).
Чтобы было легче увидеть близкие к единице по модулю коэффициенты корреляции, можно построить т.н. тепловую карту (heatmap). Для этого в окне корреляционного анализа следует нажать кнопку Heatmap:
1.2) Сделаем выводы о мультиколлинеарности факторов, рассчитав коэффициенты возрастания дисперсии VIF. Для этого строим модель со всеми пятью факторами и константой: Модель – Ordinary Least Squares – Выбираем зависимую переменную и факторы – OK.
Для расчета VIF: Анализ – Мультиколлинеарность.
Большие значения хотя бы для одного фактора (>5 – должно обеспокоить, >10 – необходимо исправить) свидетельствуют о мультиколлинеарности.
В нашем случае можно говорить о коллинеарности факторов Personal и Assets, коэффициенты модели с двумя этими факторами сложно интерпретировать. Закрываем окно модели: необходимо оставить в модели только один из коллинеарных факторов.
2) Рассмотрим модель 1 (включим X2, а X1 включать не будем):
Y = b0 + b2·X2 + b3·X3 + b4·X4 + b5·X5+ ε
(модель 2: Y = b0 + b1·X1 + b3·X3 + b4·X4 + b5·X5+ ε)
Оцениваем коэффициенты этой модели: Модель – Ordinary Least Squares – Выбираем зависимую переменную и факторы – OK.
Уравнение регрессии:
Y = -45,52 + 0,23·X2 + 0,98·X3 - 0,03·X4 + 0,57·X5+ ε.
Коэффициент детерминации 0,727, исправленный коэффициент детерминации 0,716.
Доверительные интервалы для коэффициентов:
Если интересуют доверительные интервалы с другим уровнем надежности: Доверительный уровень (α) – выбирается интересующий уровень надежности.
3) Проверим гипотезы о значимости модели в целом и о значимости отдельных коэффициентов.
Проверка значимости регрессии в целом.
Нулевая гипотеза H0 отвергается, регрессия в целом значима.
Проверка значимости отдельных коэффициентов.
4) Для рассчитанного tнабл определяется p-value. Если p-value<α, нулевая гипотеза H0 отвергается, делается вывод о значимости коэффициента. В нашем случае:
Регрессор |
Коэффициент |
Вывод |
Константа |
b0 |
Значим |
X2 |
b2 |
Значим |
X3 |
b3 |
Значим |
X4 |
b4 |
Нет |
X5 |
b5 |
Нет |
Коэффициент b4 модели статистически не значим, поэтому фактор X4 может быть удален из модели. То же самое можно сказать про фактор X5.
4) Удаление незначимых факторов.
4.1) В Gretl легко провести тест на линейные ограничения. Проверим совместное равенство нулю коэффициентов при X4 и X5. Для этого: Тесты – Линейные ограничения – Вводятся линейные ограничения – OK.
Проверка линейных ограничений осуществляется по схеме:
Нулевая гипотеза H0 не отвергается. Можно считать, что одновременно b4=0 и b5=0.
4.2) Ту же гипотезу можно проверить с помощью теста на избыточные переменные. Для этого в окне модели со всеми факторами: Тесты – Избыточные переменные – Указываем переменные, которые мы предполагаем избыточными – Выбираем метод (Оценка сокращенной модели совпадает с проведенным ранее тестом на линейные ограничения)
Нулевая гипотеза H0 не отвергается. Можно считать, что переменные sunshine и number избыточные (т.е. одновременно b4=0 и b5=0).
4.3) Исключим факторы X4 и X5 из модели. Построим модель 3:
Построенная модель статистически значима. Все коэффициенты статистически значимы, т.е. в модели нет лишних факторов. Уравнение регрессии:
Y = -46,48 + 0,23·X2 + 0,92·X3 + ε.
4.4) Можно было поступить иначе и сразу построить сокращенную модель, а затем провести тест на пропущенные переменные. Для этого: Тесты – Пропущенные переменные – Указываем переменные, которые мы предполагаем пропущенными – Выбираем метод (Оценка расширенной модели совпадает с проведенным ранее тестом на линейные ограничения)
Нулевая гипотеза H0 не отвергается. Можно считать, что переменные sunshine и number не являются пропущенными (т.е. одновременно b4=0 и b5=0).
Аналогично строятся модель 2 (с X1, X3, X4 и X5) и модель 4 (с X1 и X3).
5) Итак, построены 4 приемлемые модели:
Модель 1: Y = b0 + b2·X2 + b3·X3 + b4·X4 + b5·X5 + ε.
Модель 2: Y = b0 + b1·X1 + b3·X3 + b4·X4 + b5·X5 + ε.
Модель 3: Y = b0 + b2·X2 + b3·X3 + ε.
Модель 4: Y = b0 + b1·X1 + b3·X3 + ε.
Наилучшая модель – модель с наименьшим значением информационного критерия (часто выводы, получаемые с помощью AIC, BIC, HQC совпадают, но возможны и расхождения).
В нашем случае модель 3 характеризуется наименьшими значениями всех трех информационных критериев: Акаике (AIC), Шварца (BIC) и Хеннана-Куинна (HQC), поэтому ее и следует предпочесть всем остальным. Закрываем все окна.
6) Построим прогноз для Y при значениях факторов X2=500 и X3=50 (значения остальных факторов не имеют значения, т.к. наилучшей признана модель с const, X2 и X3).
Добавляем эти значения: щелкнуть правой кнопкой мыши на названии переменной – Изменить значения – Добавить – Добавить наблюдение – Выбираем 1 новое наблюдение – Пишем в поле 101-го наблюдения значение переменной – Enter – Применить (Ctrl+S)
Для других переменных повторно добавлять наблюдение не нужно, просто записываем значение в уже существующее поле 101-го наблюдения.
Строим уже знакомую модель с X2 и X3. Для получения прогноза: Анализ – Прогнозирование – Задаем горизонт планирования и уровень надежности доверительного интервала – ОК.
Итак, прогнозное значение показателя Y: 115,996,
95%-ный доверительный интервал: (95,593, 136,399).
