- •Кафедра математической экономики
- •Методические указания
- •ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ
- •ОПИСАНИЕ ИСХОДНОГО НАБОРА ДАННЫХ
- •Минимальные требования
- •Описание данных в примере
- •ПРЕДВАРИТЕЛЬНЫЕ ГИПОТЕЗЫ
- •ДОМАШНЯЯ РАБОТА «ПОСТРОЕНИЕ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ»
- •Разведочный анализ данных
- •Теоретические основания
- •Анализ диаграмм рассеяния
- •Анализ значимости оценок коэффициентов корреляции Пирсона
- •Интерпретация результатов
- •Построение линейной регрессионной модели
- •Числовые характеристики для сравнения линейных регрессионных моделей
- •Нечисловые методы сравнения моделей. Нормальная кривая
- •Нарушение основных предположений регрессионного анализа
- •Анализ наличия мультиколлинеарности
- •Корреляция случайных составляющих. Критерий Дарбина – Уотсона.
- •Гетероскедастичность. Критерий Уайта.
- •Минимальные требования
- •Организация вычислений
- •Модель №1
- •Модель №2
- •Модель №3
- •Модель №4
- •ДОМАШНЯЯ РАБОТА «УСОВЕРШЕНСТВОВАНИЕ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ. ОРГАНИЗАЦИЯ ПРОГНОЗИРОВАНИЯ»
- •Критерий Чоу
- •Вариант на основе критерия Вальда
- •Вариант на основе нормальной гипотезы
- •Минимальные требования
- •Минимальные требования
- •Минимальные требования
- •Критерий Чоу
- •Обнаружение выбросов
- •Построение доверительного интервала для нового значения зависимой переменной
- •Приложение
- •Пример модели с использованием взаимодействия.
- •Пример значимого влияния фиктивной переменной
Об этой ситуации может свидетельствовать значение статистики Дарбина – Ватсона далекое от 2.
Минимальные требования
Необходимо построить две различные модели линейной регрессии, сравнить их указанными выше способами и проверить выполнение основных предположений регрессионного анализа.
Организация вычислений
Рекомендуется первоначально включать в модель только интервальные (относительные) переменные. Это облегчает использование результатов корреляционного анализа.
Модель №1
Построение регрессионной модели начнем с простейшей одномерной регрессии. В качестве объясняющей переменной выберем «Вес», поскольку его коэффициент корреляции с переменной «Удой» максимален по абсолютной величине относительно других «независимых» переменных. Таким образом, мы первоначально остановились на модели Удой = a0 + a1 * Вес+υ . Для нахождения
МНК – оценки параметров линейной регрессии можно воспользоваться следующей командой EVies: equation a.ls yield c weight. Здесь объект типа “equation” назван ‘a’. Таблица результатов оценивания имеет вид:
Таблица 7 Результаты оценивания модели № 1
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
C |
-8012.378 |
1132.700 |
-7.073696 |
0.0000 |
WEIGHT |
22.53241 |
2.015296 |
11.18070 |
0.0000 |
R-squared |
0.387012 |
Mean dependent var |
4627.630 |
|
Adjusted R-squared |
0.383916 |
S.D. dependent var |
1265.533 |
|
S.E. of regression |
993.3300 |
Akaike info criterion |
16.64995 |
|
Sum squared resid |
1.95E+08 |
Schwarz criterion |
16.68294 |
|
Log likelihood |
-1662.995 |
F-statistic |
|
125.0080 |
Durbin-Watson stat |
1.830490 |
Prob(F-statistic) |
0.000000 |
В подвале Таблицы 7 посчитаны значения R2, adjR2, а так же ‘s’ (S.E. of
regression). В столбцах ‘Coefficient’, ‘Std. Error’, ‘t-Statistic’ представлены значения оценок
параметров модели, t-статистики для проверки гипотез об их значимости. Вычисленные для них р – значения позволяют при выполнении нормальной гипотезы отклонить гипотезу о не значимости и принять альтернативную о том, что все коэффициенты значимы с вероятность ошибки первого рода менее 5%. Подставив оценки для коэффициентов в модель, получим
Удой = −8012.38+ 22.53* Вес+υ
( p<0,05) ( p<0,05)
Общее представление о качестве модели дает следующий график EViews:
|
|
|
|
|
|
|
|
|
10000 |
Примеры |
|
|
|
|
|
|
|
|
|
8000 |
|
|
|
|
|
|
|
|
|
|
6000 |
|
6000 |
|
|
|
|
|
|
|
|
4000 |
|
|
|
|
|
|
|
|
|
|
|
|
4000 |
|
|
|
|
|
|
|
|
2000 |
|
|
|
|
|
|
|
|
|
|
|
|
2000 |
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
-2000 |
|
|
|
|
|
|
|
|
|
|
-4000 |
|
|
|
|
|
|
|
|
|
|
20 |
40 |
60 |
80 |
100 |
120 |
140 |
160 |
180 |
200 |
|
|
|
Residual |
Actual |
|
Fitted |
|
|
Рисунок 5. Визуальный анализ качества модели №1.
Поскольку подогнанные значения (Fitted) расположены достаточно близко к истинным (Actual), можно предположить, что модель в целом соответствует данным. Тем не менее, видно, что есть ряд измерений, которые плохо описываются нашей моделью (резко выделяющиеся значения, выбросы).
Дадим краткую экономическую интерпретацию полученным результатам. Коэффициенты линейной регрессии определяют приращение удоя при положительном изменении значения независимой переменной на одну единицу. Таким образом, на один килограмм привеса коровы удой увеличивается в год в среднем на 22 – 23 литра. Несколько сложнее дать интерпретацию константе.
Прежде всего, необходимо помнить, что наша модель достаточно примитивна и не учитывает громадного числа, возможно критических факторов. Тем не менее, попытаемся проанализировать ситуацию. Отметим, что переменная «Вес», по сути, не является относительной, поскольку для нее не определено значение «0». Не существует коровы с нулевым весом.
Таким образом, эта переменная, скорее всего, имеет некоторое минимальное допустимое с биологической точки зрения положительное значение. Следовательно, константу нельзя связать с ситуацией, когда независимая переменная принимает значение «0». С другой стороны, можно предположить существование взрослых коров с критически низкой, практически нулевой продуктивностью, которой сопутствует определенное «неблагоприятное» значение веса коровы. Можно даже предположить, что это являются причиной низких надоев. Таким образом, константа может определять множество таких «неблагоприятные» ситуаций, в данном случае:
и критический вес равен приблизительно 356 кг. Отметим,
что приведенные соображения в практической ситуации, безусловно, нуждаются в обсуждении со специалистом зоотехником.
Проанализируем апостериорные остаточные разности. Прежде всего, отметим, что статистика Дарбина – Уотсона достаточно близка к 2. Поскольку таблиц для такого, как в нашем случае, числа измерений не существует, то экспертно мы приходим к заключению, что наличие корреляции ближайших по номеру случайных составляющих маловероятно. Построим график нормальной кривой, в EViews он носит название Quantile-Quantile:
Normal Quantile
4
2
0
-2
-4 -4000 -2000 0 2000 4000 6000
RESID
Рисунок 6. Анализ вида распределения с помощью нормальной кривой в модели №1
Отчетливо видна асимметрия вправо, т.е. модель недооценивает истинный удой.
Проанализируем наличие гетероскедастичности. Тест Уайта с учетом взаимодействий (приведена основная часть таблицы) не позволяет отвергнуть гипотезу об ее отсутствии ан 5% уровне, поскольку Probability > 0.05.
Таблица 8 Проверка наличия гетероскедастичности с помощью критерия Уайта в
модели №1.
White Heteroskedasticity Test:
F-statistic |
0.252074 |
Probability |
0.777437 |
Obs*R-squared |
0.510519 |
Probability |
0.774715 |
Таким образом, серьезных оснований для пересмотра значимости оценок параметров линейной регрессии нет.
Модель №2
Добавим в модель переменную Удой_М, которая имеет следующий по величине коэффициент корреляции с зависимой переменной и остановились на модели Удой = a0 + a1 * Вес + a2 *Удой_ М +υ . Для нахождения МНК – оценки
параметров линейной регрессии можно воспользоваться следующей командой
EVies: equation a.ls yield c weight yield_m. Здесь объект типа “equation” назван
‘a’. Таблица результатов оценивания имеет вид: Таблица 9 Результаты оценивания модели № 2
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
C |
-7698.121 |
1059.752 |
-7.264080 |
0.0000 |
WEIGHT |
18.62842 |
2.013703 |
9.250826 |
0.0000 |
YIELD_M |
0.416029 |
0.076128 |
5.464898 |
0.0000 |
R-squared |
0.467707 |
Mean dependent var |
4627.630 |
|
Adjusted R-squared |
0.462303 |
S.D. dependent var |
1265.533 |
|
S.E. of regression |
927.9878 |
Akaike info criterion |
16.51880 |
|
Sum squared resid |
1.70E+08 |
Schwarz criterion |
16.56828 |
|
Log likelihood |
-1648.880 |
F-statistic |
|
86.54859 |
Durbin-Watson stat |
1.884421 |
Prob(F-statistic) |
0.000000 |
Вычисленные р – значения позволяют при выполнении нормальной гипотезы отклонить гипотезу о не значимости и принять альтернативную о том,
что все коэффициенты значимы с вероятность ошибки первого рода менее 5%. Подставив оценки для коэффициентов в модель, получим
Удой = −7698,18+ 18,63 * Вес+ 0,42 *Удой_ М +υ
( p<0,05) ( p<0,05) ( p<0,05)
Общее представление о качестве модели дает следующий график EViews:
|
|
|
|
|
|
|
|
|
10000 |
|
|
|
|
|
|
|
|
|
|
8000 |
|
|
|
|
|
|
|
|
|
|
6000 |
|
6000 |
|
|
|
|
|
|
|
|
4000 |
Пример |
4000 |
|
|
|
|
|
|
|
|
2000 |
|
|
|
|
|
|
|
|
|
|
||
2000 |
|
|
|
|
|
|
|
|
0 |
|
0 |
|
|
|
|
|
|
|
|
|
|
-2000 |
|
|
|
|
|
|
|
|
|
|
-4000 |
|
|
|
|
|
|
|
|
|
|
20 |
40 |
60 |
80 |
100 |
120 |
140 |
160 |
180 |
200 |
|
|
|
Residual |
Actual |
|
Fitted |
|
|
Рисунок 7. Визуальный анализ качества модели №2.
Поскольку подогнанные значения (Fitted) расположены достаточно близко к истинным (Actual), можно предположить, что модель в целом соответствует данным. Тем не менее, видно, что есть ряд измерений, которые плохо описываются нашей моделью (резко выделяющиеся значения, выбросы).
Дадим краткую экономическую интерпретацию полученным результатам. Коэффициенты линейной регрессии определяют приращение удоя при положительном изменении значения независимой переменной на одну единицу. Таким образом, на один килограмм привеса коровы удой увеличивается в год в среднем на 18 – 19 литров. Наследственный фактор оказывает меньшее влияние
– дополнительный литр удоя матери увеличивает удой коровы на 0.4 – 0.5 литра в год. Тем не менее, не следует забывать, что удой матери оказывает косвенное влияние на удой коровы через положительное влияние на ее вес, как это следует из результатов корреляционного анализа. Несколько сложнее дать интерпретацию константе. Прежде всего, необходимо помнить, что наша
модель достаточно примитивна и не учитывает громадного числа других, возможно критических факторов. Тем не менее, попытаемся проанализировать ситуацию. Отметим, что переменная «Вес», по сути, не является относительной, поскольку для нее не определено значение «0». Не существует коровы с нулевым весом. В то же время «Удой_М» теоретически может принимать значение «0». В этом случае соответствующий теленок находился на искусственном вскармливании, но трудно представить себе подобную ситуацию в племенном стаде. Таким образом, обе переменные, скорее всего, имеют некоторые минимальные допустимые с биологической точки зрения положительные значения. Следовательно, константу нельзя связать с ситуацией, когда независимые переменные принимают значение «0».
С другой стороны, можно предположить существование взрослых коров с критически низкой, практически нулевой продуктивностью, которой сопутствуют определенные «неблагоприятные» сочетания веса коровы и удоя ее матери. Можно даже предположить, что они являются причиной низких надоев. Таким образом, константа может определять множество таких «неблагоприятные» сочетаний, в данном случае:
7698,18 = 18,63 * Вес+ 0,42 *Удой_ М . Отметим, что приведенные
( p<0,05) |
( p<0,05) |
( p<0,05) |
соображения в практической ситуации, безусловно, нуждаются в обсуждении со специалистом зоотехником.
Проанализируем апостериорные остаточные разности. Прежде всего, отметим, что статистика Дарбина – Уотсона достаточно близка к 2. Поскольку таблиц для такого, как в нашем случае, числа измерений не существует, то экспертно мы приходим к заключению, что наличие корреляции ближайших по номеру случайных составляющих маловероятно. Построим график нормальной кривой, в EViews он носит название Quantile-Quantile:
Normal Quantile
4
Model #1
2
0
-2
-4 -4000 -2000 0 2000 4000 6000
RESID
Рисунок 8. Анализ вида распределения с помощью нормальной кривой в модели №2
На графике угадывается асимметрия распределения вправо. Таким образом, наша модель недооценивает истинные значения удоя. Проанализируем наличие гетероскедастичности. Тест Уайта с учетом взаимодействий (приведена основная часть таблицы) не позволяет отвергнуть гипотезу об ее отсутствии.
Таблица 10 Проверка наличия гетероскедастичности с помощью критерия Уайта в
модели №2.
White Heteroskedasticity Test:
F-statistic |
0.126456 |
Probability |
0.986290 |
Obs*R-squared |
0.649718 |
Probability |
0.985614 |
Таким образом, серьезных оснований для пересмотра значимости оценок параметров линейной регрессии нет.
Построенная модель превосходит Модель №1 по качеству с точки зрения соотношения точность/простота. Статистики Акаики и Шварца имеют здесь