![](/user_photo/1409_eZHEC.jpg)
- •Кафедра математической экономики
- •Методические указания
- •ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ
- •ОПИСАНИЕ ИСХОДНОГО НАБОРА ДАННЫХ
- •Минимальные требования
- •Описание данных в примере
- •ПРЕДВАРИТЕЛЬНЫЕ ГИПОТЕЗЫ
- •ДОМАШНЯЯ РАБОТА «ПОСТРОЕНИЕ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ»
- •Разведочный анализ данных
- •Теоретические основания
- •Анализ диаграмм рассеяния
- •Анализ значимости оценок коэффициентов корреляции Пирсона
- •Интерпретация результатов
- •Построение линейной регрессионной модели
- •Числовые характеристики для сравнения линейных регрессионных моделей
- •Нечисловые методы сравнения моделей. Нормальная кривая
- •Нарушение основных предположений регрессионного анализа
- •Анализ наличия мультиколлинеарности
- •Корреляция случайных составляющих. Критерий Дарбина – Уотсона.
- •Гетероскедастичность. Критерий Уайта.
- •Минимальные требования
- •Организация вычислений
- •Модель №1
- •Модель №2
- •Модель №3
- •Модель №4
- •ДОМАШНЯЯ РАБОТА «УСОВЕРШЕНСТВОВАНИЕ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ. ОРГАНИЗАЦИЯ ПРОГНОЗИРОВАНИЯ»
- •Критерий Чоу
- •Вариант на основе критерия Вальда
- •Вариант на основе нормальной гипотезы
- •Минимальные требования
- •Минимальные требования
- •Минимальные требования
- •Критерий Чоу
- •Обнаружение выбросов
- •Построение доверительного интервала для нового значения зависимой переменной
- •Приложение
- •Пример модели с использованием взаимодействия.
- •Пример значимого влияния фиктивной переменной
![](/html/1409/113/html_8xuwFFfcx3.9BUP/htmlconvd-Hpf9_u20x1.jpg)
меньшее значение, а статистика модифицированный R2 – большее. Следовательно, усложнение модели было целесообразно.
Модель №3
Дополним модель остальными интервальными переменными. Приведем результаты расчетов.
Таблица 11 Результаты оценивания модели № 2 без фиктивных переменных
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
C |
-9128.406 |
2621.563 |
-3.482047 |
0.0006 |
WEIGHT |
18.51954 |
2.040387 |
9.076484 |
0.0000 |
YIELD_M |
0.474008 |
0.084655 |
5.599311 |
0.0000 |
FAT |
-662.9292 |
445.0309 |
-1.489625 |
0.1379 |
FAT_M |
998.0067 |
537.1793 |
1.857865 |
0.0647 |
R-squared |
0.478971 |
Mean dependent var |
4627.630 |
|
Adjusted R-squared |
0.468283 |
S.D. dependent var |
1265.533 |
|
S.E. of regression |
922.8137 |
Akaike info criterion |
16.51741 |
|
Sum squared resid |
1.66E+08 |
Schwarz criterion |
16.59987 |
|
Log likelihood |
-1646.741 |
F-statistic |
|
44.81477 |
Durbin-Watson stat |
1.816958 |
Prob(F-statistic) |
0.000000 |
|
|
|
|
|
|
|
|
|
10000 |
|
|
|
|
|
|
|
|
|
8000 |
|
|
|
|
|
|
|
|
|
6000 |
6000 |
|
|
|
|
|
|
|
|
4000 |
4000 |
|
|
|
|
|
|
|
|
2000 |
2000 |
|
|
|
|
|
|
|
|
0 |
0 |
|
|
|
|
|
|
|
|
|
-2000 |
|
|
|
|
|
|
|
|
|
-4000 |
|
|
|
|
|
|
|
|
|
20 |
40 |
60 |
80 |
100 |
120 |
140 |
160 |
180 |
200 |
|
|
Residual |
Actual |
|
Fitted |
|
|||
Рисунок 9. Визуальный анализ качества модели №3. |
Отметим, что данный рисунок мало отличается от Рисунка 5, в частности, расположение выбросов приблизительно одинаковое.
![](/html/1409/113/html_8xuwFFfcx3.9BUP/htmlconvd-Hpf9_u21x1.jpg)
Normal Quantile
4
2
0
-2
-4 -4000 -2000 0 2000 4000 6000
RESID
Рисунок 10. Анализ вида распределения с помощью нормальной кривой в модели №3
Данный рисунок также напоминает Рисунок 6. Существенных изменений характера распределения не наблюдается.
Таблица 12 Анализ наличия гетероскедастичности в модели №3
White Heteroskedasticity Test:
F-statistic |
1.332161 |
Probability |
0.191879 |
Obs*R-squared |
18.31596 |
Probability |
0.192767 |
Используя тот же критерий, что и в моделях №1 и 2 мы можем отметить, что гипотеза об отсутствии гетероскедастичности не отклоняется. С учетом того, что статистика Дарбина – Уотсона близка к 2, мы можем заключить, что значимость оценок, скорее всего, определена верно.
Рассмотрим последствия включения в модель данных о жирности. В полном соответствии с результатами визуального анализа и анализа корреляционных матриц мы видим, что при выполнении гипотезы о нормальности случайной составляющей, трудно определить силу влияния жирность молока на удой (p=0.1379). Отметим только, что знак оценки соответствующего коэффициента отрицательный, т.е., возможно, корова, дающая более жирное молоко, менее производительна.
Выводы о влиянии жирности молока матери, видимо, более определенны (p=.0.0647). Более жирное питание в детстве приводит к большим надоям. Тем не менее, точность оценки коэффициента недостаточна для уверенного включения этого показателя в модель. Кроме того, этот результат противоречит результатам визуального анализа и анализа корреляционных матриц.
Отметим, что значение статистики Шварца несколько увеличилось
Schwarz criterion=16.59987 (16.56828), но, поскольку, в то же время значение статистики Акаики уменьшилось Akaike info criterion=16.51741 (16.51880),
можно пренебречь этим изменением. Значение модифицированного R2
увеличилось Adjusted R-squared=0.468283 (0.462303), но незначительно. Таким образом, качество модели с точки зрения точности подгонки и сложности изменилось не существенно.
В заключение проверим гипотезу об одновременном равенстве нулю коэффициентов при новых переменных с помощью критерия Вальда.
Таблица 13 Проверка гипотезы об одновременном равенстве нулю коэффициентов
при переменных «Жирность» и «Жирность_М».
Null Hypothesis: |
C(4)=0 |
|
|
|
|
C(5)=0 |
|
|
|
F-statistic |
2.107671 |
|
Probability |
0.124281 |
Chi-square |
4.215342 |
|
Probability |
0.121521 |
Видно, что обе статистики не позволяют отвергнуть основную гипотезу на 5% уровне, т.к. Probability > 0.05. Следовательно, данные о жирности молока матери и потомства мы пока не будем включать в модель.
Модель №4
Рассмотрим еще один интересный вариант линейной регрессии. Можно предположить, что «Вес» - неоднозначная характеристика продуктивности коровы. Мы уже знаем, что удои матери – значимая характеристика продуктивности дочернего животного. Две коровы с приблизительно одинаковым весом будут, возможно, обладать различной продуктивностью, в зависимости от условий, в которых они росли. Если в детстве животное получало достаточно питания, т.е. удои матери были высокие, то она будет обладать более высокой продуктивностью, чем корова, набравшая вес во взрослом состоянии. Проверим это предположение. С точки зрения модели оно сводится к тому, что коэффициент линейной регрессии для веса зависит от удоев матери. Например, это может выглядеть так:
yield = c + (a +b * yield _ m) * weight + v = c + a * weight +b * yield _ m * weight + v
. Результаты расчетов показывают следующее. Таблица 14 Результаты оценивания модели № 4
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
C |
-5859.102 |
1122.530 |
-5.219551 |
0.0000 |
WEIGHT |
15.27737 |
2.279990 |
6.700631 |
0.0000 |
WEIGHT*YIELD_M |
0.000754 |
0.000135 |
5.601997 |
0.0000 |
R-squared |
0.471244 |
Mean dependent var |
4627.630 |
|
Adjusted R-squared |
0.465876 |
S.D. dependent var |
1265.533 |
|
S.E. of regression |
924.9002 |
Akaike info criterion |
16.51214 |
|
Sum squared resid |
1.69E+08 |
Schwarz criterion |
16.56161 |
|
Log likelihood |
-1648.214 |
F-statistic |
|
87.78619 |
Durbin-Watson stat |
1.877016 |
Prob(F-statistic) |
0.000000 |
![](/html/1409/113/html_8xuwFFfcx3.9BUP/htmlconvd-Hpf9_u23x1.jpg)
|
|
|
|
|
|
|
|
|
10000 |
|
|
|
|
|
|
|
|
|
8000 |
|
|
|
|
|
|
|
|
|
6000 |
6000 |
|
|
|
|
|
|
|
|
4000 |
4000 |
|
|
|
|
|
|
|
|
2000 |
2000 |
|
|
|
|
|
|
|
|
0 |
0 |
|
|
|
|
|
|
|
|
|
-2000 |
|
|
|
|
|
|
|
|
|
-4000 |
|
|
|
|
|
|
|
|
|
20 |
40 |
60 |
80 |
100 |
120 |
140 |
160 |
180 |
200 |
|
|
Residual |
Actual |
|
Fitted |
|
Рисунок 11. Визуальный анализ качества модели №4
Normal Quantile
4
2
0
-2
-4 -4000 -2000 0 2000 4000 6000
RESID
Рисунок 12. Анализ вида распределения с помощью нормальной кривой в модели №4
Таблица 15 Анализ наличия гетероскедастичности в модели №3
White Heteroskedasticity Test:
F-statistic |
0.121728 |
Probability |
0.987430 |
Obs*R-squared |
0.625500 |
Probability |
0.986806 |
Видно, что качество модели, судя по основным характеристикам, мало изменилось по сравнению с моделью №2, но все оценки значимы. Таким образом, эта модель также имеет право на существование. Фактически образовавшаяся новая переменная WEIGHT*YIELD_M, носит название «взаимодействие».