- •О выполнении практического задания
- •Описание исходных данных.
- •Предварительный анализ данных.
- •Построение моделей регрессии на всей выборке
- •Регрессионная модель
- •Тесты на гетероскедастичность
- •Тесты на автокорреляцию остатков
- •Тест на нормальность остатков
- •Тест Рамсея
- •Регрессионная модель
- •Тесты на гетероскедастичность
- •Тесты на автокорреляцию остатков
- •Тест на нормальность остатков
- •Тест Рамсея
- •Регрессионная модель
- •Тесты на гетероскедастичность
- •Тесты на автокорреляцию остатков
- •.Тест на нормальность остатков
- •Тест Рамсея
- •Регрессионная модель
- •Тесты на гетероскедастичность
- •Тесты на автокорреляцию остатков
- •Тест на нормальность остатков
- •Тест Рамсея
- •Построение моделей регрессии на выборке без аномальных
Построение моделей регрессии на выборке без аномальных
Устранение аномальных и значимых наблюдений
В предыдущем пункте были выявлены следующие аномальные наблюдения, попадающие под удаление:
Таблица 3. – Аномальные наблюдения
IOC.BO |
84902674 |
18985793 |
23976793 |
470037 |
57364 |
LIN.DE |
11590685 |
20325419 |
5166502 |
359554 |
1149966 |
ORG.AX |
16490694 |
28905809 |
6177101 |
5009588 |
-212070 |
0857.HK |
283209185 |
226351545 |
74146681 |
23611043 |
9721473 |
Чтобы увидеть, как изменились модели после устранения аномальных наблюдений, построим графики распределения показателей и корреляционную матрицу переменных.
Рис. 62 – График разброса наблюдений после исключения аномальных значений
(IOC.BO, LIN.DE, ORG.AX, 0857.HK)
Таблица 4. – Корреляционная матрица переменных
Как видно из таблицы 4, после удаления аномальных наблюдений нам удалось избавиться от сильной мультиколлинеарности факторов, что препятствовало построению качественного множественного уравнения регрессии.
В данном случае связь между Ya и X3а статистически незначима (|1934| < 0,2907), следовательно, Ya и X3а не связаны, что подтверждает график разброса наблюдений (рис.62). Поэтому не имеет смысла строить соответствующую модель множественной регрессии. Также не включаем в одну модель факторы коэффициент корреляции, между которыми больше 0,8.
Исходя из данных условий, выявились следующие модели множественной регрессии:
1)
;
2)
;
3)
.
4)
.
Результаты оценки параметров моделей
Таблица 5. – Характеристики информационной пригодности и значимость параметров конкурирующих моделей (после удаления аномальных наблюдений).
Модель |
R2, % |
Исправленный R2, % |
F-статистика |
Стандартная ошибка модели |
|
№ п/п |
Запись в явном виде |
||||
1 |
= 2,05e+05 - 0,120*X1a + 3,31*X2a - 1,33*X4a (2,68e+05) (0,124) (0,372) (0,572) |
81,63 |
80,32 |
62,21 |
1417332 |
2 |
= 1,32e+05 - 0,141*X1a + 3,54*X2a (2,80e+05) (0,130) (0,376) |
79,26 |
78,29 |
82,171 |
1488324 |
3 |
= 9,22e+05 + 0,683*X1a - 2,71*X4a (4,29e+05) (0,143) (0,923) |
47,1239 |
44,6646 |
19,1611 |
2376498 |
4 |
= 1,65e+05 + 3,05*X2a - 1,37*X4a (2,65e+05) (0,255) (0,570) |
81,22 |
80,3488 |
92,9968 |
1416219 |
Проверка наличия ошибок спецификации моделей
Таблица 6. – Показатели для выявления ошибок спецификации конкурирующих моделей (после удаления аномальных наблюдений)
Модель |
Коэффициент автокорреляции первого порядка |
Гетероск-ть
|
|||
№ п/п |
Запись в явном виде |
||||
1 |
= 2,05e+05 - 0,120*X1a + 3,31*X2a - 1,33*X4a (2,68e+05) (0,124) (0,372) (0,572) |
нет |
Есть |
||
2 |
= 1,32e+05 - 0,141*X1a + 3,54*X2a (2,80e+05) (0,130) (0,376) |
нет |
Есть
|
||
3 |
= 9,22e+05 + 0,683*X1a - 2,71*X4a (4,29e+05) (0,143) (0,923) |
есть |
Есть |
||
4 |
= 1,65e+05 + 3,05*X2a - 1,37*X4a (2,65e+05) (0,255) (0,570) |
нет |
Есть
|
||
Гетероскедастичность в остатках наблюдается для моделей: 1,2,3,4. Автокорреляция в остатках наблюдается для 3 модели.
Исправление ошибок спецификации
Далее построим модели с учетом гетероскедастичности.
Таблица 7. – Характеристики информационной пригодности и значимость параметров конкурирующих моделей (после удаления аномальных наблюдений, после коррекции гетероскедастичности)
Модель |
R2, % |
Исправленный R2, % |
F-статистика |
Стандартная ошибка модели |
|
№ п/п |
Запись в явном виде |
||||
1 |
= 5,17e+04 - 0,166*X1a + 3,73*X2a - 0,489*X4a (5,74e+04) (0,0418) (0,220) (0,353) |
96,02 |
95,73 |
337,395 |
1,4632 |
2 |
= 9,86e+04 + 0,0279*X1a + 2,73*X2a (7,47e+04) (0,0936) (0,507) |
70,24 |
68,86 |
50,76 |
2,2681 |
3 |
= 7,34e+05 + 0,640*X1a - 2,27*X4a (2,88e+05) (0,163) (1,20) |
49,24 |
46,88 |
20,86 |
2,035 |
4 |
= 2,91e+04 + 3,48*X2a - 0,310*X4a (6,69e+04) (0,275) (0,548) |
96,55 |
96,39 |
602,45 |
1,73237 |
Проверка наличия ошибок спецификации моделей
Таблица 8. – Показатели для выявления ошибок спецификации конкурирующих моделей (после удаления аномальных наблюдений, после удаления гетероскедастичности)
Модель |
Коэффициент автокорреляции первого порядка |
Гетероскедас- тичность |
|||
№ п/п |
Запись в явном виде |
||||
1 |
= 5,17e+04 - 0,166*X1a + 3,73*X2a - 0,489*X4a (5,74e+04) (0,0418) (0,220) (0,353) |
нет |
есть |
||
2 |
= 9,86e+04 + 0,0279*X1a + 2,73*X2a (7,47e+04) (0,0936) (0,507) |
нет |
eсть |
||
3 |
= 7,34e+05 + 0,640*X1a - 2,27*X4a (2,88e+05) (0,163) (1,20) |
нет |
есть |
||
4 |
= 2,91e+04 + 3,48*X2a - 0,310*X4a (6,69e+04) (0,275) (0,548) |
нет |
eсть |
||
Рис.63. Остатки модели 1 после коррекции гетероскедастичности
Рис.64. Остатки модели 2 после коррекции гетероскедастичности
Рис.65. Остатки модели 3 после коррекции гетероскедастичности
Рис.66. Остатки модели 4 после коррекции гетероскедастичности
Исходя из рисунков, можно сделать вывод, что гетероскедастичность в остатках осталась.
Для того чтобы избавиться от гетероскедастичности построим модель:
)
Модель имеет вид:
.
Рис.
67. Результаты оценки регрессии
Гипотезы о незначимости параметров модели
Константа
(
)
:
=0,
в генеральной совокупности константа
незначима.
: ≠0, в генеральной совокупности константа значима.
P-значение = 0,0740 > 0,05. Следовательно, нулевая гипотеза принимается с вероятностью 95%. То есть константа модели незначима.
Коэффициент
перед ln(X1)
(
)
:
=0,
в генеральной совокупности коэффициент
перед ln(X1)
незначим.
: ≠0, в генеральной совокупности коэффициент перед ln(X1)значим.
P-значение
=
> 0,05. Следовательно, нулевая гипотеза
принимается с вероятностью 95%. То есть
коэффициент модели при ln(X1)
незначим.
Коэффициент
перед ln(X2)
(
)
: =0, в генеральной совокупности коэффициент перед ln(X2) незначим.
: ≠0, в генеральной совокупности коэффициент перед ln(X2) значим.
P-значение
=
<
0,05. Следовательно, нулевая гипотеза
отклоняется в пользу альтернативной с
вероятностью 95%. То есть коэффициент
модели при ln(X2)
значим.
Гипотеза о незначимости модели в целом
: все параметры модели (кроме константы) равны друг другу и равны нулю, т.е. модель в целом незначима.
: все параметры модели (кроме константы) не равны друг другу и не равны нулю, т.е. модель в целом значима.
−значение
(F) = 1,89∙
< 0,05. Следовательно, нулевая гипотеза
отклоняется в пользу альтернативной с
вероятностью 95%. То есть модель в целом
значима.
Оценка качества моделей
Построим график «прогноз-реализация» для модели (рис. 68).
На его основании можно сделать вывод, что модель достаточно хороша для предсказывания, поскольку точки расположены довольно близко к линии идеальных прогнозов.
Рис. 68. График прогноз-реализация для модели №6
Определим аномальные и значимые (влияющие) наблюдения для модели.
В рассматриваемой модели аномальных и значимых (влияющих) наблюдений обнаружено не было, что является хорошим показателем.
Тесты на гетероскедастичность
Рис.69. Остатки модели
По графику не наблюдается рост дисперсии остатков с возрастанием модельных значений Y, что свидетельствует об отсутствии гетероскедастичности.
Рис. 70. Тест Вайта на гетероскедастичность остатков
P-значение = 0,499361 > 0,05. Следовательно, нулевая гипотеза принимается: с вероятностью 95% гетероскедастичность в остатках отсутствует.
Рис. 71. Тест Бриша-Пэгана на гетероскедастичность остатков
P-значение = 0,810943 > 0,05. Следовательно, нулевая гипотеза принимается: с вероятностью 95% гетероскедастичность в остатках отсутствует.
Тест на автокорреляцию остатков
Поскольку P-значение = 0,8654 > 0,05, коэффициент незначим, и автокорреляции в остатках нет.
Рис. 72. Тест на автокорреляцию остатков
Тест на нормальность остатков
Рис. 73. Тест на нормальность остатков
P-значение = 0,52077 > 0,05. Нулевая гипотеза подтверждается с вероятностью 95%, остатки модели распределены нормально.
Выбор лучшей модели регрессии
Сравнение моделей на всей выборке с моделями без аномальных
Рис.74. Сравнение моделей со всеми исходными данным
После исключения аномальных наблюдений:
Рис.75.
Сравнение моделей после исключения
аномальных наблюдений
Рис. 76 Прологарифмированная модель
Рассмотрим модели до исключения аномальных. В первой и четвертой модели есть гетероскедастичность остатков. Построение уравнений с поправкой на гетероскедастичность не принесло положительных результатов. Следовательно, данные модели необходимо исключить из рассмотрения. В моделях 2,3 отсутствует автокорреляция, и гетероскедастичность в остатках, однако не все параметры этой модели статистически значимы.
Для моделей множественной регрессии, после удаления аномальных наблюдений можно сделать следующие выводы. Модели 1,2,3 и 4 не пригодны для дальнейшего анализа и прогнозирования, т.к. при попытке устранить гетероскедастичность, она все равно осталась.
Выбор лучшей модели
Для избавления от гетероскедастичности была построена новая модель с помощью метода логарифмирования. Она единственная пригодна для прогноза, поскольку в ней отсутствует гетероскедастичность остатков и автокорреляция. Также следует отметить, что данная модель обладает хорошими характеристиками: так, ей присущ высокий R2 (81,44%) и относительно небольшие ошибки параметров.
По графику «прогноз-реализация» на рисунке 68 также видно, что модель является хорошей для прогноза, поскольку все точки лежат достаточно близко к линии идеальных прогнозов.
Экономическая интерпретация лучшей модели
Вид лучшей модели имеет вид:
.
Ya – выручка, тыс.долл. США;
X1 – активы без учета оборотных средств, тыс.долл. США;
X4 – денежный поток от финансовой деятельности, тыс.долл. США.
Согласно
модели, при увеличении активов без учета
оборотных средств на 1% выручка вырастет
на 0,15 % (т.к.
).
При увеличении денежного потока от
финансовой деятельности на 1% выручка
увеличится на 0,79 % (т.к.
).
Стандартная ошибка модели составляет 0,693322. Модельные значения отклоняются от фактических в среднем на эту величину. При этом модель объясняет 81% процент разброса Y.
Прогноз по лучшей модели
Рис. 77. Точечные и интервальные прогнозы на модели
Таблица 9. – Прогнозные значения и доверительный интервал для лучшей модели
Наблюдение |
Y |
Предсказание |
95% доверительный интервал |
SVJ.DE |
|
12 365 983,56 |
2 833 099,78- 53 975 402,96 |
TATACHEM.BO |
|
2 702 268,06 |
650 096,44- 11 232 568,30 |
TATASTEEL.NS |
|
22 815 301,79 |
5 107 818,69 - 101 910 139,74 |
Согласно построенной модели выручка для SVJ.DE составит 12 365 983,56 тыс. долл. США, с 95% будет лежать в пределах от 2 833 099,78 до 53 975 402,96 тыс.долл.США.
Для TATACHEM.BO выручка составит 2 702 268,06 тыс.долл.США, с 95% вероятностью выручка будет лежать в пределах от 650 096,44 до 11 232 568,30 тыс.долл.США.
Для TATASTEEL.NS выручка составит 22 815 301,79 тыс.долл.США, с 95% вероятностью выручка будет лежать в пределах от 5 107 818,69 до 101 910 139,74 тыс.долл.США.
Рис.68 – Точечные и интервальные прогнозы на лучшей модели
Приложение 1. Таблица исходных данных
Выборка по наблюдениям |
Выборка по показателям |
||||||
Первое наблюдение |
Последнее наблюдение |
Для прогноза |
Y |
X1 |
X2 |
X3 |
X4 |
51 |
100 |
101-103 |
Y |
X1 |
X2 |
X3 |
X4 |
6 |
10 |
11 |
13 |
17 |
|||
|
|
|
510963 |
746456 |
136173 |
346680 |
-59342 |
|
|
|
470185 |
617972 |
153977 |
134762 |
-165841 |
|
|
|
3430562 |
1636845 |
1647810 |
473199 |
-82694 |
|
|
|
882158 |
826611 |
225499 |
140193 |
-79355 |
|
|
|
262831 |
160180 |
53017 |
100395 |
-14664 |
|
|
|
3864636 |
7342358 |
1309645 |
3684151 |
-134236 |
|
|
|
84902674 |
18985793 |
23976793 |
470037 |
57364 |
|
|
|
254440 |
269940 |
259569 |
11822 |
-13370 |
|
|
|
411143 |
575570 |
237167 |
209249 |
152719 |
|
|
|
7094961 |
1258431 |
788917 |
244015 |
-64145 |
|
|
|
2996283 |
8596677 |
1130243 |
5249185 |
-644011 |
|
|
|
2984905 |
3179094 |
490784 |
144884 |
184328 |
|
|
|
524349 |
181654 |
119141 |
12208 |
-14212 |
|
|
|
4810682 |
4129265 |
1612849 |
588273 |
-263562 |
|
|
|
173773 |
321228 |
307940 |
88886 |
84242 |
|
|
|
4244005 |
10469439 |
2364964 |
5157381 |
1342632 |
|
|
|
6898278 |
2842297 |
1236441 |
62960 |
34893 |
|
|
|
11590685 |
20325419 |
5166502 |
359554 |
1149966 |
|
|
|
923002 |
2353656 |
193102 |
1202332 |
9109 |
|
|
|
288073 |
514481 |
302651 |
308714 |
53280 |
|
|
|
10595683 |
2244657 |
2205255 |
338969 |
112608 |
|
|
|
282008 |
59785 |
36097 |
57530 |
-13536 |
|
|
|
449719 |
981875 |
198413 |
110172 |
105528 |
|
|
|
324936 |
482832 |
109986 |
303042 |
56023 |
|
|
|
5303890 |
162219 |
823785 |
16128 |
76448 |
|
|
|
168060 |
91669 |
54680 |
27340 |
24928 |
|
|
|
88706 |
71997 |
25467 |
3274 |
-16144 |
|
|
|
629196 |
864186 |
122770 |
89200 |
-246499 |
|
|
|
1606915 |
322131 |
1217313 |
108882 |
-198929 |
|
|
|
1596969 |
526568 |
351045 |
352964 |
-34529 |
|
|
|
55411 |
354442 |
38962 |
82161 |
3534 |
|
|
|
16490694 |
28905809 |
6177101 |
5009588 |
-212070 |
|
|
|
80763 |
151203 |
14574 |
68618 |
35827 |
|
|
|
696336 |
1112603 |
125647 |
532323 |
12469 |
|
|
|
283209185 |
226351545 |
74146681 |
23611043 |
9721473 |
|
|
|
4185293 |
1629414 |
2393202 |
7274 |
488031 |
|
|
|
853189 |
777488 |
51502 |
173120 |
182427 |
|
|
|
15108000 |
8649000 |
4135000 |
484000 |
-1979000 |
|
|
|
268104 |
128867 |
89889 |
19747 |
-16455 |
|
|
|
77460 |
65749 |
40909 |
20960 |
22210 |
|
|
|
8541616 |
5969141 |
2270624 |
1187791 |
-240102 |
|
|
|
427876 |
3556663 |
704093 |
327691 |
39833 |
|
|
|
1391241 |
1052589 |
375285 |
147346 |
158743 |
|
|
|
247823 |
208089 |
167967 |
167838 |
48636 |
|
|
|
217764 |
290009 |
179707 |
153390 |
20512 |
|
|
|
727790 |
2326456 |
491461 |
1951034 |
-171033 |
|
|
|
5304845 |
1944466 |
1152925 |
1064704 |
-235041 |
|
|
|
14449 |
5289 |
4386 |
55731 |
6192 |
|
|
|
469590 |
81253 |
75278 |
86032 |
-34652 |
|
|
|
1316089 |
1008116 |
276872 |
89509 |
-100129 |
|
|
|
10656606 |
6435464 |
5337009 |
2498005 |
-808242 |
|
|
|
2396472 |
2054068 |
981359 |
244134 |
21015 |
|
|
|
24768015 |
17036844 |
9612019 |
3458070 |
-375956 |
Приложение 2. Отчеты Gretl по моделям
Рис.1.1.
Описательная статистика уравнения
регрессии после удаления аномальных
наблюдений Y от X1,
X2 и X4
Рис.1.1.1. Тест на гетероскедастичность после удаления удаления аномальных наблюдений Y от X1, X2 и X4
Рис.1.2. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X1, X2.
Рис.1.2.1. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X1, X2.
Рис.1.3.
Описательная статистика уравнения
регрессии после удаления аномальных
наблюдений Y от X1,
X4.
Рис.1.3.1 Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X1, X4.
Рис.1.4. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X2, X4.
Рис.1.4.1. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X2, X4.
Рис.1.5. Описательная статистика уравнения регрессии после удаления аномальных наблюдений и с поправкой на гетероскедастичность Y от X1, X2 и X4
Рис.1.6. Описательная статистика уравнения регрессии после удаления аномальных наблюдений и с поправкой на гетероскедастичность Y от X1 и X2
Рис.1.7. Описательная статистика уравнения регрессии после удаления аномальных наблюдений и с поправкой на гетероскедастичность Y от X1 и X4
Рис.1.8. Описательная статистика уравнения регрессии после удаления аномальных наблюдений и с поправкой на гетероскедастичность Y от X2 и X4
