Построение моделей регрессии на выборке без аномальных

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Государственный университет управления

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ПИСАРЕВА.docx

Скачиваний:

Добавлен:

01.07.2025

Размер:

26.3 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 66

Построение моделей регрессии на выборке без аномальных

Устранение аномальных и значимых наблюдений

В предыдущем пункте были выявлены следующие аномальные наблюдения, попадающие под удаление:

Таблица 3. – Аномальные наблюдения

IOC.BO	84902674	18985793	23976793	470037	57364
LIN.DE	11590685	20325419	5166502	359554	1149966
ORG.AX	16490694	28905809	6177101	5009588	-212070
0857.HK	283209185	226351545	74146681	23611043	9721473

Чтобы увидеть, как изменились модели после устранения аномальных наблюдений, построим графики распределения показателей и корреляционную матрицу переменных.

Рис. 62 – График разброса наблюдений после исключения аномальных значений

(IOC.BO, LIN.DE, ORG.AX, 0857.HK)

Таблица 4. – Корреляционная матрица переменных

Как видно из таблицы 4, после удаления аномальных наблюдений нам удалось избавиться от сильной мультиколлинеарности факторов, что препятствовало построению качественного множественного уравнения регрессии.

В данном случае связь между Ya и X3а статистически незначима (|1934| < 0,2907), следовательно, Ya и X3а не связаны, что подтверждает график разброса наблюдений (рис.62). Поэтому не имеет смысла строить соответствующую модель множественной регрессии. Также не включаем в одну модель факторы коэффициент корреляции, между которыми больше 0,8.

Исходя из данных условий, выявились следующие модели множественной регрессии:

1) ;

2) ;

3) .

4) .

Результаты оценки параметров моделей

Таблица 5. – Характеристики информационной пригодности и значимость параметров конкурирующих моделей (после удаления аномальных наблюдений).

Модель		R², %	Исправленный R², %	F-статистика	Стандартная ошибка модели
№ п/п	Запись в явном виде	R², %	Исправленный R², %	F-статистика	Стандартная ошибка модели
1	= 2,05e+05 - 0,120X1a + 3,31X2a - 1,33*X4a (2,68e+05) (0,124) (0,372) (0,572)	81,63	80,32	62,21	1417332
2	= 1,32e+05 - 0,141X1a + 3,54X2a (2,80e+05) (0,130) (0,376)	79,26	78,29	82,171	1488324
3	= 9,22e+05 + 0,683X1a - 2,71X4a (4,29e+05) (0,143) (0,923)	47,1239	44,6646	19,1611	2376498
4	= 1,65e+05 + 3,05X2a - 1,37X4a (2,65e+05) (0,255) (0,570)	81,22	80,3488	92,9968	1416219

Проверка наличия ошибок спецификации моделей

Таблица 6. – Показатели для выявления ошибок спецификации конкурирующих моделей (после удаления аномальных наблюдений)

Модель		Коэффициент автокорреляции первого порядка		Гетероск-ть
№ п/п	Запись в явном виде
1	= 2,05e+05 - 0,120X1a + 3,31X2a - 1,33*X4a (2,68e+05) (0,124) (0,372) (0,572)		нет		Есть
2	= 1,32e+05 - 0,141X1a + 3,54X2a (2,80e+05) (0,130) (0,376)		нет		Есть
3	= 9,22e+05 + 0,683X1a - 2,71X4a (4,29e+05) (0,143) (0,923)		есть		Есть
4	= 1,65e+05 + 3,05X2a - 1,37X4a (2,65e+05) (0,255) (0,570)		нет		Есть

Гетероскедастичность в остатках наблюдается для моделей: 1,2,3,4. Автокорреляция в остатках наблюдается для 3 модели.

Исправление ошибок спецификации

Далее построим модели с учетом гетероскедастичности.

Таблица 7. – Характеристики информационной пригодности и значимость параметров конкурирующих моделей (после удаления аномальных наблюдений, после коррекции гетероскедастичности)

Модель		R², %	Исправленный R², %	F-статистика	Стандартная ошибка модели
№ п/п	Запись в явном виде	R², %	Исправленный R², %	F-статистика	Стандартная ошибка модели
1	= 5,17e+04 - 0,166X1a + 3,73X2a - 0,489*X4a (5,74e+04) (0,0418) (0,220) (0,353)	96,02	95,73	337,395	1,4632
2	= 9,86e+04 + 0,0279X1a + 2,73X2a (7,47e+04) (0,0936) (0,507)	70,24	68,86	50,76	2,2681
3	= 7,34e+05 + 0,640X1a - 2,27X4a (2,88e+05) (0,163) (1,20)	49,24	46,88	20,86	2,035
4	= 2,91e+04 + 3,48X2a - 0,310X4a (6,69e+04) (0,275) (0,548)	96,55	96,39	602,45	1,73237

Проверка наличия ошибок спецификации моделей

Таблица 8. – Показатели для выявления ошибок спецификации конкурирующих моделей (после удаления аномальных наблюдений, после удаления гетероскедастичности)

Модель		Коэффициент автокорреляции первого порядка		Гетероскедас- тичность
№ п/п	Запись в явном виде
1	= 5,17e+04 - 0,166X1a + 3,73X2a - 0,489*X4a (5,74e+04) (0,0418) (0,220) (0,353)		нет		есть
2	= 9,86e+04 + 0,0279X1a + 2,73X2a (7,47e+04) (0,0936) (0,507)		нет		eсть
3	= 7,34e+05 + 0,640X1a - 2,27X4a (2,88e+05) (0,163) (1,20)		нет		есть
4	= 2,91e+04 + 3,48X2a - 0,310X4a (6,69e+04) (0,275) (0,548)		нет		eсть

Рис.63. Остатки модели 1 после коррекции гетероскедастичности

Рис.64. Остатки модели 2 после коррекции гетероскедастичности

Рис.65. Остатки модели 3 после коррекции гетероскедастичности

Рис.66. Остатки модели 4 после коррекции гетероскедастичности

Исходя из рисунков, можно сделать вывод, что гетероскедастичность в остатках осталась.

Для того чтобы избавиться от гетероскедастичности построим модель:

)

Модель имеет вид:

Рис. 67. Результаты оценки регрессии

Гипотезы о незначимости параметров модели

Константа ( )

: =0, в генеральной совокупности константа незначима.

: ≠0, в генеральной совокупности константа значима.

P-значение = 0,0740 > 0,05. Следовательно, нулевая гипотеза принимается с вероятностью 95%. То есть константа модели незначима.

Коэффициент перед ln(X1) ( )

: =0, в генеральной совокупности коэффициент перед ln(X1) незначим.

: ≠0, в генеральной совокупности коэффициент перед ln(X1)значим.

P-значение = > 0,05. Следовательно, нулевая гипотеза принимается с вероятностью 95%. То есть коэффициент модели при ln(X1) незначим.

Коэффициент перед ln(X2) ( )

: =0, в генеральной совокупности коэффициент перед ln(X2) незначим.

: ≠0, в генеральной совокупности коэффициент перед ln(X2) значим.

P-значение = < 0,05. Следовательно, нулевая гипотеза отклоняется в пользу альтернативной с вероятностью 95%. То есть коэффициент модели при ln(X2) значим.

Гипотеза о незначимости модели в целом

: все параметры модели (кроме константы) равны друг другу и равны нулю, т.е. модель в целом незначима.
: все параметры модели (кроме константы) не равны друг другу и не равны нулю, т.е. модель в целом значима.

−значение (F) = 1,89∙ < 0,05. Следовательно, нулевая гипотеза отклоняется в пользу альтернативной с вероятностью 95%. То есть модель в целом значима.

Оценка качества моделей

Построим график «прогноз-реализация» для модели (рис. 68).

На его основании можно сделать вывод, что модель достаточно хороша для предсказывания, поскольку точки расположены довольно близко к линии идеальных прогнозов.

Рис. 68. График прогноз-реализация для модели №6

Определим аномальные и значимые (влияющие) наблюдения для модели.

В рассматриваемой модели аномальных и значимых (влияющих) наблюдений обнаружено не было, что является хорошим показателем.

Тесты на гетероскедастичность

Рис.69. Остатки модели

По графику не наблюдается рост дисперсии остатков с возрастанием модельных значений Y, что свидетельствует об отсутствии гетероскедастичности.

Рис. 70. Тест Вайта на гетероскедастичность остатков

P-значение = 0,499361 > 0,05. Следовательно, нулевая гипотеза принимается: с вероятностью 95% гетероскедастичность в остатках отсутствует.

Рис. 71. Тест Бриша-Пэгана на гетероскедастичность остатков

P-значение = 0,810943 > 0,05. Следовательно, нулевая гипотеза принимается: с вероятностью 95% гетероскедастичность в остатках отсутствует.

Тест на автокорреляцию остатков

Поскольку P-значение = 0,8654 > 0,05, коэффициент незначим, и автокорреляции в остатках нет.

Рис. 72. Тест на автокорреляцию остатков

Тест на нормальность остатков

Рис. 73. Тест на нормальность остатков

P-значение = 0,52077 > 0,05. Нулевая гипотеза подтверждается с вероятностью 95%, остатки модели распределены нормально.

Выбор лучшей модели регрессии

Сравнение моделей на всей выборке с моделями без аномальных

Рис.74. Сравнение моделей со всеми исходными данным

После исключения аномальных наблюдений:

Рис.75. Сравнение моделей после исключения аномальных наблюдений

Рис. 76 Прологарифмированная модель

Рассмотрим модели до исключения аномальных. В первой и четвертой модели есть гетероскедастичность остатков. Построение уравнений с поправкой на гетероскедастичность не принесло положительных результатов. Следовательно, данные модели необходимо исключить из рассмотрения. В моделях 2,3 отсутствует автокорреляция, и гетероскедастичность в остатках, однако не все параметры этой модели статистически значимы.

Для моделей множественной регрессии, после удаления аномальных наблюдений можно сделать следующие выводы. Модели 1,2,3 и 4 не пригодны для дальнейшего анализа и прогнозирования, т.к. при попытке устранить гетероскедастичность, она все равно осталась.

Выбор лучшей модели

Для избавления от гетероскедастичности была построена новая модель с помощью метода логарифмирования. Она единственная пригодна для прогноза, поскольку в ней отсутствует гетероскедастичность остатков и автокорреляция. Также следует отметить, что данная модель обладает хорошими характеристиками: так, ей присущ высокий R²(81,44%) и относительно небольшие ошибки параметров.

По графику «прогноз-реализация» на рисунке 68 также видно, что модель является хорошей для прогноза, поскольку все точки лежат достаточно близко к линии идеальных прогнозов.

Экономическая интерпретация лучшей модели

Вид лучшей модели имеет вид:

Y_a – выручка, тыс.долл. США;

X₁ – активы без учета оборотных средств, тыс.долл. США;

X₄ – денежный поток от финансовой деятельности, тыс.долл. США.

Согласно модели, при увеличении активов без учета оборотных средств на 1% выручка вырастет на 0,15 % (т.к. ). При увеличении денежного потока от финансовой деятельности на 1% выручка увеличится на 0,79 % (т.к. ).

Стандартная ошибка модели составляет 0,693322. Модельные значения отклоняются от фактических в среднем на эту величину. При этом модель объясняет 81% процент разброса Y.

Прогноз по лучшей модели

Рис. 77. Точечные и интервальные прогнозы на модели

Таблица 9. – Прогнозные значения и доверительный интервал для лучшей модели

Наблюдение	Y	Предсказание	95% доверительный интервал
SVJ.DE		12 365 983,56	2 833 099,78- 53 975 402,96
TATACHEM.BO		2 702 268,06	650 096,44- 11 232 568,30
TATASTEEL.NS		22 815 301,79	5 107 818,69 - 101 910 139,74

Согласно построенной модели выручка для SVJ.DE составит 12 365 983,56 тыс. долл. США, с 95% будет лежать в пределах от 2 833 099,78 до 53 975 402,96 тыс.долл.США.

Для TATACHEM.BO выручка составит 2 702 268,06 тыс.долл.США, с 95% вероятностью выручка будет лежать в пределах от 650 096,44 до 11 232 568,30 тыс.долл.США.

Для TATASTEEL.NS выручка составит 22 815 301,79 тыс.долл.США, с 95% вероятностью выручка будет лежать в пределах от 5 107 818,69 до 101 910 139,74 тыс.долл.США.

Рис.68 – Точечные и интервальные прогнозы на лучшей модели

Приложение 1. Таблица исходных данных

Выборка по наблюдениям			Выборка по показателям
Первое наблюдение	Последнее наблюдение	Для прогноза	Y	X1	X2	X3	X4
51	100	101-103	Y	X1	X2	X3	X4
51	100	101-103	6	10	11	13	17
			510963	746456	136173	346680	-59342
			470185	617972	153977	134762	-165841
			3430562	1636845	1647810	473199	-82694
			882158	826611	225499	140193	-79355
			262831	160180	53017	100395	-14664
			3864636	7342358	1309645	3684151	-134236
			84902674	18985793	23976793	470037	57364
			254440	269940	259569	11822	-13370
			411143	575570	237167	209249	152719
			7094961	1258431	788917	244015	-64145
			2996283	8596677	1130243	5249185	-644011
			2984905	3179094	490784	144884	184328
			524349	181654	119141	12208	-14212
			4810682	4129265	1612849	588273	-263562
			173773	321228	307940	88886	84242
			4244005	10469439	2364964	5157381	1342632
			6898278	2842297	1236441	62960	34893
			11590685	20325419	5166502	359554	1149966
			923002	2353656	193102	1202332	9109
			288073	514481	302651	308714	53280
			10595683	2244657	2205255	338969	112608
			282008	59785	36097	57530	-13536
			449719	981875	198413	110172	105528
			324936	482832	109986	303042	56023
			5303890	162219	823785	16128	76448
			168060	91669	54680	27340	24928
			88706	71997	25467	3274	-16144
			629196	864186	122770	89200	-246499
			1606915	322131	1217313	108882	-198929
			1596969	526568	351045	352964	-34529
			55411	354442	38962	82161	3534
			16490694	28905809	6177101	5009588	-212070
			80763	151203	14574	68618	35827
			696336	1112603	125647	532323	12469
			283209185	226351545	74146681	23611043	9721473
			4185293	1629414	2393202	7274	488031
			853189	777488	51502	173120	182427
			15108000	8649000	4135000	484000	-1979000
			268104	128867	89889	19747	-16455
			77460	65749	40909	20960	22210
			8541616	5969141	2270624	1187791	-240102
			427876	3556663	704093	327691	39833
			1391241	1052589	375285	147346	158743
			247823	208089	167967	167838	48636
			217764	290009	179707	153390	20512
			727790	2326456	491461	1951034	-171033
			5304845	1944466	1152925	1064704	-235041
			14449	5289	4386	55731	6192
			469590	81253	75278	86032	-34652
			1316089	1008116	276872	89509	-100129
			10656606	6435464	5337009	2498005	-808242
			2396472	2054068	981359	244134	21015
			24768015	17036844	9612019	3458070	-375956

Приложение 2. Отчеты Gretl по моделям

Рис.1.1. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X₁, X₂ и X₄

Рис.1.1.1. Тест на гетероскедастичность после удаления удаления аномальных наблюдений Y от X₁, X₂ и X₄

Рис.1.2. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X₁, X₂.

Рис.1.2.1. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X₁, X₂.

Рис.1.3. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X₁, X₄.

Рис.1.3.1 Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X₁, X₄.

Рис.1.4. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X₂, X₄.

Рис.1.4.1. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X₂, X₄.

Рис.1.5. Описательная статистика уравнения регрессии после удаления аномальных наблюдений и с поправкой на гетероскедастичность Y от X₁, X₂ и X₄

Рис.1.6. Описательная статистика уравнения регрессии после удаления аномальных наблюдений и с поправкой на гетероскедастичность Y от X₁ и X₂

Рис.1.7. Описательная статистика уравнения регрессии после удаления аномальных наблюдений и с поправкой на гетероскедастичность Y от X₁ и X₄

Рис.1.8. Описательная статистика уравнения регрессии после удаления аномальных наблюдений и с поправкой на гетероскедастичность Y от X₂ и X₄

<<< < Предыдущая 1 2 3 4 56 / 66

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025334.05 Кб3Перечень контрольных вопросов к экзамену.docx
#
01.05.2025505.86 Кб1Петрасов. Концепция устойчивого развития примен...doc
#
01.04.2025477.18 Кб5Пз 3( часть 1-2)Симплекс-метод.doc
#
21.11.2018116.22 Кб4Пилия Сария.doc
#
01.07.2025608.77 Кб1ПиП_Excel_ЛР1.doc
#
01.07.202526.3 Mб3ПИСАРЕВА.docx
#
01.12.201836.72 Кб10План реферата.docx
#
01.04.2025116.73 Кб2План. и прогн. пер-ок.docx
#
01.05.2025822.27 Кб1Планирование и Прогнозирование 4 курс (01).doc
#
01.04.20253.56 Mб3Планирование и прогнозирование перевозок.docx
#
01.05.20253.58 Mб1Планирование и прогнозирование перевозок.docx