Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ПИСАРЕВА.docx
Скачиваний:
3
Добавлен:
01.07.2025
Размер:
26.3 Mб
Скачать
  1. Построение моделей регрессии на выборке без аномальных

Устранение аномальных и значимых наблюдений

В предыдущем пункте были выявлены следующие аномальные наблюдения, попадающие под удаление:

Таблица 3. – Аномальные наблюдения

IOC.BO

84902674

18985793

23976793

470037

57364

LIN.DE

11590685

20325419

5166502

359554

1149966

ORG.AX

16490694

28905809

6177101

5009588

-212070

0857.HK

283209185

226351545

74146681

23611043

9721473

Чтобы увидеть, как изменились модели после устранения аномальных наблюдений, построим графики распределения показателей и корреляционную матрицу переменных.

Рис. 62 – График разброса наблюдений после исключения аномальных значений

(IOC.BO, LIN.DE, ORG.AX, 0857.HK)

Таблица 4. – Корреляционная матрица переменных

Как видно из таблицы 4, после удаления аномальных наблюдений нам удалось избавиться от сильной мультиколлинеарности факторов, что препятствовало построению качественного множественного уравнения регрессии.

В данном случае связь между Ya и X3а статистически незначима (|1934| < 0,2907), следовательно, Ya и X3а не связаны, что подтверждает график разброса наблюдений (рис.62). Поэтому не имеет смысла строить соответствующую модель множественной регрессии. Также не включаем в одну модель факторы коэффициент корреляции, между которыми больше 0,8.

Исходя из данных условий, выявились следующие модели множественной регрессии:

1) ;

2) ;

3) .

4) .

Результаты оценки параметров моделей

Таблица 5. – Характеристики информационной пригодности и значимость параметров конкурирующих моделей (после удаления аномальных наблюдений).

Модель

R2, %

Исправленный R2, %

F-статистика

Стандартная ошибка модели

№ п/п

Запись в явном виде

1

= 2,05e+05 - 0,120*X1a + 3,31*X2a - 1,33*X4a

(2,68e+05) (0,124) (0,372) (0,572)

81,63

80,32

62,21

1417332

2

= 1,32e+05 - 0,141*X1a + 3,54*X2a

(2,80e+05) (0,130) (0,376)

79,26

78,29

82,171

1488324

3

= 9,22e+05 + 0,683*X1a - 2,71*X4a

(4,29e+05) (0,143) (0,923)

47,1239

44,6646

19,1611

2376498

4

= 1,65e+05 + 3,05*X2a - 1,37*X4a

(2,65e+05) (0,255) (0,570)

81,22

80,3488

92,9968

1416219

Проверка наличия ошибок спецификации моделей

Таблица 6. – Показатели для выявления ошибок спецификации конкурирующих моделей (после удаления аномальных наблюдений)

Модель

Коэффициент автокорреляции первого порядка

Гетероск-ть

№ п/п

Запись в явном виде

1

= 2,05e+05 - 0,120*X1a + 3,31*X2a - 1,33*X4a

(2,68e+05) (0,124) (0,372) (0,572)

нет

Есть

2

= 1,32e+05 - 0,141*X1a + 3,54*X2a

(2,80e+05) (0,130) (0,376)

нет

Есть

3

= 9,22e+05 + 0,683*X1a - 2,71*X4a

(4,29e+05) (0,143) (0,923)

есть

Есть

4

= 1,65e+05 + 3,05*X2a - 1,37*X4a

(2,65e+05) (0,255) (0,570)

нет

Есть

Гетероскедастичность в остатках наблюдается для моделей: 1,2,3,4. Автокорреляция в остатках наблюдается для 3 модели.

Исправление ошибок спецификации

Далее построим модели с учетом гетероскедастичности.

Таблица 7. – Характеристики информационной пригодности и значимость параметров конкурирующих моделей (после удаления аномальных наблюдений, после коррекции гетероскедастичности)

Модель

R2, %

Исправленный R2, %

F-статистика

Стандартная ошибка модели

№ п/п

Запись в явном виде

1

= 5,17e+04 - 0,166*X1a + 3,73*X2a - 0,489*X4a

(5,74e+04) (0,0418) (0,220) (0,353)

96,02

95,73

337,395

1,4632

2

= 9,86e+04 + 0,0279*X1a + 2,73*X2a

(7,47e+04) (0,0936) (0,507)

70,24

68,86

50,76

2,2681

3

= 7,34e+05 + 0,640*X1a - 2,27*X4a

(2,88e+05) (0,163) (1,20)

49,24

46,88

20,86

2,035

4

= 2,91e+04 + 3,48*X2a - 0,310*X4a

(6,69e+04) (0,275) (0,548)

96,55

96,39

602,45

1,73237

Проверка наличия ошибок спецификации моделей

Таблица 8. – Показатели для выявления ошибок спецификации конкурирующих моделей (после удаления аномальных наблюдений, после удаления гетероскедастичности)

Модель

Коэффициент автокорреляции первого порядка

Гетероскедас-

тичность

№ п/п

Запись в явном виде

1

= 5,17e+04 - 0,166*X1a + 3,73*X2a - 0,489*X4a

(5,74e+04) (0,0418) (0,220) (0,353)

нет

есть

2

= 9,86e+04 + 0,0279*X1a + 2,73*X2a

(7,47e+04) (0,0936) (0,507)

нет

eсть

3

= 7,34e+05 + 0,640*X1a - 2,27*X4a

(2,88e+05) (0,163) (1,20)

нет

есть

4

= 2,91e+04 + 3,48*X2a - 0,310*X4a

(6,69e+04) (0,275) (0,548)

нет

eсть

Рис.63. Остатки модели 1 после коррекции гетероскедастичности

Рис.64. Остатки модели 2 после коррекции гетероскедастичности

Рис.65. Остатки модели 3 после коррекции гетероскедастичности

Рис.66. Остатки модели 4 после коррекции гетероскедастичности

Исходя из рисунков, можно сделать вывод, что гетероскедастичность в остатках осталась.

Для того чтобы избавиться от гетероскедастичности построим модель:

)

Модель имеет вид:

.

Рис. 67. Результаты оценки регрессии

Гипотезы о незначимости параметров модели

Константа ( )

: =0, в генеральной совокупности константа незначима.

: ≠0, в генеральной совокупности константа значима.

P-значение = 0,0740 > 0,05. Следовательно, нулевая гипотеза принимается с вероятностью 95%. То есть константа модели незначима.

Коэффициент перед ln(X1) ( )

: =0, в генеральной совокупности коэффициент перед ln(X1) незначим.

: ≠0, в генеральной совокупности коэффициент перед ln(X1)значим.

P-значение = > 0,05. Следовательно, нулевая гипотеза принимается с вероятностью 95%. То есть коэффициент модели при ln(X1) незначим.

Коэффициент перед ln(X2) ( )

: =0, в генеральной совокупности коэффициент перед ln(X2) незначим.

: ≠0, в генеральной совокупности коэффициент перед ln(X2) значим.

P-значение = < 0,05. Следовательно, нулевая гипотеза отклоняется в пользу альтернативной с вероятностью 95%. То есть коэффициент модели при ln(X2) значим.

Гипотеза о незначимости модели в целом

  1. : все параметры модели (кроме константы) равны друг другу и равны нулю, т.е. модель в целом незначима.

  2. : все параметры модели (кроме константы) не равны друг другу и не равны нулю, т.е. модель в целом значима.

−значение (F) = 1,89∙ < 0,05. Следовательно, нулевая гипотеза отклоняется в пользу альтернативной с вероятностью 95%. То есть модель в целом значима.

Оценка качества моделей

  1. Построим график «прогноз-реализация» для модели (рис. 68).

На его основании можно сделать вывод, что модель достаточно хороша для предсказывания, поскольку точки расположены довольно близко к линии идеальных прогнозов.

Рис. 68. График прогноз-реализация для модели №6

  1. Определим аномальные и значимые (влияющие) наблюдения для модели.

В рассматриваемой модели аномальных и значимых (влияющих) наблюдений обнаружено не было, что является хорошим показателем.

Тесты на гетероскедастичность

Рис.69. Остатки модели

По графику не наблюдается рост дисперсии остатков с возрастанием модельных значений Y, что свидетельствует об отсутствии гетероскедастичности.

Рис. 70. Тест Вайта на гетероскедастичность остатков

P-значение = 0,499361 > 0,05. Следовательно, нулевая гипотеза принимается: с вероятностью 95% гетероскедастичность в остатках отсутствует.

Рис. 71. Тест Бриша-Пэгана на гетероскедастичность остатков

P-значение = 0,810943 > 0,05. Следовательно, нулевая гипотеза принимается: с вероятностью 95% гетероскедастичность в остатках отсутствует.

Тест на автокорреляцию остатков

Поскольку P-значение = 0,8654 > 0,05, коэффициент незначим, и автокорреляции в остатках нет.

Рис. 72. Тест на автокорреляцию остатков

Тест на нормальность остатков

Рис. 73. Тест на нормальность остатков

P-значение = 0,52077 > 0,05. Нулевая гипотеза подтверждается с вероятностью 95%, остатки модели распределены нормально.

Выбор лучшей модели регрессии

Сравнение моделей на всей выборке с моделями без аномальных

Рис.74. Сравнение моделей со всеми исходными данным

После исключения аномальных наблюдений:

Рис.75. Сравнение моделей после исключения аномальных наблюдений

Рис. 76 Прологарифмированная модель

Рассмотрим модели до исключения аномальных. В первой и четвертой модели есть гетероскедастичность остатков. Построение уравнений с поправкой на гетероскедастичность не принесло положительных результатов. Следовательно, данные модели необходимо исключить из рассмотрения. В моделях 2,3 отсутствует автокорреляция, и гетероскедастичность в остатках, однако не все параметры этой модели статистически значимы.

Для моделей множественной регрессии, после удаления аномальных наблюдений можно сделать следующие выводы. Модели 1,2,3 и 4 не пригодны для дальнейшего анализа и прогнозирования, т.к. при попытке устранить гетероскедастичность, она все равно осталась.

Выбор лучшей модели

Для избавления от гетероскедастичности была построена новая модель с помощью метода логарифмирования. Она единственная пригодна для прогноза, поскольку в ней отсутствует гетероскедастичность остатков и автокорреляция. Также следует отметить, что данная модель обладает хорошими характеристиками: так, ей присущ высокий R2 (81,44%) и относительно небольшие ошибки параметров.

По графику «прогноз-реализация» на рисунке 68 также видно, что модель является хорошей для прогноза, поскольку все точки лежат достаточно близко к линии идеальных прогнозов.

Экономическая интерпретация лучшей модели

Вид лучшей модели имеет вид:

.

Ya – выручка, тыс.долл. США;

X1 – активы без учета оборотных средств, тыс.долл. США;

X4 – денежный поток от финансовой деятельности, тыс.долл. США.

Согласно модели, при увеличении активов без учета оборотных средств на 1% выручка вырастет на 0,15 % (т.к. ). При увеличении денежного потока от финансовой деятельности на 1% выручка увеличится на 0,79 % (т.к. ).

Стандартная ошибка модели составляет 0,693322. Модельные значения отклоняются от фактических в среднем на эту величину. При этом модель объясняет 81% процент разброса Y.

Прогноз по лучшей модели

Рис. 77. Точечные и интервальные прогнозы на модели

Таблица 9. – Прогнозные значения и доверительный интервал для лучшей модели

Наблюдение

Y

Предсказание

95% доверительный интервал

SVJ.DE

12 365 983,56

2 833 099,78-

53 975 402,96

TATACHEM.BO

2 702 268,06

650 096,44-

11 232 568,30

TATASTEEL.NS

22 815 301,79

5 107 818,69 -

101 910 139,74

Согласно построенной модели выручка для SVJ.DE составит 12 365 983,56 тыс. долл. США, с 95% будет лежать в пределах от 2 833 099,78 до 53 975 402,96 тыс.долл.США.

Для TATACHEM.BO выручка составит 2 702 268,06 тыс.долл.США, с 95% вероятностью выручка будет лежать в пределах от 650 096,44 до 11 232 568,30 тыс.долл.США.

Для TATASTEEL.NS выручка составит 22 815 301,79 тыс.долл.США, с 95% вероятностью выручка будет лежать в пределах от 5 107 818,69 до 101 910 139,74 тыс.долл.США.

Рис.68 – Точечные и интервальные прогнозы на лучшей модели

Приложение 1. Таблица исходных данных

Выборка по наблюдениям

Выборка по показателям

Первое наблюдение

Последнее наблюдение

Для прогноза

Y

X1

X2

X3

X4

51

100

101-103

Y

X1

X2

X3

X4

6

10

11

13

17

510963

746456

136173

346680

-59342

470185

617972

153977

134762

-165841

3430562

1636845

1647810

473199

-82694

882158

826611

225499

140193

-79355

262831

160180

53017

100395

-14664

3864636

7342358

1309645

3684151

-134236

84902674

18985793

23976793

470037

57364

254440

269940

259569

11822

-13370

411143

575570

237167

209249

152719

7094961

1258431

788917

244015

-64145

2996283

8596677

1130243

5249185

-644011

2984905

3179094

490784

144884

184328

524349

181654

119141

12208

-14212

4810682

4129265

1612849

588273

-263562

173773

321228

307940

88886

84242

4244005

10469439

2364964

5157381

1342632

6898278

2842297

1236441

62960

34893

11590685

20325419

5166502

359554

1149966

923002

2353656

193102

1202332

9109

288073

514481

302651

308714

53280

10595683

2244657

2205255

338969

112608

282008

59785

36097

57530

-13536

449719

981875

198413

110172

105528

324936

482832

109986

303042

56023

5303890

162219

823785

16128

76448

168060

91669

54680

27340

24928

88706

71997

25467

3274

-16144

629196

864186

122770

89200

-246499

1606915

322131

1217313

108882

-198929

1596969

526568

351045

352964

-34529

55411

354442

38962

82161

3534

16490694

28905809

6177101

5009588

-212070

80763

151203

14574

68618

35827

696336

1112603

125647

532323

12469

283209185

226351545

74146681

23611043

9721473

4185293

1629414

2393202

7274

488031

853189

777488

51502

173120

182427

15108000

8649000

4135000

484000

-1979000

268104

128867

89889

19747

-16455

77460

65749

40909

20960

22210

8541616

5969141

2270624

1187791

-240102

427876

3556663

704093

327691

39833

1391241

1052589

375285

147346

158743

247823

208089

167967

167838

48636

217764

290009

179707

153390

20512

727790

2326456

491461

1951034

-171033

5304845

1944466

1152925

1064704

-235041

14449

5289

4386

55731

6192

469590

81253

75278

86032

-34652

1316089

1008116

276872

89509

-100129

10656606

6435464

5337009

2498005

-808242

2396472

2054068

981359

244134

21015

24768015

17036844

9612019

3458070

-375956

Приложение 2. Отчеты Gretl по моделям

Рис.1.1. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X1, X2 и X4

Рис.1.1.1. Тест на гетероскедастичность после удаления удаления аномальных наблюдений Y от X1, X2 и X4

Рис.1.2. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X1, X2.

Рис.1.2.1. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X1, X2.

Рис.1.3. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X1, X4.

Рис.1.3.1 Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X1, X4.

Рис.1.4. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X2, X4.

Рис.1.4.1. Описательная статистика уравнения регрессии после удаления аномальных наблюдений Y от X2, X4.

Рис.1.5. Описательная статистика уравнения регрессии после удаления аномальных наблюдений и с поправкой на гетероскедастичность Y от X1, X2 и X4

Рис.1.6. Описательная статистика уравнения регрессии после удаления аномальных наблюдений и с поправкой на гетероскедастичность Y от X1 и X2

Рис.1.7. Описательная статистика уравнения регрессии после удаления аномальных наблюдений и с поправкой на гетероскедастичность Y от X1 и X4

Рис.1.8. Описательная статистика уравнения регрессии после удаления аномальных наблюдений и с поправкой на гетероскедастичность Y от X2 и X4

1