Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
5415.pdf
Скачиваний:
12
Добавлен:
13.11.2022
Размер:
1.38 Mб
Скачать

 

 

 

 

 

46

(B) 0,0526901

0,161421

0,922914

5,07531E-16

-0,013535

(c) 0,0486203

0,16052

0,917722

0,00123114

-0,00682013

(D)

0,95851

0,811367

4,55073

0,0240537

-0,12694

(E)

0,180789

0,321464

1,80398

0,321454

1,80391

Модели RMSE RUNS RUNM AUTO MEAN VAR

-----------------------------------------------

(A) 0,229875

*

OK

OK

OK

OK

(B) 0,229543

*

OK

OK

OK

OK

(c) 0,2205

*

OK

OK

OK

OK

(D)

0,979035

***

**

***

***

OK

(E)

0,425193

OK

OK

OK

OK

OK

Ключ:

RMSE = Стандартная ошибка остатков

RUNS = Тест на чрезмерное количество пиков и впадин

RUNM = Тест на чрезмерные количество отклонений от медианы AUTO = Тест на чрезмерную автокорреляцию

MEAN = Тест на существенность разности средних VAR = Тест на существенность разности дисперсий OK = не существенный (p> = 0.10)

*= незначительно существенный (0.05 <p <= 0.10)

**= существенный (0.01 <p <= 0.05)

***= очень существенный (p <= 0.01)

StatAdvisor

---------------

Эта таблица сравнивает результаты пяти различных моделей прогнозирования Вы можете изменить

любую из моделей, нажимая на правую кнопку мыши и выбирая из меню Analysis Options (Опции Анализа).

Изучение

статистик остатков показывает, что модель с

самой маленькой среднеквадратической

ошибкой (MSE)в оцениваемом периоде модель C. Модель с наименьшим результатом средней

абсолютной

погрешностью (МАЕ) - модель C. Модель с

самой маленькой абсолютной процентной

ошибкой (MAPE) - модель C. Вы можете использовать эти результаты, чтобы выбирать наиболее

соответствующую модель для ваших потребностей.

 

Таблица

также подводит итог результатов пяти тестов

остатков для определения адекватности

модели данных. OK означает, что модель проходит тест. Одина звездочка * означает, что модель

не

подходит на 90%-ом доверительном уровне. Две звездочки ** означают, что модель не подходит

на

95%-м уровне доверия. Три звездочки *** означают, что модель

не походит

на 99%-м уровне

доверия. Обратите внимание, что модель D, выбранная в качестве

текущей

модели проходит

только один тест. Так как один или более тестов статистически существенны на 95%-м или более высоком доверительном уровень, Вы должны серьезно рассмотреть отбор другой модели.

Рисунок 3.5.7 – Панель статистического сравнения с переводом

Система STATGRAFICS выдаст таблицу прогноза (рисунок 3.5.8).

Forecast Table for y

 

 

Model: Exponential trend = exp(-35,8182 + 0,0193701 t)

 

Period

Data

Forecast

Residual

------------------------------------------------------------------------------

1992

15,4

15,6077

-0,207726

1993

16,1

15,913

0,187003

1994

16,5

16,2242

0,275762

1995

16,6

16,5416

0,0584329

1996

16,9

16,8651

0,0348973

1997

17,0

17,195

-0,194966

1998

17,1

17,5313

-0,431282

1999

17,9

17,8742

0,0258249

2000

18,2

18,2238

-0,0237751

2001

18,5

18,5802

-0,0802129

2002

19,3

18,9436

0,356378

2003

19,5

19,3141

0,18586

2004

19,7

19,6919

0,0080962

2005

19,9

20,0771

-0,177057

------------------------------------------------------------------------------

 

 

Lower

95,0%

Upper

95,0%

Period

Forecast

Limit

 

Limit

 

------------------------------------------------------------------------------

 

 

 

47

2006

20,4697

19,8341

21,1258

2007

20,8701

20,2053

21,5568

2008

21,2783

20,5817

21,9985

2009

21,6945

20,9637

22,4508

------------------------------------------------------------------------------

Таблица Прогноза для y

Модель: Показательная тенденция = exp (-35,8182 + 0,0193701 t)

Период Фактические данные Теоретические данные Остатки

------------------------------------------------------------------------------

1992

15,4

15,6077

-0,207726

1993

16,1

15,913

0,187003

1994

16,5

16,2242

0,275762

1995

16,6

16,5416

0,0584329

1996

16,9

16,8651

0,0348973

1997

17,0

17,195

-0,194966

1998

17,1

17,5313

-0,431282

1999

17,9

17,8742

0,0258249

2000

18,2

18,2238

-0,0237751

2001

18,5

18,5802

-0,0802129

2002

19,3

18,9436

0,356378

2003

19,5

19,3141

0,18586

2004

19,7

19,6919

0,0080962

2005

19,9

20,0771

-0,177057

------------------------------------------------------------------------------

 

 

Доверительный интервал прогноза с

95% вероятностью

Период

Точечный прогноз

Нижняя граница

Верхняя

граница

------------------------------------------------------------------------------

2006

20,4697

19,8341

21,1258

2007

20,8701

20,2053

21,5568

2008

21,2783

20,5817

21,9985

2009

21,6945

20,9637

22,4508

 

 

 

 

Рисунок 3.5.8 − Прогноз тренда по показательной модели Панель прогноза (рисунок 3.5.8.) содержит две таблицы. В верхней

таблице отражены фактические и модельные значения средней обеспеченности населения Хабаровского края жильем, также остатки (отклонение фактических и теоретических значений). В нижней таблице приведены точечный и интервальный прогнозы с вероятностью 95%.

Таким образом, прогноз на 4 года показывает, что с 2006 по 2009 год среднегодовой абсолютный прирост обеспеченности жильем населения Хабаровского края составит 0,41 м2 (1,98%.) и в 2009 году достигнет 21,69 м2 на человека. Сохраним остатки (отклонение фактических значений от теоретических) под именем Residuals. Для этого щелкнем по пиктограмме

, откроется окно Save Results Options (сохранение результатов анализа) (рисунок 3.5.9) Отметим флажком Residual (остатки) и нажмем OK.

48

Save – сохранить; Data – данные; Adjusted data - выравненные данные Forecast

прогноз; Upper forecast limits – верхняя граница прогноза; Lower forecast limits

нижняя граница прогноза; Residuals – остатки; Autocorrelations – автокорреляция;

Partial autocorrelations – частная автокорреляция

Рисунок 3.5.9 − Окно Save Results Options (сохранение результатов анализа)

Для получения графического изображения результатов прогноза необходимо щелкнуть мышью по кнопке графических опций (рисунок

3.5.1):

Рисунок 3.5.10 – Панель инструментов.

В появившейся панели Graphical Options (опции графика) (рисунок 3.5.11) установим флажок в поле Time Sequence Plot (график временной последовательности)

Time Sequence Plot − график временной последовательности; Forecast Plot – график прогноза; Residual Plot – график остатков; Residual Autocorrelation Function – график автокорреляционной функции; Residual Partial Autocorrelation Function – график частной автокорреляционной функции; Residual Crosscorrelation Function – график кросскорреляционной функции.

Рисунок 3.5.11 − Панель Graphical Options (опции графика)

49

Система построит графикTime SequenceисходногоPlot for Y ряда и прогноз по экспоненциальному тренду (показательному тренду) (рисунок 3.5.12).

Y

 

 

Expone ntial trend = e xp( -35,8375 + 0,0193701 t)

 

 

23

 

 

 

 

 

21

 

 

 

 

 

19

 

 

 

 

 

17

 

 

 

 

 

15

 

 

 

 

 

1990

1994

1998

2002

2006

2010

ac tua l forec ast

95,0% lim its

Residual

Рисунок 3.5.12 − График прогноза тренда по показательной модели График остатков представлен на рисунке 3.5.13.

 

 

Residual Plot for Y

 

 

 

 

Expone ntial trend = e xp( -35,8375 + 0,0193701 t)

 

 

0,36

 

 

 

 

 

0,16

 

 

 

 

 

-0,04

 

 

 

 

 

-0,24

 

 

 

 

 

-0,44

 

 

 

 

 

1990

1993

1996

1999

2002

2005

Рисунок 3.5.13 − График остатков

Особый интерес представляют графики Residual Autocorrelation Function (график автокорреляционной функции) и Residual Partial Autocorrelation Function (график частной автокорреляционной функции) (рисунок 3.5.14 и 3.5.15). Уменьшение высоты столбца графика автокорреляционной функции свидетельствуют об ослаблении связи с прошлым и возможности использования авторегрессии.

Autocorrelations

Residual Autocorrelations for Y

E xpo ne ntial tren d = e xp( -3 5,8 375 + 0,0 19 37 01 t) 1

0, 6

0, 2

-0 ,2

-0 ,6

-1

0

1

2

3

4

5

lag

Рисунок 3.5.14 − График автокорреляционной функции остатков

График частной автокорреляционной функции применяется для уточнения количества членов авторегрессионной модели, необходимых для адекватного описания остатков. На рисунке 3.5.15 коэффициенты частной автокорреляции отображаются в виде столбцов, высота которых

50

Partial Autocorrelations

пропорциональна величине коэффициента. Границы в виде штриховых линий, расположенных выше и ниже нуля, применяются для выявлений частных автокорреляций, значимо отличаются от нуля.

Residual P artial Aut ocorrelations for Y

E xpo ne ntial tren d = e xp( -3 5,8 375 + 0,0 19 37 01 t) 1

0, 6

0, 2

-0 ,2

-0 ,6

-1

0

1

2

3

4

5

lag

Рисунок 3.5.15 − График частной автокорреляционной функции остатков Как видно из графика, остатки обеспеченности населения жильем слабо

коррелированны с предыдущим значением. Следовательно, их можно описывать авторегрессией первого порядка.

Откроем окно входной панели (рисунок 3.5.1) и введем имя переменной Residuals, период упреждения, равный четырем годам, и Year(s) год. По умолчанию система осуществит прогноз по модели случайной выборки.

Вызовем панель Model Specification Options (модуль опции спецификации модели) (рисунок 3.5.16) и выберем ARIMA Model. Уберем флажок в поле Constant, т.е. построим модель без свободного члена. Остальные значения оставим без изменения.

Рисунок 3.5.16 – Модуль Model Specification Options (опции спецификации модели)

STATGRAFICS рассчитает авторегрессию первого порядка. Выходное окно, содержит результаты подбора модели (рисунок 3.5.17)

51

Analysis Summary

 

 

 

Data variable: RESIDUALS

 

 

 

Number of observations = 14

 

 

 

Start index = 1992

 

 

 

Sampling interval = 1,0 year(s)

 

 

Forecast Summary

 

 

 

----------------

 

 

 

Forecast model selected: ARIMA(1,0,0)

 

 

Number of forecasts generated: 4

 

 

Number of periods withheld for validation: 0

 

 

 

Estimation

Validation

 

 

Statistic

Period

Period

 

 

--------------------------------------------

 

 

MSE

0,0421983

 

 

 

MAE

0,156276

 

 

 

MAPE

 

 

 

 

ME

-0,00121477

 

 

 

MPE

 

 

 

 

 

 

ARIMA Model Summary

 

 

Parameter

Estimate

Stnd. Error

t

P-value

----------------------------------------------------------------------------

AR(1)

0,366778

0,25729

4,42554

0,000568

----------------------------------------------------------------------------

Backforecasting: yes

Estimated white noise variance = 0,0423153 with 13 degrees of freedom Estimated white noise standard deviation = 0,205707

Number of iterations: 1

Рисунок 3.5.17 − Панель сводных итогов авторегрессии Итоги авторегрессии показывают, что оценка авторегрессионнного

параметра значима по t -критерию. Фактический критерий Стьюдента существенно больше табличного, так как p -значение равно 0,000 568.

Следовательно, для прогнозирования обеспеченности жильем можно использовать авторегрессию первого порядка. Она имеет вид

t 0,366778 t 1

Вызовем панель Tabular Options (табличных опций) и установим флажок в поле Forecast Table (Таблица прогноза) (рисунок 3.5.18).

На рисунке 3.5.18. изображена только часть информации панели Forecast Table (Таблица прогноза). Представленные результаты свидетельствуют, что прогноз остатков увеличивается с -0,034 до - 0,002. В целом остатки отрицательно влияют на тренд.

Forecast Table for RESIDUALS

 

 

 

 

Model: ARIMA(1,0,0)

 

 

 

 

 

 

Lower

95,0%

Upper

95,0%

Period

Forecast

Limit

 

Limit

 

------------------------------------------------------------------------------

2006

-0,033

-0,478

0,411

2007

-0,012

-0,486

0,461

52

2008

-0,005

-0,482

 

0,473

 

 

2009

-0,002

-0,479

 

0,476

 

 

------------------------------------------------------------------------------

 

Рисунок 3.5.18 − Прогноз остатков

 

Итоги

прогнозирования

обеспеченности

жильем

населения

Хабаровского края сведены в таблице 3.5.1.

 

 

 

 

Таблица 3.5.1 − Результаты прогнозирования обеспеченности жильем

 

население Хабаровского края

 

 

 

 

 

 

 

 

 

Год

Прогноз по

Прогноз

 

Граница прогноза

Объединенный

прогноза

экспоненциальному

остатков

 

остатков

прогноз

 

тренду

 

 

 

 

 

 

 

 

 

 

нижняя

 

верхняя

 

 

 

 

 

 

 

 

 

2006

20,469

-0,033

 

-0,478

 

0,411

19,992

2007

20,870

-0,012

 

-0,486

 

0,461

20,384

2008

21,278

-0,005

 

-0,482

 

0,473

20,797

2009

21,695

-0,002

 

-0,479

 

0,476

21,215

Результаты прогнозирования свидетельствуют, что объединенный прогноз обеспеченности жильем меньше прогноза по экспоненциальному тренду из-за отрицательного прогноза остатков. За прогнозируемые годы обеспеченность жильем вырастет на 6,1% и к 2009 году достигнет 21,21 м2.

Контрольные вопросы к разделу 3 1. Охарактеризуйте основные типы кривых роста, наиболее часто

используемые на практике при построении трендовых моделей одномерных временных рядов.

2.Назовите важнейшие характеристики точности моделей прогнозирования.

3.Каким образом определяется значение критической статистики в тесте Дарбина − Уотсона?

4.Опишите алгоритм проверки гипотезы об отсутствии автокорреляции первого порядка в остатках модели с помощью критерия Дарбина−Уотсона.

5.Какова интерпретация коэффициентов линейной трендовой модели?

53

4. Моделирование и прогнозирование с использованием корреляционно-регрессионного анализа

4.1. Основные этапы проведения корреляционно-регрессионного анализа

Одной из наиболее важных задач статистического исследования является изучение связи между наблюдаемыми переменными и на их основе прогнозирование социально-экономических явлений. Корреляционно-регрессионный анализ предназначен для установления и измерения связей между одной зависимой и несколькими (одной) независимыми переменными.

Исходной для анализа является матрица Х размерности (n,k), элементы которой представляют собой n наблюдений для каждого из k факторов.

Корреляционно-регрессионный анализ начинается с расчета корреляционной матрицы R, размерности (k,k), состоящей из парных коэффициентов корреляции.

 

1

r12

..

r1k

 

R

r21

1

..

r21

.

.. .. .. ..

 

 

 

rk1

rk 2

..

1

 

Парный коэффициент корреляции представляет собой меру линейной зависимости между двумя переменными на фоне действия остальных рассматриваемых в анализе.

Парные коэффициенты корреляции изменяются в пределах от –1 до +1. Значение корреляции –1 показывает, что переменные связаны функциональной обратной зависимостью, а значение +1 – прямой функциональной зависимостью. Значение парного коэффициента корреляции равного 0 означает отсутствие связи между признаками.

Корреляционная матрица всегда симметрична, на главной диагонали находятся 1.

Расчет парного коэффициента корреляции производится по формуле

54

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

 

 

xy

 

x y

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

y

 

 

 

 

 

 

 

где

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x y

 

 

 

x

 

 

 

y

 

 

 

 

 

 

 

 

(x x)2

 

 

( y y)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xy

 

; x

 

; y

 

;

 

 

x

 

 

;

y

 

.

 

n

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

n

Значимость парных коэффициентов можно проверить с помощью t - критерия Стьюдента.

 

 

 

 

 

 

 

r

 

 

 

 

t

факт.

 

 

 

n

2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

1

r 2

 

 

 

 

 

 

 

Проверяемый коэффициент корреляции

считается значимым, если

 

tфакт.

 

 

tт абл. (

; df

n

2) .

 

 

 

Одним из основных препятствий эффективного применения множественного регрессионного анализа является мультиколлинеарность.

На практике о наличии мультиколлинеарности обычном судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0,8, т.е. r 0,8 , то считают, что имеет место

мультиколлинеарность.

Нахождение частных коэффициентов корреляции любого порядка является одной из задач корреляционного анализа. Порядок коэффициентов корреляции (k) − это число фиксируемых факторов.

Частный коэффициент корреляции характеризует тесноту линейной зависимости между двумя переменными при исключении влияния всех остальных показателей, входящих в модель.

Коэффициент частной корреляции первого порядка, когда элиминируется корреляция с одной переменной, определяется по формуле

ryx .x

 

 

ryx

ryx

rx x

2

 

 

 

.

 

 

1

2

1

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

(1 r 2

)(1

 

r

2

)

 

 

 

 

 

 

 

 

 

 

 

yx

 

 

 

x x

2

 

 

 

 

 

2

 

 

 

 

1

 

 

На основе коэффициентов частной корреляции первого порядка можно найти коэффициент частной корреляции второго порядка:

ryx .x

 

 

 

ryx .x

2

ryx .x

2

rx .x

x

2

 

 

.

 

 

 

1

 

 

3

1

3

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(1

r2

 

)(1

 

r2

 

 

 

)

1

2

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yx .x

2

 

 

x .x

 

x

2

 

 

 

 

 

 

 

 

3

 

 

 

1

3

 

 

 

R2
yx1 x2 ...xm xm 1 ...xk

55

Точка в подстрочных значках означает элиминирование, т.е. погашение связи x2 и x3 с y и x1 .

На основе коэффициентов частной корреляции второго порядка можно найти коэффициенты частной корреляции третьего порядка и т.д.

Коэффициент частной корреляции k -го порядка имеет вид:

r

 

 

ryx1 .x2 x3 ...xk

1

 

 

 

ryxk .x2 x3 ...xk 1 rx1 xk .x2 x3 ...xk 1

.

yx .x

x ...x

 

 

(1 r2

 

 

 

 

 

 

)(1

r2

 

 

 

 

 

 

)

 

 

1 2

3

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yx

k

.x

2

x

3

...x

k 1

x x

k

.x

2

x

3

...x

k 1

 

 

 

 

 

 

 

 

1

 

 

 

Коэффициент частной корреляции принимают значения от –1 до 1, так как они являются мерами линейных связей. По абсолютной величине коэффициенты частной корреляции изменяются в интервале 0,1 .

Значимость частных коэффициентов корреляции проверяется по тем же критериям, что и парных.

 

 

 

 

 

 

r

 

 

 

 

 

 

 

 

 

tфакт.

 

 

 

 

 

n

k

2 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

r 2

 

 

 

где r

− оценка частного коэффициента корреляции;

k

− число фиксируемых факторов.

 

 

 

Проверяемый коэффициент

корреляции

считается значимым, если

 

 

tфакт.

 

tт абл..(

;df

n

k 2) .

 

 

 

Множественный коэффициент корреляции характеризует тесноту связи между результативной переменной и независимой. Он изменяется от 0 до 1 и рассчитывается по формуле

Ryx

 

 

 

 

 

 

 

 

 

Ryx2

...x

k

Ryx2

x

2

...x

m

x

m 1

...x

k

,

 

 

 

 

 

 

 

 

 

1

 

 

 

1

 

 

 

 

 

 

 

 

.x x

 

...x

 

x

 

...x

 

1

 

Ryx2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

1

2

 

m 1

 

m 1

 

k

 

x

2

...x

m 1

x

m 1

...x

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

где Ryx2 1 ...xk − коэффициент множественной детерминации y при всех учтенных факторных переменных (включая xm );

− коэффициент множественной детерминации y без

переменной xm .

Назначение коэффициента множественной корреляции состоит в оценке качества уровня множественной регрессии: чем больше значение R , чем ближе оно к единице, тем лучше уравнение регрессии, тем надежнее результаты анализа или прогноза на его основе.

56

Значимость множественного коэффициента корреляции проверяется на основе F -критерию.

Фактическое значение находится по формуле

F

R2

 

n m 1

,

факт.

1 R2

 

m

 

 

где n − число наблюдений;

m − число факторов в уравнении.

Если Fфакт. Fтабл. ( ;df1 m;df2 n m 1) , то множественный коэффициент корреляции считается значимым.

Показателями тесноты связи можно дать качественную оценку на основе шкала Чеддока:

Количественная мера тесноты

Качественная характеристика

связи*

силы связи

0,1 − 0,3

Слабая

0,3 − 0,5

Умеренная

0,5 − 0,7

Заметная

0,7 − 0,9

Высокая

0,9 − 0,99

Весьма высокая

 

 

*Значения коэффициентов следует брать по модулю.

Функциональная связь возникает при значении, равном 1, а отсутствие связи – 0.

Регрессионный анализ является статистическим методом изучения

зависимости случайной величины Y от переменных X j ( j

1,2,...k) .

Математически

корреляционная

зависимость

результативной

переменной от нескольких факторных переменных описывается уравнением множественной регрессии.

Уравнение регрессии характеризует среднее изменение y с применением признаков-факторов.

Построение уравнения регрессии решает две задачи: выбор признаков факторов и тип уравнения.

Решение первой задачи основывается на анализе матрицы парных коэффициентов корреляции и выделение тех переменных, для которых

ryx

 

rx x

(i j) . Не рекомендуется совместно включать в модель

 

j

i

j

57

 

объясняющие переменные, тесно связанные между собой. При ryx j

0,8

переменные xi и x j дублируют друг друга, и совместное включение

их в

уравнение регрессии не дает дополнительной информации для объяснения вариации y .Такое явление называется мультиколлинеарностью и в уравнение регрессии следует включать только одну из переменных xi или x j .

Чтобы избавиться от этого негативного явления, обычно используют алгоритм пошагового регрессионного анализа или строят уравнение регрессии на главных компонентах.

Не следует включать совместно признаки, представленные как абсолютные, средние и относительные величины. Не рекомендуется включать в модель признаки, функционально связанные с зависимой переменной y (являются составной частью y ).

Необходимо принять во внимание частные коэффициенты корреляции для каждого признака-фактора. Их значение свидетельствует о возможности включения в регрессионную модель той или иной зависимой переменной.

Решение второй задачи опирается на простоту интерпретации результатов многофакторного регрессионного анализа: чем проще тип уравнения множественной регрессии, тем очевиднее интерпретация его параметров и предпочтительнее выбор модели для анализа производства прогноза и принятия решений.

Для выбора типа аналитического выражения для описания линии регрессии могут использоваться любые математические функции, но обычно выбирают из пяти следующих типов:

 

ˆ

a0

 

a1 x1

 

a2 ...

 

ak xk

;

 

 

 

 

 

 

 

- линейная: у

 

 

 

 

 

 

 

 

 

 

 

- степенная: уˆ

a

0

xa1

 

xa2

xa3

... xak

;

 

 

 

 

 

 

 

 

 

 

1

 

 

2

3

 

 

 

 

 

k

 

 

 

 

 

 

 

 

- показательная:

ˆ

e

a0 a1x1

a2 x2

a3 x3 ...

ak xk

;

 

 

 

 

 

 

у

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

- параболическая:

уˆ

 

a

0

a x2

 

a

2

x2

 

... a

k

x2

;

 

 

 

 

 

 

 

1

 

1

 

 

 

2

 

 

 

 

 

k

 

-

гиперболическая:

ˆ

 

a0

a1

 

a2

 

...

 

ak

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

у

 

x

 

x

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

58

На практике наиболее часто используют линейное уравнение множественной регрессии:

уˆ x x ...x

a0 a1 x1 a2 x2 ... ak xk .

1

2

3

Коэффициенты регрессии линейного уравнения множественной регрессии ai показывают, на сколько единиц в среднем изменяется y при изменении xi на свою единицу измерения и закрепления прочих, введенных в уравнение факторных переменных на среднем уровне.

Так как все включенные переменные xi имеют свою размерность, то сравнивать ai нельзя; по величине ai нельзя сделать вывод, что одна переменная влияет сильнее на y , а другая слабее.

При проверке адекватности моделей, построенных на основе уравнений регрессии, начинается с проверки значимости каждого коэффициента

регрессии.

 

 

 

 

 

 

 

 

 

 

 

 

Значимость коэффициентов

регрессии

осуществляется с помощью

t −критерию Стьюдента:

 

 

 

 

 

 

 

 

 

 

 

 

 

tфакт.

 

 

ai

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ai

 

 

 

 

где a2 − дисперсия коэффициентов регрессии.

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

y

1 R2

 

 

 

 

 

 

 

,

ai

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

1

R2

 

 

 

 

 

xi

 

 

 

 

 

 

 

где R2 − множественный коэффициент детерминации.

Параметры модели признаются статистически значимыми, если

tфакт. tт абл. ( ; df

n

m 1) .

Проверка адекватности всей модели осуществляется с помощью расчета F −критерий по формуле

 

 

 

 

1 2

 

 

 

 

 

 

 

yk

 

 

 

 

 

 

 

 

 

Fфакт.

 

 

 

m

 

,

 

1

 

 

2

 

 

 

 

 

( yi yk )

 

 

 

 

n

m

1

 

 

 

 

 

 

 

если Fфакт. Fтабл. ( ; df1 m; df2 n

m

1) , то модель признается значимой.

При адекватности уравнения регрессии исследуемому процессу возможны следующие варианты.

59

1.Построенная модель на основе ее проверки по F -критерию Фишера в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений к осуществлению процессов.

2.Модель F -критерию Фишера адекватна, но часть коэффициентов регрессии незначима. В этом случае модель пригодна для принятия некоторых решений, но не для производства прогнозов.

3.Модель по F -критерию Фишера адекватна, но все коэффициентов регрессии незначимы. Поэтому модель полностью считает неадекватной. На ее основе не принимаются решения и не осуществляются прогнозы.

С целью расширения возможностей экономического анализа

рассчитывают коэффициенты эластичности

Эi ,

-коэффициенты

(стандартизованные коэффициенты регрессии),

-коэффициенты. На их

основе можно определить степень влияния факторной переменной на результат.

Коэффициент эластичности характеризует, на сколько процентов увеличивается У при увеличении Хi на один процент и рассчитывается по формуле

Эi ai xyi .

-коэффициенты показывают, на какую часть среднеквадратического отклонения ( y ) изменится зависимая переменная У с изменением соответствующего фактора Хi на величину своего среднеквадратического отклонения ( xi ). Этот коэффициент позволяет сравнить влияние колеблемости различных факторов на вариацию исследуемого показателя, на основе чего выявляются факторы, в развитии которых заложены наибольшие резервы изменения результативного показателя:

 

a

xi

.

i

 

i

y

Чтобы оценить долю вариации каждого фактора в суммарном влиянии факторов, включенных в уравнение регрессии, рассчитывают - коэффициенты:

i

ryx

i

i

 

 

ryx

i

i

.

 

 

 

 

 

 

 

 

 

 

 

r

yx

i

i

R 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

60

4.2. Прогнозирование на основе множественной корреляционнорегрессионной модели с помощью пакета STATGRAFICS

В системе STATGRAFICS реализовано несколько методов корреляционно-регрессионного анализа, позволяющих установить связь между результативным признаком и одним или более факторными переменными. В основном модуле Relate (Связи) представлены:

-Simple Regression (простая регрессия);

-Polynomial Regression (полиномиальная регрессия);

-Multiple Regression (множественная регрессия) В этом модуле реализована возможность пошаговой регрессии.

С целью исключения мультиколлинеарных факторов построим множественную линейную модель, используя пошаговую регрессию.

Матрица исходной информации представлена в Приложении Б. В качестве исходной информации, используются следующие показатели:

У− средняя обеспеченность населения жильём всего м2 общей площади на одного жителя;

Х2 − средняя стоимость строительства за 1 м 2 ., руб (в сопоставимых ценах);

Х3 − денежные доходы в расчете на душу населения в среднем за месяц, тыс.руб. (в сопоставимых ценах);

Х4 − удельный вес частного жилого фонда, %; Х5 − удельный вес числа семей, состоящих на учете для получения

жилья, в общем числе семей, %; Х6 − удельный вес семей улучшивших свои жилищные условия в % от

числа семей, состоящих на учете на получение жилья; Х7 − капитально отремонтированных жилых домов за год, всего тыс.

м 2 , общей площади; Х8 − индекс потребительских цен (декабрь текущего года в % к декабрю

предыдущего года); Х9 − численность безработных, человек;

Х10 − ввод в действие жилых домов, тыс. м2 общей площади; Х11 − инвестиции в жилища млн руб. (в сопоставимых ценах).

В главном меню выбираем модуль Relate (связи) и находим процедуру Multiple Regression (множественная регрессия). Система STATGRAFICS покажет входную панель множественной регрессии (рисунок 4.2.1)

61

Dependent Variable – зависимая переменная; Independent Variable – независимые переменные; Select – выбрать; Weights – веса.

Рисунок 4.2.1 – Входная панель процедуры Multiple Regression (множественная регрессия)

После нажатия клавиши OK появится окно с предварительными результатами анализа (рисунок 4.2.2).

Multiple Regression Analysis

-----------------------------------------------------------------------------

Dependent variable: Y

---------------------------------------------------------------------------

 

 

Standard

T

 

Parameter

Estimate

Error

Statistic

P-Value

-----------------------------------------------------------------------------

CONSTANT

10,861

2,001

5,428

0,012

X1

-0,138

0,571

-0,241

0,825

X10

0,539

0,359

1,501

0,230

X2

1,808

2,109

0,857

0,454

X3

0,127

0,026

4,976

0,016

X4

0,098

0,040

2,431

0,093

X5

-0,169

0,174

-0,969

0,404

X6

0,000

0,000

0,338

0,757

X7

-0,001

0,001

-1,354

0,269

X8

0,000

0,000

-0,979

0,399

X9

0,003

0,003

1,088

0,356

-----------------------------------------------------------------------------

Analysis of Variance

-----------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value

-----------------------------------------------------------------------------

Model

27,413

10

2,741

80,89

0,002

Residual

0,102

3

0,034

 

 

-----------------------------------------------------------------------------

Total (Corr.)

27,5143

13

R-squared = 99,6305 percent

R-squared (adjusted for d.f.) = 98,399 percent

Standard Error of Est. = 0,184

Mean absolute error = 0,069

Durbin-Watson statistic = 2,875

62

Рисунок 4.2.2 − Предварительные результаты построения модели Щелкнем правой кнопкой мыши, появится меню, в котором нужно

выбрать Analysis Options (опции анализа) для вызова пошаговой регрессии.

Процедура пошаговой регрессии дает возможность автоматического подбора адекватной модели. При этом используются два основных подхода: Forward Selection (включения факторов) или Backward Selection

(исключения факторов) (рисунок 4.2.3).

Fit – подбирать; All Variable – все переменные; Forward Selection − включение факторов; Backward Selection − исключение Факторов; Constant in Model

свободный член модели; F-to-Enter – включение; F-to-Removeисключение; Max Steps – максимальное число шагов; Display – показать; Final Model Only – только заключительная модель; All Steps – все шаги.

Рисунок 4.2.3 – Окно Multiple Regression Option (опции множественной регрессии). Модель пошаговой регрессии

Флажок в поле Constant in Model (свободный член модели) предполагает наличие в модели свободного члена. Установлено также , что F-критерий для включения (F-to-Enter) и исключения (F-to-Remove) независимых переменных равен 4. Максимальное количество шагов при построении модели (Max Steps) − 50. Флажок в поле All Steps (все шаги)

63

требует вывод на экран всех промежуточных этапов построения уравнения регрессии.

Отметив поле Forward Selection (включения факторов) и Final Model Only получим результаты заключительной модели (промежуточные этапы построения модели не показаны) (рисунок 4.2.4).

Multiple Regression Analysis

-----------------------------------------------------------------------------

Dependent variable: Y

-----------------------------------------------------------------------------

 

 

Standard

T

 

Parameter

Estimate

Error

Statistic

P-Value

-----------------------------------------------------------------------------

CONSTANT

9,994

0,955

10,469

0,000

X10

0,156

0,036

4,330

0,002

X2

3,809

1,029

3,702

0,005

X3

0,120

0,0126

9,521

0,000

X4

0,069

0,025

2,739

0,023

-----------------------------------------------------------------------------

Analysis of Variance

-----------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value

-----------------------------------------------------------------------------

Model

27,272

4

6,818

252,92

0,000

Residual

0,243

9

0,027

 

 

-----------------------------------------------------------------------------

Total (Corr.)

27,5143

13

R-squared = 99,118 percent

R-squared (adjusted for d.f.) = 98,726 percent

Standard Error of Est. = 0,164

Mean absolute error = 0,098

Durbin-Watson statistic = 2,026

Stepwise regression

-------------------

Method: forward selection F-to-enter: 4,0 F-to-remove: 4,0

Final model selected

Рисунок 4.2.4 − Окончательные результаты выбора модели Основные результаты расчета сведены в две таблицы: в первой

отражены результаты регрессионного анализа, во второй представлен дисперсионный анализ. Внизу показана дополнительная информация: R- squared – коэффициент детерминации; R-squared (adjusted for d.f.) −

коэффициент детерминации, приведенный с учетом степеней свободы;

Standard Error of Est. (SE) – стандартная ошибка оценивания; Mean

64

absolute error –стандартная ошибка оценивания; Durbin-Watson statistic

статистика Дарбина−Уотсона.

На основе частных F-критериев из 10 независимых переменных в модель средней обеспеченности населения жильём всего м2 общей площади на одного жителя включены 4 фактора: средняя стоимость строительства за 1 м2, руб (в сопоставимых ценах) (Х2); денежные доходы в расчете на душу населения в среднем за месяц, тыс.руб. (в сопоставимых ценах) (Х3); удельный вес частного жилого фонда, % (Х4); ввод в действие жилых домов, тыс. м2 общей площади; (Х10). Построена следующая модель:

Y=9,994 + 3,809*X2 + 0,120*X3 + 0,069*X4+ 0,156*X10

Все отобранные факторы статистически значимы, так как фактический t-критерий Стьюдента больше табличного (приложение В). Об этом свидетельствует графа 5 таблицы рисунка 4.2.4 (P-Value), в которой отражены вероятности наиболее существенных факторов динамики средней обеспеченности населения жильём.

Дисперсионный анализ (Analysis of Variance) позволяет получить F- критерий для оценки адекватности модели. Представленные на рисунке 4.2.4 данные свидетельствуют о хорошей адекватности модели. Фактический критерий Фишера (F-Ratio), равный 252,92, в 69,7 раза больше табличного значения. Стандартная ошибка остатков (Standard Error of Est.) составляет 0,164. Приведенный с учетом степеней свободы коэффициент детерминации (R-squared (adjusted for d.f.) равный 98,726% свидетельствует о том, что вариация средней обеспеченности населения жильём на 98,7% обусловлена включенными в модель факторами. Статистика Дарбина–Уотсона (Durbin-Watson statistic), составляющая 2,026, говорит об отсутствии автокорреляции (рисунок 4.2.5 и приложение А).

2,026

 

 

 

 

есть

0,69

? 1,97 нет 2,03 ?

3,31 есть

(+)

 

 

(-)

Рисунок 4.2.5 − Таблица определения наличия или отсутствия автокорреляции на основе критерия Дарбина −Уотсона

65

На рисунке 4.2.6 приведено также неполное содержание окна статистического консультанта (Stat Advisor). Внизу рисунка дополнительно дан русский перевод.

Таким образом, по всем проверенным критериям полученное уравнение регрессии имеет статистически значимые коэффициенты, сама модель является типичной, без автокорреляции в остатках, следовательно, данное уравнение можно использовать для получения достоверных и точных прогнозов.

The StatAdvisor

The output shows the results of fitting a multiple linear regression model to describe the relationship between Y and 10 independent variables. The equation of the fitted model is

Y = 9,994 + 0,156*X10 + 3,809*X2 + 0,120*X3 + 0,069*X4

Since the P-value in the ANOVA table is less than 0.01, there is a tatistically significant relationship between the variables at the 99% confidence level.

The R-Squared statistic indicates that the model as fitted explains 99,1183% of the variability in Y. The adjusted R-squared statistic, which is more suitable for comparing models with different numbers of independent variables, is 98,7264%. The standard error of the estimate shows the standard deviation of the residuals to be 0,164184. This value can be used to construct prediction limits for new observations by selecting the Reports option from the text menu.The mean absolute error (MAE) of 0,0978855 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the DW value is greater than 1.4, there is probably not any serious autocorrelation in the residuals.

Вывод показывает результаты построения модели линейной регрессии между Y и 10 независимыми переменными. Уравнение регрессионной модели имеет вид:

Y = 9,994 + 0,156*X10 + 3,809*X2 + 0,120*X3 + 0,069*X4

Так как P-значение в таблице дисперсионного анализа меньше чем 0.01, то имеется статистически существенная связь между анализируемыми переменными при уровне доверия 99%.

Коэффициент детерминации (R-Squared) указывает, что 99,118% дисперсии зависимой переменной Y объясняется включенными в модель факторами. Скорректированный R-squared, который является более подходящим для сравнения моделей с различным количеством независимых переменных, равен 98,726%. Стандартная ошибка оценивания, означающая среднеквадратическое отклонение остатков, равна 0,164. это значение может быть использовано при расчете доверительных интервалов для новых наблюдений при выборе пункта Reports из табличных опций.

Средняя абсолютная ошибка (MAE) – 0,098 – средняя оценка residuals (остатков). Статистика Дарбина – Уотсона (DW) свидетельствует об отсутствии автокорреляции остатков.

Рисунок 4.2.6 − Окно Stat Advisor с русским переводом.

Дадим интерпретацию коэффициентов уравнения. Из построенной модели видно, что при увеличении средней стоимости строительства за 1 м2, на 1 рубль показатель обеспеченности возрастает на 3,809 м2; при росте среднедушевых месячных доходов населения на 1 тыс. руб. средняя обеспеченность населения края жильем увеличится на 0,12 м2 на человека; при увеличении удельного веса частного жилого фонда на 1% обеспеченность возрастает на 0,069 м2; при повышении ввода в действие

 

 

66

 

 

 

жилых домов 1 тыс. м2

общей

площади

средняя обеспеченность

увеличивается на 0,156 м2.

 

 

 

 

Расчет

коэффициентов

эластичности

Эi ,

-коэффициентов

(стандартизованные коэффициенты

регрессии),

-коэффициентов

позволит определить степень влияния факторной переменной на результат. Рассмотрим принципы анализа степени влияния факторов на нашем

примере (таблица 4.2.1.) ( y

17,76 ;

y

2,12 ; R 2

0,991).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 4.2.1 − Расчет коэффициентов эластичности,

-коэффициентов,

 

 

 

 

 

 

-коэффициентов

 

 

 

 

 

 

Фак-

ai

x

x

 

ryx

 

 

i

 

Эi

i

 

Ранг факторов

 

торы

 

 

i

 

 

i

 

 

 

 

 

 

 

Эi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x2

3,809

0,304

0,01

 

-0,237

 

0,018

 

0,065

-0,004

4

 

3

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x3

0,120

43,807

188,5

 

-0,789

 

10,670

 

0,296

-8,493

1

 

1

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x4

0,069

17,929

36,50

 

-0,970

 

1,188

 

0,070

-1,163

2

 

2

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x10

0,156

0,851

3,49

 

-0,300

 

0,256

 

0,008

-0,078

3

 

4

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если сопоставить значения коэффициентов эластичности, то можно видеть, что главным фактором изменения результативного показателя является фактор Х3 (денежные доходы в расчете на душу населения в среднем за месяц, тыс.руб.). При его увеличении на 1% У (средняя обеспеченность населения жильём всего м2 общей площади на одного жителя) возрастает на 0,296%. Вторым по силе влияния на результат является фактор Х4 (удельный вес частного жилого фонда, %). С ростом этой переменной на 1% средняя обеспеченность жильем на 0,07%. Третьим – фактор Х2 (средняя стоимость строительства за 1 м2, руб), с увеличением этого фактора на 1% средняя обеспеченность возрастает на 0,065%. Самым незначительным влиянием обладает переменная Х10 (ввод в действие жилых домов, тыс. м2 общей площади), с ростом этого фактора на 1% обеспеченность жильем населения края увеличивается на 0,008%.

Сравнение i позволяет сделать вывод, что с учетом уровня колеблемости факторов наибольшие резервы в изменении результативного показателя заложены в увеличении фактора Х3.

Сопоставление значений коэффициентов i позволяет сделать вывод, что наибольшую долю влияния имеет фактор Х3. Роль этого фактора в вариации средней обеспеченности населения жильем составляет 849,3%

67

общего влияния двух факторов на результативный показатель. Доля влияния второго фактора Х4 значительно уступает и составляет 116,3%, а третьего фактора – 7,8%

Следовательно, наибольшие возможности в изменении выручки от реализации У связаны с изменением факторов Х3 (денежные доходы в расчете на душу населения в среднем за месяц, тыс. руб.) и Х4 (удельный вес частного жилого фонда, %)

Для построения прогноза по множественной корреляционнорегрессионной модели построим отдельно для каждого фактора его регрессию на фактор времени, другими словами построим трендовые модели, а также прогноз для каждого фактора. Выбор формы тренда и построение прогноза проводим в соответствии с методикой, описанной ранее (раздел 3.5)(таблица 4.2.2).

Таблица 4.2.2 − Трендовые модели для факторов, включенных во множественную корреляционно-регрессионную модель

Факторы

 

Трендовая модель

Х 2

 

уˆ ехр(

157,041

0,078t)

Х 3

yˆ

423332,0

420,48t

0,104t 2

Х 4

 

yˆ

2736,77

1,360t

Х 5

yˆ

287014,0

286,994t

0,072t 2

Используя трендовые модели, представленные в таблице 4.2.2 построим точечные и интервальные прогнозы по исследуемым факторам (таблица

4.2.3).

Таблица 4.2.3 − Прогнозные значения факторов, включенных во множественную корреляционно-регрессионную модель.

Год прогноза

Точечный прогноз

 

Граница прогноза

 

 

 

нижняя

верхняя

 

 

Х2

 

2006

0,515

 

0,365

0,728

2007

0,557

 

0,391

0,795

2008

0,602

 

0,418

0,868

2009

0,651

 

0,447

0,948

 

 

Х3

 

2006

63,729

 

56,124

71,334

2007

65,271

 

56,534

74,008

2008

66,605

 

56,423

76,787

2009

67,730

 

55,809

79,651

 

 

Х4

 

2006

7,725

 

2,443

13,008

2007

6,365

 

0,943

11,787

68

 

 

 

 

Продолжение таблицы 4.2.3

2008

5,044

 

-0,569

 

10,578

2009

3,644

 

-2,382

 

9,382

 

 

Х10

 

 

2006

1,949

 

-1,864

 

5,763

2007

2,861

 

-1,519

 

7,241

2008

3,916

 

-1,189

 

9,021

2009

5,115

 

-0,962

 

11,091

Полученные прогнозные значения подставим в уравнение множественной регрессии:

Y=9,994 + 3,809*X2 + 0,120*X3 + 0,069*X4+ 0,156*X10.

В результате подстановки получим прогнозные значения, которые приведены в таблице 4.2.4.

Таблица 4.2.4 – Прогнозные значения и доверительные интервалы средней обеспеченности жильем жителей Хабаровского края, полученные

на основе множественной регрессии

Год прогноза

Точечный прогноз

Граница прогноза

 

 

нижняя

верхняя

2006

20,419

17,979

23,096

2007

20,812

18,078

23,816

2008

21,217

18,117

24,621

2009

21,629

18,065

25,511

Результаты прогноза показывают, что население Хабаровского края в ближайшем будущем ожидает повышение средней обеспеченности жильем (в основном за счет роста денежных доходов). К 2009 году средняя обеспеченность жильем составит 21,63 м2 на человека, т.е. возрастет по сравнению с 2005 годов на 8,7% (среднегодовой темп прироста составит

2,1%).

Контрольные вопросы к разделу 4

1.Охарактеризуйте основные этапы прогнозирования по множественной корреляционно-регрессионной модели.

2.С помощью каких критериев можно оценить адекватность множественной корреляционно-регрессионной модели?

3.В чем сущность пошаговой регрессии? Какие виды пошаговой регрессии реализованы в пакете STATGRAFICS?

69

4.На основе каких показателей можно определить наиболее значимые факторы влияния на результат?

5.Каким образом проводится прогноз по множественной регрессии в системе STATGRAFICS?

5.Периодизация социально-экономических процессов

5.1. Условия временной периодизации

Главное условие проведения статистического анализа – однородность данных. Однородность совокупности реализуется либо на основе типологической группировки, либо на основе многомерной группировки (кластерный анализ, распознавания образов и т.п.). Во временных рядах эта проблема решается с помощью периодизации – разбиение динамических рядов на интервалы однокачественного развития.

При изучении хронологических аспектов массовых процессов приходится решать несколько задач:

-характеристика интенсивности изменений в уровнях показателей от периода к периоду, от даты к дате;

-определение средних значений изучаемых параметров;

-выявление закономерностей изменений явлений во времени;

-интерполяция и экстраполяция;

-изменение факторов, детерминирующих динамику явлений.

Как правило, качественному скачку в динамике процесса, приводящего к смене закономерности, предшествует его непрерывное количественное изменение.

Периодизация динамики представляет собой процесс выделения однокачественных этапов (периодов) развития, расчленения динамических рядов на однородные интервалы. По существу, периодизация является своеобразной типологической группировкой, в которой в качестве элементов совокупности, подлежащей разбиению, выступают уровни изолированного или комплексного хронологического ряда.

Принято считать однородными такие хронологические интервалы, в пределах которых изменение уровней ряда подчинено одному закону

70

развития. Однородным считается промежуток времени, удовлетворяющий одной из следующих ситуаций, имеющих конкретную интерпретацию:

1)yti yt j C1 - равенство уровней ядра (здесь и далее равенство

понимается в статистическом смысле);

2)yti yt j C2 − равенство абсолютных приростов (постоянная

скорость изменения уровней ряда);

3)yti yt j C3 − равенство вторых абсолютных разностей

(постоянное ускорения или замедление изменений уровней ряда);

4)

 

yt

i

 

 

C4

− равенство цепных темпов роста.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yt

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

Здесь ti,t j

 

− отдельные моменты или периоды времени;

yt

i

 

 

yt

i

 

yt

i 1

− цепной абсолютный прирост;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yt

 

 

 

( yt

 

 

yt

)

( yt

 

yt

) − вторая разность уровней ряда динамики.

 

 

 

i

 

 

 

 

i

 

 

i 1

 

i 1

 

i 2

Существует несколько методов периодизации: многомерная средняя; кластерный анализ; факторный анализ; дендриты и другие методы многомерной классификации. Рассмотрим один из наиболее простых методов – кластерный анализ, который реализован в пакете

STATGRAFICS.

Кластерный анализ – совокупность многомерных статистических методов классификации объектов, основанных на представлении результатов отдельных наблюдений точками соответствующего геометрического пространства с последующим выделением групп как «сгустков» этих точек (кластеров, таксонов).

К кластерному анализу относятся методы автоматической классификации без обучения, основанные на определении понятия расстояния между объектами и не требующей априорной информации о распределении генеральной совокупности.

Кластерный анализ предполагает выделение компактных, удаленных друг от друга объектов, отыскивает «естественное» разбиение совокупности на области скопления объектов. Используется, когда исходные данные представлены в виде матриц близости или расстояний между объектами либо в виде точек в многомерном пространстве.

71

Наиболее распространены данные второго вида, для которых кластерный анализ ориентирован на выделение некоторых геометрически удаленных групп, внутри которых объекты близки.

Выбор расстояния между объектами является центральным моментом исследования, от него во многом зависит окончательный вариант разбиения объектов на классы при данном алгоритме разбиения. В задачах кластерного анализа широко используются расстояния Махаланобиса, «обычное и «взвешенное» Евклидово расстояние, Хемингово расстояние и расстояния, измеряемые по принципу «ближайшего соседа» и «дальнего соседа», по «центру тяжести» групп.

Выбор расстояния определяется в первую очередь структурой признакового пространства и целью классификации. Наиболее трудным считается определение однородности объектов, которые задаются

введением расстояния между объектами хi

и x j ( (xi , x j )) .

Объекты будут однородными в случае

(xi , x j ) пор ,где пор − заданное

пороговое значение.

 

5.2. Периодизация на основе кластерного анализа, реализованного в пакете STATGRAFICS

ВSTATGRAFICS реализовано 6 видов иерархических агломеративных процедур и одна неиерархическая процедура кластерного анализа типа k - средних. Последняя использует начальный набор зарождающихся точек, указанных исследователем. Зарождающие точки – это отдельные элементы данных, которые применяются для «запуска» процесса кластеризации.

Восновном модуле Special (специальный) выберем пункт Multivariate Methods (многомерные методы). В открывшемся меню найдем пункт Cluster Analysis (кластерный анализ) появится окно Кластерного анализа (рисунок 5.2.1).

72

Рисунок 5.2.1 – Окно модуля Cluster Analysis (кластерный анализ)

Заполним

панель

кластерного

анализа.

Система

выдаст

предварительную сводку (рисунок 5.2.2).

 

 

 

 

Analysis Summary

 

 

 

 

 

 

 

 

----------------

 

 

 

 

 

 

 

 

Data variables:

 

 

 

 

 

 

 

 

 

X1

 

 

 

 

 

 

 

 

 

 

X10

 

 

 

 

 

 

 

 

 

 

X2

 

 

 

 

 

 

 

 

 

 

X3

 

 

 

 

 

 

 

 

 

 

X4

 

 

 

 

 

 

 

 

 

 

X5

 

 

 

 

 

 

 

 

 

 

X6

 

 

 

 

 

 

 

 

 

 

X7

 

 

 

 

 

 

 

 

 

 

X8

 

 

 

 

 

 

 

 

 

 

X9

 

 

 

 

 

 

 

 

 

 

Y

 

 

 

 

 

 

 

 

 

Number of complete cases: 14

 

 

 

 

 

 

Clustering Method: Nearest Neighbor (Single Linkage)

 

 

 

Distance Metric: Squared Euclidean

 

 

 

 

 

Cluster

Members

 

Percent

 

 

 

 

 

 

---------------------------

 

 

 

 

 

 

1

 

14

 

100,00

 

 

 

 

 

 

---------------------------

 

 

 

 

 

 

Centroids

 

 

 

 

 

 

 

 

 

Cluster

X1

X10

X2

X3

X4

X5

X6

X7

X8

------------------------------------------------------------------------------------------

1 0,836 0,851 0,304 43,807 17,929 5,507 1013,47 424,919 23750,7

------------------------------------------------------------------------------------------

Cluster X9 Y

-----------------------------------

1 228,407 17,757

-----------------------------------

Рисунок 5.2.2 − Окно предварительной сводка кластерного анализа

73

Выберем пункт Analysis Options (опции анализа) система покажет панель Cluster Analysis Options (опции кластерного анализа) (рисунок

5.2.3).

Method − метод ; Nearest Neighbor – ближнего соседа; Furthest Neighbor –

дальнего соседа; Centroid − центроид; Median − медиана; Group Average - групповые средние ; Ward's – метод Уорда; k-Means - k-средних ; Number of Clusters –

количество кластеров; Distance Metric – метрическое расстояние; Squared Euclidean – взвешенное Эвклидово; Euclidian - эвклидово; City Block – сити блок; Cluster

кластер; Observations - наблюдения; Variables - переменные; Standardize

стандартизировать.

Рисунок 5.2.3 – Панель Cluster Analysis Options (опции кластерного анализа)

В области Method (метод) установим переключатель Furthest Neighbor (дальнего соседа), т.е. кластеризация будет проводиться методом дальнего соседа. Активизируем переключатель метрических расстояний Euclidian (эвклидово расстояние). Отметим флажком поле Standardize (стандартизировать) для нормирования входных переменных. В поле Number of Clusters (количество кластеров) введем цифру три. Переключатель Cluster (кластер) оставим без изменения, т.е. разобьем динамический ряд на три периода (рисунок 5.2.3).

После активизации кнопки OK система выдаст сводку (рисунок 5.2.4).

74

Analysis Summary

----------------

Data variables: X1

X10

X2

X3

X4

X5

X6

X7

X8

X9

Y

Number of complete cases: 14

Clustering Method: Furthest Neighbor (Complete Linkage)

Distance Metric: Euclidean

Cluster

Members

Percent

---------------------------

1

3

21,43

2

7

50,00

3

4

28,57

---------------------------

 

 

 

 

 

Centroids

 

 

 

 

 

 

 

Cluster

X1

X10

X2

X3

X4

X5

X6

X7

------------------------------------------------------------------------------------------

1

0,363

3,139

0,186

25,267

25,767

8,667

513,6

1497,57

2

0,928

0,199

0,274

43,2

18,157

5,443

1516,51

142,271

3

1,029

0,273

0,445

58,775

1,65

3,25

508,05

115,068

------------------------------------------------------------------------------------------

Cluster X8 X9 Y

-----------------------------------

1

10174,3

400,8

16,0

2

30380,0

191,971

17,457

3

22331,8

162,875

19,6

-----------------------------------

Рисунок 5.2.4 − Сводка кластерного анализа Данные кластеризации свидетельствуют, что методом дальнего соседа

образованы три кластера. В первый кластер входят 3 наблюдения, или 21,43% всех анализируемых лет. Второй кластер включает 7 лет, или 50% всех наблюдений. Третий кластер содержит 4 года, или 28,57% совокупности наблюдений. Система также рассчитала центроидные значения переменных. Средняя обеспеченность жильем населения края самого наихудшего периода социально-экономического развития края составила 16 м2. В период становления рыночных отношений средняя обеспеченность жильем немного выросла и достигла 17,5 м2. Период

75

стабилизации характеризуется наиболее высоким показателем обеспеченности – 19,6 м2 (рисунок 5.2.4).

Вызовем панель табличных опций (рисунок 5.3.5) и установим флажок в поле Membership Table (таблица принадлежности наблюдений) STATGRAFICS выведет указанную таблицу, которая представлена на рисунке 5.2.6.

Analysis Summary – резюме анализа; Membership Table − таблица принадлежности наблюдений; Icicle Plot – область кластеров; Agglomeration Schedule

– накопительный список.

Рисунок 5.2.5 – Панель Tabular Option (табличные опции).

Данные свидетельствуют: наихудший период развития включает 1992−1994 годы, период становления − 1995−2001 годы и период стабилизации −2001−2005годы (рисунок 5.2.6).

Membership Table

----------------

Clustering Method: Furthest Neighbor (Complete Linkage) Distance Metric: Euclidean

Row Label Cluster

--------------------------------

1

1992

1

2

1993

1

3

1994

1

4

1995

2

5

1996

2

6

1997

2

7

1998

2

8

1999

2

9

2000

2

10

2001

2

11

2002

3

12

2003

3

13

2004

3

14

2005

3

--------------------------------

Рисунок 5.2.6 − Группировка динамического ряда по кластерам (периодам)

76

Проведенный анализ можно дополнить рядом графиков. Активизируем панель графических опций (рисунок 5.2.7).

Dendrogram – дендрограмма; 2D Scatterplot – двумерная диаграмма; 3D Scatterplot − трехмерная диаграмма; Agglomeration Distance Plot – график накопленных расстояний.

Рисунок 5.2.7 − Панель Graphical Option (графические опции)

Установим флажок в поле Dendrogram (дендрограмма). Система построит указанный график (рисунок 5.2.8).

Dendrogram

Distance

Furthest Neighbor Method,Euclidean

6

5

4

3

2

1

0

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

Рисунок 5.2.8 − Дендрограмма периодизации

На дендрограмме по вертикальной оси отложено расстояние для каждого шага выполнения агломеративного иерархического алгоритма классификации. По горизонтальной оси показаны номера лет в соответствии с проведенным кластерным анализом.

77

Контрольные вопросы к разделу 5

1.Что представляет собой периодизация динамики?

2.Перечислите основные методы периодизации?

3.Перечислите задачи, решаемые при помощи методов кластерного анализа.

4.Назовите две основные группы методов кластерного анализа.

5.Какие меры сходства используются при проведении многомерной классификации?

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]