- •Оглавление
- •Лабораторная работа 1. Корреляционный анализ
- •Лабораторная работа 2. Регрессионный анализ
- •1. Парная регрессия
- •2. Многомерная регрессия
- •3. Сравнение регрессий
- •Лабораторная работа 3. Сглаживание временного ряда
- •Лабораторная работа 4. Анализ временного ряда по методу бокса-дженкинса
- •Лабораторная работа 5. Факторный анализ
- •Лабораторная работа 6. Кластерный анализ
- •Лабораторная работа 7. Многомерное шкалирование
- •Список рекомендуемой литературы
- •Приложение 1. Статистические таблицы
- •Приложение 2. Список сокращений и терминов, встречающихся в экранных формах, и их значение.
- •Приложение 3. Варианты исходных данных для лабораторной работы «Регрессионный анализ»
- •Приложение 4. Указания по выполнению работы «Кластерный анализ»
- •Приложение 5. Пример отчета
- •Кластеризация методом к-средних
- •Построение дендрограммы
- •Анализ и классификация
Лабораторная работа 4. Анализ временного ряда по методу бокса-дженкинса
(интегрированная модель авторегрессии – скользящего среднего)
Цель: привитие умения и навыков построения интегрированной модели авторегрессии – скользящего среднего временного ряда общего вида.
ТЕОРЕТИЧЕСКАЯ ЧАСТЬ
Основные положения метода Бокса-Дженкинса
Рассматривается временной ряд общего вида, содержащий в качестве компонент полиномиальную трендовую составляющую, сезонный эффект, авторегрессионный процесс, в котором допускается коррелированность остатков, и эти корреляции генерированы скользящим средним случайных возмущений.
В методе Бокса-Дженкинса проблема исключения тренда решается путем перехода к разностям ряда подходящего порядка, обеспечивающего их стационарность. Если ввести оператор сдвига назад В, определяемый соотношением Byt=yt-1, то разность назад первого порядка запишется так:
yt – yt-1 = yt – Byt = (1 –B)yt,,
а разность порядка d – как (1 – B)dyt.
С учетом введенных обозначений модель ряда с мультипликативным сезонным эффектом записывают в следующем виде:
a(B)*ac (B)*(1-B)d*(1-Bc)D*yt = b(B)*bc(B)*ut.
Здесь a(B) = (1 - a1B - a2B2 -…- apBp) – авторегрессионный оператор порядка р (сокращенно AP(p)) для трендовой составляющей ряда;
ac(B) = (1 - a1B - a2B2 -…- aPBP) – авторегрессионный оператор порядка P (сокращенно AP(P)) для сезонной составляющей ряда;
(1-B)d – разность (с лагом 1) порядка d;
1-Bc – первые разности членов с лагами, равными величине периода сезонности (12 – для месячных данных, 4 – для квартальных и т.п., то есть это разности данных за одноименные месяцы, кварталы и т.п.);
b(B) = 1 - b1B - b2B2 -…- bqBq - оператор процесса скользящего среднего порядка q (сокращенно CC(q)) для трендовой составляющей ряда;
b(B) = 1 - b1B - b2B2 -…- bQBQ – оператор процесса скользящего среднего порядка Q (сокращенно CC(q)) для сезонной составляющей ряда;
ut – случайные возмущения с нулевым математическим ожиданием, постоянной дисперсией и некоррелированными значениями для любых t1 и t2 (t1 ≠ t2).
Работа с моделью проходит как итеративный трехстадийный процесс, включающий идентификацию, оценку параметров и диагностическую проверку модели.
Под идентификацией понимается использование наблюденных данных и любой другой информации для определения возможных значений параметров p,d,q.
Под оценкой понимается эффективное использование данных для получения численных значений параметров модели (5.1) при предположении ее адекватности процессу.
Диагностическая проверка имеет целью проверку адекватности подобранной модели и ее улучшение.
Процесс идентификации начинают с определения порядка разности d, добиваясь того, чтобы ряд разностей был стационарным. Идентификатором стационарности служит поведение корреляционной функции: для стационарного ряда корреляционная функция должна быстро спадать по экспоненте либо по синусоиде, наложенной на экспоненту. Наличие горизонтальных либо слабо падающих участков говорит о том, что ряд нестационарный, но возможно его разность стационарна. Заметим, что на практике d ≤ 2.
Определив экспериментально d, приступают к выбору p и q для процессов авторегрессии и скользящего среднего по автокорреляционной (АФ) и частной автокорреляционной функциям (ЧАФ) разностей порядка d . ЧАФ измеряет корреляцию членов ряда, разнесенных на k тактов, но при условии, что взаимозависимость между промежуточными членами ряда, отстоящими друг от друга меньше, чем на k, устранена, иначе элиминирована .
Для большинства практических задач p,d,q не превышает двух. Закономерности, имеющие место для моделей невысокого порядка, приведены в таблице.
Модель |
Поведение АФ(k) |
Поведение ЧАФ(k) |
(1, d, 0) |
Убывает экспоненциально |
Не равна нулю только при k=1 |
(0, d, 1) |
Не равна нулю только при k=1 |
Доминирует экспоненци- альное затухание |
(2, d, 0) |
Наложение затухающих экспонент и синусоид |
Не равна нулю только при k=1 и k=2 |
(0, d, 2) |
Не равна нулю только при k=1 и k=2 |
Доминирует наложение затухающих экспонент и синусоид |
(1, d, 1) |
Экспоненциально убывает, начиная с k=1 |
Начиная с k=1, доминирует затухающая экспонента |
Заметим, что конечность выборки, по которой строится АФ и ЧАФ, вносят искажения в поведение функций, что приводит к затруднениям при выборе p,d,q. Поэтому для анализа берут несколько моделей.
Проверка адекватности модели основана на анализе автокорреляционной функции остатков. Если модель адекватна исследуемому процессу, то остатки, равные разности между наблюдаемыми значениями ряда и оценками, полученными по модели, будут некоррелированы, а значения автокорреляции распределены приблизительно нормально около нуля с дисперсией, равной 1/(N-d), где N – число наблюдений в выборке.
Помимо анализа отдельных коэффициентов автокорреляции остатков возможен общий совокупный тест автокорреляционной функции остатков. Пусть имеется K оценок автокорреляций ru(k), k = 1,2,…,K. В случае адекватности построенной модели временному ряду, случайная величина
h = ( N-d )( ru2(1) + ru2(2) + … + ru2(K))
распределена по закону xи-квадрат с (K-p-q) степенями свободы. При неадекватности модели автокорреляции остатков будут существенными, а величина h большой.
КОНТРОЛЬНЫЕ ВОПРОСЫ
1.Какие компоненты входят в модель АРИСС?
2.Запишите в явном виде, без использования оператора сдвига, модель (5.1) в случае отсутствия сезонного эффекта:
а) для авторегрессионного процесса порядка два;
б)для процесса скользящего среднего первого порядка;
в)для смешанного процесса АРСС с p=1 и q=2.
3.Почему работа с моделью АРИСС носит итеративный характер?
4.Что понимают под идентификацией модели АРИСС?
5.Что такое частная автокорреляционная функция?
6.Как соотносятся поведение АФ и ЧАФ в моделях (1,d,0) и (0,d,1)?
7.Каковы признаки стационарности временного ряда?
8.Для какого процесса автокорреляционная функция представляет собой наложение затухающих экспонент и синусоид?
9.Каким предпосылкам удовлетворяют случайные возмущения в модели АРИСС?
10.Как вычисляются разности порядка выше первого?
11.Как воспользоваться статистикой h?
ЗАДАНИЕ
1.Получить от преподавателя вариант исходных данных.
2.Перейти в режим горизонтального графика временного ряда (Horisontal Time Sequence Plot) раздела Time Series Analysis.
3.Провести визуальный анализ ряда, получить ответы на вопросы:
а)стационарный ли ряд?
б)существует ли тренд?
в)какого порядка полином?
г)есть ли сезонный эффект?
д)какова длина сезонного эффекта?
4.Перейти в режим анализа временных рядов методом Бокса-Дженкинса (Box-Jenkis ARIMA Modeling) раздела Time Series Analysis.
5.Указать исследуемый ряд, отбросив 4 последние наблюдения (оператор DROP).
6.Подобрать параметры p,d,q для несезонной и P,D,Q для сезонной составляющих модели ARIMA, начав с нулевых значений и используя принцип максимальной простоты модели. При идентификации модели и для оценки результатов моделирования использовать функции автокорреляции (ACF) и частной корреляции (PACF).
7.После построения модели использовать ее для прогноза четырех точек. Построить график предсказанных значений. Результаты предсказаний сохранить в рабочей переменной Work Area-Forecasts и сравнить с реальными данными. В случае выхода за границы доверительных интервалов повторить построение модели.
8.Отчет должен содержать описание исходных данных, график временного ряда, результаты визуального анализа, график функций ACF и PACF для начальных и конечных значений параметров p,d,q,P,D,Q, аналитический вид полученной модели, результаты предсказаний, реальные данные и доверительные интервалы, результаты тестирования автокорреляционной функции остатков для окончательной модели.
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА [6,9, 12, 13, 15цй]
