- •Теория информационных процессов и систем
- •Санкт-Петербург
- •СПбГиэу, 2008 Содержание
- •Введение
- •Лабораторная работа № 1 Кластерный анализ
- •Задача 1. Метод k-средних.
- •Общая логика
- •Вычисления
- •Интерпретация результатов
- •Выполнение работы
- •Шаг 1. Загрузка файла данных
- •Шаг 2. Выбор метода анализа данных
- •Вывод результатов и их анализ
- •Задача 2. Иерархические алгоритмы.
- •Общая логика
- •Иерархическое дерево
- •Меры расстояния
- •Правила объединения или связи
- •Выполнение работы
- •Вывод результатов и их анализ
- •Задача 3.
- •Лабораторная работа № 2 Анализ временных рядов
- •Основные цели
- •Идентификация модели временных рядов
- •Анализ тренда
- •Анализ сезонности
- •Модель арпсс
- •Идентификация
- •Оценивание параметров
- •Оценивание модели
- •Экспоненциальное сглаживание
- •Сезонная и несезонная модели с трендом или без тренда
- •Задача 1. Определение тренда методом скользящих средних. Анализ сезонной составляющей.
- •Выполнение работы
- •Расчет сезонных индексов исходного ряда по аддитивной модели ряда
- •Расчет сезонных индексов исходного ряда по мультипликативной модели ряда
- •Задача 2. Прогнозирование по тренду и сезонной составляющей. Прогнозирование временного ряда методом экспоненциального сглаживания.
- •Выполнение работы
- •Дополнительно:
- •Задача 3.
- •Лабораторная работа № 3 Регрессионный анализ
- •Задача 1. Пошаговая регрессия.
- •Выполнение работы
- •Процедура пошаговой регрессии Backward stepwise:
- •Процедура пошаговой регрессии Forward stepwise:
- •Результаты регрессионного анализа:
- •Дисперсионный анализ:
- •Вычисление предсказанных значений доверительных интервалов:
- •Задача 2. Корреляционный анализ.
- •Выполнение работы
- •Задача 3. Нелинейная регрессия.
- •Выполнение работы:
- •Лабораторная работа № 4 Непараметрические методы математической статистики Основная цель
- •Краткий обзор непараметрических процедур
- •Выбор метода
- •Большие массивы данных и непараметрические методы
- •Задача 1. Таблицы сопряженности 22, статистики , , критерий Макнимара, точный критерий Фишера.
- •Выполнение работы
- •Задача 2. Статистика для сравнения наблюдаемых и ожидаемых частот.
- •Выполнение работы
- •Задача 3. Коэффициенты ранговой корреляции Спирмена и Кендалла.
- •Выполнение работы
- •Задача 4. Критерий серий Вальда-Вольфовица.
- •Выполнение работы:
- •Задача 5. Критерий Манна-Уитни.
- •Выполнение работы:
- •Задача 6. Однофакторный дисперсионный анализ Краскела-Уоллиса и медианный критерий.
- •Выполнение работы:
- •Задача 7. Критерий знаков. Критерий Вилкоксона для связанных пар наблюдений.
- •Выполнение работы:
- •Задача 8. Двухфакторный анализ Фридмана и коэффициент конкордации Кендалла.
- •Выполнение работы:
- •Задача 9. Q-критерий Кокрена.
- •Выполнение работы:
- •Лабораторная работа № 5 Однофакторный дисперсионный анализ
- •Цель дисперсионного анализа
- •Задача 1
- •Выполнение работы:
- •Задача 2
- •Выполнение работы:
- •Задача 3
- •Список литературы
- •Приложение 1 Содержание дисциплины
- •Приложение 2 Пример оформления титульного листа лабораторной работы
Модель арпсс
Модель авторегрессии и скользящего среднего. Общая модель, предложенная Боксом и Дженкинсом (1976) включает как параметры авторегрессии, так и параметры скользящего среднего. Именно, имеется три типа параметров модели: параметры авторегрессии (p), порядок разности (d), параметры скользящего среднего (q). В обозначениях Бокса и Дженкинса модель записывается как АРПСС (p, d, q). Например, модель (0, 1, 2) содержит 0 параметров авторегрессии (p) и 2 параметра скользящего среднего (q), которые вычисляются для ряда после взятия разности с лагом 1.
Идентификация. Как отмечено ранее, для модели АРПСС необходимо, чтобы ряд был стационарным, это означает, что его среднее постоянно, а выборочные дисперсия и автокорреляция не меняются во времени. Поэтому обычно необходимо брать разности ряда до тех пор, пока он не станет стационарным (часто также применяют логарифмическое преобразование для стабилизации дисперсии). Число разностей, которые были взяты, чтобы достичь стационарности, определяются параметром d. Для того чтобы определить необходимый порядок разности, нужно исследовать график ряда и автокоррелограмму. Сильные изменения уровня (сильные скачки вверх или вниз) обычно требуют взятия несезонной разности первого порядка (лаг = 1). Сильные изменения наклона требуют взятия разности второго порядка. Сезонная составляющая требует взятия соответствующей сезонной разности. Если имеется медленное убывание выборочных коэффициентов автокорреляции в зависимости от лага, обычно берут разность первого порядка. Однако следует помнить, что для некоторых временных рядов нужно брать разности небольшого порядка или вовсе не брать их. Заметим, что чрезмерное количество взятых разностей приводит к менее стабильным оценкам коэффициентов.
На этом этапе (который обычно называют идентификацией порядка модели) необходимо также решить, как много параметров авторегрессии (p) и скользящего среднего (q) должно присутствовать в эффективной и экономной модели процесса. (Экономность модели означает, что в ней имеется наименьшее число параметров и наибольшее число степеней свободы среди всех моделей, которые подгоняются к данным). На практике очень редко бывает, что число параметров p или q больше 2.
Оценивание и прогноз. Следующий, после идентификации, шаг (Оценивание) состоит в оценивании параметров. Полученные оценки параметров используются на последнем этапе (Прогноз) для того, чтобы вычислить новые значения ряда и построить доверительный интервал для прогноза. Процесс оценивания проводится по преобразованным данным (подвергнутым применению разностного оператора). До построения прогноза нужно выполнить обратную операцию (интегрировать данные). Таким образом, прогноз методологии будет сравниваться с соответствующими исходными данными. На интегрирование данных указывает буква П в общем названии модели (АРПСС = Авторегрессионное Проинтегрированное Скользящее Среднее).
Константа в моделях АРПСС. Дополнительно модели АРПСС могут содержать константу, интерпретация которой зависит от подгоняемой модели. Именно, если (1) в модели нет параметров авторегрессии, то константа есть среднее значение ряда, если (2) параметры авторегрессии имеются, то константа представляет собой свободный член. Если бралась разность ряда, то константа представляет собой среднее или свободный член преобразованного ряда. Например, если бралась первая разность (разность первого порядка), а параметров авторегрессии в модели нет, то константа представляет собой среднее значение преобразованного ряда и, следовательно, коэффициент наклона линейного тренда исходного.