
- •Теория информационных процессов и систем
- •Санкт-Петербург
- •Содержание
- •Введение
- •Лабораторная работа № 1 Кластерный анализ
- •Задача 1. Метод k-средних.
- •Общая логика
- •Вычисления
- •Интерпретация результатов
- •Выполнение работы
- •Шаг 1. Загрузка файла данных
- •Шаг 2. Выбор метода анализа данных
- •Вывод результатов и их анализ
- •Задача 2. Иерархические алгоритмы.
- •Общая логика
- •Иерархическое дерево
- •Меры расстояния
- •Правила объединения или связи
- •Выполнение работы
- •Вывод результатов и их анализ
- •Задача 3.
- •Лабораторная работа № 2 Анализ временных рядов
- •Основные цели
- •Идентификация модели временных рядов
- •Анализ тренда
- •Анализ сезонности
- •Модель арпсс
- •Идентификация
- •Оценивание параметров
- •Оценивание модели
- •Экспоненциальное сглаживание
- •Сезонная и несезонная модели с трендом или без тренда
- •Задача 1. Определение тренда методом скользящих средних. Анализ сезонной составляющей.
- •Выполнение работы
- •Расчет сезонных индексов исходного ряда по аддитивной модели ряда
- •Расчет сезонных индексов исходного ряда по мультипликативной модели ряда
- •Задача 2. Прогнозирование по тренду и сезонной составляющей. Прогнозирование временного ряда методом экспоненциального сглаживания.
- •Выполнение работы
- •Дополнительно:
- •Задача 3.
- •Лабораторная работа № 3 Регрессионный анализ
- •Задача 1. Пошаговая регрессия.
- •Выполнение работы
- •Процедура пошаговой регрессии Backward stepwise:
- •Процедура пошаговой регрессии Forward stepwise:
- •Результаты регрессионного анализа:
- •Дисперсионный анализ:
- •Вычисление предсказанных значений доверительных интервалов:
- •Задача 2. Корреляционный анализ.
- •Выполнение работы
- •Задача 3. Нелинейная регрессия.
- •Выполнение работы:
- •Лабораторная работа № 4 Непараметрические методы математической статистики Основная цель
- •Краткий обзор непараметрических процедур
- •Выбор метода
- •Большие массивы данных и непараметрические методы
- •Задача 1. Таблицы сопряженности 22, статистики , , критерий Макнимара, точный критерий Фишера.
- •Выполнение работы
- •Задача 2. Статистика для сравнения наблюдаемых и ожидаемых частот.
- •Выполнение работы
- •Задача 3. Коэффициенты ранговой корреляции Спирмена и Кендалла.
- •Выполнение работы
- •Задача 4. Критерий серий Вальда-Вольфовица.
- •Выполнение работы:
- •Задача 5. Критерий Манна-Уитни.
- •Выполнение работы:
- •Задача 6. Однофакторный дисперсионный анализ Краскела-Уоллиса и медианный критерий.
- •Выполнение работы:
- •Задача 7. Критерий знаков. Критерий Вилкоксона для связанных пар наблюдений.
- •Выполнение работы:
- •Задача 8. Двухфакторный анализ Фридмана и коэффициент конкордации Кендалла.
- •Выполнение работы:
- •Задача 9. Q-критерий Кокрена.
- •Выполнение работы:
- •Лабораторная работа № 5 Однофакторный дисперсионный анализ
- •Цель дисперсионного анализа
- •Задача 1
- •Выполнение работы:
- •Задача 2
- •Выполнение работы:
- •Задача 3
- •Содержание отчета
- •Список литературы
- •Приложение 1 Пример оформления титульного листа лабораторной работы
Сезонная и несезонная модели с трендом или без тренда
В дополнение к простому экспоненциальному сглаживанию, были предложены более сложные модели, включающие сезонную компоненту и тренд. Общая идея таких моделей состоит в том, что прогнозы вычисляются не только по предыдущим наблюдениям (как в простом экспоненциальном сглаживании), но и с некоторыми задержками, что позволяет независимо оценить тренд и сезонную составляющую. Gardner (1985) обсудил различные модели в терминах сезонности (отсутствует, аддитивная сезонность, мультипликативная) и тренда (отсутствует, линейный тренд, экспоненциальный, демпфированный).
Аддитивная и мультипликативная сезонность. Многие временные ряды имеют сезонные компоненты. Например, продажи игрушек имеют пики в ноябре, декабре и, возможно, летом, когда дети находятся на отдыхе. Эта периодичность имеет место каждый год. Однако относительный размер продаж может слегка изменяться из года в год. Таким образом, имеет смысл независимо экспоненциально сгладить сезонную компоненту с дополнительным параметром, обычно обозначаемым как . Сезонные компоненты, по природе своей, могут быть аддитивными или мультипликативными. Например, в течение декабря продажи определенного вида игрушек увеличиваются на 1 миллион долларов каждый год. Для того чтобы учесть сезонное колебание, вы можете добавить в прогноз на каждый декабрь 1 миллион долларов (сверх соответствующего годового среднего). В этом случае сезонность – аддитивная. Альтернативно, пусть в декабре продажи увеличились на 40%, т. е. в 1.4 раза. Тогда, если общие продажи малы, то абсолютное (в долларах) увеличение продаж в декабре тоже относительно мало (процент роста константа). Если в целом продажи большие, то абсолютное (в долларах) увеличение продаж будет пропорционально больше. Снова, в этом случае продажи увеличатся в определенное число раз, и сезонность будет мультипликативной (в данном случае мультипликативная сезонная составляющая была бы равна 1.4). На графике различие между двумя видами сезонности состоит в том, что в аддитивной модели сезонные флуктуации не зависят от значений ряда, тогда как в мультипликативной модели величина сезонных флуктуаций зависит от значений временного ряда.
Параметр сезонного сглаживания . В общем, прогноз на один шаг вперед вычисляется следующим образом (для моделей без тренда; для моделей с линейным и экспоненциальным трендом, тренд добавляется):
Аддитивная модель:
.
Мультипликативная модель:
.
В этой формуле
обозначает (простое) экспоненциально
сглаженное значение ряда в момент t,
и
обозначает сглаженный сезонный фактор
в момент t минус p
(p – длина сезона).
Таким образом, в сравнении с простым
экспоненциальным сглаживанием, прогноз
«улучшается» добавлением или умножением
сезонной компоненты. Эта компонента
оценивается независимо с помощью
простого экспоненциального сглаживания
следующим образом:
Аддитивная модель:
.
Мультипликативная модель:
.
Обратите внимание, что предсказанная
сезонная компонента в момент t
вычисляется, как соответствующая
компонента на последнем сезонном цикле
плюс ошибка (,
наблюдаемое минус прогнозируемое
значение в момент t).
Ясно, что параметр
принимает значения между 0 и 1. Если
= 0, то сезонная
составляющая на следующем цикле та же,
что и на предыдущем. Если = 1,
то сезонная составляющая «максимально»
меняется на каждом шаге из-за соответствующей
ошибки (множитель
не рассматривается из-за краткости
введения). В большинстве случаев, когда
сезонность присутствует, оптимальное
значение лежит
между 0 и 1.
Линейный, экспоненциальный, демпфированный тренд. Возвращаясь к примеру с игрушками, можно увидеть наличие линейного тренда (например, каждый год продажи увеличивались на 1 миллион), экспоненциального (например, каждый год продажи возрастают в 1.3 раза) или демпфированного тренда (в первом году продажи возросли на 1 миллион долларов; во втором увеличение составило только 80% по сравнению с предыдущим, т. е. на $800,000; в следующем году вновь увеличение было только на 80%, т. е. на $800,000 0.8 = $640,000 и т.д.). Каждый тип тренда по-своему проявляется в данных. В целом изменение тренда – медленное в течение времени, и опять (как и сезонную компоненту) имеет смысл экспоненциально сгладить его с отдельным параметром (обозначаемым – для линейного и экспоненциального тренда, – для демпфированного тренда).
Параметры сглаживания (линейный и экспоненциальный тренд) и (демпфированный тренд). Аналогично сезонной компоненте компонента тренда включается в процесс экспоненциального сглаживания. Сглаживание ее производится в каждый момент времени независимо от других компонент с соответствующими параметрами. Если = 0, то тренд постоянен для всех значений временного ряда (и для всех прогнозов). Если = 1, то тренд «максимально» определяется ошибками наблюдений. Параметр учитывает, как сильно изменяется тренд, т. е. как быстро он «демпфируется» или, наоборот, возрастает.