- •Теория информационных процессов и систем
- •Санкт-Петербург
- •Содержание
- •Введение
- •Лабораторная работа № 1 Кластерный анализ
- •Задача 1. Метод k-средних.
- •Общая логика
- •Вычисления
- •Интерпретация результатов
- •Выполнение работы
- •Шаг 1. Загрузка файла данных
- •Шаг 2. Выбор метода анализа данных
- •Вывод результатов и их анализ
- •Задача 2. Иерархические алгоритмы.
- •Общая логика
- •Иерархическое дерево
- •Меры расстояния
- •Правила объединения или связи
- •Выполнение работы
- •Вывод результатов и их анализ
- •Задача 3.
- •Лабораторная работа № 2 Анализ временных рядов
- •Основные цели
- •Идентификация модели временных рядов
- •Анализ тренда
- •Анализ сезонности
- •Модель арпсс
- •Идентификация
- •Оценивание параметров
- •Оценивание модели
- •Экспоненциальное сглаживание
- •Сезонная и несезонная модели с трендом или без тренда
- •Задача 1. Определение тренда методом скользящих средних. Анализ сезонной составляющей.
- •Выполнение работы
- •Расчет сезонных индексов исходного ряда по аддитивной модели ряда
- •Расчет сезонных индексов исходного ряда по мультипликативной модели ряда
- •Задача 2. Прогнозирование по тренду и сезонной составляющей. Прогнозирование временного ряда методом экспоненциального сглаживания.
- •Выполнение работы
- •Дополнительно:
- •Задача 3.
- •Лабораторная работа № 3 Регрессионный анализ
- •Задача 1. Пошаговая регрессия.
- •Выполнение работы
- •Процедура пошаговой регрессии Backward stepwise:
- •Процедура пошаговой регрессии Forward stepwise:
- •Результаты регрессионного анализа:
- •Дисперсионный анализ:
- •Вычисление предсказанных значений доверительных интервалов:
- •Задача 2. Корреляционный анализ.
- •Выполнение работы
- •Задача 3. Нелинейная регрессия.
- •Выполнение работы:
- •Лабораторная работа № 4 Непараметрические методы математической статистики Основная цель
- •Краткий обзор непараметрических процедур
- •Выбор метода
- •Большие массивы данных и непараметрические методы
- •Задача 1. Таблицы сопряженности 22, статистики , , критерий Макнимара, точный критерий Фишера.
- •Выполнение работы
- •Задача 2. Статистика для сравнения наблюдаемых и ожидаемых частот.
- •Выполнение работы
- •Задача 3. Коэффициенты ранговой корреляции Спирмена и Кендалла.
- •Выполнение работы
- •Задача 4. Критерий серий Вальда-Вольфовица.
- •Выполнение работы:
- •Задача 5. Критерий Манна-Уитни.
- •Выполнение работы:
- •Задача 6. Однофакторный дисперсионный анализ Краскела-Уоллиса и медианный критерий.
- •Выполнение работы:
- •Задача 7. Критерий знаков. Критерий Вилкоксона для связанных пар наблюдений.
- •Выполнение работы:
- •Задача 8. Двухфакторный анализ Фридмана и коэффициент конкордации Кендалла.
- •Выполнение работы:
- •Задача 9. Q-критерий Кокрена.
- •Выполнение работы:
- •Лабораторная работа № 5 Однофакторный дисперсионный анализ
- •Цель дисперсионного анализа
- •Задача 1
- •Выполнение работы:
- •Задача 2
- •Выполнение работы:
- •Задача 3
- •Содержание отчета
- •Список литературы
- •Приложение 1 Пример оформления титульного листа лабораторной работы
Сезонная и несезонная модели с трендом или без тренда
В дополнение к простому экспоненциальному сглаживанию, были предложены более сложные модели, включающие сезонную компоненту и тренд. Общая идея таких моделей состоит в том, что прогнозы вычисляются не только по предыдущим наблюдениям (как в простом экспоненциальном сглаживании), но и с некоторыми задержками, что позволяет независимо оценить тренд и сезонную составляющую. Gardner (1985) обсудил различные модели в терминах сезонности (отсутствует, аддитивная сезонность, мультипликативная) и тренда (отсутствует, линейный тренд, экспоненциальный, демпфированный).
Аддитивная и мультипликативная сезонность. Многие временные ряды имеют сезонные компоненты. Например, продажи игрушек имеют пики в ноябре, декабре и, возможно, летом, когда дети находятся на отдыхе. Эта периодичность имеет место каждый год. Однако относительный размер продаж может слегка изменяться из года в год. Таким образом, имеет смысл независимо экспоненциально сгладить сезонную компоненту с дополнительным параметром, обычно обозначаемым как . Сезонные компоненты, по природе своей, могут быть аддитивными или мультипликативными. Например, в течение декабря продажи определенного вида игрушек увеличиваются на 1 миллион долларов каждый год. Для того чтобы учесть сезонное колебание, вы можете добавить в прогноз на каждый декабрь 1 миллион долларов (сверх соответствующего годового среднего). В этом случае сезонность – аддитивная. Альтернативно, пусть в декабре продажи увеличились на 40%, т. е. в 1.4 раза. Тогда, если общие продажи малы, то абсолютное (в долларах) увеличение продаж в декабре тоже относительно мало (процент роста константа). Если в целом продажи большие, то абсолютное (в долларах) увеличение продаж будет пропорционально больше. Снова, в этом случае продажи увеличатся в определенное число раз, и сезонность будет мультипликативной (в данном случае мультипликативная сезонная составляющая была бы равна 1.4). На графике различие между двумя видами сезонности состоит в том, что в аддитивной модели сезонные флуктуации не зависят от значений ряда, тогда как в мультипликативной модели величина сезонных флуктуаций зависит от значений временного ряда.
Параметр сезонного сглаживания . В общем, прогноз на один шаг вперед вычисляется следующим образом (для моделей без тренда; для моделей с линейным и экспоненциальным трендом, тренд добавляется):
Аддитивная модель: .
Мультипликативная модель: .
В этой формуле обозначает (простое) экспоненциально сглаженное значение ряда в момент t, и обозначает сглаженный сезонный фактор в момент t минус p (p – длина сезона). Таким образом, в сравнении с простым экспоненциальным сглаживанием, прогноз «улучшается» добавлением или умножением сезонной компоненты. Эта компонента оценивается независимо с помощью простого экспоненциального сглаживания следующим образом:
Аддитивная модель: .
Мультипликативная модель: .
Обратите внимание, что предсказанная сезонная компонента в момент t вычисляется, как соответствующая компонента на последнем сезонном цикле плюс ошибка (, наблюдаемое минус прогнозируемое значение в момент t). Ясно, что параметр принимает значения между 0 и 1. Если = 0, то сезонная составляющая на следующем цикле та же, что и на предыдущем. Если = 1, то сезонная составляющая «максимально» меняется на каждом шаге из-за соответствующей ошибки (множитель не рассматривается из-за краткости введения). В большинстве случаев, когда сезонность присутствует, оптимальное значение лежит между 0 и 1.
Линейный, экспоненциальный, демпфированный тренд. Возвращаясь к примеру с игрушками, можно увидеть наличие линейного тренда (например, каждый год продажи увеличивались на 1 миллион), экспоненциального (например, каждый год продажи возрастают в 1.3 раза) или демпфированного тренда (в первом году продажи возросли на 1 миллион долларов; во втором увеличение составило только 80% по сравнению с предыдущим, т. е. на $800,000; в следующем году вновь увеличение было только на 80%, т. е. на $800,000 0.8 = $640,000 и т.д.). Каждый тип тренда по-своему проявляется в данных. В целом изменение тренда – медленное в течение времени, и опять (как и сезонную компоненту) имеет смысл экспоненциально сгладить его с отдельным параметром (обозначаемым – для линейного и экспоненциального тренда, – для демпфированного тренда).
Параметры сглаживания (линейный и экспоненциальный тренд) и (демпфированный тренд). Аналогично сезонной компоненте компонента тренда включается в процесс экспоненциального сглаживания. Сглаживание ее производится в каждый момент времени независимо от других компонент с соответствующими параметрами. Если = 0, то тренд постоянен для всех значений временного ряда (и для всех прогнозов). Если = 1, то тренд «максимально» определяется ошибками наблюдений. Параметр учитывает, как сильно изменяется тренд, т. е. как быстро он «демпфируется» или, наоборот, возрастает.