- •Теория информационных процессов и систем
- •Санкт-Петербург
- •СПбГиэу, 2008 Содержание
- •Введение
- •Лабораторная работа № 1 Кластерный анализ
- •Задача 1. Метод k-средних.
- •Общая логика
- •Вычисления
- •Интерпретация результатов
- •Выполнение работы
- •Шаг 1. Загрузка файла данных
- •Шаг 2. Выбор метода анализа данных
- •Вывод результатов и их анализ
- •Задача 2. Иерархические алгоритмы.
- •Общая логика
- •Иерархическое дерево
- •Меры расстояния
- •Правила объединения или связи
- •Выполнение работы
- •Вывод результатов и их анализ
- •Задача 3.
- •Лабораторная работа № 2 Анализ временных рядов
- •Основные цели
- •Идентификация модели временных рядов
- •Анализ тренда
- •Анализ сезонности
- •Модель арпсс
- •Идентификация
- •Оценивание параметров
- •Оценивание модели
- •Экспоненциальное сглаживание
- •Сезонная и несезонная модели с трендом или без тренда
- •Задача 1. Определение тренда методом скользящих средних. Анализ сезонной составляющей.
- •Выполнение работы
- •Расчет сезонных индексов исходного ряда по аддитивной модели ряда
- •Расчет сезонных индексов исходного ряда по мультипликативной модели ряда
- •Задача 2. Прогнозирование по тренду и сезонной составляющей. Прогнозирование временного ряда методом экспоненциального сглаживания.
- •Выполнение работы
- •Дополнительно:
- •Задача 3.
- •Лабораторная работа № 3 Регрессионный анализ
- •Задача 1. Пошаговая регрессия.
- •Выполнение работы
- •Процедура пошаговой регрессии Backward stepwise:
- •Процедура пошаговой регрессии Forward stepwise:
- •Результаты регрессионного анализа:
- •Дисперсионный анализ:
- •Вычисление предсказанных значений доверительных интервалов:
- •Задача 2. Корреляционный анализ.
- •Выполнение работы
- •Задача 3. Нелинейная регрессия.
- •Выполнение работы:
- •Лабораторная работа № 4 Непараметрические методы математической статистики Основная цель
- •Краткий обзор непараметрических процедур
- •Выбор метода
- •Большие массивы данных и непараметрические методы
- •Задача 1. Таблицы сопряженности 22, статистики , , критерий Макнимара, точный критерий Фишера.
- •Выполнение работы
- •Задача 2. Статистика для сравнения наблюдаемых и ожидаемых частот.
- •Выполнение работы
- •Задача 3. Коэффициенты ранговой корреляции Спирмена и Кендалла.
- •Выполнение работы
- •Задача 4. Критерий серий Вальда-Вольфовица.
- •Выполнение работы:
- •Задача 5. Критерий Манна-Уитни.
- •Выполнение работы:
- •Задача 6. Однофакторный дисперсионный анализ Краскела-Уоллиса и медианный критерий.
- •Выполнение работы:
- •Задача 7. Критерий знаков. Критерий Вилкоксона для связанных пар наблюдений.
- •Выполнение работы:
- •Задача 8. Двухфакторный анализ Фридмана и коэффициент конкордации Кендалла.
- •Выполнение работы:
- •Задача 9. Q-критерий Кокрена.
- •Выполнение работы:
- •Лабораторная работа № 5 Однофакторный дисперсионный анализ
- •Цель дисперсионного анализа
- •Задача 1
- •Выполнение работы:
- •Задача 2
- •Выполнение работы:
- •Задача 3
- •Список литературы
- •Приложение 1 Содержание дисциплины
- •Приложение 2 Пример оформления титульного листа лабораторной работы
Идентификация
Число оцениваемых параметров. Конечно, до того, как начать оценивание, вам необходимо решить, какой тип модели будет подбираться к данным, и какое количество параметров присутствует в модели, иными словами, нужно идентифицировать модель АРПСС. Основными инструментами идентификации порядка модели являются графики, автокорреляционная функция (АКФ), частная автокорреляционная функция (ЧАКФ). Это решение не является простым и требуется основательно поэкспериментировать с альтернативными моделями. Тем не менее, большинство встречающихся на практике временных рядов можно с достаточной степенью точности аппроксимировать одной из 5 основных моделей, которые можно идентифицировать по виду автокорреляционной (АКФ) и частной автокорреляционной функции (ЧАКФ). Отметим, что число параметров каждого вида невелико (меньше 2), поэтому нетрудно проверить альтернативные модели.
Один параметр (p): АКФ – экспоненциально убывает; ЧАКФ – имеет резко выделяющееся значение для лага 1, нет корреляций на других лагах.
Два параметра авторегрессии (p): АКФ имеет форму синусоиды или экспоненциально убывает; ЧАКФ имеет резко выделяющиеся значения на лагах 1, 2, нет корреляций на других лагах.
Один параметр скользящего среднего (q): АКФ имеет резко выделяющееся значение на лаге 1, нет корреляций на других лагах. ЧАКФ экспоненциально убывает.
Два параметра скользящего среднего (q): АКФ имеет резко выделяющиеся значения на лагах 1, 2; нет корреляций на других лагах. ЧАКФ имеет форму синусоиды или экспоненциально убывает.
Один параметр авторегрессии (p) и один параметр скользящего среднего (q): АКФ экспоненциально убывает с лага 1; ЧАКФ – экспоненциально убывает с лага 1.
Сезонные модели. Мультипликативная сезонная АРПСС представляет естественное развитие и обобщение обычной модели АРПСС на ряды, в которых имеется периодическая сезонная компонента. В дополнение к несезонным параметрам в модель вводятся сезонные параметры для определенного лага (устанавливаемого на этапе идентификации порядка модели). Аналогично параметрам простой модели АРПСС, эти параметры называются: сезонная авторегрессия (ps), сезонная разность (ds) и сезонное скользящее среднее (qs). Таким образом, полная сезонная АРПСС может быть записана как АРПСС (p, d, q)(ps, ds, qs). Например, модель (0, 1, 2)(0, 1, 1) включает 0 регулярных параметров авторегрессии, 2 регулярных параметра скользящего среднего и 1 параметр сезонного скользящего среднего. Эти параметры вычисляются для рядов, получаемых после взятия одной разности с лагом 1 и далее сезонной разности. Сезонный лаг, используемый для сезонных параметров, определяется на этапе идентификации порядка модели.
Общие рекомендации относительно выбора обычных параметров (с помощью АКФ и ЧАКФ) полностью применимы к сезонным моделям. Основное отличие состоит в том, что в сезонных рядах АКФ и ЧАКФ имеют существенные значения на лагах, кратных сезонному лагу (в дополнении к характерному поведению этих функций, описывающих регулярную (несезонную) компоненту АРПСС).
Оценивание параметров
Существуют различные методы оценивания параметров, которые дают очень похожие оценки, но для данной модели одни оценки могут быть более эффективны, а другие менее эффективны. В общем, во время оценивания порядка модели используется так называемый квазиньютоновский алгоритм максимизации правдоподобия (вероятности) наблюдения значений ряда по значениям параметров. Практически это требует вычисления (условных) сумм квадратов (SS) остатков модели. Имеются различные способы вычисления суммы квадратов остатков SS; вы можете выбрать:
приближенный метод максимального правдоподобия МакЛеода и Сейлза (1983);
приближенный метод максимального правдоподобия с итерациями назад;
точный метод максимального правдоподобия по Meларду (1984).
Сравнение методов. В общем, все методы дают очень похожие результаты. Также все методы показывают примерно одинаковую эффективность на реальных данных. Однако метод 1 – самый быстрый, и им можно пользоваться для исследования очень длинных рядов (например, содержащих более 30 000 наблюдений). Метод Меларда (3) может оказаться неэффективным, если оцениваются параметры сезонной модели с большим сезонным лагом (например, 365 дней). С другой стороны, можно использовать вначале приближенный метод максимального правдоподобия (для того, чтобы найти прикидочные оценки параметров), а затем точный метод; обычно требуется только несколько итераций точного метода (3), чтобы получить окончательные оценки.
Стандартные ошибки оценок. Для всех оценок параметров вычисляются так называемые асимптотические стандартные ошибки, для вычисления которых используется матрица частных производных второго порядка, аппроксимируемая конечными разностями.
Штраф. Процедура оценивания минимизирует (условную) сумму квадратов остатков модели. Если модель не является адекватной, может случиться так, что оценки параметров на каком-то шаге станут неприемлемыми – очень большими (например, не удовлетворяют условию стационарности). В таком случае, SS будет приписано очень большое значение (штрафное значение). Обычно это «заставляет» итерационный процесс удалить параметры из недопустимой области. Однако в некоторых случаях и эта стратегия может оказаться неудачной, и вы все равно увидите на экране (во время процедуры оценивания) очень большие значения SS на серии итераций. В таких случаях следует с осторожностью оценивать пригодность модели. Если модель содержит много параметров и, возможно, имеется интервенция, то следует несколько раз испытать процесс оценивания с различными начальными значениями параметров.