- •Теория информационных процессов и систем
- •Санкт-Петербург
- •Содержание
- •Введение
- •Лабораторная работа № 1 Кластерный анализ
- •Задача 1. Метод k-средних.
- •Общая логика
- •Вычисления
- •Интерпретация результатов
- •Выполнение работы
- •Шаг 1. Загрузка файла данных
- •Шаг 2. Выбор метода анализа данных
- •Вывод результатов и их анализ
- •Задача 2. Иерархические алгоритмы.
- •Общая логика
- •Иерархическое дерево
- •Меры расстояния
- •Правила объединения или связи
- •Выполнение работы
- •Вывод результатов и их анализ
- •Задача 3.
- •Лабораторная работа № 2 Анализ временных рядов
- •Основные цели
- •Идентификация модели временных рядов
- •Анализ тренда
- •Анализ сезонности
- •Модель арпсс
- •Идентификация
- •Оценивание параметров
- •Оценивание модели
- •Экспоненциальное сглаживание
- •Сезонная и несезонная модели с трендом или без тренда
- •Задача 1. Определение тренда методом скользящих средних. Анализ сезонной составляющей.
- •Выполнение работы
- •Расчет сезонных индексов исходного ряда по аддитивной модели ряда
- •Расчет сезонных индексов исходного ряда по мультипликативной модели ряда
- •Задача 2. Прогнозирование по тренду и сезонной составляющей. Прогнозирование временного ряда методом экспоненциального сглаживания.
- •Выполнение работы
- •Дополнительно:
- •Задача 3.
- •Лабораторная работа № 3 Регрессионный анализ
- •Задача 1. Пошаговая регрессия.
- •Выполнение работы
- •Процедура пошаговой регрессии Backward stepwise:
- •Процедура пошаговой регрессии Forward stepwise:
- •Результаты регрессионного анализа:
- •Дисперсионный анализ:
- •Вычисление предсказанных значений доверительных интервалов:
- •Задача 2. Корреляционный анализ.
- •Выполнение работы
- •Задача 3. Нелинейная регрессия.
- •Выполнение работы:
- •Лабораторная работа № 4 Непараметрические методы математической статистики Основная цель
- •Краткий обзор непараметрических процедур
- •Выбор метода
- •Большие массивы данных и непараметрические методы
- •Задача 1. Таблицы сопряженности 22, статистики , , критерий Макнимара, точный критерий Фишера.
- •Выполнение работы
- •Задача 2. Статистика для сравнения наблюдаемых и ожидаемых частот.
- •Выполнение работы
- •Задача 3. Коэффициенты ранговой корреляции Спирмена и Кендалла.
- •Выполнение работы
- •Задача 4. Критерий серий Вальда-Вольфовица.
- •Выполнение работы:
- •Задача 5. Критерий Манна-Уитни.
- •Выполнение работы:
- •Задача 6. Однофакторный дисперсионный анализ Краскела-Уоллиса и медианный критерий.
- •Выполнение работы:
- •Задача 7. Критерий знаков. Критерий Вилкоксона для связанных пар наблюдений.
- •Выполнение работы:
- •Задача 8. Двухфакторный анализ Фридмана и коэффициент конкордации Кендалла.
- •Выполнение работы:
- •Задача 9. Q-критерий Кокрена.
- •Выполнение работы:
- •Лабораторная работа № 5 Однофакторный дисперсионный анализ
- •Цель дисперсионного анализа
- •Задача 1
- •Выполнение работы:
- •Задача 2
- •Выполнение работы:
- •Задача 3
- •Содержание отчета
- •Список литературы
- •Приложение 1 Пример оформления титульного листа лабораторной работы
Вывод результатов и их анализ
Analysis of Variance (анализ дисперсии). Результаты дисперсионного анализа приводятся по каждому признаку x, y, z. После нажатия данной кнопки появляется таблица (рис. 1.13), в которой приведена межгрупповая и внутригрупповая дисперсии. Строки таблицы – переменные (наблюдения), столбцы таблицы – показатели для каждой переменной:
-
Between SS: суммы квадратов отклонений между центрами кластеров (дисперсия между кластерами);
-
df: число степеней свободы для межклассовой дисперсии;
-
Within SS: суммы квадратов отклонения объектов от центров кластеров (дисперсия внутри кластеров);
-
df: число степеней свободы для внутриклассовой дисперсии;
-
F: F-критерий, для проверки гипотезы о неравенстве дисперсий;
-
signif. p – уровни значимости p.
Рис. 1.13. Analysis of Variance (анализ дисперсии)
Проверка данной гипотезы похожа на проверку гипотезы в дисперсионном анализе, когда делается предположение о том, что уровни фактора не влияют на результат.
Cluster Means & Euclidean Distances (средние значения в кластерах и евклидово расстояние). Выводятся две таблицы. В первой (рис. 1.14) указаны средние величины класса по всем переменным (наблюдениям) – координаты центров кластеров. По вертикали указаны номера классов, а по горизонтали переменные (наблюдения).
Рис. 1.14. Cluster Means (средние значения в кластерах)
Во второй таблице (рис. 1.15) приведены расстояния между классами (матрица расстояний между центрами кластеров). И по вертикали и по горизонтали указаны номера кластеров. Таким образом, при пересечении строк и столбцов указаны расстояния между соответствующими классами. Причем выше диагонали (на которой стоят нули) указаны квадраты, а ниже просто евклидово расстояние.
Рис. 1.15. Euclidean Distances (евклидово расстояние)
Graph of means (График координат центров кластеров) представляет собой графическое изображение (рис. 1.16) информации содержащейся в таблице, выводимой при нажатии кнопку Analysis of Variance (анализ дисперсии). На графике показаны средние значения переменных для каждого кластера.
По горизонтали отложены участвующие в классификации переменные, а по вертикали – средние значения переменных в разрезе получаемых кластеров.
Рис. 1.16. Graph of means (График координат центров кластеров)
Descriptive Statistics for each cluster (описательная статистика для каждого кластера) (рис. 1.17). После нажатия этой кнопки выводятся окна, количество которых равно количеству кластеров. В каждом таком окне в строках указаны переменные (наблюдения), а по горизонтали – их характеристики, рассчитанные для данного класса: среднее, несмещенное среднеквадратическое отклонение, несмещенная дисперсия.
Рис. 1.17. Descriptive Statistics for each cluster
(описательная статистика для каждого кластера)
Members for each cluster & distances (Номера объектов, входящих в каждый кластер и расстояния объектов до центров каждого кластера) (рис. 1.18). Выводится столько окон, сколько задано классов. В каждом окне указывается общее число элементов, отнесенных к этому кластеру, в верхней строке указан номер наблюдения (переменной), отнесенной к данному классу и евклидово расстояние от центра класса до этого наблюдения (переменной). Центр класса – средние величины по всем переменным (наблюдениям) для этого класса.
Рис. 1.18. Members for each cluster & distances
(Номера объектов, входящих в каждый кластер и расстояния объектов до центров каждого кластера)
Save classifications and distances. Позволяет сохранить в формате программы статистика таблицу, в которой содержатся значения всех переменных, их порядковые номера, номера кластеров к которым они отнесены, и евклидовы расстояния от центра кластера до наблюдения. Записанная таблица может быть вызвана любым блоком или подвергнута дальнейшей обработке.
Обычно, когда результаты кластерного анализа методом K-средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале можно получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе (в рассмотренном примере (рис. 1.10), значения переменных пересекаются, но все же можно наблюдать достаточно четкие различия кластеров; для более отчетливой группировки следует сократить число параметров). Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры. Так как у нас решение найдено после одной итерации (меньше чем мы задали), то можно сделать вывод о том, что итоговая конфигурация является искомой.