- •Теория информационных процессов и систем
- •Санкт-Петербург
- •СПбГиэу, 2008 Содержание
- •Введение
- •Лабораторная работа № 1 Кластерный анализ
- •Задача 1. Метод k-средних.
- •Общая логика
- •Вычисления
- •Интерпретация результатов
- •Выполнение работы
- •Шаг 1. Загрузка файла данных
- •Шаг 2. Выбор метода анализа данных
- •Вывод результатов и их анализ
- •Задача 2. Иерархические алгоритмы.
- •Общая логика
- •Иерархическое дерево
- •Меры расстояния
- •Правила объединения или связи
- •Выполнение работы
- •Вывод результатов и их анализ
- •Задача 3.
- •Лабораторная работа № 2 Анализ временных рядов
- •Основные цели
- •Идентификация модели временных рядов
- •Анализ тренда
- •Анализ сезонности
- •Модель арпсс
- •Идентификация
- •Оценивание параметров
- •Оценивание модели
- •Экспоненциальное сглаживание
- •Сезонная и несезонная модели с трендом или без тренда
- •Задача 1. Определение тренда методом скользящих средних. Анализ сезонной составляющей.
- •Выполнение работы
- •Расчет сезонных индексов исходного ряда по аддитивной модели ряда
- •Расчет сезонных индексов исходного ряда по мультипликативной модели ряда
- •Задача 2. Прогнозирование по тренду и сезонной составляющей. Прогнозирование временного ряда методом экспоненциального сглаживания.
- •Выполнение работы
- •Дополнительно:
- •Задача 3.
- •Лабораторная работа № 3 Регрессионный анализ
- •Задача 1. Пошаговая регрессия.
- •Выполнение работы
- •Процедура пошаговой регрессии Backward stepwise:
- •Процедура пошаговой регрессии Forward stepwise:
- •Результаты регрессионного анализа:
- •Дисперсионный анализ:
- •Вычисление предсказанных значений доверительных интервалов:
- •Задача 2. Корреляционный анализ.
- •Выполнение работы
- •Задача 3. Нелинейная регрессия.
- •Выполнение работы:
- •Лабораторная работа № 4 Непараметрические методы математической статистики Основная цель
- •Краткий обзор непараметрических процедур
- •Выбор метода
- •Большие массивы данных и непараметрические методы
- •Задача 1. Таблицы сопряженности 22, статистики , , критерий Макнимара, точный критерий Фишера.
- •Выполнение работы
- •Задача 2. Статистика для сравнения наблюдаемых и ожидаемых частот.
- •Выполнение работы
- •Задача 3. Коэффициенты ранговой корреляции Спирмена и Кендалла.
- •Выполнение работы
- •Задача 4. Критерий серий Вальда-Вольфовица.
- •Выполнение работы:
- •Задача 5. Критерий Манна-Уитни.
- •Выполнение работы:
- •Задача 6. Однофакторный дисперсионный анализ Краскела-Уоллиса и медианный критерий.
- •Выполнение работы:
- •Задача 7. Критерий знаков. Критерий Вилкоксона для связанных пар наблюдений.
- •Выполнение работы:
- •Задача 8. Двухфакторный анализ Фридмана и коэффициент конкордации Кендалла.
- •Выполнение работы:
- •Задача 9. Q-критерий Кокрена.
- •Выполнение работы:
- •Лабораторная работа № 5 Однофакторный дисперсионный анализ
- •Цель дисперсионного анализа
- •Задача 1
- •Выполнение работы:
- •Задача 2
- •Выполнение работы:
- •Задача 3
- •Список литературы
- •Приложение 1 Содержание дисциплины
- •Приложение 2 Пример оформления титульного листа лабораторной работы
Выполнение работы
Рассмотрим процесс формирования выборок в системе STATISTICA.
Для проведения кластерного анализа иерархическим агломеративным методом на панели инструментов нажимаем на кнопку переключателя модулей STATISTICA Module Switcher (рис. 1.7). В появившемся окне (рис. 1.8) выбираем модуль Cluster Analysis (Кластерный анализ), нажав кнопку Switch to (Переключиться в) или просто дважды щелкнув мышью по названию модуля Cluster Analysis.
На экране появится стартовая панель модуля (рис. 1.9) Clustering Method (методы кластерного анализа): Joining (tree clustering) (иерархические агломеративные методы или древовидная кластеризация), K-means clustering (метод K-средних), Two-way joining (двувходовое объединение).
Откроем файл с исходными данными (Open Data). После выбора Joining (tree clustering) и нажатия ОК появляется окно Cluster Analysis: Joining (Tree Clustering) (окно ввода режимов работы для иерархических агломеративных методов) (рис. 1.19).
В появившемся окне выбираем следующие настройки:
нажимаем на кнопку Variables и вводим переменные, участвующие в классификации; для выбора всех переменных используем Select All и нажимаем OK;
в разделе Input (тип входной информации) вводим Raw data (исходные данные);
в разделе Clusters (режим классификации (по признакам или объектам)) выбираем Cases (rows) – классификация объектов;
в разделе Amalgamation (linkage) rule (правило объединения) выбираем Single linkage (метод одиночной связи);
Рис. 1.19. Cluster Analysis: Joining (Tree Clustering) (окно ввода режимов работы для иерархических агломеративных методов)
в разделе Distance measure (метрика расстояний) выбираем Square Euclidean distances (квадрат евклидовой метрики);
Codes for grouping variable (коды для групп переменной) будут указывать количество анализируемых групп объектов;
Missing data (пропущенные переменные) позволяет выбрать либо построчное удаление переменных из списка, либо заменить их на средние значения;
Open Data – позволяет открыть файл с данными. Причем можно указать условия выбора наблюдений из базы данных – кнопка Select Cases;
кнопка W позволяет задавать веса переменным, выбрав их из списка.
После задания всех необходимых параметров и нажатия ОК будут произведены вычисления, а на экране появится окно, содержащее результаты кластерного анализа Joining Results (рис. 1.20).
Информационная часть диалогового окна Joining Results Discriminant Function Analysis Results (результаты анализа кластерных функций) сообщает, что:
Number of variables – число переменных.
Number of cases – число наблюдений.
Joining of variables – осуществлена классификация наблюдений или переменных (зависит от уровня параметра в строке Cluster в предыдущем окне настройки).
Рис. 1.20. Окно Joining Results, содержащее результаты кластерного анализа
Missing data were casewise deleted – Наблюдения с пропущенными данными удаляются (или заменяются средними значениями – зависит от установки в предыдущем окне в строке Missing data).
Amalgamation (joining) rule – правило объединения кластеров (название иерархического агломеративного метода, заданного в строке Amalgamation rules в предыдущем окне настройки).
Distance metric is – Метрика расстояния (зависит от установки в строке Distance measure в предыдущем окне настройки.