- •Теория информационных процессов и систем
- •Санкт-Петербург
- •СПбГиэу, 2008 Содержание
- •Введение
- •Лабораторная работа № 1 Кластерный анализ
- •Задача 1. Метод k-средних.
- •Общая логика
- •Вычисления
- •Интерпретация результатов
- •Выполнение работы
- •Шаг 1. Загрузка файла данных
- •Шаг 2. Выбор метода анализа данных
- •Вывод результатов и их анализ
- •Задача 2. Иерархические алгоритмы.
- •Общая логика
- •Иерархическое дерево
- •Меры расстояния
- •Правила объединения или связи
- •Выполнение работы
- •Вывод результатов и их анализ
- •Задача 3.
- •Лабораторная работа № 2 Анализ временных рядов
- •Основные цели
- •Идентификация модели временных рядов
- •Анализ тренда
- •Анализ сезонности
- •Модель арпсс
- •Идентификация
- •Оценивание параметров
- •Оценивание модели
- •Экспоненциальное сглаживание
- •Сезонная и несезонная модели с трендом или без тренда
- •Задача 1. Определение тренда методом скользящих средних. Анализ сезонной составляющей.
- •Выполнение работы
- •Расчет сезонных индексов исходного ряда по аддитивной модели ряда
- •Расчет сезонных индексов исходного ряда по мультипликативной модели ряда
- •Задача 2. Прогнозирование по тренду и сезонной составляющей. Прогнозирование временного ряда методом экспоненциального сглаживания.
- •Выполнение работы
- •Дополнительно:
- •Задача 3.
- •Лабораторная работа № 3 Регрессионный анализ
- •Задача 1. Пошаговая регрессия.
- •Выполнение работы
- •Процедура пошаговой регрессии Backward stepwise:
- •Процедура пошаговой регрессии Forward stepwise:
- •Результаты регрессионного анализа:
- •Дисперсионный анализ:
- •Вычисление предсказанных значений доверительных интервалов:
- •Задача 2. Корреляционный анализ.
- •Выполнение работы
- •Задача 3. Нелинейная регрессия.
- •Выполнение работы:
- •Лабораторная работа № 4 Непараметрические методы математической статистики Основная цель
- •Краткий обзор непараметрических процедур
- •Выбор метода
- •Большие массивы данных и непараметрические методы
- •Задача 1. Таблицы сопряженности 22, статистики , , критерий Макнимара, точный критерий Фишера.
- •Выполнение работы
- •Задача 2. Статистика для сравнения наблюдаемых и ожидаемых частот.
- •Выполнение работы
- •Задача 3. Коэффициенты ранговой корреляции Спирмена и Кендалла.
- •Выполнение работы
- •Задача 4. Критерий серий Вальда-Вольфовица.
- •Выполнение работы:
- •Задача 5. Критерий Манна-Уитни.
- •Выполнение работы:
- •Задача 6. Однофакторный дисперсионный анализ Краскела-Уоллиса и медианный критерий.
- •Выполнение работы:
- •Задача 7. Критерий знаков. Критерий Вилкоксона для связанных пар наблюдений.
- •Выполнение работы:
- •Задача 8. Двухфакторный анализ Фридмана и коэффициент конкордации Кендалла.
- •Выполнение работы:
- •Задача 9. Q-критерий Кокрена.
- •Выполнение работы:
- •Лабораторная работа № 5 Однофакторный дисперсионный анализ
- •Цель дисперсионного анализа
- •Задача 1
- •Выполнение работы:
- •Задача 2
- •Выполнение работы:
- •Задача 3
- •Список литературы
- •Приложение 1 Содержание дисциплины
- •Приложение 2 Пример оформления титульного листа лабораторной работы
Вывод результатов и их анализ
Пользователь может вызвать на экран горизонтальную и вертикальную дендрограмму (Horizontal hierarchical plot или Vertical icicle plot), показывающую объединение объектов, расстояние между которыми является наименьшим, в кластеры (кластеризация методом одиночной связи). Наиболее традиционное – вертикальное представление (рис. 1.21).
Теперь представим себе, что постепенно (очень малыми шагами) происходит «ослабление» критерия о том, какие объекты являются уникальными, а какие нет. Другими словами, понижается порог, относящийся к решению об объединении двух или более объектов в один кластер. В результате происходит связывание вместе всё большего и большего числа объектов и агрегирование (объединение) все большего и большего числа кластеров, состоящих из различающихся все сильнее элементов. Окончательно на последнем шаге все объекты объединяются вместе. Когда данные имеют ясную «структуру» в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.
Рис. 1.21. Vertical icicle plot
Чтобы вернуться в окно, содержащее другие результаты кластерного анализа, необходимо щелкнуть по кнопке Continue.
Щелчком мыши можно раскрыть строку Amalgamation schedule, содержащую протокол объединения кластеров (рис. 1.22). В заголовке указан иерархический агломеративный метод и метрика расстояния. Таблица может занимать несколько окон.
Следующей в окне результатов идет кнопка Graph of amalgamation schedule. После щелчка, раскрывается окно, содержащее ступенчатое, графическое изображение изменений расстояний при объединении кластеров рис. 1.23.
Рис. 1.22. Amalgamation schedule
Рис. 1.23. Graph of amalgamation schedule
Вернувшись в основное окно результатов и классификации. Для просмотра же матрицы расстояний между объектами необходимо щелкнуть на строке Distance matrix (рис. 1.24).
Рис. 1.24. Матрица расстояний
В основном окне результатов классификации имеется строка Save distance matrix as: (Сохранить матрицу расстояний как:) позволяющая задать имя файла, в котором будет сохранена матрица расстояний, которая в дальнейшем будет подвергнута обработке.
Строка Descriptive statistics содержит такие важнейшие описательные статистики, как среднее (means) и среднеквадратическое отклонение (standart deviations) для каждого наблюдения (рис. 1.25). При проведении классификации n объектов по k признакам, для пользователя представляют большой интерес значения этих показателей для каждого признака.
Рис. 1.25. Средние и среднеквадратичные отклонения для каждого исходного объекта
Для того чтобы эти характеристики рассчитывались именно по признакам необходимо вернутся в основное окно настройки параметров и задать в строке Cluster значение variables (columns).
Задача 3.
На предприятии существует научно-производственных отделов, занятых выпуском различной продукции, работ, услуг. Т. к. виды деятельности, количество работающих, рентабельность отделов существенно различаются между собой, было решено сгруппировать отделы в несколько однородных групп, а затем для каждой группы разработать свою систему премирования.
Выбраны признака, с помощью которых описывались параметры каждого отдела:
– стоимость активной части основных производственных фондов (тыс. руб.);
– среднемесячный объем работ отдела (тыс. руб.);
– удельный вес работ/услуг отдела по внутрифирменной кооперации (%);
– среднемесячная прибыль отдела (тыс. руб.).
Исходные данные по отделам определить самостоятельно.
|
|
|
|
|
1 |
|
|
|
|
2 |
|
|
|
|
3 |
|
|
|
|
… |
|
|
|
|
16 |
|
|
|
|
Провести кластеризацию отделов, используя иерархические алгоритмы (Joining):
Используя исходные данные;
Используя стандартизированные данные (т.е. данные, преобразованные по формуле ).
– i-е значение j-го признака .
– оценка среднего для j-го признака.
– оценка СКО для j-го признака.
Сравните результаты кластеризации. По результатам кластеризации определите число кластеров и их состав. Найдите статистические характеристики каждого кластера.
Проведите кластеризацию, используя метод K-средних (число кластеров задайте равным 4). Сравните результаты (составы кластеров).