- •Н.Н.Коваленко
- •Содержание
- •4.Индивидуальное задание. 19
- •Лабораторная работа №1 Корпоративные информационные технологии. Групповая обработка данных
- •Лабораторная работа № 2
- •Информационные ресурсы корпоративных информационных систем.
- •Работа в справочно-правовой системе КонсультантПлюс
- •Упражнение 1. Знакомство с КонсультантПлюс
- •Лабораторная работа №3 Сетевое обеспечение кис Цель: Выбрать оптимальную топологию базовой сети передачи данных
- •1. Постановка задачи
- •2.Алгоритм решения задачи
- •3.Пример
- •4.Индивидуальное задание. В соответствии с вариантами заданий, приведенными в таблице 10-11, определить оптимальную конфигурацию сети и полученный вариант представить в виде таблицы.
- •Лабораторная работа №4. Оперативная аналитическая обработка данных.
- •Лабораторная работа №5 Расчеты коэффициента корреляции и уравнения регрессии
- •Лабораторная работа № 6 Многомерная обработка данных с использованием интегрированной системы Statistica. Корреляционный анализ данных.
- •Лабораторная работа 7. Регрессионный анализ в ппп statistiса
- •Условие задачи.
- •Лабораторная работа №8 Кластерный анализ в ппп Statistica
- •1.Общие сведения
- •2.Тренировочное задание.
- •3. Индивидуальное задание
- •Лабораторная работа №9 Программа project expert: Разработка бизнес - плана для реализации на базе действующего предприятия.
- •Теоретические сведения
- •Построение модели
- •Методические рекомендации.
- •Лабораторная работа №10 Программа project expert:Разработка бизнес - плана для создания нового предприятия
- •Методические рекомендации.
- •Литература
- •Справочная правовая система КонсультантПлюс: Самоучитель / в. Боев. – bhv, 2006. – 208 с.
Лабораторная работа №8 Кластерный анализ в ппп Statistica
Цель: Освоение методики проведения кластерного анализа в ППП Statistica для определения и получения однородных групп (кластеров).
1.Общие сведения
Главное назначение кластерного анализа — разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры. Методы кластерного анализа можно применять даже тогда, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству.
Техника кластеризации применяется в самых различных областях. Широкое применение нашел кластерный анализ в маркетинговых исследованиях. Всякий раз, когда необходимо классифицировать «горы» информации на пригодные для дальнейшей обработки группы, кластерный анализ оказывается весьма полезным и эффективным. Отличием кластерного анализа от других методов классификации является отсутствие обучающей выборки. Большое достоинство кластерного анализа в том, что он дает возможность производить разбиение объектов не по одному параметру, а по ряду признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов и позволяет исследовать множество исходных данных практически произвольной природы.
Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве X, разбить множество объектов G на т (т — целое) кластеров Qt, Q2, ..., Qm так, чтобы каждый объект Gj принадлежал одному и только одному подмножеству разбиения. При этом объекты, принадлежащие одному и тому же кластеру, должны быть сходными, а объекты, принадлежащие разным кластерам, — разнородными.
Решением задачи кластерного анализа являются разбиения, удовлетворяющие критерию оптимальности. Этот критерий может представлять собой некоторый функционал, выражающий уровни желательности различных разбиений и группировок, который называют целевой функцией. Сходство между объектами Gi , Gj определим через понятие расстояния между векторами измерений Xi, Xj, так как интуитивно понятно, что чем меньше расстояние между объектами, тем они более схожи.
Наиболее известный метод представления матрицы расстояний или сходства основан на идее дендрограммы, или диаграммы дерева. Дендрограмму можно определить как графическое изображение результатов процесса последовательной кластеризации, которая осуществляется в терминах матрицы расстояний. С помощью дендрограммы можно графически или геометрически изобразить процедуру кластеризации при условии, что эта процедура оперирует только с элементами матрицы расстояний или сходства. Существует много способов построения дендрограмм. В дендрограмме объекты располагаются вертикально слева, результаты кластеризации — справа. Значения расстояний или сходства, отвечающие строению новых кластеров, изображаются над горизонтальной прямой поверх дендрограмм. На рис.20 показан один из примеров дендрограммы.
Рисунок 20 Пример дендрограммы
Пример соответствует случаю шести объектов (n=6) и k характеристик (признаков). Объекты А и С наиболее близки и поэтому объединяются в один кластер на уровне близости, равном 0,9. Объекты D и Е объединяются при уровне 0,8. В результате имеем 4 кластера: (А, С), (F), (D,E), (В) на уровне 80% сходства. Далее образуются кластеры (А, С, F) и (E, D, В), соответствующие уровням близости, равным соответственно 0,7 и 0,6. Окончательно все объекты группируются в один кластер при уровне 0,5.
Вид дендрограммы зависит от выбора меры сходства или расстояния междуобъектом и кластером и метода кластеризации. Алгоритмы кластерного анализа имеют хорошую программную реализацию в ППП STATISTICA, которая позволяет решить задачи самой большой размерности.