- •Министерство образования и науки российской федерации
- •Теоретическая часть
- •Задача кластерного анализа
- •1.2 Методы кластерного анализа.
- •1.3 Алгоритмы кластеризации
- •1.4 Число кластеров
- •1.5 Дендограммы
- •Практическая часть
- •1 3 6 2 8 4 9 10 7 5
- •Пример решения в программе spss 11.0
- •Пример решения в программе statistica
- •Задание к лабораторной работе
- •Заключение
- •Список литературы
- •Приложение
Министерство образования и науки российской федерации
Марийский государственный технический университет
кафедра РТиМБС
Кластерный анализ
Методические указания к лабораторной работе
Йошкар-Ола
2008
Содержание
Введение
Теоретическая часть
Задача кластерного анализа
Методы кластерного анализа
Алгоритмы кластеризации
Число кластеров
Дендограммы
Практическая часть
Пример
Пример решения в программе SPSS 11.0
Пример решения в программе STATISTICA
Задание к лабораторной работе
Заключение
Список литературы
Приложение
Введение
Обширную группу задач анализа данных, основывающихся на применении статистических методов, составляют так называемые задачи классификации. Выделяются три подобласти теории классификации: дискриминация (дискриминантный анализ), кластеризация (кластерный анализ) и группировка.
Главное назначение кластерного анализа – разбиение множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Методы кластерного анализа можно применять в самых различных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству.
Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы.
Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы информации, делать их компактными и наглядными.
Кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной связью.
Различные приложения кластерного анализа можно свести к четырем основным задачам:
разработка типологии или классификации;
исследование полезных концептуальных схем группирования объектов;
порождение гипотез на основе исследования данных;
проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
Техника кластеризации применяется в самых разнообразных областях. Хартиган (Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии.
Недостатки кластерного анализа:
Многие методы кластерного анализа — довольно простые процедуры, которые, как правило, не имеют достаточного статистического обоснования
Методы кластерного анализа разрабатывались для многих научных дисциплин, а потому несут на себе отпечатки специфики этих дисциплин.
Разные кластерные методы могут порождать и порождают различные решения для одних и тех же данных.
Цель кластерного анализа заключается в поиске существующих структур. В то же время его действие состоит в привнесении структуры в анализируемые данные, т. е. методы кластеризации необходимы для обнаружения структуры в данных, которую нелегко найти при визуальном обследовании или с помощью экспертов.