![](/user_photo/70644__xXXN.png)
![](/html/70644/137/html_2nlYr6xQrL.ttx2/htmlconvd-_K0IGI1x1.jpg)
1
КЛАСТЕРНЫЙ АНАЛИЗ
![](/html/70644/137/html_2nlYr6xQrL.ttx2/htmlconvd-_K0IGI2x1.jpg)
2
Кластерный анализ
Многомерная статистическая процедура:
•Сбор данных
•Упорядочивание
•Статистическая обработка
•Обучения без учителя
![](/html/70644/137/html_2nlYr6xQrL.ttx2/htmlconvd-_K0IGI3x1.jpg)
3
Обучение без учителя
Испытуемая система спонтанно обучается выполнять поставленную задачу без вмешательства со стороны экспериментатора.
•Известны описания множества объектов (обучающей выборки)
•Требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.
![](/html/70644/137/html_2nlYr6xQrL.ttx2/htmlconvd-_K0IGI4x1.jpg)
4
История
Термин «кластерный анализ» (англ. cluster — гроздь, сгусток, пучок) предложен математиком Р. Трионом.
![](/html/70644/137/html_2nlYr6xQrL.ttx2/htmlconvd-_K0IGI5x1.jpg)
5
Особенности
Использование:
•Археология
•Медицина
•Психология
•Химия
•Биология
•Государственное управление
•Филология
•Антропологии
•Маркетинге
•Социология
•Геология и др.
Достоинство
•Разбиение объектов по ряду признаков
•Не накладывает ограничения на вид объектов
•Позволяет исследовать множество исходных данных произвольной природы.
![](/html/70644/137/html_2nlYr6xQrL.ttx2/htmlconvd-_K0IGI6x1.jpg)
6
Идея и задача
Кластеры – это группы однородности Задача кластерного анализа:
•Разбить множество на m кластеров
•Каждый объект принадлежит только одному кластеру
•Объекты одного кластера однородные (сходными)
•Объекты разных кластеров – разнородные
![](/html/70644/137/html_2nlYr6xQrL.ttx2/htmlconvd-_K0IGI7x1.jpg)
7
Метрики
•Евклидово расстояние
•Квадрат евклидова расстояния
•Манхэттенское расстояние городских кварталов
•Косинусная мера
•Коэффициент Жаккара
•Частные коэффициенты корреляции
•Процент несогласия
•Коэффициент корреляции Пирсона
![](/html/70644/137/html_2nlYr6xQrL.ttx2/htmlconvd-_K0IGI8x1.jpg)
8
Методы
Вероятностный подход. Предполагается, что каждый рассматриваемый объект относится к одному из k кластеров.
•K-средних
•К-медиан
•EM-алгоритм
•Алгоритмы семейства FOREL
•Дискриминантный анализ
![](/html/70644/137/html_2nlYr6xQrL.ttx2/htmlconvd-_K0IGI9x1.jpg)
9
Методы
Подходы на основе систем искусственного интеллекта:
•Метод нечеткой кластеризации C-средних (C-means)
•Нейронная сеть Кохонена
•Генетический алгоритм
![](/html/70644/137/html_2nlYr6xQrL.ttx2/htmlconvd-_K0IGI10x1.jpg)
10
Методы
•Логический подход. Построение дендрограммы осуществляется с помощью дерева решений.
•Графовые алгоритмы кластеризации
•Иерархический подход. Предполагается наличие вложенных групп (кластеров различного порядка).
•Другие методы.