![](/user_photo/70644__xXXN.png)
![](/html/70644/137/html_RQxoae2cjC.H8cC/htmlconvd-FYWec_1x1.jpg)
1
КЛАСТЕРНЫЙ АНАЛИЗ
![](/html/70644/137/html_RQxoae2cjC.H8cC/htmlconvd-FYWec_2x1.jpg)
2
Кластерный анализ
Многомерная статистическая процедура:
•Сбор данных
•Упорядочивание
• Статистическая обработка
• Обучения без учителя
![](/html/70644/137/html_RQxoae2cjC.H8cC/htmlconvd-FYWec_3x1.jpg)
3
Обучение без учителя
Испытуемая система спонтанно обучается выполнять поставленную задачу без вмешательства со стороны экспериментатора.
•Известны описания множества объектов (обучающей выборки)
•Требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.
![](/html/70644/137/html_RQxoae2cjC.H8cC/htmlconvd-FYWec_4x1.jpg)
4
История
Термин «кластерный анализ» (англ. cluster — гроздь, сгусток, пучок) предложен математиком Р. Трионом.
![](/html/70644/137/html_RQxoae2cjC.H8cC/htmlconvd-FYWec_5x1.jpg)
5
Особенности
Использование:
•Археология
•Медицина
•Психология
•Химия
•Биология
•Государственное управление
•Филология
•Антропологии
•Маркетинге
•Социология
•Геология и др.
Достоинство
•Разбиение объектов по ряду признаков
•Не накладывает ограничения на вид объектов
•Позволяет исследовать множество исходных данных произвольной природы.
![](/html/70644/137/html_RQxoae2cjC.H8cC/htmlconvd-FYWec_6x1.jpg)
6
Идея и задача
Кластеры – это группы однородности Задача кластерного анализа:
•Разбить множество на m кластеров
•Каждый объект принадлежит только одному кластеру
•Объекты одного кластера однородные (сходными)
•Объекты разных кластеров – разнородные
![](/html/70644/137/html_RQxoae2cjC.H8cC/htmlconvd-FYWec_7x1.jpg)
7
Метрики
• |
Евклидово расстояние |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
, |
= |
|
( |
|
− |
|
)2 , |
|
|
, |
|
= |
|
|
1 |
|
|
, |
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
, |
|
, |
|
|
|
|
1+ |
|
( |
− |
)2 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
, |
, |
|
|
•Квадрат евклидова расстояния
•Манхэттенское расстояние городских кварталов
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
• |
Косинусная мера |
|
= |
|
, |
|
, |
|
|
, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
, |
, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
∩ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
• |
Коэффициент Жаккара |
|
, |
= |
|
|
|
|
|
, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
− |
|
|
|
∙ |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
• |
Частные коэффициенты корреляции |
|
|
|
= |
|
|
|
|
|
|
|
|
|
|
|
, |
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1− |
2 |
1− |
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
• |
Процент несогласия |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
• |
Коэффициент корреляции Пирсона |
|
|
|
|
= |
|
(, − )(, − ) |
, |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
( |
|
|
− |
)2 |
|
|
|
( |
|
− )2 |
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
, |
|
|
|
|
|
|
|
, |
|
|
|
![](/html/70644/137/html_RQxoae2cjC.H8cC/htmlconvd-FYWec_8x1.jpg)
8
Методы
Вероятностный подход. Предполагается, что каждый рассматриваемый объект относится к одному из k кластеров.
•K-средних
•К-медиан
•EM-алгоритм
•Алгоритмы семейства FOREL
•Дискриминантный анализ
![](/html/70644/137/html_RQxoae2cjC.H8cC/htmlconvd-FYWec_9x1.jpg)
9
Методы
Подходы на основе систем искусственного интеллекта:
•Метод нечеткой кластеризации C-средних (C-means)
•Нейронная сеть Кохонена
•Генетический алгоритм
![](/html/70644/137/html_RQxoae2cjC.H8cC/htmlconvd-FYWec_10x1.jpg)
10
Методы
•Логический подход. Построение дендрограммы осуществляется с помощью дерева решений.
•Графовые алгоритмы кластеризации
•Иерархический подход. Предполагается наличие вложенных групп (кластеров различного порядка).
•Другие методы.