- •Анализ и интерпретация его результатов
- •Типология задач кластеризации Типы входных данных
- •Цели кластеризации
- •Методы кластеризации
- •Формальная постановка задачи кластеризации
- •Применение в биологии
- •В информатике
- •Кластеризация документов
- •Алгоритмы семейства forelТекущая версия (не проверялась)
- •Нейронная сеть Кохонена
- •Слой Кохонена [править] Базовая версия
- •[Править] Геометрическая интерпретация
- •[Править] Сети векторного квантования
- •[Править] Самоорганизующиеся карты Кохонена
- •[Править] Идея и алгоритм обучения
- •[Править] Самоорганизующиеся карты и главные многообразия
- •[Править] Упругие карты
Цели кластеризации
-
Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»).
-
Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
-
Обнаружение новизны (англ. novelty detection). Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.
В первом случае число кластеров стараются сделать поменьше. Во втором случае важнее обеспечить высокую степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.
Методы кластеризации
-
K-средних (K-means)
-
Графовые алгоритмы кластеризации
-
Статистические алгоритмы кластеризации
-
Алгоритмы семейства FOREL
-
Иерархическая кластеризация или таксономия
-
Нейронная сеть Кохонена
-
Ансамбль кластеризаторов
-
Алгоритмы семейства КRAB
-
EM-алгоритм
-
Алгоритм, основанный на методе просеивания
Формальная постановка задачи кластеризации
Пусть
—
множество объектов,
—
множество номеров (имён, меток) кластеров.
Задана функция расстояния между объектами
.
Имеется конечная обучающая выборка
объектов
.
Требуется разбить выборку на непересекающиеся
подмножества, называемые кластерами,
так, чтобы каждый кластер состоял
из объектов, близких по метрике
,
а объекты разных кластеров существенно
отличались. При этом каждому объекту
приписывается
номер кластера
.
Алгоритм
кластеризации — это функция
,
которая любому объекту
ставит
в соответствие номер кластера
.
Множество
в некоторых
случаях известно заранее, однако чаще
ставится задача определить оптимальное
число кластеров, с точки зрения того
или иного критерия качества
кластеризации.
Кластеризация
(обучение
без учителя) отличается
от классификации (обучения
с учителем) тем, что метки
исходных объектов
изначально не заданы, и даже может
быть неизвестно само множество
.
Решение задачи кластеризации принципиально неоднозначно, и тому есть несколько причин:
-
не существует однозначно наилучшего критерия качества кластеризации. Известен целый ряд эвристических критериев, а также ряд алгоритмов, не имеющих чётко выраженного критерия, но осуществляющих достаточно разумную кластеризацию «по построению». Все они могут давать разные результаты.
-
число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием.
-
результат кластеризации существенно зависит от метрики, выбор которой, как правило, также субъективен и определяется экспертом.
Применение в биологии
В биологии кластеризация имеет множество приложений в самых разных областях. Например, в биоинформатике с помощью нее анализируются сложные сети взаимодействующих генов, состоящие порой из сотен или даже тысяч элементов. Кластерный анализ позволяет выделить подсети, узкие места, концентраторы и другие скрытые свойства изучаемой системы, что позволяет в конечном счете узнать вклад каждого гена в формирование изучаемого феномена.
