
- •Анализ и интерпретация его результатов
- •Типология задач кластеризации Типы входных данных
- •Цели кластеризации
- •Методы кластеризации
- •Формальная постановка задачи кластеризации
- •Применение в биологии
- •В информатике
- •Кластеризация документов
- •Алгоритмы семейства forelТекущая версия (не проверялась)
- •Нейронная сеть Кохонена
- •Слой Кохонена [править] Базовая версия
- •[Править] Геометрическая интерпретация
- •[Править] Сети векторного квантования
- •[Править] Самоорганизующиеся карты Кохонена
- •[Править] Идея и алгоритм обучения
- •[Править] Самоорганизующиеся карты и главные многообразия
- •[Править] Упругие карты
В информатике
-
Группирование результатов поиска: Кластеризация используется для «интеллектуального» группирования результатов при поиске файлов, веб-сайтов, других объектов, предоставляя пользователю возможность быстрой навигации, выбора заведомо более релевантного подмножества и исключения заведомо менее релевантного — что может повысить юзабилити интерфейса по сравнению с выводом в виде простого сортированного по релевантности списка.
-
Clusty[1] — кластеризующая поисковая машина компании Vivísimo
-
Nigma — российская поисковая система с автоматической кластеризацией результатов
-
Quintura — визуальная кластеризация в виде облака ключевых слов
-
-
Сегментация изображений (image segmentation): Кластеризация может быть использована для разбиения цифрового изображения на отдельные области с целью обнаружения границ (edge detection) или распознавания объектов.
-
Интеллектуальный анализ данных (data mining): Кластеризация в Data Mining приобретает ценность тогда, когда она выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель для всех данных. Таким приемом постоянно пользуются в маркетинге, выделяя группы клиентов, покупателей, товаров и разрабатывая для каждой из них отдельную стратегию.
///////////////////////////////////
////////////////////////////////
Кластеризация документов
Текущая
версия
(не проверялась)
Кластеризация документов — одна из задач информационного поиска. Целью кластеризации документов является автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества документов. Следует отметить, что группы формируются только на основе попарной схожести описаний документов, и никакие характеристики этих групп не задаются заранее, в отличие от классификации документов, где категории задаются заранее.
ПРИМЕР ИСПОЛЬЗОВАНИЯ
Нигма.РФ — российская интеллектуальная метапоисковая система, первая кластеризующая поисковая система в Рунете. Проект создан при поддержке факультетов ВМиК и психологии МГУ,[1] а также Стэнфордского университета.[2][3] Название — Nigma (один из родов пауков семейства Dictynidae, en:Nigma) было выбрано по ассоциации со Всемирной паутиной.На основе введённого пользовательского запроса Нигма формирует список документов, разделённых на несколько множеств (кластеров). Пользователь может уточнить в каком множестве продолжить поиск, тем самым улучшив релевантность результатов поиска. Пользователь также может исключить ненужные ему множества сайтов, например, документы, пришедшие с интернет-магазинов (для них формируется специальный кластер).
Список кластеров выводится слева от списка результатов поиска. Для каждого кластера указывается образующая его фраза и количество документов в кластере. Пользователь может управлять кластерами при помощи специальных ссылок под списком кластеров.