Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Доповідь ІАД.doc
Скачиваний:
4
Добавлен:
25.11.2019
Размер:
910.34 Кб
Скачать

7.3. Базовые алгоритмы кластеризации

7.3.1. Классификация алгоритмов

При выполнении кластеризации важно, сколько в результате должно быть построено кластеров. Предполагается, что кластеризация должна выявить естественные локальные сгущения объектов. Поэтому число кластеров является параметром, часто существенно усложняющим вид алгоритма, если предполагается неизвестным, и существенно влияющим на качество результата, если оно известно.

Проблема выбора числа кластеров весьма нетривиальна. Достаточно сказать, что для получения удовлетворительного теоретического решения часто требуется сделать весьма сильные предположения о свойствах некоторого заранее заданного семейства распределений. Но о каких предположениях может идти речь, когда, особенно в начале исследования, о данных практически ничего неизвестно? Поэтому алгоритмы кластеризации обычно строятся как некоторый способ перебора числа кластеров и определения его оптимального значения в процессе перебора.

Число методов разбиения множества на кластеры довольно велико. Все их можно подразделить на иерархические и неиерархические.

В неиерархических алгоритмах характер их работы и условие остановки необходимо заранее регламентировать часто довольно большим числом параметров, что иногда затруднительно, особенно на начальном этапе изучения материала. Но в таких алгоритмах достигается большая гибкость в варьировании кластеризации и обычно определяется число кластеров.

С другой стороны, когда объекты характеризуются большим числом признаков (параметров), то приобретает важное значение задача группировки признаков. Исходная информация содержится в квадратной матрице связей признаков, в частности в корреляционной матрице. Основой успешного решения задачи группировки является неформальная гипотеза о небольшом числе скрытых факторов, которые определяют структуру взаимных связей между признаками.

В иерархических алгоритмах фактически отказываются от определения числа кластеров, строя полное дерево вложенных кластеров (дендрограмму). Число кластеров определяется из предположений, в принципе, не относящихся к работе алгоритмов, например по динамике изменения порога расщепления (слияния) кластеров. Трудности таких алгоритмов хорошо изучены: выбор мер близости кластеров, проблема инверсий индексации в дендрограммах, негибкость иерархических классификаций, которая иногда весьма нежелательна. Тем не менее, представление кластеризации в виде дендрограммы позволяет получить наиболее полное представление о структуре кластеров.

Иерархические алгоритмы связаны с построением дендрограмм и делятся:

  • на агломеративные, характеризуемые последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров (построение кластеров снизу вверх);

  • на дивизимные (делимые), в которых число кластеров возрастает, начиная с одного, в результате чего образуется последовательность расщепляющих групп (построение кластеров сверху вниз).

7.4. Адаптивные методы кластеризации

7.4.1. Выбор наилучшего решения и качество кластеризации

В предыдущем разделе были рассмотрены различные методы кластеризации. Основным результатом любого из них является набор кластеров. Для того чтобы алгоритм кластеризации построил этот набор, необходимо знать количество кластеров. Меняя его, можно получить множество равноценных (с формальной точки зрения) результатов. Тем не менее подразумевается, что существует небольшое количество практически полезных решений задачи кластеризации (чаще всего одно) для заданного множества данных. Поэтому, когда о количестве кластеров нет информации (это самая распространенная ситуация), возникает проблема выбора наилучшего разбиения, а это нетривиальная задача. Облегчить ее решение можно, добавив в алгоритм кластеризации некоторый адаптивный механизм выбора оптимального решения среди множества возможных. Выбор оптимального решения будем основывать на понятии качества кластеризации. Качеством кластеризации назовем степень приближения результата кластеризации к идеальному решению. Поскольку идеальное решение задачи кластеризации неизвестно, то оценить качество можно двумя способами— экспертным и формальным. Экспертный выбор наилучшего решения задачи заключается в оценке решения специалистами в данной предметной области. Но экспертная оценка зачастую объективно невозможна из-за большого объема и сложности данных. Поэтому важную роль играют формальные критерии оценки качества кластеризации.