7.3. Базовые алгоритмы кластеризации

7.3.1. Классификация алгоритмов

При выполнении кластеризации важно, сколько в результате должно быть построено кластеров. Предполагается, что кластеризация должна выявить естественные локальные сгущения объектов. Поэтому число кластеров является параметром, часто существенно усложняющим вид алгоритма, если предполагается неизвестным, и существенно влияющим на качество результата, если оно известно.

Проблема выбора числа кластеров весьма нетривиальна. Достаточно сказать, что для получения удовлетворительного теоретического решения часто требуется сделать весьма сильные предположения о свойствах некоторого заранее заданного семейства распределений. Но о каких предположениях может идти речь, когда, особенно в начале исследования, о данных практически ничего неизвестно? Поэтому алгоритмы кластеризации обычно строятся как некоторый способ перебора числа кластеров и определения его оптимального значения в процессе перебора.

Число методов разбиения множества на кластеры довольно велико. Все их можно подразделить на иерархические и неиерархические. В неиерархических алгоритмах характер их работы и условие остановки необходимо заранее регламентировать часто довольно большим числом параметров, что иногда затруднительно, особенно на начальном этапе изучения материала. Но в таких алгоритмах достигается большая гибкость в варьировании кластеризации и обычно определяется число кластеров. С другой стороны, когда объекты характеризуются большим числом признаков (параметров), то приобретает важное значение задача группировки признаков. Исходная информация содержится в квадратной матрице связей признаков, в частности в корреляционной матрице. Основой успешного решения задачи группировки является неформальная гипотеза о небольшом числе скрытых факторов, которые определяют структуру взаимных связей между признаками. В иерархических алгоритмах фактически отказываются от определения числа кластеров, строя полное дерево вложенных кластеров (дендрограмму). Число кластеров определяется из предположений, в принципе, не относящихся к работе алгоритмов, например по динамике изменения порога расщепления (слияния) кластеров. Трудности таких алгоритмов хорошо изучены: выбор мер близости кластеров, проблема инверсий индексации в дендрограммах, негибкость иерархических классификаций, которая иногда весьма нежелательна. Тем не менее, представление кластеризации в виде дендрограммы позволяет получить наиболее полное представление о структуре кластеров.

Иерархические алгоритмы связаны с построением дендрограмм и делятся:

а) на агломеративные, характеризуемые последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров (построение кластеров снизу вверх);

б) на дивизимные (делимые), в которых число кластеров возрастает, начиная с одного, в результате чего образуется последовательность расщепляющих групп (построение кластеров сверху вниз).

7.3.2. Иерархические алгоритмы гломеративные алгоритмы

На первом шаге все множество I представляется как множество кластеров:

На следующем шаге выбираются два наиболее близких друг к другу (например, c_p и с_ч) и объединяются в один общий кластер. Новое множество, состоящее уже из m-1 кластеров, будет:

Повторяя процесс, получим последовательные множества кластеров, состоящие из (т-2), (т-3), (т-4) и т. д.

В конце процедуры получится кластер, состоящий из т объектов и совпадающий с первоначальным множеством I.

Для определения расстояния между кластерами можно выбрать разные способы. В зависимости от этого получают алгоритмы с различными свойствами.

Существует несколько методов пересчета расстояний с использованием значений расстояний для объединяемых кластеров, отличающихся коэффициентами в формуле:

Если кластеры р и q объединяются в кластер r и требуется рассчитать расстояние от нового кластера до кластера s, применение того или иного метода зависит от способа определения расстояния между кластерами, эти методы различаются значениями коэффициентов а_р, а_ч, Р и у.

В табл. 7.2 приведены коэффициенты пересчета расстояний между кластерами а_р, а_ч, р и у.

Таблица 7.2

<<< < Предыдущая 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2122 / 2922 23 24 25 26 27 28 29 > Следующая >>>

Соседние файлы в папке Лекции по СППР

#
23.03.201689.6 Кб79Карта_Кохонена.doc
#
23.03.201610.75 Кб114Лекция 1.doc
#
23.03.201674.75 Кб91Лекция 2.doc
#
23.03.2016354.82 Кб109Лекция 3.doc
#
23.03.2016968.7 Кб148Лекция 5.doc
#
23.03.20162.2 Mб190Лекция 6-7.doc
#
23.03.20163.38 Mб90Приложение.doc
#
23.03.2016236.03 Кб72Рабочая программа СПР.doc
#
23.03.20161.39 Mб87рахманова а.и.pptx
#
23.03.201663.2 Кб71Системы_поддержки_принятия_решений.htm