Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
kurs.rtf
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
23.54 Mб
Скачать

Неиерархические алгоритмы кластеризации

Неиерархические алгоритмы обеспечивают разделение объектов при заданной целевой функции. Таким образом, при разделении объектов стремятся достичь максимума или минимума целевой функции.

В алгоритме k-means на первом шаге задаётся произвольных центров и точность кластеризации . В качестве центров могут быть выбраны объекты множества . На втором шаге все объекты разделяют по критерию близости к одному из центров на кластеров. Третий шаг алгоритма связан с вычислением новых центров кластеров. Координаты центров в пространстве вычисляются как средние значения атрибутов объектов, входящих в состав сформированных кластеров. При этом новые центры могут отличаться от центров, использованных для разделения объектов на предшествующем шаге. Далее производится разбиение на кластеры с использование новых центров.

Процедуры разделения на кластеры повторяются. Разделение завершается, если координаты центров и границы кластеров перестают меняться.

Алгоритм Fuzzy C-Means является обобщением алгоритма k-means. Основное отличие алгоритма – кластеры представляются нечёткими множествами. Каждый объект принадлежит кластеру с различной степенью принадлежности.

Представление результатов кластеризации

Кластерная модель представляет описание кластеров и принадлежность к одному из них каждого объекта из исходного множества. В случае небольшого числа объектов, характеризующихся двумя переменными, результаты можно изобразить посредством элементарных фигур (треугольников, четырехугольников), соответствующих объектам, и множества прямых линий [3]. На рисунке 8.1 представлена диаграмма, характеризующая разделение объектов с двумя атрибутами (параметрами).

Рисунок 8.1 – Разделение на кластеры

Если кластеры нельзя разделить прямыми линиями, то границы кластеров изображаются с применением ломаных линий. Принадлежность объекта к нескольким кластерам можно изобразить с применением Венских диаграмм.

В случае нечёткой кластеризации принадлежность объекта к кластеру оценивают вероятностью принадлежности или степенью принадлежности. В этом случае результат можно представить в виде таблицы, в которой строки соответствуют объектам, столбцы – кластерам. В ячейках таблицы указывается вероятность или степень.

Некоторые алгоритмы кластеризации строят структуры кластеров. Самый верхний уровень в структуре соответствует всему множеству объектов в виде единственного кластера. На следующем уровне множество делится на несколько кластеров, каждый из которых также делится на несколько кластеров. В принципе, построение иерархии может продолжаться до представления каждого объекта отдельным кластером. Визуализация таких структур выполняется в виде дендограмм (dendrograms). Существует различные способы построения дендограмм [1].

Краткие итоги

  • Задача кластеризации предполагает разделение множества объектов на кластеры (cluster) или классы, таксоны, сгущения, группы. В кластерном анализе различие объектов по атрибутам (переменным) не учитывается.

  • В задачах кластеризации мера близости объектов определяется из представления объектов в виде точек - мерного пространства. Наибольшее применение находят меры: евклидово расстояние, расстояние по Хеммингу, расстояние Чебышева и расстояние Махаланобиса.

  • В иерархических агломеративных алгоритмах кластеризации исходное множество объектов представляется как множество кластеров . Кластеры с наименьшим удалением сливаются в общий кластер. Процедуру повторяют до выполнения условия остановки алгоритма.

  • В иерархических дивизимных алгоритмах кластеризации исходное множество объектов представляется как единственный кластер. Разделение кластера выполняют по критерию наибольшей удалённости объектов. Алгоритмы различаются способом выбора кластера для разделения.

  • В неиерархических алгоритмах на первом шаге кластеризации задаются произвольные центры кластеров и точность кластеризации. Последующие шаги связаны с разделением объектов по критерию близости к центрам кластеров и вычислению новых центров кластеров.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]