Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции по СППР / Лекция 6-7.doc
Скачиваний:
190
Добавлен:
23.03.2016
Размер:
2.2 Mб
Скачать

Дивизимные алгоритмы

Дивизимные кластерные алгоритмы, в отличие от агломеративных, на первом шаге представляют все множество элементов I как единственный кластер. На каждом шаге алгоритма один из существующих кластеров рекурсивно делится на два дочерних. Таким образом, итерационно образуются кластеры сверху вниз. Этот подход не так подробно описывается в литературе по кластерному анализу, как агломеративные алгоритмы. Его применяют, когда необходимо разделить все множество объектов I на относительно небольшое количество кластеров. Один из первых дивизимных алгоритмов был предложен Смитом Макнаотоном в 1965 году.

На первом шаге все элементы помещаются в один кластер Сi = I

Затем выбирается элемент, у которого среднее значение расстояния от других элементов в этом кластере наибольшее. Среднее значение может быть вычислено, например, с помощью формулы

Выбранный элемент удаляется из кластера С1 и формирует первый член второго кластера С2.

На каждом последующем шаге элемент в кластере С1, для которого разница между средним расстоянием до элементов, находящихся в С2, и средним расстоянием до элементов, остающихся в С1, наибольшая, переносится в С2.

Переносы элементов из С1 в С2 продолжаются до тех пор, пока соответствующие разницы средних не станут отрицательными, т.е. пока существуют элементы, расположенные к элементам кластера С2 ближе чем к элементам кластера С1

В результате один кластер делится на два дочерних, один из которых расщепляется на следующем уровне иерархии. Каждый последующий уровень применяет процедуру разделения к одному из кластеров, полученных на предыдущем уровне. Выбор расщепляемого кластера может выполняться по-разному.

В 1990 г. Кауфман и Роузеув предложили выбирать на каждом уровне кластер для расщепления с наибольшим диаметром, который вычисляется по формуле

Рекурсивное разделение кластеров продолжается, пока все кластеры или не станут сиглетонами (т. е. состоящими из одного объекта), или пока все члены одного кластера не будут иметь нулевое отличие друг от друга.

7.3.3. Неиерархические алгоритмы

Большую популярность при решении задач кластеризации приобрели алгоритмы, основанные на поиске оптимального в определенном смысле разбиения множества данных на кластеры (группы). Во многих задачах в силу своих достоинств используются именно алгоритмы построения разбиения. Данные алгоритмы пытаются сгруппировать данные (в кластеры) таким образом, чтобы целевая функция алгоритма разбиения достигала экстремума (минимума). Рассмотрим три основных алгоритма кластеризации, основанных на методах разбиения. В данных алгоритмах используются следующие базовые понятия:

  • обучающее множество (входное множество данных) М, на котором строится разбиение;

  • метрика расстояния:

(7.6)

где матрица А определяет способ вычисления расстояния. Например, для единичной матрицы будем использовать расстояние по Евклиду;

  • вектор центров кластеров С;

  • матрица разбиения по кластерам U;

  • целевая функция J =J{M, d, С, U); D набор ограничений.

Соседние файлы в папке Лекции по СППР