Скачиваний:
71
Добавлен:
01.05.2014
Размер:
471.55 Кб
Скачать

Графо-теоретическая кластеризация основанная на ограниченном наборе соседей

Большинство подходов, обсуждавшихся предварительно, было основано на критерии расстояния, который является эффективным во многих прикладных программах. Но трудности происходят, когда этот простой критерий расстояния используется для кластеризации некоторых типов наборов данных, например с изменением плотности точек, с малым расстоянием между подкластерами и с цепочечными кластерами в пределах набора, как показано на рисунках 5. 16a, b и с, соответственно, где не трудно опознавать кластеры визуально.

Метод, обсуждавшийся в этом разделе предназначен прежде всего для таких проблем. Это связано с концепцией ограниченного соседства, которая дала начало визуальной модели кластеров. Несколько определений полезны для иллюстрирования этого метода. Пусть

где Sl и Rl, l = 1, 2,..., М. представляет, соответственно, графы и области влияния; (pi, pj) представляет ребро графа, соединяющее к pi точек и pj. Чтобы пояснять область влияния, два графа должны быть определены: граф Габриэля и граф относительных соседей.

Граф Габриэля (GG) определён в терминах круговых областей. Сегмент линии (pi, pj) не включен как ребро GG если никакая другая точка pk не находится в пределах или на границе круга с (pi, pj) как диаметр, как показано на рисунке 5.17a.

Точно так же граф относительных соседей (RNG) определен в терминах области двуугольника. Сегмент линии (pi, pj) включен как ребро RNG, если никакая другая точка pk не лежит в пределах или на границе двуугольника, с pi и pj как двt точки на дугах окружности двуугольников, Sl и Rl моueт тогда быть определены как

(5.51)

(5.52)

Из двух определений выше этого может быть замечено, что Sl определяет ограниченный набор соседства. Если максимум [d (x, pi), (d x, pj)] выбран для функции f [d (x, pi), d(x, pj)] в уравнении 5.52 то есть, мы находим максимум между d(x, pi) и d(x, pj) и используем это для функции f, мы получаем

(5.53)

где RRNG(pi,pj) есть регион влияния RNG. Тогда

используется для

мы имеем

(5.54)

где RRNG(pi,pj) определяет регион влияния GG.

Рисунок 5.15 Другой пример; (a) набор точек (b) максимальное дерево охвата с разделяемым соседом при kt = 10.

Рисунок 5.16 Примеры некоторых типов данных: (a) с изменением в плотности; (b) с узким местом между подкластерами; (c) со сцепленными кластерами.

Рисунок 5.17 Определения графа Габриэля и графа соседей: (a) круговой регион определяемый GG; (b) лунный регион определяемый RNG.

Определение Rl определит свойство Sl. Если Rl  , RGG грани Sl не будут пересекаться. Но если Rl  RGG появляются пересекающиеся грани. Рассмотрим пример, чтобы пояснять это. Предположим, что мы имеем области влияния типа следующих:

где 0 <  < 1 есть коэффициент относительной целостности рёбер. Таким образом Sl() получается из GG удалением (pi,pj) если

Где pa (!= pj) обозначает самого близкого соседа Габриэля pa и pb (! = pi) обозначает самого близкого соседа Габриэля pj.

Тогда понятно, что измененяя  мы управляем фрагментацией набора данных и следовательно получим последовательность вложенных кластеризаций. Увеличивая  разбили бы набор данных в большее число меньших кластеров. Примеры двумерных растров, показанных на рисунках от 5.18 до 5.20 демонстрируют эффективность этого метода кластеризации. См. Уркухарта (1982) для дополнительного чтения.

Рисунок 5.18 Множество двумерных точек для иллюстрации графо-теоритических алгоритмов основанных на ограниченных наборах: (a) набор данных; (b) один кластер; (c) шесть кластеров.

Соседние файлы в папке lecture6