Скачиваний:
71
Добавлен:
01.05.2014
Размер:
471.55 Кб
Скачать

5.5.2 Методы дерева охвата Метод минимального дерева охвата

Метод минимального дерева охвата следует из анализа графа произвольных точечных множеств данных. Перед нашим обсуждением, позвольте нам ввести некоторые термины, которые должны оказаться полезными. При данном наборе G точек, i = 1, 2,..., N:

1. Ребро - соединение между двумя точками.

2. Путь - последовательность рёбер, соединяющих две точки.

3. Цикл - замкнутый контур.

4. Связный граф имеет один или более путей между любой парой точек.

5. Дерево - связный граф без петель.

6. Дерево охвата - дерево, которое содержит каждую точку в G.

7. Вес дерева - сумма весов, назначенных каждому ребру в дереве; например, вес приравнивается расстоянию между двумя точками в конце ребра.

8. Минимальное дерево охвата (MST) - это дерево охвата минимального веса (среди всех возможных деревьев охвата G).

9. Главный диаметр - это путь MST содержащий самое большое число точек (сформированный удалением точки разветвления от минимального дерева охвата).

Рисунок 5.11 Минимальное дерево охвата: (a) исходные данные; (b) MST.

На рисунке 5.11 показаны минимальное дерево охвата и исходные данные. Потому что минимум, перекрывающий дерево уникален к точечному множеству в терминах минимального общего веса, можно использовать дерево как базис для обнаружения кластера, объединяя свойства расстояния и свойства плотности.

Несколько главных диаметров могут быть нарисованы. Два из них показываются на рисунках. 5.12 и 5.13 с их графами. Из минимального дерева охвата, показанного на рисунке 5.11, кластеры могут быть найдены алгоритмом ближайшего соседа. Перемещение самого длинного ребра, 12-14, производит группировку с двумя кластерами; дальнейшее перемещение следующего самого длинного ребра, 4-9, производит группировку с тремя кластерами; и перемещение из всех трех длинных рёбер производит группировку с четырьмя кластерами. Они соответствуют выбору разрывов, где максимальные веса находятся в основном диаметре.

Кластеризация с разделением ближайшего соседа и максимального дерева охвата

Метод Джарвиса, который мы описываем, связывает правила разделения ближайшего соседа с правилами дерева охвата в графо-теоретическом подходе. В этом методе влияние других точек в наборе учтено количественно на относительном сходстве каждой пары точек модели. Идея лежащая в основе этой концепции преобразовывает контекстно - нечувствительные критерии в те, что отражают взаимодействие зависимостей размещения точки в относительной близости пары кандидата. В этом методе предполагается, что пары точек в наборе подобны, что они совместно используют тот же самый метод соседей при условии, что каждый находится в определенном соседстве с другой.

Процедура может быть записана следующим образом:

1. Перечислить k-самых близких соседей к каждой xi точки модели, i = 1, 2, …, N как показано на рисунке 5.14 в порядке плотности, как показано в таблице 5.3. Самый простой Евклидов критерий расстояния может использоваться для этой цели. Сгенерированная матрица ближайших соседей N x (k + 1) должна использоваться в последовательной обработке.

2. Проверяем на вхождение каждой строки в другие строки матрицы, чтобы найти пары строк для дальнейшей обработки (обычно не больше чем k строк может быть найдено).

3. Считать число индексных пар между двумя строками. Если число пар превышает kl (пороговый номер, который будет установлен), две точки, индексированные в первом столбце из двух строк считают находящимися в том же самом кластере.

Рисунок 5.12 Один из основных диаметров MST показанных на рисунке 5.11; (a) основной диаметр; (b) веса рёбер.

Рисунок 5.13 Один из основных диаметров MST показанных на рисунке 5.11: (a) основной диаметр; (b) веса рёбер.

Используйте подсчет соответствия как индекс подобия (см. Таблицу 5-4) чтобы разработать одиночную связь и структуры подобные MST против упорядочений этого нового критерия. Поскольку номер соседнего разделения в этом случае - критерий подобия (не критерий расстояния), структура максимального дерева охвата. Используйте абсолютные пороги, чтобы вырезать рёбра в максимальном дереве охвата и определять следующие свойства кластера в одиночном контексте соединения.

Рисунок 5.15 показанный в другом примере, состоящем из точечного множества и соответствующего Евклидова метрического минимального дерева охвата максимальным деревом охвата с разделяемым соседом для kl = 10. Связи с самым маленьким номером совместного использования отмечены "I", со следующим маленьким номером отмечены “II” и так далее до "IV". Эти маркировки указывают, как иерархия кластеров формировалась.

Рисунок 5.14 Простой набор данных используемый для иллюстрации алгоритма.

Таблица 5.3 N x (k + 1) матрица ближайших соседей для простых N-мерных наборов данных показанных на рисунке 5.14

Таблица 5.4 Число совпадений индекса между рядами в таблице 5.3

Соседние файлы в папке lecture6