Скачиваний:
71
Добавлен:
01.05.2014
Размер:
471.55 Кб
Скачать

5.3.5 Метод динамических кластеров в неиерархической кластеризации

В методах, обсуждаемых ранее, центр кластера был представлен простой точкой. В этом разделе мы вводим другой метод, названный Дидаем «метод динамических кластеров», в котором кластер представлен несколькими точками, называющимися кратными центрами или выборками. Функция Q используется для определения центрирования. Этот алгоритм может быть описан кратко следующим образом. Дано М, число кластеров, и Ni, число образцов в Ei, i = 1, 2, …, М., с S = (S1,..., СМ) как домены М-кластера E и E = (E1, …, EM) как М выборки S. Проблема кластеризации затем состоит в том, чтобы найти пару (E, S) которая свертывает

(5.48)

гдеEi C E, i = 1, 2, ... M, называются выборками или множественными центрами или ядрами; Si, i = 1, 2, ..., M, есть домены кластеров со свойствами Si  Sj = ; D(Ei, Si) есть «степень сходства» Ei и Si; d(x, z), называется внутренним расстоянием, применяется не только к одному центру кластера, а ко многим центрам (ядрам) как показано на рисунке 5.7. S = (S1, S2, … , SM) достигаются так, что Si формируются из множества элементов x таких, что . Новые выборки Ei(1) могут быть определены Ni элементами из E которые ближе всего к Si в смысле функции Q: Ni элементов из E выбираются так, что функция Q минимальна:

(5.49)

Рисунок 5.7 Многоцентровое представление кластера.

Рисунок 5.8 Такой же пример как и на рисунках 5.3 и 5.5, но с многоцентровым представлением кластера.

Выбор функции Q важен в этом алгоритме. С хорошим выбором Q, сходимость вообще достигнута приблизительно за пять итераций. Преимущество этого алгоритма в том, что используя Ni центров вместо только центра тяжести, реальная форма (может быть удлиненная форма) будет доступна. Если используется только центр тяжести, вытянутая форма была бы "округлена". Используем тот же самый пример, что и в предыдущих разделах (см. рисунок 5.8).

Таблица 5.1 Расстояний между центрами кластера

1. Найти расстояние между S1(0) и S2(0).

2. Из x-ов в S1(0) и x-ов в S2(0) найти E1(1) и E2(1) минимизирующие Q.

3. Переназначить точки для получения S1(1) и S2(1).

4. Построить корректное представление E1 и E2.

5.4 Оценка кластеризации исходов различными алгоритмами

Главная трудность в оценке исходов различных алгоритмов кластеризации - неспособность визуализировать геометрические свойства высоко - размерного пространства. Однако, имеются некоторые критерии, типа расстояния между центрами кластера, которые могут использоваться как инструмент для оценки исходов кластеризации. Из чисел, показанных в таблице 5.1, может быть замечено, что z8 значительно отдален от других семи центров кластера. Кластеры z1, z2, и z4 - близко друг к другу, как - кластеры z2 и z6, и z5 и z7. Число выборок модели, относящихся к домену каждого кластера - также помощь в интерпретации исходов. Для примера выше, если число выборок, связанных с кластером z8 многочисленно, мы конечно примем это как центр кластера. Но когда число выборок мало, кластер z8 может быть отброшен и не вызовет слишком много несоответствий в первоначальных данных.

Другой кусочек полезной информации, которая может использоваться в оценке кластеризации - дисперсия каждого домена кластера относительно среднего. Дисперсии полезны при выводе относительного распределения выборок в доменах. От значений компонентов дисперсии по осям координат мы можем оценивать плотность точек модели вокруг кластера также как формы домена кластера. Для кластера z1, показанного в таблице дисперсии (Таблица 5.2), мы можем говорить, что он имеет форму гиперсферы для домена поскольку si2, i = 1, 2, 3, почти то же самое для каждого компонента. Но для кластера z4, форма домена кластера будет несколько растягиваться относительно третьей координатной оси.

Отношение внутреннего расстояния к внешнему расстоянию - другой критерий для оценки кластеризации исходов. Мы определенно предпочитаем высокоэффективное значение для этого отношения. Другими количественными критериями свойств кластеризации могут быть самые близкие и наиболее удалённые точки от центра кластера в каждом домене и матрице ковариации каждого типового набора. Вычислительная сложность и машинное время - другие критерии для сравнения.

Таблица 5.2 Дисперсии различных доменов кластера

Соседние файлы в папке lecture6