Скачиваний:
71
Добавлен:
01.05.2014
Размер:
471.55 Кб
Скачать

5.5 Графо-теоретические методы

Недостаток подходов, обсуждаемых ранее, в том, что исходы кластеризации зависят от упорядочения индикации выборок модели.

Рисунок 5.9 Иллюстративный пример 14 выборок для изучений матрицы подобия.

Можно было бы доказать, что кластеры могли бы быть определены более точно, если все выборки рассматривались одновременно. Графо-теоретические подходы предложены для выполнения таких требований, но возможно, при увеличении времени вычисления и требований к оперативной памяти.

5.5.1 Матрица подобия

Матрица подобия - такая матрица, которая показывает степени подобия между рядом точек образцов. Полагайте, что это симметричная матрица N X N, чьи элементы

(5.50)

где d(xi, xj) - расстояние между точками xi и xj, S - пороговое расстояние обозначающее подобие между двумя точками. Другими словами, sij сообщает, меньше ли расстояние между точками чем . sij - двоичные числа, выбранные таким образом, что для их хранения требуется только один бит памяти.

Рисунок 5.9 показывает двумерный график для набора 14 выборок. Матрица подобия выведенная из двумерных выборок приведена ниже.

Эта матрица подобия может использоваться для кластеризации. Процедура следующая:

1. Выбрать ряд S содержащий больше всего единиц (если рядов несколько выбрать любой), скажем i.

2. Сформировать кластер xi из всех xi соответствующих единицам в ряде i.

3. Добавить xk к клачтеру если sjk = 1; то есть если xj уже в кластере и то xk тоже должен быть в кластере даже если sik

4. Повторяем шаг 1 пока не сможем добавлять новые x-ы к кластеру.

5. Удалить все колонки и ряды соответствующие x-ам в кластере для формирования уменьшенной матрицы.

6. Повторяем шаги с 1 по 5 для сокращённой матрицы пока она сокращается.

Для примера пусть  = 2.

1. Выбираем первый ряд, там больше всего единиц.

2. [x1, x2, x3] образуют кластер [s11 = s12 = s13 = 1].

3-4. Выборки x1, x2 и x3 добавляются к кластеру. Третий ряд имеет 1 в 4 колонке; таким образом x4 добавляется к кластеру и формирует новый кластер [x1, x2, x3, x4]. Таким же образом x5 и x6 тоже добавляются к кластеру и образуют кластер, состоящий из [xi], i = 1, 2, ..., 6.

5. Сокращённая матрица после удаления всех колонок и рядов соответствующих x-ам кластера:

1. Выбираем ряд 7 с тремя 1.

2. [x7, x8, x9] образуют кластер.

3-4. Поскольку не существует sjk = 1 для j = 9, ни одного xk не добавляется к кластеру.

5. Сокращённая матрица после удаления всех колонок и рядов соответствующих x-ам кластера:

1. Выбираем ряд 11 с тремя 1.

2. [x10, x11, x12] формируют кластер.

3-4. Поскольку s12,13 = 1, x13 добавляется к кластеру в соответствии с процедурой 3 как указано выше. Тогда кластер становится [x10, x11, x12, x13].

5. Сокращённая матрица после удаления всех колонок становится такой:

оставляя [x14] последним кластером.

Когда  выбрана, кластеры определены непересекающимися связанными подграфами графа, определенного таким образом. Очевидно, выбор значения  очень важен. Возьмём для примера  = 4; тогда три кластера будут сформированы из того же самого набора данных. Когда выбранное  становится большим, скажем  = 8, будет существовать только один кластер (см. рисунок 5.10c). Если  = 1, то будет 14 кластеров с одной точкой в каждом кластере.

Заметим, что в этом методе имеется сумма N*N элементов в S и N (N - 1) / 2 незарезервированных элемента в S. Это может наложить серьезное ограничение на число точек модели, которые могут быть исследованы. Если мы имеем 1000 выборок, они генерируют приблизительно 500,000 расстояний между точками.

Рисунок 5.10 Эффект от выбора  : (a) =4, 3 кластера; (b) =5. 2 кластера; (c) =8, 1 кластер.

Соседние файлы в папке lecture6