Скачиваний:
71
Добавлен:
01.05.2014
Размер:
471.55 Кб
Скачать

Расстояние Махалонобиуса

Квадратное расстояние Махалонобиуса от xi до xj описывается выражением

(5.7)

где C-1 есть обратная ковариационная матрица.

Коэффициент Танимото

Танимото предложил меру сходства известную как коэффициент Танимото:

(5-8)

где xiTxj означает число общих атрибутов у xi и xj, xiTxi означает число атрибутов у xi и xjTxj означает число атрибутов у xj. Знаменатель даёт число атрибутов у xi или xj но не у обоих. Таким образом всё выражение обозначает отношение общих атрибутов у xi и xj к числу атрибутов только у векторов xi, xj но не у обоих одновременно.

5.1.3 Типы алгоритмов кластеризации Классификация алгоритмов кластеризации

Было предложено большое количество алгоритмов кластеризации. Они могут быть сгруппированы в прямые (конструктивные) или косвенные алгоритмы (оптимизации) согласно тому, используется или нет оценочная функция в процессе кластеризации. Для прямого подхода, который иногда называется эвристическим, необходимо просто изолировать классы модели без использования оценочной функции, в то время как для косвенного подхода мы используем оценочную функцию, чтобы оптимизировать классификацию.

Очень часто алгоритмы кластеризации могут быть классифицированы как агломерационный или аналитический подход согласно процессу кластеризации, работающему по "восходящему" или "нисходящему" направлению. Алгоритм кластеризации называют агломерационным, если он начинается с изолированных образцов и объединяет самые близкие образцы или группы согласно порогу объединения, в результате чего формируется иерархия.

Алгоритм кластеризации считают аналитическим, если он начинает работу с набора образцов и делит их по нисходящему направлению при уменьшении или максимизировании некоторой функции оценки в оптимальные кластеры.

Много программ было написано по каждому из этих алгоритмов, но большинство пользуется преимуществом обоих и включает как аналитические, так и агломерационные подходы в одну программу. Это ведет к другой классификации, основанной на том, известно ли число классов или нет заранее. Этот метод мы использовали в этой книге.

Внутреннее и внешнее расстояния: один критерий

Мы упомянули ранее, что степень естественной зависимости ожидается высокой среди членов, принадлежащих к одной категории, и низкой среди членов различных категорий. Другими словами, внутреннее расстояние должно быть мало, принимая во внимание, что внешнее расстояние должно быть велико.

Математически внешнее расстояние между двумя множествами задаётся как

(5.9)

или

(5.10)

что означает среднеквадратичное расстояние между точками разных классов. Индексы 1 и 2 в наборах образцов [x1i] и [x2j] обозначают классы 1 и 2, соответственно, а N1 и N2 соответствуют числу образцов в классах 1 и 2.

Внутреннее расстояние для множества из N образцов (все образцы принадлежат одному классу) может быть построено аналогично:

(5.11)

среднеквадратичное расстояние от фиксированного образца xi до других N - 1 образцов в том же множестве задаётся как

(5.12)

Тогда среднее значение среди всех N образцов множества есть

(5.13)

или

(5.14)

Что после раскрытия выражений в скобках даёт

(5.15)

Поскольку мы работаем с тем же множеством образцов

(5.16)

мы имеем

(5.17)

Заметим, что по определению дисперсия k-го компонента N образцов есть

(5.18)

после упрощения. Таким образом внутреннее расстояние стало

(5.19)

или

(5.19a)

где

(5.19b)

Соседние файлы в папке lecture6