Расстояние Махалонобиуса

Квадратное расстояние Махалонобиуса от x_i до x_j описывается выражением

(5.7)

где C^-1 есть обратная ковариационная матрица.

Коэффициент Танимото

Танимото предложил меру сходства известную как коэффициент Танимото:

(5-8)

где x_i^Tx_j означает число общих атрибутов у x_i и x_j, x_i^Tx_i означает число атрибутов у x_i и x_j^Tx_j означает число атрибутов у x_j. Знаменатель даёт число атрибутов у x_i или x_j но не у обоих. Таким образом всё выражение обозначает отношение общих атрибутов у x_i и x_j к числу атрибутов только у векторов x_i, x_j но не у обоих одновременно.

5.1.3 Типы алгоритмов кластеризации Классификация алгоритмов кластеризации

Было предложено большое количество алгоритмов кластеризации. Они могут быть сгруппированы в прямые (конструктивные) или косвенные алгоритмы (оптимизации) согласно тому, используется или нет оценочная функция в процессе кластеризации. Для прямого подхода, который иногда называется эвристическим, необходимо просто изолировать классы модели без использования оценочной функции, в то время как для косвенного подхода мы используем оценочную функцию, чтобы оптимизировать классификацию.

Очень часто алгоритмы кластеризации могут быть классифицированы как агломерационный или аналитический подход согласно процессу кластеризации, работающему по "восходящему" или "нисходящему" направлению. Алгоритм кластеризации называют агломерационным, если он начинается с изолированных образцов и объединяет самые близкие образцы или группы согласно порогу объединения, в результате чего формируется иерархия.

Алгоритм кластеризации считают аналитическим, если он начинает работу с набора образцов и делит их по нисходящему направлению при уменьшении или максимизировании некоторой функции оценки в оптимальные кластеры.

Много программ было написано по каждому из этих алгоритмов, но большинство пользуется преимуществом обоих и включает как аналитические, так и агломерационные подходы в одну программу. Это ведет к другой классификации, основанной на том, известно ли число классов или нет заранее. Этот метод мы использовали в этой книге.

Внутреннее и внешнее расстояния: один критерий

Мы упомянули ранее, что степень естественной зависимости ожидается высокой среди членов, принадлежащих к одной категории, и низкой среди членов различных категорий. Другими словами, внутреннее расстояние должно быть мало, принимая во внимание, что внешнее расстояние должно быть велико.

Математически внешнее расстояние между двумя множествами задаётся как

(5.9)

или

(5.10)

что означает среднеквадратичное расстояние между точками разных классов. Индексы 1 и 2 в наборах образцов [x₁ⁱ] и [x₂^j] обозначают классы 1 и 2, соответственно, а N1 и N2 соответствуют числу образцов в классах 1 и 2.

Внутреннее расстояние для множества из N образцов (все образцы принадлежат одному классу) может быть построено аналогично:

(5.11)