Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Классификация / glava3 / МЕТОДЫ КЛАСТЕР.doc

Скачиваний:

Добавлен:

01.05.2014

Размер:

1.46 Mб

Скачать

☆

<<< < Предыдущая 1 23 / 103 4 5 6 7 8 9 10 > Следующая >>>

2. Расстояние между классами и мера близости классов

При конструировании различных процедур классификации (кластер-процедур) в ряде ситуаций оказывается целесообразным введение понятия расстояния между целыми группами объектов, так же как и понятия меры близости двух групп объектов. Приведем здесь примеры наиболее распространенных расстояний и мер близости, характеризующих взаимное расположение отдельных групп объектов. Пусть S_i — i-я группа (класс, кластер) объектов, n_i— число объектов, образующих группу S_i, вектор — арифметическое среднее векторных наблюдений, входящих вS_i, другими словами, —«центр тяжести» i-й группы, а ρ (S_l, S_m) — расстояние между группами S_l, и S_m.

Ниже приводятся примеры наиболее употребительных и наиболее общих расстояний и мер близости между классами объектов:

— расстояние, измеряемое по принципу «.ближайшего соседа» «nearest neighbour» [28], [55], [41], [71]:

(3.4)

— расстояние, измеряемое по принципу «дальнего соседа» «furthest neighbour» [55], [42]:

(3.5)

расстояние, измеряемое по «центрам тяжести» групп [55], [42]:

(3.6)

— мера близости групп, основанная на потенциальной функции

[10]:

— расстояние, измеряемое по принципу «средней связи». Это расстояние определяется [55],[42] как арифметическое среднее всевозможных попарных расстояний между представителями рассматриваемых групп, т. е.

(3.7)

Естественно задать вопрос: а нельзя ли получить достаточно общую формулу, определяющую расстояние между классами по заданному расстоянию между отдельными элементами (наблюдениями), которая включила бы в себя в качестве частных случаев все рассмотренные выше виды расстояний?

Изящное обобщение такого рода, основанное на понятии так называемого «обобщенного среднего», а точнее — степенного среднего, было предложено А. Н. Колмогоровым^¹.

Обобщенное (по Колмогорову) расстояние между классами или обобщенное К-расстояние вычисляется по формуле:

(3.8)

В частности, при имеем:

Очевидно, также

Из (3.8) следует, что если группа элементов полученная путем объединения кластеровS_m и S_q, то обобщенное К-расстояние между кластерами S_l и S(m, q) определяется формулой:

Отметим, что понятие расстояния между группами элементов особенно важно в так называемых агломеративных иерархических кластер-процедурах, поскольку принцип работы таких алгоритмов состоит в последовательном объединении элементов, а затем и целых групп сначала самых близких, а потом все более и более отдаленных друг от друга. Подробнее об агломеративных иерархических процедурах см. ниже. Учитывая специфику подобных процедур для задания расстояния между классами оказывается достаточным определить порядок пересчета расстояния между классом S_l, и классом, являющимся объединением двух других классов S_m и S_q, по расстояниям ρ_lm= ρ(S_l,S_m), ρ_lq= ρ(S_l,S_q), ρ_mq= ρ(S_m,S_q) между этими классами. В [55] предлагается следующая общая формула для вычисления расстояния между некоторым классом S_l, и классом S (m, q):

(3.9)

где — числовые коэффициенты, значения которых и определяют специфику процедуры, ее нацеленность на решение той или иной экстремальной задачи. Так, например, полагая и ,мы, как легко видеть, приходим к расстоянию, измеряемому по принципу ближайшего соседа. Если же положить и , то расстояние между двумя классами определится как расстояние между двумя самыми далекими элементами этих классов, по принципу дальнего соседа. И, наконец, выбор коэффициентов соотношения (3.9) по формулам:

приводит нас к расстоянию ρ_ср между классами, вычисленному как среднее из расстояний между всеми парами элементов, один из которых берется из одного класса, а другой — из другого.

То, что формула для ρ_l₍_m_,_q₎, в частности, выбор коэффициентов в этой формуле, зачастую определяют нацеленность соответствующей агломеративной иерархической процедуры на решение той или иной экстремальной задачи, т. е. в каком-то смысле определяет ее оптимальную критерийную установку, поясняет, например, следующий результат [76]. Оказывается, если для вычисления ρ_l₍_m_,_q₎, воспользоваться следующей модификацией формулы (3.9):

, (3.10)

то соответствующий агломеративный иерархический алгоритм обладает тем свойством, что на каждом шаге объединение двух классов приводит к минимальному увеличению общей суммы квадратов расстояний между элементами внутри классов. Отметим сразу, что такая пошаговая оптимальность алгоритма в указанном смысле, вообще говоря, не влечет его оптимальности в том же смысле для любого наперед заданного числа классов, на которые требуется разбить исходную совокупность элементов,

<<< < Предыдущая 1 23 / 103 4 5 6 7 8 9 10 > Следующая >>>

Соседние файлы в папке glava3

#
01.05.201435 б42readme
#
01.05.20141.46 Mб85МЕТОДЫ КЛАСТЕР.doc