Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Классификация / glava3 / МЕТОДЫ КЛАСТЕР.doc
Скачиваний:
85
Добавлен:
01.05.2014
Размер:
1.46 Mб
Скачать

2. Расстояние между классами и мера близости классов

При конструировании различных процедур классификации (кластер-процедур) в ряде ситуаций оказывается целесообразным введение понятия расстояния между целыми группами объектов, так же как и понятия меры близости двух групп объектов. Приведем здесь примеры наиболее распространенных расстояний и мер близости, характеризующих взаимное расположение отдельных групп объектов. Пусть Sii-я группа (класс, кластер) объектов, ni— число объек­тов, образующих группу Si, вектор — арифметическое среднее векторных наблюдений, входящих вSi, другими словами, —«центр тяжести» i-й группы, а ρ (Sl, Sm) — расстояние между группа­ми Sl, и Sm.

Ниже приводятся примеры наиболее употребительных и наиболее общих расстояний и мер близости между классами объектов:

— расстояние, измеряемое по принципу «.ближайшего соседа» «nearest neighbour» [28], [55], [41], [71]:

(3.4)

— расстояние, измеряемое по принципу «дальнего соседа» «furt­hest neighbour» [55], [42]:

(3.5)

  • расстояние, измеряемое по «центрам тяжести» групп [55], [42]:

(3.6)

— мера близости групп, основанная на потенциальной функции

[10]:

— расстояние, измеряемое по принципу «средней связи». Это расстояние определяется [55],[42] как арифметическое среднее всевозможных попарных расстояний между представителями рассматриваемых групп, т. е.

(3.7)

Естественно задать вопрос: а нельзя ли получить достаточно об­щую формулу, определяющую расстояние между классами по задан­ному расстоянию между отдельными элементами (наблюдениями), которая включила бы в себя в качестве частных случаев все рассмот­ренные выше виды расстояний?

Изящное обобщение такого рода, основанное на понятии так на­зываемого «обобщенного среднего», а точнее — степенного среднего, было предложено А. Н. Колмогоровым1.

Обобщенное (по Колмогорову) расстояние между классами или обобщенное К-расстояние вычисляется по формуле:

(3.8)

В частности, при имеем:

Очевидно, также

.

Из (3.8) следует, что если группа элементов полученная путем объединения кластеровSm и Sq, то обобщенное К-расстояние между кластерами Sl и S(m, q) определяется формулой:

Отметим, что понятие расстояния между группами элементов особенно важно в так называемых агломеративных иерархических кластер-процедурах, поскольку принцип работы таких алгоритмов состоит в последовательном объединении элементов, а затем и целых групп сначала самых близких, а потом все более и более отдаленных друг от друга. Подробнее об агломеративных иерархических процедурах см. ниже. Учитывая специфику подобных процедур для задания рас­стояния между классами оказывается достаточным определить порядок пересчета расстояния между классом Sl, и классом, являющимся объединением двух других классов Sm и Sq, по расстоя­ниям ρlm= ρ(Sl,Sm), ρlq= ρ(Sl,Sq), ρmq= ρ(Sm,Sq) между этими классами. В [55] предлагается следующая общая формула для вычисления расстояния между некоторым классом Sl, и классом S (m, q):

(3.9)

где — числовые коэффициенты, значения которых и опре­деляют специфику процедуры, ее нацеленность на решение той или иной экстремальной задачи. Так, например, полагая и ,мы, как легко видеть, приходим к расстоянию, измеряемому по принципу ближайшего соседа. Если же положить и , то расстояние между двумя классами определится как рас­стояние между двумя самыми далекими элементами этих классов, по принципу дальнего соседа. И, наконец, выбор коэффициентов соотношения (3.9) по формулам:

приводит нас к расстоянию ρср между классами, вычисленному как среднее из расстояний между всеми парами элементов, один из которых берется из одного класса, а другой — из другого.

То, что формула для ρl(m,q), в частности, выбор коэффициен­тов в этой формуле, зачастую определяют нацеленность соответствующей агломеративной иерархической процедуры на реше­ние той или иной экстремальной задачи, т. е. в каком-то смысле определяет ее оптимальную критерийную установку, поясняет, например, следующий результат [76]. Оказывается, если для вычисления ρl(m,q), воспользоваться следующей модификацией формулы (3.9):

, (3.10)

то соответствующий агломеративный иерархический алгоритм обла­дает тем свойством, что на каждом шаге объединение двух классов при­водит к минимальному увеличению общей суммы квадратов расстоя­ний между элементами внутри классов. Отметим сразу, что такая пошаговая оптимальность алгоритма в указанном смысле, вообще го­воря, не влечет его оптимальности в том же смысле для любого наперед заданного числа классов, на которые требуется разбить исходную совокупность элементов,

Соседние файлы в папке glava3