- •Классификация без обучения. Непараметрический случай: методы кластер-анализа, таксономия
- •§ I. Общая постановка задачи. Основные понятия и определения
- •1. Расстояния между отдельными объектами и меры близости объектов
- •2. Расстояние между классами и мера близости классов
- •3. Порог
- •4. Функционалы качества разбиения на классы. Экстремальная постановка задачи кластер-анализа, связь с теорией статистического оценивания параметров
- •5. Эталонные точки
- •§ 2. Основные типы задач кластер-анализа и основные типы кластер-процедур
- •§ 3. Описание кластер-процедур и их основных свойств
- •1. Иерархические процедуры
- •2. Параллельные кластер-процедуры
- •3. Исследование иерархических и параллельных процедур «на допустимость»
- •4. Последовательные кластер-процедуры
- •5. Последовательные кластер-процедуры и метод стохастической аппроксимации
2. Расстояние между классами и мера близости классов
При конструировании различных процедур классификации (кластер-процедур) в ряде ситуаций оказывается целесообразным введение понятия расстояния между целыми группами объектов, так же как и понятия меры близости двух групп объектов. Приведем здесь примеры наиболее распространенных расстояний и мер близости, характеризующих взаимное расположение отдельных групп объектов. Пусть Si — i-я группа (класс, кластер) объектов, ni— число объектов, образующих группу Si, вектор — арифметическое среднее векторных наблюдений, входящих вSi, другими словами, —«центр тяжести» i-й группы, а ρ (Sl, Sm) — расстояние между группами Sl, и Sm.
Ниже приводятся примеры наиболее употребительных и наиболее общих расстояний и мер близости между классами объектов:
— расстояние, измеряемое по принципу «.ближайшего соседа» «nearest neighbour» [28], [55], [41], [71]:
(3.4)
— расстояние, измеряемое по принципу «дальнего соседа» «furthest neighbour» [55], [42]:
(3.5)
расстояние, измеряемое по «центрам тяжести» групп [55], [42]:
(3.6)
— мера близости групп, основанная на потенциальной функции
[10]:
— расстояние, измеряемое по принципу «средней связи». Это расстояние определяется [55],[42] как арифметическое среднее всевозможных попарных расстояний между представителями рассматриваемых групп, т. е.
(3.7)
Естественно задать вопрос: а нельзя ли получить достаточно общую формулу, определяющую расстояние между классами по заданному расстоянию между отдельными элементами (наблюдениями), которая включила бы в себя в качестве частных случаев все рассмотренные выше виды расстояний?
Изящное обобщение такого рода, основанное на понятии так называемого «обобщенного среднего», а точнее — степенного среднего, было предложено А. Н. Колмогоровым1.
Обобщенное (по Колмогорову) расстояние между классами или обобщенное К-расстояние вычисляется по формуле:
(3.8)
В частности, при имеем:
Очевидно, также
.
Из (3.8) следует, что если группа элементов полученная путем объединения кластеровSm и Sq, то обобщенное К-расстояние между кластерами Sl и S(m, q) определяется формулой:
Отметим, что понятие расстояния между группами элементов особенно важно в так называемых агломеративных иерархических кластер-процедурах, поскольку принцип работы таких алгоритмов состоит в последовательном объединении элементов, а затем и целых групп сначала самых близких, а потом все более и более отдаленных друг от друга. Подробнее об агломеративных иерархических процедурах см. ниже. Учитывая специфику подобных процедур для задания расстояния между классами оказывается достаточным определить порядок пересчета расстояния между классом Sl, и классом, являющимся объединением двух других классов Sm и Sq, по расстояниям ρlm= ρ(Sl,Sm), ρlq= ρ(Sl,Sq), ρmq= ρ(Sm,Sq) между этими классами. В [55] предлагается следующая общая формула для вычисления расстояния между некоторым классом Sl, и классом S (m, q):
(3.9)
где — числовые коэффициенты, значения которых и определяют специфику процедуры, ее нацеленность на решение той или иной экстремальной задачи. Так, например, полагая и ,мы, как легко видеть, приходим к расстоянию, измеряемому по принципу ближайшего соседа. Если же положить и , то расстояние между двумя классами определится как расстояние между двумя самыми далекими элементами этих классов, по принципу дальнего соседа. И, наконец, выбор коэффициентов соотношения (3.9) по формулам:
приводит нас к расстоянию ρср между классами, вычисленному как среднее из расстояний между всеми парами элементов, один из которых берется из одного класса, а другой — из другого.
То, что формула для ρl(m,q), в частности, выбор коэффициентов в этой формуле, зачастую определяют нацеленность соответствующей агломеративной иерархической процедуры на решение той или иной экстремальной задачи, т. е. в каком-то смысле определяет ее оптимальную критерийную установку, поясняет, например, следующий результат [76]. Оказывается, если для вычисления ρl(m,q), воспользоваться следующей модификацией формулы (3.9):
, (3.10)
то соответствующий агломеративный иерархический алгоритм обладает тем свойством, что на каждом шаге объединение двух классов приводит к минимальному увеличению общей суммы квадратов расстояний между элементами внутри классов. Отметим сразу, что такая пошаговая оптимальность алгоритма в указанном смысле, вообще говоря, не влечет его оптимальности в том же смысле для любого наперед заданного числа классов, на которые требуется разбить исходную совокупность элементов,