Скачиваний:
110
Добавлен:
01.05.2014
Размер:
10.78 Mб
Скачать

6.10. Иерархическая группировка

6.10.1. Определения

Рассмотрим последовательность разделений п выборок на с групп. Первое из них — это разделение на n групп, причем каждая из групп содержит точно по одной выборке. Следующее разделение на п1 групп, затем на п2 и т. д. до n-го, в котором все выборки образуют одну группу. Будем говорить, что находимся на k-м уров­не в последовательности, когда с=пk+1. Таким образом, первый уровень соответствует п группам, а п-й одной группе. Если даны любые две выборки х и х', на некотором уровне они будут собраны вместе в одну группу. Если последовательность обладает тем свойством, что, когда две выборки попадают в одну группу на уровне k, они остаются вместе на более высоких уровнях, то такая последовательность называется иерархической группировкой. Классические примеры иерархической группировки можно найти в биологии, где индивидуумы группируются в виды, виды — в роды, роды —

Рис. 6.15.Дендрограмма иерархической группировки

в семейства и т. д. Вообще группировки такого рода проникают и в другие науки.

Для любой иерархической классификации существует соответствующее дерево, называемое дендрограммой, которое показывает, как группируются выборки. На рис. 6.15 представлена дендрограмма для гипотетической задачи, содержащей шесть выборок. Уровень 1 показывает шесть выборок как одиночные группы. На уровне 2 выборки x3 и x5 были сгруппированы в группу, и они остаются вместе на всех последующих уровнях. Если возможно измерить подобие между группами, то дендрограмма изображается в масштабе, чтобы показать подобие между группами, которые объединяются. На рис. 6.15, например, подобие между двумя группами выборок, которые объединены на уровне 6, имеет значение 30. Значения подобия часто используются для определения того, было ли объединение естественным или вынужденным. Для нашего гипотетического примера можно сказать, что объединения на уровнях 4 и 5 естественны, но значительное уменьшение подобия, необходимое для перехода на уровень 6, делает объединение на этом уровне вынужденным. Мы вскоре увидим, как получить такие значения подобия.

Благодаря простоте понятий иерархические процедуры группировки находятся среди наиболее известных методов. Процедуры можно разделить на два различных класса: агломеративный и делимый. Агломеративные (процедуры снизу-вверх, объединяющие) процедуры начинают с с одиночных групп и образуют последовательность постепенно объединяемых групп. Делимые (сверху-вниз, разделяемые) процедуры начинают с одной группы, содержащей все выборки, и образуют последовательность постепенно расщепляемых групп. Вычисления, необходимые для перехода с одного уровня на другой, обычно проще для агломеративных процедур. Однако, когда имеется много выборок, а нас интересует только небольшое число групп, такое вычисление должно повториться много раз. Для простоты ограничимся агломеративными процедурами, отсылая читателя к литературе по делимым процедурам.

6.10.2. Агломеративная иерархическая группировка

Основные шаги в агломеративной группировке содержатся в следующей процедуре:

Процедура: Базовая Агломеративная Группировка

1. Пусть =n и Xi={хi}, i=l, … , n.

Цикл: 2. Если с, останов.

3. Найти ближайшую пару групп, скажем Xi и Xj.

4. Объединить Xi и Xj уничтожить Xj и уменьшить на единицу.

5. Перейти к Цикл.

Описанная процедура заканчивается, когда достигнуто заданное число групп. Однако, если мы продолжим дос=1, то можем получить дендрограмму, подобную изображенной на рис. 6.15. На любом уровне расстояние между ближайшими группами может дать значение различия на этом уровне. Читатель обратит внимание на то, что мы не сказали, как измерять расстояние между двумя группами. Рассуждения здесь очень схожи с рассуждениями при выборе функции критерия. Для простоты ограничимся следующими мерами расстояния, предоставляя другие возможные меры воображению читателя:

Все эти меры напоминают минимальную дисперсию, и они обычно дают одинаковые результаты, если группы компактные и хорошо разделены.

Рис. 6.16.Три примера

Однако, если группы близки друг к другу или их форма в основном не гиперсферическая, могут получиться разные результаты. Мы используем двумерные множества точек, показанные на рис. 6.16, для иллюстрации этих различий;

6.10.2.1. Алгоритм «ближайший сосед»

Рассмотрим сначала случай, когда используется dmin.9 Предположим, что мы рассматриваем точки данных как вершины графа, причем ребра графа образуют путь между вершинами в том же подмножестве X10. Когда для измерения расстояния между подмножествами используется dmin, ближайшие соседи определяют ближайшие подмножества. Слияние Xi и Xj соответствует добавлению ребра между двумя ближайшими вершинами в Xi и Xj. Поскольку ребра, соединяющие группы, всегда проходят между различными группами, результирующий граф никогда не имеет замкнутых контуров или цепей; пользуясь терминологией теории графов, можно сказать, что эта процедура генерирует дерево. Если так продолжать, пока все подмножества не будут соединены, в результате получим покрывающее дерево (остов) — дерево с путем от любой вершины к любой другой вершине. Более того, можно показать, что сумма длин ребер результирующего дерева не будет превышать суммы длин ребер для любого другого покрывающего дерева для данного множества выборок. Таким образом, используя dmin в качестве меры расстояния, агломеративная процедура группировки превращается в алгоритм для генерирования минимального покрывающего дерева.

Рис. 6.17 показывает результат применения этой процедуры к данным из рис. 6.16. Во всех случаях процедура заканчивалась при с=2. Минимальное покрывающее дерево можно получить, добавляя самое короткое ребро между двумя группами. В первом случае, где группы компактны и хорошо разделены, найдены явные группы. Во втором случае наличие некоторых точек, расположенных так, что между группами создан некоторый мост, приводит к довольно неожиданной группировке в одну большую продолговатую группу и в одну маленькую компактную группу. Такое поведение часто называют «цепным эффектом» и иногда относят к недостаткам этой меры расстояния. В случае, когда результаты очень чувствительны к шуму или к небольшим изменениям в положении точек данных, такая критика вполне законна. Однако, как иллюстрирует третий случай, та же тенденция формирования цепей может считаться преимуществом, если группы сами по себе вытянуты или имеют вытянутые отростки.

Рис. 6.17.Результаты алгоритма «ближайший сосед».

6.10.2.2. Алгоритм «дальний сосед»

Когда для измерения расстояния между группами используются dmax. возникновение вытянутых групп является нежелательным11. Применение процедуры можно рассматривать как получение графа, в котором ребра соединяют все вершины в группу. Пользуясь терминологией теории графов, можно сказать, что каждая группа обра­зует полный подграф. Расстояние между двумя группами определяется наиболее удаленными вершинами в этих двух группах. Когда Ближайшие группы объединяются, граф изменяется добавлением ребер между каждой парой вершин в двух группах. Если мы опреде­ляем диаметр группы как наибольшее расстояние между точками в группе, то расстояние между двумя группами — просто диаметр их объединения. Если мы определяем диаметр разделения как наиболь­ший диаметр для группы в разделении, то каждая итерация увели­чивает диаметр разделения минимально. Как видно из рис. 6.18, это является преимуществом, когда истинные группы компактны и примерно одинаковы по размерам. Однако в других случаях, как, например, в случае вытянутых групп, результирующая группиров­ка бессмысленна. Это еще один пример наложения структуры на Данные вместо нахождения их структуры.

Рис. 6.18.Результаты алгоритма «дальний сосед».

6.10.2.3. Компромиссы

Минимальная и максимальная меры представляют два крайних подхода в измерении расстояния между группами. Как все процедуры, содержащие максимумы и минимумы, они оказываются слишком чувствительными к различным отклонениям. Использование усреднения — очевидный путь по возможности избежать этого, и davg, и dmean являются естественным компромиссом между dmin и dmax. С вычислительной точки зрения dmean — наиболее простая из всех мер, так как все другие требуют вычисления всех пi пj, пар расстояний ||хх'||. Однако такую меру, как davg, можно использовать, когда расстояния ||хх'|| заменены на меру подобия, а меру подо бия между средними векторами трудно или невозможно определить. Мы оставляем читателю разобраться, как использование davg или dmean может изменить группировку точек на рис. 6.16.

Соседние файлы в папке Анализ и интерпретация данных