Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Анализ данных.doc
Скачиваний:
149
Добавлен:
10.05.2014
Размер:
2.77 Mб
Скачать

21. Графическое представление результатов кластерного анализа.

Иерархическая классификация, как уже отмечалось, допускает наглядную интерпретацию. Для того чтобы привязать граф иерархии или дендрограмму к системе прямоугольных координат, введем понятие индексации. Индексациейиерархии называется отображение:hR1, ставящее в соответствие множествуKhчисло (K)R1таким образом, что

  1.  (K) = 0 для одноэлементных множествK, т.е.K= 1;

  2.  (K´) < (K) для каждой пары (K´,K) такой, чтоK´K, K´≠  K.

Индексация иерархии позволяет алгоритмизировать процесс построения дендрограммы. Пусть (h,ν) – некоторая индексированная иерархияhна множествеО= {O1, O2, …,ON}. Вершины графа иерархии, отвечающие одноэлементным множествам {Oi},i = 1,2, …, N, обозначим черезνi, а вершины, соответствующиеК(К> 1), обозначимνК. Введем систему координат с осью абсциссхи осью ординатη.Вначале на осихчерез равные интервалыразмещаются вершины, то есть представляются в виде точек с координатами= (i, 0). Предположим далее, что вершины иуже нанесены на плоскость в виде точек с координатамии. Тогда кластерK = KiKjможет быть представлен точкой с координатамис последующим соединением ее с точкамии. Напомним, чтоη К > max(,) согласно п.2 определения индексации, так что вершинаvКрасположится выше вершини. Заметим, что построенная таким образом дендрограмма может содержать нежелательные пересечения ребер, поэтому вершины переупорядочиваются так, чтобы ребра соединялись только в вершинах. На рис.9 представлены дендрограммы иерархии с пересечением и без. Заметим также, что традиционно ребра диаграммы изображают в виде вертикальных и горизонтальных отрезков, как на дендрограмме без пересечений (рис.9,б).

а) б)

Рис.9. Дендрограммы иерархии примера из п.9.5.1:

а − с пересечением ребер; б − без пересечения ребер

Способы задания индекса νмогут быть разные. Весьма распространена индексация, ставящая в соответствие множествуKhномер шага, на котором это множество было включено в иерархию. В качестве альтернативы индексом может выступать мощность множества, точнееν=K– 1.

Информативность дендрограммы существенно возрастает, если в качестве ординаты кластера K, полученного объединением кластеровKiиKj, т.е.K = KiKj,выступает расстояние между кластерамиd(Ki, Kj). Такое изображение называютоцифрованным.

Одна из проблем иерархического кластерного анализа – определить, какие метрики позволяют провести оцифрование, удовлетворяющее условиям индексации, или иначе, найти индексацию, такую что ν(КiКj) = d(Кij). Так, для евклидовой метрики ответ на этот вопрос – отрицательный, что можно проиллюстрировать следующим примером. Пусть пять двумерных объектов, подлежащих кластеризации, образуют конфигурацию, представленную на рис.10,а.

а)

б)

Рис.10. Пример инверсии для евклидовой метрики:

а − исходная конфигурация; б − инверсия

На первом шаге агломеративной процедуры получаем кластер К1=.{О1, О2} c координатами центра тяжестиZ(К1) = (1,5;1). Для кластераК1, полученного объединениемодноэлементных кластеров {O1} и {O2}, d(О1, О2)= 1. Ближайшим кК1окажется объектО3(точнее одноэлементный кластерК2={O3}) с координатами центра тяжестиv(К2)= (1,5; ). На следующем шаге алгоритма образуется, очевидно, кластерК31К2сd(К1, К2) = (1 )2, поскольку расстояние между кластерами измеряется по центрам тяжести (квадрат евклидова расстояния). Выходит для кластераК3потенциальный индекс, равный расстоянию (1)2, оказывается меньше по сравнению с индексомК1, равным 1. Налицо инверсия, поскольку нарушено требование 2, предъявляемое к индексам:К1К3 ν(К1) < ν(К3) (см. рис.10, б).

Достаточные условия, когда оцифрование является и индексацией, содержатся в теореме Миллигана. Эта теорема опирается на рекуррентную формулу Жамбю, которая позволяет пересчитывать расстояния между имеющимся кластером Ки вновь образованнымK=KiKj (KKi, KKj), используя расстояния и индексы, полученные на предыдущих шагах:d(K, K) = a1d(K,Ki)+a2d(K,Kj)+a3d(Ki,Kj)+a4ν(K)+

+a5ν(Ki)+a6ν(Kj)+a7d(K, Ki)–d(K,Kj),

где ai– числовые коэффициенты, зависящие от метода определения расстояния между кластерами. Так, при

а12=–а7=1/2 и а3456=0

приходим к расстоянию, измеренному по принципу «ближайшего соседа», а при

а127=1/2 и а3456=0«дальнего соседа».

Теорема Миллигана.Пустьh– иерархия наО, полученная с использованием метрикиd(К12), для которой справедлива формула Жамбю. Тогда, еслиа1231, аj 0 для j=1,2,4,5,6 и а7min (а12),

то отображение , задаваемое формулой(К1К2) = =d(К12) и условиемν({Оi})=0,i=1,2, …,N, является индексацией.

В заключение отметим, что если рассечь дендрограмму горизонтальной линией на некотором уровне *, получаем ряд непересекающихся кластеров, число которых равно количеству «перерезанных» линий (ребер) дендрограммы; состав кластера определяется терминальными вершинами, связанными с данным «перерезанным» ребром.