20. Иерархический кластерный анализ. Проблема индексации.

Наряду с обычным, «раздельным», кластерным анализом широко применяется иерархический кластерный анализ, цель которого состоит в получении всей иерархии разбиений, а не отдельного разбиения. Считается, что иерархия точнее характеризует размытую структуру данных, чем отдельное разбиение. Получить конкретное разбиение в случае необходимости сравнительно легко сечением графа иерархий.

Основные определенияПустьО = {O¹, O², …,O^N} – конечное множество объектов.ИерархиейhнаОназывается система подмножеств (классов) {K: KO}такая, что

O h;
{Oⁱ} h, i=1,2,…,N;
для пересекающихся подмножества KиK´, т.е.KK´ ≠ Ø,KK´либоK´K.

Пример.ПустьО ={О¹, О²,…, О⁵}. Тогда система подмножеств

h= {{O¹}, {O²}, …,{O⁵}, {O¹,O²}, {O³,O⁴}, {O¹,O²,O⁵},O}

является иерархией на О.

Иерархия может быть представлена на языке теории графов. Графом иерархии hнаОназывается ориентированный граф (V,E),вершиныvVкоторого соответствуют множествамKh, а ребраeE – парам (K´,K), таким чтоK´K. Реброe = (K´,K) изображается стрелкой с началомK´и концомK.

Иерархической классификациейданного множества объектов

О= {O¹, O², …,O^N} называется построение иерархииhнаО, отражающей наличие однородных в определенном смысле классов.

Если использовать неориентированный граф, то его структура становится деревом. Сам процесс классификации есть построение иерархического дерева исследуемой совокупности объектов. Графическое изображение неориентированного графа иерархии на плоскости называют дендрограммой.

В иерархическом кластерном анализе используются два вида алгоритмов: дивизимные и агломеративные. В дивизимных алгоритмахмножествоОпостепенно делится на все более мелкие подмножества, вагломеративных– наоборот: точки множестваОпостепенно объединяются во все более крупные подмножества. Соответственно графы иерархий, полученные при помощи этих алгоритмов, называют дивизимными и агломеративными. Дивизимные алгоритмы называют также нисходящими (движение против стрелок на графе иерархии), агломеративные – восходящими (движение вдоль стрелок). Если на каждом шаге такого алгоритма объединяются только два кластера, то говорят обинарномагломеративном алгоритме. Далее рассматриваются лишь такие алгоритмы.

Более подробно схема работы бинарного агломеративного алгоритма выглядит следующим образом. Исходное множество О= ={O¹, O², …,O^N} рассматривается как множество одноэлементных кластеров; выбирают два из них, напримерK_iиK_j, которые наиболее близки в смысле введенной метрики друг другу и объединяют их в один кластер. Новое множество кластеров будет иметь ужеN-1 элементK₁,K₂,…,{K_i,K_j},…,K_N..

Рассматривая полученное множество в качестве исходного и повторяя процесс, получают последовательные множества кластеров, состоящие из N-2, N-3 и т.д. кластеров.

К достоинствам иерархических процедур относят полноту анализа структуры исследуемого множества наблюдений, возможность наглядной интерпретации проведенного анализа, возможность остановки процедуры при достижении априори заданного числа кластеров. К cущественным недостаткам иерархических процедур следует отнести финальную неоптимальность. Как правило, даже подчиняя каждый шаг работы процедуры некоторому критерию качества разбиения, получающееся в итоге разбиение для любого наперед заданного числа кластеров оказывается весьма далеким в смысле того же самого критерия качества.

<<< < Предыдущая 1 2 3 4 5 6 78 / 138 9 10 11 12 13 > Следующая >>>