Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Классификация / glava3 / МЕТОДЫ КЛАСТЕР.doc
Скачиваний:
85
Добавлен:
01.05.2014
Размер:
1.46 Mб
Скачать

§ 3. Описание кластер-процедур и их основных свойств

1. Иерархические процедуры

Как отмечалось выше, принцип работы иерархических агломера-тнвных (дивизимиых) процедур состоит в последовательном объеди­нении (разделении) групп элементов сначала самых близких (дале­ких), а затем все более отдаленных друг от друга (приближенных друг к другу). При этом агломеративные процедуры начинают обычно с объединения отдельных элементов, а дивизимные — с разъединения всей исходной совокупности наблюдений.

С некоторой точки зрения иерархические процедуры, по сравнению с другими кластер-процедурами, дают более полный и тонкий анализ структуры исследуемого множества наблюдений. Привлекательной стороной подобных алгоритмов является и возможность наглядной интерпретации проведенного анализа. Легко себе представить также использование иерархических процедур и для решения задач кластер-анализа типов (а) и (б), т. е. для разбиения наблюдений на какое-то объективно обусловленное число классов, заданное или известное. При решении задач типа(а) для этого, очевидно, следует продолжать реали­зацию иерархического алгоритма до тех пор, пока число различных классов не станет равным априори заданному числу k. При решении задач типа (б) естественно было бы подчинить правило остановки иерар­хической процедуры одному из критериев качества разбиения [10]. К недостаткам иерархических процедур следует отнести громозд­кость их вычислительной реализации. Соответствующие алгоритмы на каждом шаге требуют вычисления всей матрицы расстояния, а сле­довательно, емкой машинной памяти и большого времени. Поэтому реализация таких алгоритмов при числе наблюдений, большем нес­кольких сотен, оказывается либо невозможной, либо нецелесообраз­ной.

Кроме того, имеется широкий класс достаточно естественных примеров, в которых иерархические процедуры, даже подчиненные

на каждом шаге некоторому критерию качества разбиения, приводят для любого наперед заданного числа кластеров k к разбиению, весьма далекому от оптимального в смысле того же самого критерия качест­ва Если прибавить к этому широкое экспериментальное подтвержде­ние того же эффекта [28], то можно прийти к выводу, что «конечная неоптимальность» оптимального иерархического алгоритма является скорее правилом, чем исключением. Специфический характер метода образования групп, свойственный иерархическим процедурам, ока­зывается, по-видимому, слишком жестким ограничением с точки зре­ния экстремального подхода к решению задач классификации наблю­дений при определенном числе классов.

Приведем некоторые примеры иерархических алгоритмов: — агломеративный иерархический алгоритм «ближайшего соседа» , (или «одной связи»). Этот алгоритм исходит из матрицы расстояний/ между наблюдениями, в которой расстояние между кластерами опре-' делено по формуле (3.4). На первом шаге алгоритма каждое наблюде­ние ХГ (i = 1,2, ..., п) рассматривается как отдельный кластер. Далее ! на каждом шаге работы алгоритма происходит объединение двух•' самых близких кластеров и соответственно по формуле (3.4) пере-, считывается матрица расстояний, размерность которой, естественно, снижается на единицу. Работа алгоритма заканчивается, когда все исходные наблюдения объединены в один класс. Поскольку расстоя­ние между любыми двумя кластерами в этом алгоритме равно расстоя­нию между двумя самыми близкими элементами, представляющими свои классы, то получаемые в итоге кластеры могут иметь достаточно сложную форму, в частности, они не обязаны быть выпуклыми; ведь два элемента (наблюдения) попадают в один кластер, если существует соединяющая их цепочка близких между собой элементов. Это обстоя­тельство можно отнести как к достоинствам алгоритма, так и к его недо­статкам.

Для устранения опасности появления случайных, не характерных для исследуемого явления объединений [77] предложена модификация алгоритма «ближайшего соседа». Эта модификация состоит в том, что элементы исследуемой совокупности включаются в рассмотрение в порядке убывания плотности наблюдений в их окрестности, причем плотность оценивается как величина, обратная расстоянию до самого дальнего из т элементов, ближайших к данному. Целое число m назначается заранее из некоторых априорных соображений и, по смыс­лу использования в процедуре, определяет число элементов (в коли­честве m + 1) в кластере, являющемся наиболее представительным, наиболее населенным среди всех кластеров, образующихся на первом шаге процедуры. А кластеры эти образуются по следующему правилу. Из элементов исследуемой совокупности (Хi), занумерованных в порядке возрастания расстояния Ri(т) от каждого из них до самого дальнего из m ближайших к нему соседей, выбираются вначале т то­чек, попавших в окрестность точки Х1 радиуса R1(m), и из этих (m+1) точек формируется первый кластер S1. Затем берется следующая по порядку точка Xi из числа n — т — 1 оставшихся, т. е. не попавших в кластер S1 и к ней «притягиваются» для образования следующего класса все точки, из числа не попавших в кластер Sl попадающие в ее окрестность радиуса Ri2 (т), и т. д. Следует отметить, что описан­ная модификация алгоритма ближайшего соседа, оставаясь агломеративной процедурой, уже не является, строго говоря, процедурой иерархической, так как не предусматривает в качестве обязательного итога объединение всех наблюдений в один класс.

Существуют и другие способы устранения цепочечного эффекта при образовании классов с помощью алгоритма ближайшего соседа. Наиболее простым и естественным из них можно признать, например, введение ограничения сверху на максимальное расстояние между элементами одного класса: если при формировании классов для неко­торых элементов получаемого кластера взаимное расстояние превы­сит некоторый заданный порог, то эти элементы следует разнести по какому-то дополнительному правилу в разные классы.

Отметим, что существует тесная связь между алгоритмом ближай­шего соседа и различными алгоритмами, основанными на представ­лении матрицы расстояний в виде графа [8], [13], [46]:

агломеративные иерархические алгоритмы передней связи», «полной связи» (или «дальнего соседа») и «минимального внутриклассового разб­роса». Эти алгоритмы отличаются от описанного выше алгоритма «ближайшего соседа» лишь способом вычисления расстояния между классами. В алгоритме средней связи под расстоянием между клас­терами понимается среднее из расстояний между всевозможными парами представителей этих кластеров, и следовательно, это расстоя­ние вычисляется по формуле (3.7). В алгоритме полной связи (или дальнего соседа) расстояние между двумя кластерами определяется как расстояние между двумя самыми отдаленными друг от друга пред­ставителями своих кластеров, т. е. вычисляется по формуле (3.5). В оп­тимальном иерархическом алгоритме (в алгоритме минимального внут­риклассового разброса) расстояние между кластерами определяется по формуле (3.10);

К-обобщенная иерархическая процедура, т. е. обобщенная по Колмогорову. Поскольку все вышеперечисленные виды расстояний между кластерами могут быть получены в качестве частных случаев обобщенного расстояния Колмогорова (3.8), то нам представляется естественным ввести понятие K-обобщенной иерархической процеду­ры. Очевидно, в класс K-обобщенных иерархических процедур следует включить все обычные иерархические алгоритмы, использующие в качестве расстояний между кластерами обобщенное расстояние Колмогорова (3.8) при том или другом конкретном выборе числового параметра r;

процедуры иерархические, использующие понятие порога. Общая схема подобных процедур отличается от обычной логической схемы ранее описанных иерархических процедур лишь дополнительным заданием последовательности, как правило, монотонной, порогов с12,.., ct, которые используются следующим образом. Для опреде­ленности дадим пояснения для агломеративных процедур. На первом шаге алгоритма попарно объединяются элементы, расстояние между которыми не превосходит величины cl либо мера близости которых не менее с1. На втором шаге алгоритма объединяются элементы, или группы элементов, расстояние между которыми не превосходит с2, либо мера близости которых не менее с2, и т. д. Очевидно, при сt = ∞ или при сравнении мер близости, при ct = 0, на последнем tшаге все элементы исходной совокупности окажутся объединенными в один общий класс. Заметим, однако, что объединение в кластеры, подчи­ненные подобным пороговым иерархическим алгоритмам, приводит к образованию, вообще говоря, пересекающихся промежуточных клас­сов, которые могут не расцепиться вплоть до последнего шага. Поэтому эффективность подобных процедур, возможность выбора подходящих пороговых значений cl,..., ct существенно зависят от внутренней гео­метрической структуры исходного множества наблюдений. В част­ности, пороговые иерархические процедуры оказываются уместными и достаточно аффективными в ситуациях, когда отсутствует (или слабо выражен) цепочечный эффект в структуре исходной совокупности наблюдений и когда последние, естественно, распадаются на какое-то количество достаточно отдаленных друг от друга отдельных скоплений точек в исследуемом факторном пространстве.

Примеры пороговых иерархических процедур читатель может найти, в частности, в [30], [51].

Соседние файлы в папке glava3