§ 3. Описание кластер-процедур и их основных свойств

1. Иерархические процедуры

Как отмечалось выше, принцип работы иерархических агломера-тнвных (дивизимиых) процедур состоит в последовательном объединении (разделении) групп элементов сначала самых близких (далеких), а затем все более отдаленных друг от друга (приближенных друг к другу). При этом агломеративные процедуры начинают обычно с объединения отдельных элементов, а дивизимные — с разъединения всей исходной совокупности наблюдений.

С некоторой точки зрения иерархические процедуры, по сравнению с другими кластер-процедурами, дают более полный и тонкий анализ структуры исследуемого множества наблюдений. Привлекательной стороной подобных алгоритмов является и возможность наглядной интерпретации проведенного анализа. Легко себе представить также использование иерархических процедур и для решения задач кластер-анализа типов (а) и (б), т. е. для разбиения наблюдений на какое-то объективно обусловленное число классов, заданное или известное. При решении задач типа(а) для этого, очевидно, следует продолжать реализацию иерархического алгоритма до тех пор, пока число различных классов не станет равным априори заданному числу k. При решении задач типа (б) естественно было бы подчинить правило остановки иерархической процедуры одному из критериев качества разбиения [10]. К недостаткам иерархических процедур следует отнести громоздкость их вычислительной реализации. Соответствующие алгоритмы на каждом шаге требуют вычисления всей матрицы расстояния, а следовательно, емкой машинной памяти и большого времени. Поэтому реализация таких алгоритмов при числе наблюдений, большем нескольких сотен, оказывается либо невозможной, либо нецелесообразной.

Кроме того, имеется широкий класс достаточно естественных примеров, в которых иерархические процедуры, даже подчиненные

на каждом шаге некоторому критерию качества разбиения, приводят для любого наперед заданного числа кластеров k к разбиению, весьма далекому от оптимального в смысле того же самого критерия качества Если прибавить к этому широкое экспериментальное подтверждение того же эффекта [28], то можно прийти к выводу, что «конечная неоптимальность» оптимального иерархического алгоритма является скорее правилом, чем исключением. Специфический характер метода образования групп, свойственный иерархическим процедурам, оказывается, по-видимому, слишком жестким ограничением с точки зрения экстремального подхода к решению задач классификации наблюдений при определенном числе классов.

Приведем некоторые примеры иерархических алгоритмов: — агломеративный иерархический алгоритм «ближайшего соседа» , (или «одной связи»). Этот алгоритм исходит из матрицы расстояний/ между наблюдениями, в которой расстояние между кластерами опре-' делено по формуле (3.4). На первом шаге алгоритма каждое наблюдение Х_Г (i = 1,2, ..., п) рассматривается как отдельный кластер. Далее ! на каждом шаге работы алгоритма происходит объединение двух•' самых близких кластеров и соответственно по формуле (3.4) пере-, считывается матрица расстояний, размерность которой, естественно, снижается на единицу. Работа алгоритма заканчивается, когда все исходные наблюдения объединены в один класс. Поскольку расстояние между любыми двумя кластерами в этом алгоритме равно расстоянию между двумя самыми близкими элементами, представляющими свои классы, то получаемые в итоге кластеры могут иметь достаточно сложную форму, в частности, они не обязаны быть выпуклыми; ведь два элемента (наблюдения) попадают в один кластер, если существует соединяющая их цепочка близких между собой элементов. Это обстоятельство можно отнести как к достоинствам алгоритма, так и к его недостаткам.

Для устранения опасности появления случайных, не характерных для исследуемого явления объединений [77] предложена модификация алгоритма «ближайшего соседа». Эта модификация состоит в том, что элементы исследуемой совокупности включаются в рассмотрение в порядке убывания плотности наблюдений в их окрестности, причем плотность оценивается как величина, обратная расстоянию до самого дальнего из т элементов, ближайших к данному. Целое число m назначается заранее из некоторых априорных соображений и, по смыслу использования в процедуре, определяет число элементов (в количестве m + 1) в кластере, являющемся наиболее представительным, наиболее населенным среди всех кластеров, образующихся на первом шаге процедуры. А кластеры эти образуются по следующему правилу. Из элементов исследуемой совокупности (Х_i), занумерованных в порядке возрастания расстояния R_i(т) от каждого из них до самого дальнего из m ближайших к нему соседей, выбираются вначале т точек, попавших в окрестность точки Х₁ радиуса R₁(m), и из этих (m+1) точек формируется первый кластер S₁. Затем берется следующая по порядку точка X_i из числа n — т — 1 оставшихся, т. е. не попавших в кластер S₁ и к ней «притягиваются» для образования следующего класса все точки, из числа не попавших в кластер S_l попадающие в ее окрестность радиуса R_i₂ (т), и т. д. Следует отметить, что описанная модификация алгоритма ближайшего соседа, оставаясь агломеративной процедурой, уже не является, строго говоря, процедурой иерархической, так как не предусматривает в качестве обязательного итога объединение всех наблюдений в один класс.

Существуют и другие способы устранения цепочечного эффекта при образовании классов с помощью алгоритма ближайшего соседа. Наиболее простым и естественным из них можно признать, например, введение ограничения сверху на максимальное расстояние между элементами одного класса: если при формировании классов для некоторых элементов получаемого кластера взаимное расстояние превысит некоторый заданный порог, то эти элементы следует разнести по какому-то дополнительному правилу в разные классы.

Отметим, что существует тесная связь между алгоритмом ближайшего соседа и различными алгоритмами, основанными на представлении матрицы расстояний в виде графа [8], [13], [46]:

— агломеративные иерархические алгоритмы передней связи», «полной связи» (или «дальнего соседа») и «минимального внутриклассового разброса». Эти алгоритмы отличаются от описанного выше алгоритма «ближайшего соседа» лишь способом вычисления расстояния между классами. В алгоритме средней связи под расстоянием между кластерами понимается среднее из расстояний между всевозможными парами представителей этих кластеров, и следовательно, это расстояние вычисляется по формуле (3.7). В алгоритме полной связи (или дальнего соседа) расстояние между двумя кластерами определяется как расстояние между двумя самыми отдаленными друг от друга представителями своих кластеров, т. е. вычисляется по формуле (3.5). В оптимальном иерархическом алгоритме (в алгоритме минимального внутриклассового разброса) расстояние между кластерами определяется по формуле (3.10);

— К-обобщенная иерархическая процедура, т. е. обобщенная по Колмогорову. Поскольку все вышеперечисленные виды расстояний между кластерами могут быть получены в качестве частных случаев обобщенного расстояния Колмогорова (3.8), то нам представляется естественным ввести понятие K-обобщенной иерархической процедуры. Очевидно, в класс K-обобщенных иерархических процедур следует включить все обычные иерархические алгоритмы, использующие в качестве расстояний между кластерами обобщенное расстояние Колмогорова (3.8) при том или другом конкретном выборе числового параметра r;

— процедуры иерархические, использующие понятие порога. Общая схема подобных процедур отличается от обычной логической схемы ранее описанных иерархических процедур лишь дополнительным заданием последовательности, как правило, монотонной, порогов с₁,с₂,.., c_t, которые используются следующим образом. Для определенности дадим пояснения для агломеративных процедур. На первом шаге алгоритма попарно объединяются элементы, расстояние между которыми не превосходит величины c_l либо мера близости которых не менее с₁. На втором шаге алгоритма объединяются элементы, или группы элементов, расстояние между которыми не превосходит с₂, либо мера близости которых не менее с₂, и т. д. Очевидно, при с_t = ∞ или при сравнении мер близости, при c_t = 0, на последнем t-м шаге все элементы исходной совокупности окажутся объединенными в один общий класс. Заметим, однако, что объединение в кластеры, подчиненные подобным пороговым иерархическим алгоритмам, приводит к образованию, вообще говоря, пересекающихся промежуточных классов, которые могут не расцепиться вплоть до последнего шага. Поэтому эффективность подобных процедур, возможность выбора подходящих пороговых значений c_l,..., c_t существенно зависят от внутренней геометрической структуры исходного множества наблюдений. В частности, пороговые иерархические процедуры оказываются уместными и достаточно аффективными в ситуациях, когда отсутствует (или слабо выражен) цепочечный эффект в структуре исходной совокупности наблюдений и когда последние, естественно, распадаются на какое-то количество достаточно отдаленных друг от друга отдельных скоплений точек в исследуемом факторном пространстве.

Примеры пороговых иерархических процедур читатель может найти, в частности, в [30], [51].

<<< < Предыдущая 1 2 3 4 56 / 106 7 8 9 10 > Следующая >>>

Соседние файлы в папке glava3

#
01.05.201435 б42readme
#
01.05.20141.46 Mб85МЕТОДЫ КЛАСТЕР.doc