- •Классификация без обучения. Непараметрический случай: методы кластер-анализа, таксономия
- •§ I. Общая постановка задачи. Основные понятия и определения
- •1. Расстояния между отдельными объектами и меры близости объектов
- •2. Расстояние между классами и мера близости классов
- •3. Порог
- •4. Функционалы качества разбиения на классы. Экстремальная постановка задачи кластер-анализа, связь с теорией статистического оценивания параметров
- •5. Эталонные точки
- •§ 2. Основные типы задач кластер-анализа и основные типы кластер-процедур
- •§ 3. Описание кластер-процедур и их основных свойств
- •1. Иерархические процедуры
- •2. Параллельные кластер-процедуры
- •3. Исследование иерархических и параллельных процедур «на допустимость»
- •4. Последовательные кластер-процедуры
- •5. Последовательные кластер-процедуры и метод стохастической аппроксимации
4. Последовательные кластер-процедуры
Если число n классифицируемых наблюдений X1, X2, …Xn достаточно велико (от несколько сотен и более), то как мы уже отмечали, реализация кластер-процедур иерархического и параллельного типов практически невозможна. В этих случаях пользуются итерационными алгоритмами, на каждом шаге которых последовательно обсчитывается лишь небольшая часть исходных наблюдений, например одно из них. В том, что n велико, имеются не только неудобства, но и свои преимущества. В частности, это позволяет исследовать асимптотические (по n) свойства соответствующих процедур, аналогичные, например, свойствам состоятельности, асимптотической несмещенности и т п., анализируемым в теории статистического оценивания и статистической проверки гипотез.
Как и в параллельных алгоритмах, основными средствами и идеями, при конструировании последовательных кластер-процедур являются: мера близости или расстояние между группами; порог; эталонные множества или точки; функционал качества разбиения.
Так же, как и прежде, более простой, а главное всегда имеющей решение, является обычная задача типизации, при которой исходное множество многомерных наблюдений разбивается на определенное число «областей группирования» по принципу наперед заданной взаимной близости элементов, отнесенных к одной области группирования. Простейшим примером такого рода является разбиение на интервалы группирования исходной выборки одномерных наблюдений, особенно необходимое как раз при достаточно больших объемах выборки n.
Именно такую задачу решает, например, простой последовательный алгоритм [70], [73], использующий понятие порога с. В этом алгоритме случайным образом выбирается точка X1, которая объявляется центром e1 первой группы. Затем точка Х2 относится к первой группе, если ρ(X2, e1) ≤ c. В противном случае Х2 принимается за центр второй группы X2 = е2 и т. д. На l-м шаге, когда уже имеется r групп, точка Xl либо становится центром (l+1)-й группы, либо относится к той из групп, для которой ρ(Xl, ej) ≤ c. Если таких групп несколько, то выбирается та, к центру которой точка Хl ближе всего; если и таких групп несколько, то устанавливаются некоторые соглашения о том, куда относить Xl в этом случае.
Остановимся далее на описании двух наиболее общих и наиболее исследованных последовательных кластер -процедурах (и некоторых их модификациях), допускающих, в частности, интерпретацию в вероятностных терминах.
а) Алгоритм Б2a1. Метод k-средних [56]. Пусть наблюдения X1, X2, …, Xn требуется разбить на заданное число k (k≤n) однородных (в смысле некоторой метрики ) классов.
Смысл описываемого алгоритма — в последовательном уточнении эталонных точек (v — номер итерации, v = О, 1, 2, ...) с соответствующим пересчетом приписываемых им «весов» Ω(v) = .При этом нулевое приближение Е(0) строится с помощью случайно выбранных первых k точек исследуемой совокупности, т. е.
.
Затем на 1-м шаге «извлекается» точка Xk+1, и выясняется, к какому из эталонов она оказалась ближе всего. Именно этот, самый близкий кXk+1 эталон заменяется эталоном, определяемым как центр тяжести старого эталона и присоединенной к нему точки Xk+1 (с увеличением на единицу соответствующего ему веса), а все другие эталоны остаются неизменными (с прежними весами) и т. д. Таким образом, пересчет эталонов и весов на v-м шаге, т. е. при извлечении очередной точки Xk+v происходит по следующему правилу:
При этом если обнаруживается несколько (по i) одинаковых минимальных значений, то можно условиться относить точку Xk+v к эталону с минимальным порядковым номером.
При достаточно большом числе итераций, или при достаточно больших объемах классифицируемых совокупностей п и при весьма широких ограничениях на природу исследуемых наблюдений, дальнейший пересчет эталонных точек практически не приводит к их изменению, т.е. имеет место сходимость (в определенном смысле) E(v) к некоторому пределу при v→∞.
Если же в какой-то конкретной задаче исследователь не успел добраться до стадии практически устойчивых (по v) значений эталонных точек, то пользуются одним из двух вспомогательных приемов. Либо «зацикливают» алгоритм, «прогоняя» его после рассматривания последней точки Xn=Xk+(n-k) снова через точку X1 затем Х2, и т. д., либо производят многократное повторение алгоритма, используя в качестве начального эталона E(0) различные комбинации из k точек исследуемой совокупности и выбирая для дальнейшего наиболее повторяющийся (в некотором смысле) финальный эталон E(n-k)
Окончательное разбиение S исследуемой совокупности многомерных наблюдений на k классов производится в соответствии с правилом описанного выше минимального дистанционного разбиения S(E) относительно центров тяжести (эталонов) Е = Е(n-k), которое, кстати, является частным случаем разбиений ранее описанной общей схемы эталонных алгоритмов, получающихся при
Если оказывается, что ρ (X, El) = ρ (X, Еj), то точку X относят к тому из классов Si и Sj, который обладает меньшим порядковым номером.
Свойства алгоритма Б2а1. Для описания интересных свойств метода k-средних введем, следуя [33] и [56], некоторые понятия и определения.
Условимся интерпретировать исходное множество наблюдений Х1, X2,…Xn как случайную выборку из п независимых наблюдений, извлеченную из генеральной совокупности, описываемой некоторой (неизвестной нам) вероятностной мерой, определенной в рассматриваемом ρ-мерном факторном пространстве X исследуемых признаков. Подробнее о смысле меры Р см. на стр. 14. При этом будем предполагать, что мера Р сосредоточена на замкнутом, ограниченном, выпуклом множестве X, т. е. , причем для каждого открытого множества .
Пусть S = {S1,…,Sk} — некоторое разбиение пространства X на k непересекающихся множеств S1,…,Sk, так что теоретико-множественная сумма (объединение) всех этих множеств дает X.
Под k—средним =(…), порожденнымразбиением S = {S1,…,Sk} будем понимать набор векторов
i=1,2,…,k
каждый из которых является условным средним (центром тяжести) наблюдений своего класса, т.е.
=(3.30)
В покомпонентной записи формула (3.30) имеет вид
=
Здесь Sil — проекция ρ-мерного множества Si на ось X(l), а Pl(dX(l)) - вероятностная мера на прямой, задающая частное распределение компоненты X(l) в соответствии с законом P(dX), т. е.
Под
будем подразумевать разбиение, полученное в соответствии с общей схемой эталонных алгоритмов на основании эталонов Е = {E1,E2,…,Ek} и функции φ(X,El)=ρ(X,El).
Группа эталонных точек Е = {E1,E2,…,Ek} называется несмещенной k-точкой, если
,
т. е. если центры тяжести классов, построенных с помощью эталонных точек Е = {E1,E2,…,Ek}, совпадают с самими эталонными точками. В тех случаях, когда это не вызовет путаницы, будем для упрощения записи обозначать
Введем в рассмотрение следующие характеристики внутриклассового рассеяния, соответствующие разбиению S(E):
Описанный выше метод k-средних при довольно широких предположениях относительно вероятностной меры Р обладает следующими свойствами1:
— свойство несмещенности метода k-средних. Оказывается, что применительно к методу k-средних имеет место следующий аналог закона больших чисел.
с вероятностью единица.
Здесь —эталоны на v-м шаге алгоритма, — условные средние классов , полученных с помощью минимального дистанционного разбиения относительно эталонов , a — вероятностная мера соответствующих классов;
— свойство стационарности функционала качества разбиения. Последовательность случайных величин сходится почти всюду и равен (с вероятностью единица) Q1(E) для некоторого разбиенияS(E), для которого является несмещенной k-точкой.
Указанное свойства алгоритма Б2а1 означает, что разбиение, задаваемое этим алгоритмом, с ростом объема n исследуемой выборки стремится к некоторому несмещенному разбиению, на котором значение функционала совпадает со значением функционала
.
Очевидно, что для любых Е. Кроме того, как указывалось выше (см. стр. 93), минимальное значение функционала достигается на несмещенных разбиениях. Все это позволяет надеяться, что в достаточно общих ситуациях при больших объемах выборочных совокупностей алгоритм Б2а1 строит разбиение, близкое к наилучшему в смысле функционала , а следовательно, и в смысле функционала.
Возможны случаи, когда в результате действия алгоритма Б2а1 при неограниченном увеличении объема выборочной совокупности будут получаться разбиения, на которых значение функционала не минимально, а максимально. Рассмотрим следующий пример. Допустим, что исследуемая выборка является выборкой из генеральной совокупности, распределение которой сосредоточено в вершинах прямоугольника, одна сторона которого несколько больше другой, и зададимся целью разбить исследуемое пространство на два класса. Перенумеруем точки генеральной совокупности, в которых сосредоточено распределение, так как это показано на рис. 3.5. Пусть вероятности появления каждой из точек 1, 2, 3, 4 одинаковы. Предположим, что при случайном извлечении наблюдений из генеральной совокупности первые
четыре точки извлечены последовательно из вершин с номерами соответственно 1,2,3, 4. Тогда, если стороны a и b прямоугольника удовлетворяют неравенствам , то, как легко видеть, в результате действия алгоритма Б2а1 после обработки первых четырех точек эталонные точки будут лежать одна против другой на серединах длинных сторон прямоугольника. Нетрудно показать, что в какой бы последовательности ни появились затем выборочные точки (из вершин 1, 2, 3 и 4), эталонные точки
будут двигаться по соответствующим длинным сторонам прямоугольника до тех пор, пока они не подойдут слишком близко к вершинам этого прямоугольника. Из усиленного закона больших чисел следует, что с положительной вероятностью этого не произойдет. Другими словами, с положительной вероятностью алгоритм Б2а1 отнесет точки 1,3 к одному классу, а точки 2, 4 — к другому классу. А при этом разбиении значение функционала максимально.
И, наконец, приведем пример ситуаций, в которых может произойти определенного рода «зацикливание» алгоритма Б2а1. Рассмотрим двумерную генеральную совокупность, распределение которой совпадает с равномерным распределением на круге. Пусть — выборка из этой генеральной совокупности. Мы хотим с помощью алгоритма Б2а1, используя выборку , разбить совокупность на два класса. Нетрудно видеть, что в этом случае множество несмещенных точек совпадает с семейством точек , лежащих друг против друга на диаметре круга на одинаковом фиксированном расстоянии от центра круга, и значение функционала для всех этих точек одно и то же. Кроме того, в этом случае можно показать, что с вероятностью 1
Здесь — среднее i-й части минимального дистанционного разбиения.
Этот пример показывает, что указанные выше свойства алгоритма Б2а1, не исключают возможность того, что мы, строя последовательно эталонные точки, будем бесконечное число раз обходить окружность, на которой расположены несмещенные точки.
Прежде чем переходить к описанию следующих последовательных алгоритмов, заметим, что алгоритм Б2а1 близок к параллельному алгоритму типа Дидея, а именно, к алгоритму примера 1 стр. 108. Разница этих двух алгоритмов состоит лишь в том, что в алгоритме Б2а1 на v-м шаге эталонные точки выбираются с помощью k + v первых рассмотренных точек выборки, а в алгоритме примера 1 на v-м шаге эталонные точки выбираются с использованием всех точек выборки
б) Алгоритм Б2σ1. Алгоритм Б2a1 может быть обобщен на случай решения задач, для которых заранее число классов неизвестно.
Для этого следует задаться двумя константами Φ0,Ψ0, названными в [54] соответственно мерой грубости и мерой точности. Работа алгоритма Б2σ1 также состоит в последовательном построении эталонных точек и весов, но число классов k(v) может меняться при этом от итерации к итерации.
На нулевом шаге итерации берется любое начальное k(0) и полагается
.
Затем производится процедура «огрубления» эталонных точек. А именно, подсчитывается расстояние между двумя ближайшими эталонными точками и сравнивается это расстояние с заданной мерой грубости Φ0. Если это минимальное расстояние меньше Φ0, то соответствующая пара эталонных точек заменяется их взвешенным средним с весом, равным сумме соответствующих двух весов. Процедура огрубления заканчивается тогда, когда расстояние между любыми двумя эталонными точками не меньше чем Φ0. Пусть в результате процедуры огрубления мы имеем число эталонных точек , эталонные точкии веса.
На первом шаге итерации извлекается точка и вычисляется расстояние отдо ближайшей к ней эталонной точки. При этом если это расстояние больше Ψ0, тообъявляется новой эталонной точкойс весом, а все остальные эталонные точки и соответствующие им веса остаются неизменными.
Если это минимальное расстояние меньше чем Ψ0, то самый близкий к эталон заменяется эталоном, определяемым как центр тяжести старого эталона и присоединенной к нему точки. Вес точкисчитается равным 1. Вес этого нового эталона равен сумме весов объединяемых точек (старого эталона и точки).
Все остальные эталоны и соответствующие веса остаются неизменными. Таким образом, пересчет эталонов и весов в этом случае происходит точно так же, как и в алгоритме Б2а1.
После процедуры огрубления эталонных точек переходят ко 2-му шагу итерации и так далее.
Выбирая различные константы Φ0, Ψ0, мы будем с помощью алгоритма Б2σ1 получать различные разбиения. Выбор величин Φ0 и Ψ0 можно считать удачным, если разбиение, соответствующее этим величинам, признается оптимальным или с точки зрения экспертов, или в смысле принятых функционалов качества разбиения.
в) Алгоритм Б2a2 [7]. В этом алгоритме для задачи разделения совокупности на два класса на каждом шаге итерации строятся разделяющие гиперповерхности произвольного вида, а не только гиперплоскости, как это делается в алгоритмах Б2a1, Б2σ1, Опишем работу этого алгоритма. Пусть на элементах факторного пространства X задана потенциальная функция специального вида, а именно:
где — некоторый набор известных функций от p переменных.
В процессе работы алгоритма последовательно по точкам выборочной совокупности производится построение двух функцийи двух чиселопределяющих v-e приближение разделяющей поверхностив форме
Если на (v+1)-ом шаге алгоритма , то считается что, в противном случае. Пусть к (v+1)-му в процессе работы алгоритма v1 точек избыли отнесены ки- были отнесены. На (v+l)-м шаге алгоритма построениепроизводится следующим образом:
(3.31)
Начальные значения величин, входящих в рекуррентные соотношения (3.31), определяются по точкам Х1, Х2, а именно:
В качестве последовательности выбирается некоторая убывающая последовательность положительных чисел. Обычно берут .
В спрямляющем пространстве z[(cm. стр. 94) этот алгоритм последовательно строит гиперповерхности вида
Рекуррентные соотношения (3.31) в спрямляющем пространстве Z имеют вид:
Здесь, как и раньше
число элементов,
отнесенных к классуS1,
v2=v-v1.
Начальные значения определяются по
точкам Z1,Z2.
Если K(X,Y)=(X,Y)
является скалярным произведением
векторовXиY,
то спрямляющее пространствоZсовпадает с пространствомX.
Тогда алгоритм Б2а2 на каждом
шаге разбивает совокупностьXна два класса гиперплоскостями. Только
в начальный момент это разбиение
является минимальным дистанционным
разбиением, т.е. совпадает с разбиением,
задаваемым алгоритмом Б2а1.
Свойства алгоритма Б2а2.Пусть плотность распределенияf(X)
– дифференцируемая функция, обращающаяся
в нуль вне некоторого ограниченного
множества. За функционал качества
возьмем(3.14).
Пусть последовательность γv,
участвующая в работе алгоритма Б2а2, удовлетворяет следующим пяти условиям:
1). Последовательность γv
монотонно не возрастает;
2). Ряд
расходится;
3). Существуют два таких числа a>0
и λ>0 и такой номерn0,
что
и ряд
сходится;
4). Для любого числа β>0 найдется такое
L1(β), что как
толькоv1/v2>
β, то
;
5). Для любого L2>0
найдутсяN(L2)
иﻼ(L2)>0,
такие, что
Этим условиям удовлетворяет, например,
последовательность
В работе [7] применительно к спрямляющему пространству Z показано, что с вероятностью 1 разбиение, задаваемое алгоритмом Б2а2, при неограниченном увеличении объема выборочной совокупности приближается к классу разбиений, среди которых находятся оптимальные, в смысле (см. стр. 95)1.
В заключение отметим экспериментально установленный факт: в довольно общих ситуациях алгоритмы Б2а1, Б2а2 дают при больших объемах исследуемых совокупностей устойчивые и близкие к оптимальным (в смысле соответствующих функционалов) разбиении, хотя упомянутые выше теоретические свойства алгоритмов и не гарантируют нам этого.