Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Классификация / glava3 / МЕТОДЫ КЛАСТЕР.doc
Скачиваний:
85
Добавлен:
01.05.2014
Размер:
1.46 Mб
Скачать

4. Последовательные кластер-процедуры

Если число n классифицируемых наблюдений X1, X2, …Xn до­статочно велико (от несколько сотен и более), то как мы уже отмечали, реализация кластер-процедур иерархического и параллельного типов практически невозможна. В этих случаях пользуются итерационными алгоритмами, на каждом шаге которых последовательно обсчитывается лишь небольшая часть исходных наблюдений, например одно из них. В том, что n велико, имеются не только неудобства, но и свои преиму­щества. В частности, это позволяет исследовать асимптотические (по n) свойства соответствующих процедур, аналогичные, например, свойст­вам состоятельности, асимптотической несмещенности и т п., анализи­руемым в теории статистического оценивания и статистической провер­ки гипотез.

Как и в параллельных алгоритмах, основными средствами и идея­ми, при конструировании последовательных кластер-процедур явля­ются: мера близости или расстояние между группами; порог; эталон­ные множества или точки; функционал качества разбиения.

Так же, как и прежде, более простой, а главное всегда имеющей ре­шение, является обычная задача типизации, при которой исходное множество многомерных наблюдений разбивается на определенное чис­ло «областей группирования» по принципу наперед заданной взаимной близости элементов, отнесенных к одной области группирования. Простейшим примером такого рода является разбиение на интервалы группирования исходной выборки одномерных наблюдений, особенно необходимое как раз при достаточно больших объемах выборки n.

Именно такую задачу решает, например, простой последовательный алгоритм [70], [73], использующий понятие порога с. В этом алгоритме случайным образом выбирается точка X1, которая объявляется центром e1 первой группы. Затем точка Х2 относится к первой группе, если ρ(X2, e1) ≤ c. В противном случае Х2 принимается за центр второй группы X2 = е2 и т. д. На l-м шаге, когда уже имеется r групп, точка Xl либо становится центром (l+1)-й группы, либо относится к той из групп, для которой ρ(Xl, ej) ≤ c. Если таких групп несколько, то выбирается та, к центру которой точка Хl ближе всего; если и таких групп несколько, то устанавливаются некоторые соглашения о том, куда относить Xl в этом случае.

Остановимся далее на описании двух наиболее общих и наиболее исследованных последовательных кластер -процедурах (и некоторых их модификациях), допускающих, в частности, интерпретацию в вероят­ностных терминах.

а) Алгоритм Б2a1. Метод k-средних [56]. Пусть наблюдения X1, X2, …, Xn требуется разбить на заданное число k (k≤n) однород­ных (в смысле некоторой метрики ) классов.

Смысл описываемого алгоритма — в последовательном уточнении эталонных точек (v — номер итерации, v = О, 1, 2, ...) с соответствующим пересчетом приписываемых им «весов» Ω(v) = .При этом нулевое приближение Е(0) строится с помощью случайно выбранных первых k точек исследуе­мой совокупности, т. е.

.

Затем на 1-м шаге «извлекается» точка Xk+1, и выясняется, к какому из эталонов она оказалась ближе всего. Именно этот, самый близкий кXk+1 эталон заменяется эталоном, определяемым как центр тяжести старого эталона и присоединенной к нему точки Xk+1 (с увеличением на единицу соответствующего ему веса), а все другие эталоны остаются неизменными (с прежними весами) и т. д. Таким образом, пересчет эта­лонов и весов на v-м шаге, т. е. при извлечении очередной точки Xk+v происходит по следующему правилу:

При этом если обнаруживается несколько (по i) одинаковых мини­мальных значений, то можно условиться относить точку Xk+v к эталону с минимальным порядковым номером.

При достаточно большом числе итераций, или при достаточно боль­ших объемах классифицируемых совокупностей п и при весьма широких ограничениях на природу исследуемых наблюдений, дальнейший пересчет эталонных точек практически не приводит к их изменению, т.е. имеет место сходимость (в определенном смысле) E(v) к некоторому пределу при v→∞.

Если же в какой-то конкретной задаче исследователь не успел доб­раться до стадии практически устойчивых (по v) значений эталонных точек, то пользуются одним из двух вспомогательных приемов. Либо «зацикливают» алгоритм, «прогоняя» его после рассматривания последней точки Xn=Xk+(n-k) снова через точку X1 затем Х2, и т. д., либо производят многократное повторение алгоритма, используя в ка­честве начального эталона E(0) различные комбинации из k точек ис­следуемой совокупности и выбирая для дальнейшего наиболее повто­ряющийся (в некотором смысле) финальный эталон E(n-k)

Окончательное разбиение S исследуемой совокупности многомерных наблюдений на k классов производится в соответствии с правилом опи­санного выше минимального дистанционного разбиения S(E) отно­сительно центров тяжести (эталонов) Е = Е(n-k), которое, кстати, яв­ляется частным случаем разбиений ранее описанной общей схемы эта­лонных алгоритмов, получающихся при

Если оказывается, что ρ (X, El) = ρ (X, Еj), то точку X относят к то­му из классов Si и Sj, который обладает меньшим порядковым номером.

Свойства алгоритма Б2а1. Для описания интересных свойств метода k-средних введем, следуя [33] и [56], некоторые понятия и опреде­ления.

Условимся интерпретировать исходное множество наблюдений Х1, X2,…Xn как случайную выборку из п независимых наблюдений, извлеченную из генеральной совокупности, описываемой некоторой (неизвестной нам) вероятностной мерой, определенной в рассматривае­мом ρ-мерном факторном пространстве X исследуемых признаков. Под­робнее о смысле меры Р см. на стр. 14. При этом будем предполагать, что мера Р сосредоточена на замкнутом, ограниченном, выпуклом мно­жестве X, т. е. , причем для каждого открытого множе­ства .

Пусть S = {S1,…,Sk} некоторое разбиение пространства X на k непересекающихся множеств S1,…,Sk, так что теоретико-множест­венная сумма (объединение) всех этих множеств дает X.

Под kсредним =(), порожденнымразбиением S = {S1,…,Sk} будем понимать набор векторов

i=1,2,…,k

каждый из которых является условным средним (центром тяжести) наблюдений своего класса, т.е.

=(3.30)

В покомпонентной записи формула (3.30) имеет вид

=

Здесь Sil — проекция ρ-мерного множества Si на ось X(l), а Pl(dX(l)) - вероятностная мера на прямой, задающая частное распределение ком­поненты X(l) в соответствии с законом P(dX), т. е.

Под

будем подразумевать разбиение, полученное в соответствии с общей схемой эталонных алгоритмов на основании эталонов Е = {E1,E2,…,Ek} и функции φ(X,El)=ρ(X,El).

Группа эталонных точек Е = {E1,E2,…,Ek} называется несмещен­ной k-точкой, если

,

т. е. если центры тяжести классов, построенных с помощью эталонных точек Е = {E1,E2,…,Ek}, совпадают с самими эталонными точками. В тех случаях, когда это не вызовет путаницы, будем для упроще­ния записи обозначать

Введем в рассмотрение следующие характеристики внутриклассового рассеяния, соответствующие разбиению S(E):

Описанный выше метод k-средних при довольно широких пред­положениях относительно вероятностной меры Р обладает следую­щими свойствами1:

свойство несмещенности метода k-средних. Оказывается, что применительно к методу k-средних имеет место следующий аналог закона больших чисел.

с вероятностью единица.

Здесь эталоны на v-м шаге алгоритма, — условные средние классов , получен­ных с помощью минимального дистанционного разбиения относительно эталонов , a — вероятностная мера соот­ветствующих классов;

свойство стационарности функционала качества разбиения. Последовательность случайных ве­личин сходится почти всюду и равен (с ве­роятностью единица) Q1(E) для некоторого разбиенияS(E), для ко­торого является несме­щенной k-точкой.

Указанное свойства алгоритма Б2а1 означает, что разбиение, за­даваемое этим алгоритмом, с ростом объема n исследуемой выборки стремится к некоторому несмещенному разбиению, на котором значение функционала совпадает со значением функционала

.

Очевидно, что для любых Е. Кроме того, как указыва­лось выше (см. стр. 93), минимальное значение функционала до­стигается на несмещенных разбиениях. Все это позволяет надеяться, что в достаточно общих ситуациях при больших объемах выборочных совокупностей алгоритм Б2а1 строит разбиение, близкое к наилучшему в смысле функционала , а следовательно, и в смысле функционала.

Возможны случаи, когда в результате действия алгоритма Б2а1 при неограниченном увеличении объема выборочной совокупности будут получаться разбиения, на которых значение функционала не минимально, а максимально. Рассмотрим следующий пример. Допус­тим, что исследуемая выборка является выборкой из генеральной сово­купности, распределение которой сосредоточено в вершинах прямо­угольника, одна сторона которого несколько больше другой, и зададим­ся целью разбить исследуемое пространство на два класса. Перенуме­руем точки генеральной совокупности, в которых сосредоточено рас­пределение, так как это показано на рис. 3.5. Пусть вероятности появ­ления каждой из точек 1, 2, 3, 4 одинаковы. Предположим, что при случайном извлечении наблюдений из генеральной совокупности первые

четыре точки извлечены последовательно из вершин с номерами соот­ветственно 1,2,3, 4. Тогда, если стороны a и b прямоугольника удовлетворяют неравенствам , то, как легко видеть, в результа­те действия алгоритма Б2а1 после обработки первых четырех точек эта­лонные точки будут лежать одна против другой на серединах длинных сторон прямоугольника. Нетрудно показать, что в какой бы последовательности ни появились затем выборочные точки (из вершин 1, 2, 3 и 4), эталонные точки

бу­дут двигаться по соответствующим длинным сторонам прямоугольника до тех пор, пока они не подойдут слишком близко к вершинам этого пря­моугольника. Из усиленного закона больших чисел следует, что с по­ложительной вероятностью этого не произойдет. Другими словами, с положительной вероятностью алгоритм Б2а1 отнесет точки 1,3 к од­ному классу, а точки 2, 4 — к другому классу. А при этом разбиении значение функционала максимально.

И, наконец, приведем пример ситуаций, в которых может произой­ти определенного рода «зацикливание» алгоритма Б2а1. Рассмотрим двумерную генеральную совокупность, распределение которой сов­падает с равномерным распределением на круге. Пусть выборка из этой генеральной совокупности. Мы хотим с помощью ал­горитма Б2а1, используя выборку , разбить совокупность на два класса. Нетрудно видеть, что в этом случае множество несмещенных точек совпадает с семейством точек , лежащих друг против друга на диаметре круга на одинаковом фиксированном расстоянии от центра круга, и значение функционала для всех этих точек одно и то же. Кроме того, в этом случае можно показать, что с вероятностью 1

Здесь — среднее i-й части минимального дистанционного раз­биения.

Этот пример показывает, что указанные выше свойства алгоритма Б2а1, не исключают возможность того, что мы, строя последовательно эталонные точки, будем бесконечное число раз обходить окружность, на которой расположены несмещенные точки.

Прежде чем переходить к описанию следующих последовательных алгоритмов, заметим, что алгоритм Б2а1 близок к параллельному ал­горитму типа Дидея, а именно, к алгоритму примера 1 стр. 108. Разни­ца этих двух алгоритмов состоит лишь в том, что в алгоритме Б2а1 на v-м шаге эталонные точки выбираются с помощью k + v первых рас­смотренных точек выборки, а в алгоритме примера 1 на v-м шаге эта­лонные точки выбираются с использованием всех точек выборки

б) Алгоритм Б2σ1. Алгоритм Б2a1 может быть обобщен на случай решения задач, для которых заранее число классов неизвестно.

Для этого следует задаться двумя константами Φ00, названными в [54] соответственно мерой грубости и мерой точности. Работа алгоритма Б2σ1 также состоит в последовательном построении эталонных точек и весов, но число классов k(v) может меняться при этом от итерации к итерации.

На нулевом шаге итерации берется любое начальное k(0) и по­лагается

.

Затем производится процедура «огрубления» эталонных точек. А имен­но, подсчитывается расстояние между двумя ближайшими эталонными точками и сравнивается это расстояние с заданной мерой грубости Φ0. Если это минимальное расстояние меньше Φ0, то соответствующая пара эталонных точек заменяется их взвешенным средним с весом, рав­ным сумме соответствующих двух весов. Процедура огрубления за­канчивается тогда, когда расстояние между любыми двумя эталонными точками не меньше чем Φ0. Пусть в результате процедуры огрубления мы имеем число эталонных точек , эталонные точкии веса.

На первом шаге итерации извлекается точка и вычисляет­ся расстояние отдо ближайшей к ней эталонной точки. При этом если это расстояние больше Ψ0, тообъявляется новой эталонной точкойс весом, а все остальные эталонные точки и соответствующие им веса остаются неизменными.

Если это минимальное расстояние меньше чем Ψ0, то самый близкий к эталон заменяется эталоном, определяемым как центр тя­жести старого эталона и присоединенной к нему точки. Вес точкисчитается равным 1. Вес этого нового эталона равен сумме весов объединяемых точек (старого эталона и точки).

Все остальные эталоны и соответствующие веса остаются неиз­менными. Таким образом, пересчет эталонов и весов в этом случае происходит точно так же, как и в алгоритме Б2а1.

После процедуры огрубления эталонных точек переходят ко 2-му шагу итерации и так далее.

Выбирая различные константы Φ0, Ψ0, мы будем с помощью алго­ритма Б2σ1 получать различные разбиения. Выбор величин Φ0 и Ψ0 можно считать удачным, если разбиение, соответствующее этим вели­чинам, признается оптимальным или с точки зрения экспертов, или в смысле принятых функционалов качества разбиения.

в) Алгоритм Б2a2 [7]. В этом алгоритме для задачи разделения совокупности на два класса на каждом шаге итерации строятся разде­ляющие гиперповерхности произвольного вида, а не только гиперпло­скости, как это делается в алгоритмах Б2a1, Б2σ1, Опишем работу этого алгоритма. Пусть на элементах факторного пространства X задана по­тенциальная функция специального вида, а именно:

где — некоторый набор известных функций от p переменных.

В процессе работы алгоритма последовательно по точкам выборочной совокупности производится построение двух функцийи двух чиселопределяющих v-e прибли­жение разделяющей поверхностив форме

Если на (v+1)-ом шаге алгоритма , то считается что, в противном случае. Пусть к (v+1)-му в процессе работы алгоритма v1 точек избыли отнесены ки- были отнесены. На (v+l)-м шаге алгоритма построениепроиз­водится следующим образом:

(3.31)

Начальные значения величин, входящих в рекуррентные соотношения (3.31), определяются по точкам Х1, Х2, а именно:

В качестве последовательности выбирается некоторая убываю­щая последовательность положительных чисел. Обычно берут .

В спрямляющем пространстве z[(cm. стр. 94) этот алгоритм последо­вательно строит гиперповерхности вида

Рекуррентные соотношения (3.31) в спрямляющем пространстве Z име­ют вид:

Здесь, как и раньше число элементов, отнесенных к классуS1, v2=v-v1.

Начальные значения определяются по точкам Z1,Z2.

Если K(X,Y)=(X,Y) является скалярным произведением векторовXиY, то спрямляющее пространствоZсовпадает с пространствомX. Тогда алгоритм Б2а2 на каждом шаге разбивает совокупностьXна два класса гиперплоскостями. Только в начальный момент это разбиение является минимальным дистанционным разбиением, т.е. совпадает с разбиением, задаваемым алгоритмом Б2а1.

Свойства алгоритма Б2а2.Пусть плотность распределенияf(X) – дифференцируемая функция, обращающаяся в нуль вне некоторого ограниченного множества. За функционал качества возьмем(3.14).

Пусть последовательность γv, участвующая в работе алгоритма Б2а2, удовлетворяет следующим пяти условиям:

1). Последовательность γv монотонно не возрастает;

2). Ряд расходится;

3). Существуют два таких числа a>0 и λ>0 и такой номерn0, что

и ряд сходится;

4). Для любого числа β>0 найдется такое L1(β), что как толькоv1/v2> β, то

;

5). Для любого L2>0 найдутсяN(L2) иﻼ(L2)>0, такие, что

Этим условиям удовлетворяет, например, последовательность

В работе [7] применительно к спрямляющему пространству Z по­казано, что с вероятностью 1 разбиение, задаваемое алгоритмом Б2а2, при неограниченном увеличении объема выборочной совокупности приближается к классу разбиений, среди которых находятся оптималь­ные, в смысле (см. стр. 95)1.

В заключение отметим экспериментально установленный факт: в довольно общих ситуациях алгоритмы Б2а1, Б2а2 дают при больших объемах исследуемых совокупностей устойчивые и близкие к оптималь­ным (в смысле соответствующих функционалов) разбиении, хотя упо­мянутые выше теоретические свойства алгоритмов и не гарантируют нам этого.

Соседние файлы в папке glava3