Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Айвазян, С. А. Классификация многомерных наблюдений

.pdf
Скачиваний:
44
Добавлен:
20.10.2023
Размер:
8.58 Mб
Скачать

можных попарных расстояний между представителями рассматривае­ мых групп, т. е.

Pep (ßl> Sm) піпт^ xi1esl

2 Р № Д ;).

(3.7)

 

Xj ^ Sm

 

Естественно задать вопрос: а нельзя ли получить достаточно об­ щую формулу, определяющую расстояние между классами по задан­ ному расстоянию между отдельными элементами (наблюдениями), которая включила бы в себя в качестве частных случаев все рассмот­ ренные выше виды расстояний?

Изящное обобщение такого рода, основанное на понятии так на­ зываемого «обобщенного среднего», а точнее —■степенного среднего, было предложено А. Н. Колмогоровым1.

■^ Обобщенное (по Колмогорову) расстояние между классами или

обобщенное К-расстояние вычисляется по формуле

1

 

P '?4S„SJ

- Г -

2

 

 

2

 

р

(3.8)

 

 

 

Г

 

п1Пт X. б Sj

 

 

 

 

 

 

 

 

 

Xj £ Sm

 

 

 

 

В частности, при г->оо

и при г -*—

оо имеем:

 

 

Р(ІР №і, Sm) = pmax (S[, Sm),

 

 

P — lo

( ^ l ’ ^ m ) = Pmin ( S h

S

m ) .

 

 

1 Под обобщенным средним величин сх, с2, .... cN понимается выражение вида

MF (clt с2, ..., cN) = F-

ЛГ

F (et) j ,

в котором F (и) — некоторая функция

 

и соответственно F_1—преобразование, обратное

к F. Частным случаем

обоб­

щенного среднего является степенное среднее," определяемое как

 

Mr (clt с2, . . . ,

 

 

 

 

N

^

 

 

cw)=

^ —

2

 

 

Нетрудно показать, что (при с;

> 0, і = 1, 2 , ..., іѴ)

 

 

 

М _ 00(Сі, с2,.

• • . cn ) ~

J

min

(сі)>

 

 

М+оа (сі,

с2,. •' ’ Cn ) = і

max

 

(Ci),

 

 

 

 

/ N

 

 

 

 

< i < N

 

 

M0 (c i,c 2......сд,)= I

\ J.

 

 

 

 

 

 

 

П сі Щ

 

—геометрическое среднее,

 

Mi (Cj, с2, • •

 

1

£

 

—арифметическое среднее.

 

 

 

сі

 

 

Все излагающиеся ниже определения и результаты, опирающиеся на понятие

степенного среднего

(обобщенное

.^-расстояние между классами

(S;, Sm),

мера концентрации

Zr (S), соответствующая разбиению 5, мера

внутриклас­

сового рассеяния

(Si) и т. п.)

заимствованы из доклада А. Н.

Колмогорова,

прочитанного им на семинаре по математической статистике межфакультетской лаборатории статистических методов МГУ, 27 апреля 1972 г.

83

'Очевидно, также

P(1° (Sh s m) =----Pep (Si, Sm).

Из (3.8) следует, что если S (т, q) = 5 m(jS; группа элементов, полученная путем объединения кластеров S m и S , то обобщенное /(-расстояние между кластерами S, и 5 (т, q) определяется фор­ мулой:

пт [р(*> (Sh Sm))r +n q [pW (Sf, Sg)]r 1r

pW (S „ S ( m , q))

ПтT Я-g

Отметим, что понятие расстояния между группами элементов осо­ бенно важно в так называемых агломеративных иерархических кластер-

процедурах, поскольку принцип работы таких алгоритмов состоит в последовательном объединении элементов, а затем и целых групп сначала самых близких, а потом все более и более отдаленных друг от друга. Подробнее об агломеративных иерархических процедурах см. ниже. Учитывая специфику подобных процедур для задания рас­ стояния между классами оказывается достаточным определить порядок

пересчета расстояния между классом 5 г и

классом S (т, <?) =

S m(jSg,

являющимся

объединением двух других классов Sm и S q, по расстоя­

ниям р1т=

р (5„ S J , Рг9 = р (S[, Sq)

и pm, = р (Sm,Sq)

между

этими классами. В [55] предлагается следующая общая формула для

вычисления

расстояния между некоторым классом S, и классом

S (т, q):

~

Р/ (т, q) = Р (Sx, s (m,q)) = ap,m + ßpz, + ypmg + 6 j pim —p„ |, (3.9)

где а, ß, у и б — числовые коэффициенты, значения которых и опре­ деляют специфику процедуры, ее нацеленность на решение той или

иной экстремальной задачи. Так, например, полагая а = ß = —б = ~

и у — 0, мы, как легко видеть, приходим к расстоянию, измеряемому

по принципу ближайшего соседа. Если же положить а = ß = б = у

и 7 = 0, то расстояние между двумя классами определится как рас­ стояние между двумя самыми далекими элементами этих классов, по принципу дальнего соседа. И наконец, выбор коэффициентов

•соотношения (3.9) по формулам

а

Пт

ß = —

, у = 6 = 0

пт + п а

 

rtm+ Пд

 

приводит нас к расстоянию рср между классами, вычисленному как среднее из расстояний между всеми парами элементов, один из которых берется из одного класса, а другой — из другого.

То,

что формула для рг (m, q) и, в частности, выбор коэффициен­

тов а,

ß, у и б в этой формуле, зачастую определяют нацеленность

соответствующей агломеративной иерархической процедуры на реше­ ние той или иной экстремальной задачи, т. е. в каком-то смысле опре-

84

деляет ее оптимальную критерийную установку, поясняет, например, следующий результат [76]. Оказывается, если для вычисления р/ (т, 9> воспользоваться следующей модификацией формулы (3.9):

I ( m ,q ) .

Пі + Пт

РIm'

ni + nq

ni

iTiq 1

(3.10)

Р

ni + nm+nq

n l ~ h n m + n q P'lq

n i +n m + n:

' P

 

то соответствующий агломеративный иерархический алгоритм обла­ дает тем свойством, что на каждом шаге объединение двух классов при­ водит к минимальному увеличению общей суммы квадратов расстоя­ ний между элементами внутри классов. Отметим сразу, что такая пошаговая оптимальность алгоритма в указанном смысле, вообще го­ воря, не влечет его оптимальности в том же смысле для любого наперед заданного числа классов, на которые требуется разбить исходную совокупность элементов.

3. Порог

Под порогом подразумевается обычно то число, с которым сравни­ вается расстояние между объектами (классами) или мера близости объектов для того, чтобы определить, можно ли отнести рассматривае­ мые два объекта (либо объект и класс, либо два класса) к одному об­ щему классу.

При конструировании классификационной процедуры порог может задаваться и как величина постоянная, не изменяющаяся в течение всей процедуры, и как величина переменная, меняющаяся по опреде­ ленным правилам при переходе от одного этапа процедуры к другому (см. § 3 настоящей главы).

4. Функционалы качества разбиения на классы. Экстремальная постановка задачи кластер-анализа, связь с теорией статистического оценивания параметров

Естественно попытаться определить сравнительное качество различ­ ных способов разбиения заданной совокупности элементов на классы, т. е. определить тот количественный критерий, следуя которому можно было бы предпочесть одно разбиение другому. С этой целью в поста­ новку задачи кластер-анализа часто вводится понятие так называе­ мого функционала качества разбиения Q (S), определенного на мно­ жестве всех возможных разбиений. Функционалом он называется потому, что чаще всего разбиение S задается, вообще говоря, набором дискриминантных функций бх (X), б2 (X), .... Тогда под наилучшим разбиением S* понимается то разбиение, на котором достигается экстремум выбранного функционала качества. Надо сказать, что выбор того или иного функционала качества, как правило, осуществляется весьма произвольно и опирается скорее на эмпирические и профессио­ нально-интуитивные соображения, чем на какую-либо строгую фор­ мализованную систему.'

85

Мы приведем здесь примеры наиболее распространенных функ­ ционалов качества разбиения и попытаемся обосновать выбор некото­ рых из них в рамках одной из моделей статистического оценивания параметров.

Пусть исследователем уже выбрана метрика р в пространстве X и пусть S = (5!, S 2, ..., S h) некоторое фиксированное разбиение наб­ людений Х г, ■■■, Хп на заданное число k классов S1; S2, S h.

За функционалы качества часто берутся следующие характери­ стики:

— сумма («взвешенная») внутриклассовых дисперсий

Q1( S ) = 2 2 Ра( * г .З Д

(3.11)

i = i x i esl

 

весьма широко используется в задачах кластер-анализа в качестве критерийной оценки разбиения [125], [11], [105], [107], [75], [76] и др.;

— сумма попарных внутриклассовых расстояний между элементами

Q2( S ) = i

2

р2(Xi,Xj),\

I

xt, x . e s l

либо

 

 

Q:2 (S) --= V

-i- V

р2(Мг,М,)

I =i

ni xv X. e st

в большинстве ситуаций приводит к тем же наилучшим разбиениям, что и Qx (S), и тоже используется для сравнения кластер-процедур

[70], [45], [7];

— обобщенная внутриклассовая дисперсия Q3 (S) является, как известно [4, с. 2311, одной из характеристик степени рассеивания многомерных наблюдений одного класса (генеральной совокупности) около своего «центра тяжести». Следуя обычным правилам вычисле­

ния выборочной

ковариационной

матрицы, — отдельно

по

наблюде­

ниям, попавшим в какой-то один

класс S,

 

 

 

 

 

Q3(S) = d e t ^ ^ n l Wi'J,

 

 

(3.12)

где под det А

понимается «определитель матрицы А»,

а

элементы

wqm (/) выборочной ковариационной матрицы

Wt класса S, подсчи­

тываются по формуле

 

 

 

 

“Ѵ(*) = —

2

(х{Ѵ ~ х к ) т ^ Т - х іт)(1))

q,m=l,2,...,p,(3A3)

Пі

xi ^ si

 

 

 

 

где x(jV)—ѵ-я компонента многомерного наблюдения X t, ал4ѵ>(/)—сред­ нее значение ѵ-й компоненты, подсчитанное по наблюдениям I-го класса.

86

Встречается и другой вариант использования понятия обобщенной дисперсии как характеристики качества разбиения, в котором опера­ ция суммирования Wl по классам заменена операцией умножения

QAS)= П (det W $ l . i=1

Как видно из формул (3.12 и 3.13), функционал Q3 (5) является средней арифметической (по всем классам) характеристикой обобщен­ ной внутриклассовой дисперсии, в то время как функционал Qi (S) пропорционален средней геометрической характеристике тех же ве­ личин.

Заметим, что использование функционалов Q3 (S) и Q4(S) является особенно уместным в ситуациях, при которых исследователь, в первую очередь, задается вопросом: не сосредоточены ли наблюдения, разби­ тые на классы S4, S 2, ..., S h, в пространстве размерности меньшей, чем р?

З а м е ч а н и е . При вероятностной модификации схем кластеранализа соответственно видоизменится запись приведенных выше функционалов. Так, например,

Q I ( S ) = 2 } p*(X,X(i))P(dX),

!= 1S(

где

 

 

X (/) = —

\

XP(dX)

 

 

 

 

К

Р (S,) ;)

'

 

или

 

 

 

 

 

 

 

 

Qa(S)= І

-

1-

И

Р*(X,Y)P(dX)P(dY).

(3.14)

 

1=

1 F

\bl ) s l S l

 

 

 

а)

Общий вид функционала качества разбиения, как функции ряда

параметров, характеризующих межклассовую и внутриклассовую структуру наблюдений. Зададимся вопросом: нельзя ли выделить такой достаточно полный набор величин «i(S), u2(S),..., характеризую­ щих как межклассовую, так и внутриклассовую структуру наблюде­ ний при каждом фиксированном разбиении на классы S, чтобы су­ ществовала некоторая функция Q (щ, и2, ...) от этих величин, которую мы могли бы считать в каком-то смысле универсальной характеристи­

кой

качества разбиения.

В частности, в качестве таких величин

щ =

щ (S), и2 = и2 (S), ...

можно рассмотреть, например, некоторые

числовые характеристики: степени близости элементов внутри клас­ сов (ы4); степени удаленности классов друг от друга (и2); степени «оди­ наковости» распределения многомерных наблюдений внутри классов (и3); степени равномерности распределения общего числа классифи­ цируемых наблюдений п по классам (м4).

Что касается установления общего вида функции Q (щ, и2, и3, м4), то без введения дополнительной априорной информации о наблю­ дениях Х і (характере и общем виде их закона распределения внутри

87

классов и т. п.) единственным возможным подходом в решении этой задачи, как нам представляется, является экспертно-эксперименталь­ ное исследование. Именно с этих позиций в [12] сделана попытка опре­ деления общего вида функции Q. Чтобы определить рассмотренные в этой работе величины иъ и2, и3 и «4, введем понятие кратчайшего не­ замкнутого пути (КИП), соединяющего все п точек исходной сово­ купности в связный неориентированный графе минимальной суммарной длиной ребер1. Под длиной ребра понимается расстояние между соот­ ветствующими точками совокупности в смысле выбранной метрики. Построение такого графа можно начать с пары наиболее близких точек. Если таких пар несколько, то выбирается любая из этих пар. Пусть это будут наблюдения с номерами і0 и /0. Затем с помощью срав­

нения расстояний p(X;o, Xj)(j=-- 1,2,..., гг, /

 

/0, /Ѵ=/0) и p (X io, X q),

где

 

<7= 1,2,..., я;

д¥=і0 и

<7Ф /0

определяются

точки

Х т{іа)

и

^ т ( и )— наименее

удаленные

соответственно

от

точек

Х іо

и

Xjo и

выбирается

ближайшая

из них Х т , т.е.

Х то — Х ^ ^ ,

если

р (Х,^,

Хт

 

<С р (Х;д,

Х т и0))

и

Хтд X m{jo),

если

р(Х,-, Хт ( /о)Х р (Х г о, Хт ( го))2. Затем

точка

Х Шд „пристраивается“

к той из'точек X/

и Х/о, к

которой она

ближе. Далее сравнива­

ются

расстояния

 

 

 

 

 

 

 

 

 

 

 

Р {Хіо, Х }), р (Х/о, Х д) и р (Х,ѵ

Хѵ)(/, q, ѵ ф t0; j, q , v ^

j0 и j, q , v ^

mQ)

и T. Д. Очевидно, «разрубая»

s ребер такого графа,

мы будем делить

совокупность

на

s-j-1 классов.

графа,

отнесенной к /-му

классу.

 

Пусть

р;

(/) — і-е ребро части

Всего таких ребер, как легко видеть, будет пг — 1. И пусть pm]n (р) — минимальное из ребер, непосредственно примыкающих к ребру f> и относящихся к /-му классу, если таковое имеется. Занумеруем в оп­ ределенном порядке граничные, разрубленные ребра Я,1( таким образом, чтобы имелось взаимно-однозначное соответствие

между номерами граничных ребер и номерами примыкающих к ним классов, за исключением одного, геометрически представленного одним из «хвостов» графа. На рис. 3.2 представлено изображение кратчайшего незамкнутого пути. Выбрасывая ребра I, II, III, полу­ чаем четыре связных графа, что соответствует разбиению совокупности на четыре группы. Обозначим с помощью \ одно из таких ребер /-го класса.

1 Использование КНП в задачах классификации имеет длинную историю. Методы классификации, основанные на КНП, использовались для решения за­ дач в области антропологии, биологии, сельского хозяйства, лингвистики (см.,

например,

G z e k a n o w s k i

J. Zur DiHerentialdiagnose der Neandertalgruppe,

Kor-blatt

Dtsch.

Ges. Antrop.

1909, XL, s. 44—47; F 1 о r e k

K-, L u k a s -

z e w i c z J . ,

P e r k a l

H., S t e i n h a u s

H., Z u b z y c k i S .

Sur

la liaison

et la

division

des

points

d’un

ensemble fini.

Coli. Math., 1951,

2,

p. 282—285).

2

Если

p (X,o> Xm (i'0)) = p

(XjQ, Xm (/„))>

то в качестве X m

можно

выбрать

любую из точек Хт (ід) и Хт (/ ).

88

Теперь, следуя [12], мы опреде­

лим величины щ следующим обра­ зом:

k гг,

p W,

ш

 

где р (/)= ((4 V= 1

Рг(/)/

Кщ - 1 ] -

 

средняя длина ребер /-го класса;

 

 

*-1

 

k ~ 1 / = 1

Рис. 3.2. Графическое изображение кратчайшего незамкнутого пути

Эмпирический перебор различных вариантов общего вида функции Q в сочетании с анализом результатов экспертных оценок качества всевозможных разбиений привели авторов [12] к следующей формуле:

(3.15)

где а, Ь, с и d — некоторые неотрицательные параметры, оставляющие исследователю определенную свободу выбора в каждом конкретном случае. Авторы [12] отмечали хорошее согласие своих экспериментов с экспертными оценками при a = ö = c = d = 1.

Из смысла величины ut (і = 1,

2, 3, 4) следует, что лучшим раз­

биениям соответствуют большие

численные значения функционала

Q, так что в данном случае требуется найти такое разбиение S*, при ко-

тором Q (S*) = max Q (S ). s

Конечно, данный выбор количественного и качественного состава величин Ui и, в еще большей степени, их точное определение являются чисто эвристическими и подчас просто спорными. Это относится, в первую очередь, к величине и3. Поэтому читатель должен принимать описанную здесь схему не как рекомендацию к универсальному ис­ пользованию функционалов, типа (3.15) в задачах кластер-анализа, но лишь как описание конкретного примера одного из возможных подходов при выборе функционалов качества разбиения.

б) Функционалы качества разбиения при неизвестном числе классов.

В ситуациях, когда исследователю заранее не известно, на какое число классов подразделяются исходные многомерные наблюдения Хи Х ъ ..., Хп, функционалы качества разбиения Q (S ) выбирают чаще всего в виде простой алгебраической комбинации (суммы, разности, произведения, отношения) двух функционалов Ix (S) и / 2 (S), один

89

из которых Іх является убывающей (невозрастающей) функцией числа классов k и характеризует, как правило, внутриклассовый разброс наблюдений, а второй / 2 является возрастающей (неубывающей) функцией числа классов k. При этом интерпретация функционала / 2 может быть различной. Под / 2 понимается иногда и некоторая мера взаимной удаленности (близости) классов, и мера тех потерь, которые приходится нести исследователю при излишней детализации рассмат­ риваемого массива исходных наблюдений, и величина, обратная так называемой «мере концентрации» всей структуры точек, полученной при разбиении исследуемого множества наблюдений на k классов. В [41], например, предлагается брать

Л ( 5 ) = ѵ 2 Р(Х„ Х(/))

I = i x i esl

и

h (5) = ck (S),

где k (S) — число классов, получающихся при разбиении S, а с — некоторая положительная постоянная, характеризующая потери ис­ следователя при увеличении числа классов на единицу.

Другой вариант функционалов качества такого типа можно найти, например, в [10], где полагают

 

/і'(5) = — V

 

 

4

 

 

 

 

U

 

2

2

K( Xi >Xj ) >

 

 

 

k

i ( n j - l )f t Ji

 

 

 

 

К (S) =

 

І

У

r(st,s}).

 

 

 

 

k ( k - \ ) £

lf > i

 

 

Здесь

К (X ,

Y) — упомянутая

выше

потенциальная функция,

а г (Si,

Sj) — мера близости г-го и /-го классов, основанная на потен­

циальной функции (3.6).

 

мы будем искать разбиение S*,

мини­

Очевидно,

в первом случае

мизирующее значение функционала

 

 

 

 

 

 

Q (S)

= Д (S) +

/ 2 (S),

 

(3.16)

в то время как ео втором случае требуется найти разбиение S 0,

кото­

рое максимизировало бы значение функционала

 

 

 

Q'(S)

= /[(S ) +

/ ‘ (S).

 

(3.17)

Весьма гибкой и достаточно общей схемой, реализующей идею одновременного учета двух функционалов, нам представляется схема, предложенная А. Н. Колмогоровым (см. сноску к стр. 83). Эта схема опирается на понятия меры концентрации Zr(S) точек, соответствую­

щей разбиению S, и средней меры внутриклассового рассеяния l[K) (S), характеризующей то же разбиение S.

90

Под мерой концентрации Zr (S) предлагается понимать величину

Zr (S) = Мт(

ѵ(Хг)

ѵ (Xn)-

_L у

( v№) у

(3.18)

П !~

 

І= 1

 

 

где V ( X i ) — число элементов в кластере, содержащем точку X t , а выбор числового параметра г находится в распоряжении исследователя и за­ висит от конкретных целей разбиения. При выборе г полезно иметь в виду следующие частные случаи Zr (S):

 

 

 

 

Z-!(S)=

 

k

 

где

k —число различных кластеров в

разбиении S;

 

 

k

 

 

 

 

 

 

 

logZ0(S) =

'V] — log — — естественная

информационная мера кон-

 

 

/=1 п

 

п

 

 

 

 

 

 

 

центрации;

 

 

 

 

 

 

 

ZO0(S)=

шах

( —

 

 

 

 

 

 

 

 

1< i < k \ч n

I

 

 

 

 

 

Z—oo (5) min

(

)

 

 

 

 

 

 

 

l < г < k Vn

 

k

 

 

 

 

Z i ( S ) уh-

 

\ -

 

 

 

 

 

 

1

^ „2

 

 

 

 

 

~

„2

^

1

П ‘

 

 

 

 

 

 

"

i =

 

 

Заметим, что при любом г предложенная мера концентрации имеет

минимальное значение, равное , при разбиении исследуемого множе­

ства на п одноточечных кластеров и максимальное значение, равное 1, при объединении всех исходных наблюдений в один общий кластер.

При конструировании и сравнении различных кластер-процедур полезно иметь в виду, что объединение двух кластеров 5 г и S m в один дает прирост меры концентрации Zx (S), равный

= - L [(Пі + nmf - « ? - ,& ] = ^

.

п 1

пг

Определение средней меры внутриклассового рассеяния l[K) (S) также опирается на понятие степенного среднего. В частности, пола­ гают

 

2

k

 

 

 

I (rK) (S) =

V

пі [ ^ К) (SJY

(3.19)

 

п i= l

 

где под

 

 

 

 

 

Q ^ (S ,) =

 

у

V

Pr { X } , X j )

 

 

 

 

 

2-e Si

xlGst

 

 

91

понимается обобщенная средняя мера рассеяния, характеризующая класс Si. Числовой параметр г здесь, как и прежде, выбирается по ус­ мотрению исследователя.

Полагая

 

 

 

1

 

 

2

 

 

QrK) (X)

 

V

 

Г

 

 

 

 

Pr(X, X,)

 

 

 

.v ffl xyes (X)

 

 

 

где, как

и прежде, S(X) — кластер, в который

входит наблюдение X,

а V (X) —число элементов в кластере S, (X),

формулу (3.19) можно

переписать в виде

 

 

 

 

 

 

 

/ y ” (S) = M M K>(x,).......Qj'1'

 

 

 

-п 2і= 1

 

 

2

?r(Xi,

x t)

(3.20)

 

 

 

Xj 6s ^Xj)

 

 

 

При конструировании и сравнении различных кластер-процедур

полезно

иметь в виду, что

объединение двух кластеров

S t и S m

в один дает прирост величины п [/*к) (S)]r, непосредственно характе­ ризующей среднюю меру внутриклассового рассеяния, равный

А [п (/<*>)'] =

 

{2 [p<K)(S„

5 J ] 2-

 

 

 

Пі+пт

 

 

 

- [ Q ^

(50]r-[Q < K)(Sm)]rj.

 

Очевидно, если ориентироваться на сокращение числа кластеров

при наименьших

потерях

в

отношении внутриклассового

рассеи­

вания, не обращая внимания

на меру концентрации, то естественно

объединять два

кластера,

для которых

минимальна

величина

А (п [/^ К ). Если же одновременно ориентироваться и на рост взвешен­ ной концентрации Z^S), то объединение кластеров естественно под­ чинить требованию минимизации величины

а\п(ПК)у]

АZ i(S )

 

\2 [p<X )(St, S m ) ] ' -

( fr ) ]'- [(? < * > (fr»)]r }r

 

 

n i + n m

 

в)

Формулировка экстремальных задач разбиения

исходного мно

жества на классы.

 

 

В а р и а н т 1: комбинирование

функционалов качества. Требу­

ется найти такое разбиение S*, для

которого некоторая

алгебраиче­

ская комбинация функционала, характеризующего среднее внутри­ классовое рассеяние (3.20), и функционала, характеризующего меру концентрации полученной структуры (3.18), достигала бы своего экстремума. В качестве примеров можно привести комбинации Q (S)

92

Соседние файлы в папке книги из ГПНТБ