Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Айвазян, С. А. Классификация многомерных наблюдений

.pdf
Скачиваний:
66
Добавлен:
20.10.2023
Размер:
8.58 Mб
Скачать

Естественно точку X j отнести к классу

1, если Р (1 | X j ) >

Р (2 [ X j ) .

Это означает, что Р (1 | X j )

>

1/2. Отсюда следует, что X j

будет от­

несена к классу 1, если

 

+

ß ■< 0,

или к классу 2, если a'Xj +

+ ß Д> 0. Следовательно,

а Х

+

ß = 0

будет оценкой, разделяющей

поверхности классов 1 и 2, а а и ß — оценками параметров разделяю­ щей поверхности (см. § 2 главы I).

Основные трудности этого метода классификации состоят в том, что скорость сходимости итерационного процесса зависит от расстоя­ ния Махаланобиса р (аъ а2) между классами и от начальных значений. Более того, может быть несколько локальных максимумов и требуется, изменяя начальные данные, определить абсолютный максимум. Грубо

говоря, итеративный процесс сходится к абсолютному максимуму а ,

ß (при k = 2), из точек а (0), ß (0), если угол между а и а (0) менее 45°. Это ясно показывает возрастание трудностей при росте размер­ ности. Если точка а (0) выбрана случайно, то вероятность выполнения

этого

условия

при

р =

5

равна 0,076,

при

р = 10 — 0,01, при

р =

15— 0,001,

при

р =

20 — 0,0002 [3]. Поэтому при больших раз­

мерностях наблюдений >

10) требуется

эту

размерность снизить

(например, методом главных компонент; см. ниже, главу

IV).

П р и м е р

неограниченной функции правдоподобия.

Рассмотрим

простейший случай, когда число классов k = 2 и наблюдаемые ве­

личины X j

(/ = 1, 2, ..., п )

являются одномерными ( р = 1). Плотность

распределения

 

 

 

 

 

 

 

 

 

 

h {U1я г, аи о;) = h (U) =

1

e

9а2

+

 

 

 

 

ях ———

1

 

 

 

 

 

 

 

y2n ax

 

 

 

 

 

 

 

 

 

(С/-а,)а

 

 

 

 

 

 

 

I

1

 

2(Jo

 

 

 

 

 

 

 

+

--------- e

2

 

 

 

 

 

 

 

 

V * i o 2

 

 

 

 

 

 

где я ь

я 2, au a2, оъ o2 являются

неизвестными параметрами (ях -f

+ я 2 =

1).

 

 

 

 

 

 

 

 

В этом случае функция правдоподобия

 

 

 

 

 

 

 

п h (Xj) :

L ( я х, я 2, üx, ß2,

ох,

02).

 

 

 

 

 

i =i

 

 

 

 

 

 

 

Рассмотрим поведение h (U) как функции от Ѳ = (яг,

аІУог). Если

йі Ф Xj,

то h (X,-1 я ^ а ,)

является ограниченной функцией, так как

 

 

 

 

(x j ~ ai)2

 

 

 

 

 

 

 

 

 

я.

2of

<

 

■е—1/2

 

 

 

 

 

 

 

 

 

 

Уг2л а.

 

 

Ѵ2л\ Xj-йі

 

 

 

ДЛЯ

любых я г И ( J ; . ЕСЛИ

Ж е Я ; >

 

0 и Ö; =

X j ,

ТО h ( Ѵ х | я ъ

Я 2, X j ,

а2,

аи (т2)

стремится к бесконечности как (l/o-J

при огх

0.

Однако,

73

учитывая конечность предела h

(Х;)

при

I Ф j

 

 

 

 

 

 

 

 

(■хі~Ч)г

 

lim h (Xl I я 1; я 2,

Xj,

а2,

а 1;

сг2)

- Д — е

2ff2

,

°1^°

 

 

 

 

Ѵ2ЛСТ2

 

 

получаем, что при ах =

и

-> 0, функция L (я1( я 2, Xj,

а2, оъ а 2)

стремится к бесконечности как

l/оу для

любого ях Ф 1 и любых а2

и о2, чего не происходит при о2 = аь так как при а 2 = ах = а

HitiL(k1, я2, Xj, аг, о, о) 0.

Таким образом, любой

набор я х, я 2, ах = Xj, а2, ах = 0, ст2 > 0,

я х + я 2 = 1 и 0 < ях <

1 обращает в бесконечность функцию прав­

доподобия.

 

Обобщение примера на многомерные смеси нормальных классов не представляет труда. Для этого достаточно рассмотреть случай, когда компоненты наблюдений Xj какого-либо класса і линейно зависимы, т. е. | 2 | -> 0 при at = Xj.

Пример показывает, что возможны ситуации, когда не выполня­ ются условия теоремы 2 (п. 1 § 3) — условия сходимости итерацион­ ной процедуры для получения оценок максимального правдо­ подобия.

Г л а в a III ^

КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ. НЕПАРАМЕТРИЧЕСКИЙ СЛУЧАЙ:-— ■---- -

МЕТОДЫ КЛАСТЕР-АНАЛИЗА, ТАКСОНОМИЯ

§ 1. ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ. ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ

В этой части работы рассматривается следующая задача. Совокупность исследуемых объектов, каждый из которых задан

многомерным наблюдением, т. е. набором из р замеренных на нем признаков X, требуется разбить на однородные в некотором смысле группы. Так же, как и в главе II, мы не располагаем здесь обучаю­ щими выборками. Более того, в отличие от главы II в данном случае практически отсутствует и априорная информация о характере рас­ пределения измерений X внутри классов (если не считать самых общих предположений, относящихся либо к компактности или ограничен­ ности диапазона изменений компонент вектора X, либо к свойствам непрерывности и гладкости соответствующих законов распределе­ ния). Полученные в результате разбиения группы обычно называются кластерами (таксонами, образами)1, методы их нахождения — кластер-анализом (соответственно численной таксономией или распоз­ наванием образов с самообучением).

При этом исследователь с самого начала должен четко представ­ лять, какую из двух задач классификации он решает. Решает ли он обычную задачу типизации, при которой исследуемую совокупность элементов (наблюдений) следует разбить на сравнительно небольшое число областей группирования (аналоги интервалов группирования при обработке одномерных наблюдений) так, чтобы элементы одной такой области лежали друг от друга по возможности на небольшом расстоянии. Либо он пытается определить естественное расслоение исходных наблюдений на четко выраженные кластеры, лежащие друг от друга на некотором расстоянии, но не разбивающиеся на столь же удаленные друг от друга части.

1 Cluster (англ.) — скопление, группа элементов, характеризуемых какимлибо общим свойством. Taxon (англ.) — систематизированная группа любой ка­ тегории.

75

Заметим сразу, что если первая задача, задача типизации, всегда имеет решение, то при второй постановке результат может быть отри­ цательным: может оказаться, что множество исходных наблюдений не обнаруживает естественного расслоения на кластеры, например образует один кластер.

В некоторых случаях исследуемые наблюдения Хь ..., Х п нам бу­ дет удобно интерпретировать в качестве выборки из р-мерной гене­ ральной совокупности, определяемой, как правило, неизвестной нам вероятностной мерой Р, задание которой, как известно (см. § 1 главы I), равносильно заданию определенного правила однозначного сопостав­

ления

каждой, представляющей

практический интерес подобласти

AS из исследуемого факторного пространства X некоторого неотри­

цательного, действительного,

не

превосходящего

единицы

числа

Р (AS),

являющегося мерой

достоверности события

{XgAS},

т. е.

события, заключающегося в том, что случайно извлеченное из гене­ ральной совокупности наблюдение окажется принадлежащим именно заданной подобласти AS1. Тогда задача классификации заключается в разбиении факторного пространства X на какое-то число непересекающихся областей. Для упрощения дальнейших обозначений будем называть такую схему вероятностной модификацией задачи кластеранализа. Заметим, что эта модификация используется, как правило, лишь при исследовании свойств различных процедур.

Необходимость разбиений совокупности объектов на однородные группы часто возникает как в социально-экономических исследова­ ниях (см. «Введение» и главу V настоящей работы, а также [25], [24], [26], [75], [18]), так и в научно-технических, приводимых в биоло­ гии [8], [62], [71], палеонтологии, геологии и географии [11], [46], медицине [44], почвоведении [65], документалистике [60], [61], метеоро­ логии [29].

1.Расстояния между отдельными объектами

имеры близости объектов

Наиболее трудным и наименее формализованным в данной задаче является пункт, связанный с определением понятия однородности объектов.

В общем случае понятие однородности объектов задается либо введением правила вычислений расстояния р (X*, Xj) между любой парой объектов исследуемого множества {Хь Х2, ..., Х п}, либо

1 Для сравнительно широкого класса так называемых непрерывных случай­ ных величин задание вероятностной меры Р может быть осуществлено с помощью

некоторой специальной функции f (іА1*, .... tAp'), называемой функцией плот­ ности распределения от р переменных, где р — размерность исследуемого при­ знака X. В этом случае при заданном AS вероятность р (AS) подсчитывается по формуле

Р (AS )= J f (гА!\ ... , и^р^)du^lK ... , du(рК

AS

.76

заданием некоторой функции г (Хь Xj), характеризующей степень близости (сходства, подобия) объектов с номерами і и /. Если задана функция р (Xi,Xj), то близкие в смысле этой метрики объекты счита­ ются однородными, принадлежащими к одному классу. Естественно, при этом необходимо сопоставление р (Хг, Х7-) с некоторым пороговым значением, определяемым в каждом конкретном случае по-своему.

Аналогично используется для формирования однородных классов и упомянутая выше мера близости г (Xiy Xj), при задании которой мы должны помнить о необходимости соблюдения следующих естествен­

ных требований: требования симметрии

(Xiy

Xj) =

г (Xj,

Хг));

требования максимального сходства

объекта с

самим

собой

(г (Хіу

Х і) = шах г (Xj, Xj))

и требования при заданной метрике монотонно-

1</

по р (Хь Xj),

т. е.

из р (Xh, X t) > р (ХІУXj)

го убывания г (Xit Xj)

должно с необходимостью следовать выполнение неравенства г (Хь, Xj) < г (Xj, Xj).

Конечно, выбор метрики (или меры близости) является узловым моментом исследования, от которого решающим образом 'зависит окончательный вариант разбиения объектов на классы при заданном алгоритме разбиения. В каждой конкретной задаче этот выбор должен производиться по-своему. При этом решение данного вопроса зависит в основном от главных целей исследования, физической и статисти­ ческой природы вектора наблюдений X, полноты априорных сведений о характере вероятностного распределения X. Так, например, если из конечных целей исследования и из природы вектора X следует, что понятие однородной группы естественно интерпретировать как генеральную совокупность с одновершинной плотностью (полигоном частот) распределения и если, к тому же, известен общий вид этой плотности, то естественно воспользоваться общим подходом, описан­ ным в главе II настоящей работы. Кстати, если известно, что наблю­ дения X извлекаются из нормальных генеральных совокупностей с одной и той же матрицей ковариаций, то естественной мерой отда­ ленности двух объектов друг от друга является, как видели в § 4 гла­ вы I, так называемое расстояние Махаланобиса.

В качестве примеров расстояний и мер близости, сравнительно широко используемых в задачах кластер-анализа, приведем здесь следующие:

общий вид метрики махаланобисского типа.

В общем случае зависимых компонент х<2>, ..., х ^ вектора наб­ людений X и их различной значимости в решении вопроса об отнесе­ нии объекта (наблюдения) к тому или иномуч классу обычно пользу­ ются обобщенным («взвешенным») расстоянием махаланобисского

типа, задаваемым формулой

 

Po (Xj, X,) / IX j -

Xjу Л' Я-* А (Xj - Xj) .

Здесь Б — ковариационная

матрица генеральной совокупности,

из которой извлекаются наблюдения Х ІУ а Л — некоторая симметрич­ ная неотрицательно-определенная матрица «весовых» коэффициентов Я, которая чаще всего выбирается диагональной [38], [57].

77

Следующие три вида расстояний хотя и являются частными слу­ чаями метрики ро, все же заслуживают специального описания;

обычное евклидово расстояние

Pß (*,. Х;) = У{> .(1) ДО)2+ 0 ( 2 )

)2+ ...+ (. Ар) Ар )\

К ситуациям, в которых использование этого расстояния можно приз­ нать оправданным, прежде всего относят следующие:

наблюдения X извлекаются из генеральных совокупностей, описываемых многомерным нормальным законом с ковариационной матрицей вида а2-/, т. е. компоненты X взаимно независимы и имеют одну и ту же дисперсию;

компоненты х<х>, х<2>, ..., вектора наблюдений X однородны по своему физическому смыслу, причем установлено, например, с по­ мощью опроса экспертов, что все они одинаково важны с точки зрения решения вопроса об отнесении объекта к тому или иному классу;

факторное пространство совпадает с геометрическим простран­ ством нашего бытия, что может быть лишь в случаях р — 1, 2, 3, и по­ нятие близости объектов соответственно совпадает с понятием геомет­ рической близости в этом пространстве, например классификация попаданий при стрельбе по цели;

V — «взвешенное» евклидово расстояние

р.е № , х , ) = Г ШіМ ,,- 4 , ’)г+ » аЫ !’- х Г ) 2+ . . . + » Р(х1'”- * Г > 2.

Обычно применяется в ситуациях, в которых нам так или иначе удается приписать каждой из компонент х<*) вектора наблюдений X некото­ рый неотрицательный «вес» coft, пропорциональный степени его важ­ ности с точки зрения решения вопроса об отнесении заданного объекта

к тому или иному классу. Удобно полагать при

этом 0 ^ cofe ^ 1,

* = 1 , 2 , ..., р.

весов сой связано, как

правило,

с дополнительным

Определение

исследованием,

например получением и

использованием обучающих

выборок, организацией опроса экспертов и обработкой их мнений, ис­ пользованием моделей факторного анализа. Попытки определения ве­ сов cöfe только по информации, содержащейся в исходных данных [15], [75], как правило, не дают желаемого эффекта, а иногда могут лишь отдалить нас от истинного решения. Достаточно заметить, что в зави­

симости от весьма тонких и незначительных

вариаций физической

и статистической природы исходных данных,

можно привести одина­

ково убедительные доводы в пользу двух диаметрально противополож­ ных решений этого вопроса: выбирать a>k пропорционально величине среднеквадратической ошибки признака x(Ä> [26], либо — пропорцио­ нально обратной ]!] величине среднеквадратической ошибки этого же признака [77], [15], [75]^

Хеммингово расстояние. Используется как мера различия объек­ тов, задаваемых дихотомическими признаками. Оно задается с по-

78

мощью формулы

p„(*i. *>) = І I4 s)- * n

s — 1

и, следовательно, равно числу ѵи несовпадений значений соответст­ вующих признаков в рассматриваемых і-м и у'-м объектах;

— другие меры близости для дихотомических признаков-.

Меры близости объектов, описываемых набором дихотомических

признаков, обычно основаны на характеристиках

ѵ[;;) и ѵ^ = ѵ!“>+

+ ѵ\}\ где V-/’ (ѵ'Д) — число нулевых (единичных) компонент,

совпав­

ших в объектах X, и Xj. Так, например, если из каких-либо

профес­

сиональных соображений или априорных сведений следует, что все р признаков исследуемых объектов можно считать равноправными, а эффект от совпадения или несовпадения нулей тот же, что и от сов­

падения или несовпадения

единиц, то в качестве меры близости объек­

тов Х і и Xj используют

величину

 

r(XitX j ) = ^ .

 

D

Весьма полный обзор различных мер близости объектов, описывае­ мых дихотомическими признаками, читатель найдет в [6], [14], [71];

— меры близости и расстояния, задаваемые с помощью потенциаль­ ной функции. Во многих задачах математической статистики, теории вероятностей, физической теории потенциала и, как выяснилось, теории распознавания образов, или классификации многомерных наблюдений, оказываются полезными некоторые специально устроен­ ные функции К (X, Y) от двух векторных переменных X и Y, а чаще всего просто от расстояния р (X, Y) между этими переменными, которые мы, следуя [3], будем называть потенциальными1.*

Так, например, если пространство X всех мыслимых значений иссле­ дуемого вектора X разбито на полную систему непересекающихся од­ носвязных компактных множеств или однородных классов Sx, ..., Sh,

и потенциальная функция К (X, F)

определена для

X £ X и Y £ X

следующим образом

 

 

 

 

X (X

Y) =

I

если X 6 Sj,

Y £ Sj, / = 1,2,

..., k

1

'

\0,

в противном

случае,

 

то с помощью этой функции удобно строить обычные эмпирические

гистограммы (оценки плотности распределения fn (U)) по имеющимся наблюдениям Ux, U2, ..., Un. Действительно, легко видеть, что

1

*,)

V(б/)

(3.1)

fn(U) =

nV (Si (U))

w (S H U ) ) ' n

г-

 

1 В некоторых работах можно встретить по существу те же функции, но под другим названием, например, window —■«окно» [64], [58]. Определение «потен­ циальные функции» 13] обосновывается тем, что примером подобных зависимостей в физике является потенциал, определенный для любой точки пространства, но зависящий от того, где расположен источник потенциала. Строгого математичес­ кого описания класса потенциальных функций в литературе нет, а поскольку оно нам не понадобится, мы этим также не будем заниматься.

79

где V (U) — число наблюдений, попавших в класс Sj (U), содержащий

точку V,

а

WSnu) —объем области S l{u) (геометрическую интерпре­

тацию для

одномерного случая см. на рис. 3.1).

Если

в

исследуемом факторном пространстве X задана метрика

р (U, Е),

то можно не связывать себя заранее зафиксированным раз-

Рис. 3.1. График гистограммы fn (U), построенный с помощью разбиения на группы выборочной совокупности Хи ■■■, Хп. Размерность совокупности

Р= 1

биением X на классы, а задавать К (U, Е) как монотонно убывающую

функцию расстояния р (U, Е). Например,

 

K(U, V) = е - “Р2(Ц. Г); а > 0 )

 

K(U, Е) == [1 + ap2(U, Ѵ)Г\ а > 0.

(3.2)

Другие способы выбора потенциальной функции

по расстоянию

р можно найти в [3]. Приведем здесь еще лишь одну достаточно общую форму связи между р (U, Е) и К (U, Е), в которой расстояние р высту­

пает как функция некоторых

значений

потенциальной

функции К

Р (U,

V) r = Y K ( U ,

U) + K ( Е,

Е) —2K( U, V).

(3.3)

В частности,

выбрав в качестве К (U,

V) скалярное произведение

векторов U и Е, т. е. положив

 

K(U,V) = (U,Y)=

О,

 

і —1

мы получим по формуле (3.3) обычное евклидово расстояние ря.

80

Легко понять, что и в случае задания потенциальной функции в виде соотношений (3.2), формулы (3.1) позволяют нам строить ста­ тистические оценки плотности распределения (3.1), хотя график

функции }п (U) будет уже не ступенчатым, а сглаженным.

Легко также понять, что при отсутствии метрики в пространстве X и при ее наличии функции К (U, V) естественно могут быть исполь­ зованы в качестве меры близости объектов U и V, а также объектов и целых классов и классов между собой. В первом случае эта мера позволяла получить, правда, лишь качественный ответ: объекты близ­ ки, если U и V принадлежат одному классу, и объекты далеки — в противном случае; во втором случае мера близости является коли­ чественной характеристикой. Позже мы еще вернемся к потенциаль­ ным функциям и к их использованию в задачах классификации.

а) О физически содержательных мерах близости объектов. В неко­ торых задачах классификации объектов, не обязательно описываемых количественно, естественнее использовать в качестве меры близости объектов (или расстояния между ними) некоторые физически содер­ жательные числовые параметры, так или иначе характеризующие взаимоотношения между объектами. Примером может служить зада­ ча классификации с целью агрегирования отраслей народного хозяй­ ства, решаемая на основе матрицы межотраслевого баланса [18]. Таким образом, классифицируемым объектом в данном примере явля­ ется отрасль народного хозяйства, а матрица межотраслевого балан­ са представлена элементами s,;-, где под stj подразумевается сумма годовых поставок в денежном выражении і отрасли в /-ю. В качест­ ве матрицы близости {г^} в этом случае естественно взять, например, симметризованную нормированную матрицу межотраслевого баланса. При этом под нормировкой понимается преобразование, при котором денежное выражение поставок из г-й отрасли в /-ю заменялось долей этих поставок по отношению ко всем поставкам і-й области. Симметри­ зацию же нормированной матрицы межотраслевого баланса можно проводить различными способами. Так, например, в [18] близость между і-й и /-й отраслями выражалась либо через среднее значение их взаимных нормированных поставок, либо через комбинацию из их взаимных нормированных поставок.

б) О мерах близости числовых признаков (отдельных факторов).

Как упоминалось, решение задач классификации многомерных дан­ ных, как правило, предусматривает в качестве предварительного этапа исследования реализацию методов, позволяющих существенно сократить размерность исходного факторного пространства, выбрать из компонент хW, ..., х<р) наблюдаемых векторов X сравнительно не­ большое число наиболее существенных, наиболее информативных.

* Для этих целей бывает полезно

рассмотреть

каждую из компонент

Д1), ..., Д°) в качестве объекта,

подлежащего

классификации. Дело

в том, что разбиение признаков х ^ \ ..., Д р) на небольшое число одно­ родных в некотором смысле групп позволит исследователю сделать вывод, что компоненты, входящие в одну группу, в определенном смыс­ ле сильно связаны друг с другом и несут информацию о каком-то одном свойстве исследуемого объекта. Следовательно, можно надеяться,

81

что мы не понесем большого ущерба в информации, если для дальней­ шего исследования оставим лишь по одному представителю от каждой такой группы.

Чаще всего в подобных ситуациях в качестве мер близости между отдельными признаками и хб), так же как и между наборами таких признаков, используются различные характеристики степени их кор­ релированное™, и в первую очередь коэффициенты корреляции. Подробнее об этом см. главу IV настоящей работы.

Завершая изложение, посвященное введению понятий расстояний и мер близости, характеризующих отдельные объекты, и их краткому обзору, сошлемся на работы [71], [63], [67], [14], [6], в которых эти вопросы рассмотрены весьма подробно.

2. Расстояние между классами и мера близости классов

При конструировании различных процедур классификации (кластер-процедур) в ряде ситуаций оказывается целесообразным введение понятия расстояния между целыми группами объектов, так же как и понятия меры близости двух групп объектов. Приведем здесь примеры наиболее распространенных расстояний и мер близости, характеризующих взаимное расположение отдельных групп объектов. Пусть Si і-я группа (класс, кластер) объектов, nt — число объек­

тов, образующих группу S t, вектор Х(і)-— арифметическое среднее

векторных наблюдений, входящих в S t, другими словами, X (і) — «центр тяжести» і-й группы, а р (Slt S m) — расстояние между группа­ ми S, и S m.

Ниже приводятся примеры наиболее употребительных и наиболее

общих расстояний и мер близости между классами объектов:

 

■— расстояние,

измеряемое

по принципу «ближайшего соседа»

«.nearest neighbour» [28], [55], [41], [71]

 

 

 

Рты (s i>Sm) =

 

min

p (*!*,);

(3.4)

 

 

 

x i esltxJesm

 

— расстояние,

измеряемое

по

принципу «дальнего соседа»

«furt­

hest neighbour» [55], [42]

 

 

 

 

Ртах

sm)=

 

max

р(ХігХ,)\

(3.5)

 

 

Xi * Sl Xj ^ Sm

 

— расстояние, измеряемое по «центрам тяжести» групп [55], [42]

 

 

.p(S1,S n) - p ( X ( /) ,X H ;

(3.6)

— мера близости

групп, основанная

на потенциальной функции

[ 10]

 

 

 

 

 

 

r(S „S m) = - 4 -

2

2

K(Xi, Xjy,

 

 

 

ni nmXiest Xj csm

 

— расстояние, измеряемое по принципу «средней связи». Это рас­ стояние определяется [55], [42] как арифметическое среднее всевоз-

82

Соседние файлы в папке книги из ГПНТБ