Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Айвазян, С. А. Классификация многомерных наблюдений

.pdf
Скачиваний:
44
Добавлен:
20.10.2023
Размер:
8.58 Mб
Скачать

в терминах так называемых матриц сопряженности [21]. Пусть сначала

разбиения

и SW не упорядочены и S tj

=

Sf(1) f] S/2). Количество

объектов в S*1*,

S)2),

S І7будем

обозначать

соответственно

через

ai \

йц- Матрицей

сопряженности называется следующая таб­

лица:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5<2)

 

 

 

 

 

 

 

 

 

аіі Оіа ••• «п 4 °

 

 

 

 

 

 

 

 

 

«21 «22 ••• «2; 4 °

 

 

 

 

 

 

 

 

 

«га flfca -

«W 4 1’

 

 

 

 

 

 

 

 

 

4 2) 4 2)

... 4 2) n

 

 

 

 

 

Здесь k и / соответственно число

классов в разбиениях SW и 5<2>.

В терминах матрицы

сопряженности

расстояние d (S<1),

S<2))

выражается следующим образом:

 

 

 

 

 

 

d{S(x\

S <2>)

2

2

(а^*)2+

а (a}*»)2— 2

2

(a»)*

t

 

 

 

- і = 1

 

/ = 1

 

і=і, /=і

 

 

а отношение «между» описывается

следующим образом:

разбиение

S — {Sl t ...,

Sm}

находится между

S (1>= (S)2’, ...,

S*1'} и Sa , =

= {Si2), ..., S[2)} тогда и только тогда, когда его классы предста­

вимы в виде Sr= U S i}, или 5r =

(JSU-,

 

 

і е/

і 6 J

k),

а J

где / — некоторое подмножество множества чисел (1, ...,

подмножество множества (1, ..., I).

 

2

(согла­

Рассмотрим несколько подробнее частный случай т =

сования двух разбиений). Определим согласованное разбиение в мак­

симальном смысле,

т. е. выберем такое допустимое разбиение S £ Н, на

котором достигает

минимума

 

 

т а x[d{S {l), S), d{S, S {2))}

(3.38)

В [20] показано, что множество допустимых разбиений, удовлетво­ ряющих (3.38), может быть многочисленным и недостаточно компакт­ ным, что методологически является довольно справедливым, так как использование столь малой предварительной информации не должно давать возможности сделать сколько-нибудь однозначный вывод. Это означает, что использование только концепции расстояния в общем не достаточно для формирования принципа согласования разбиений. Воз­ можные пути формирования принципа согласованности могут состоять в объединении подхода Эрроу с концепцией расстояния [20].

Г л а в а IV

МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ

В настоящей главе мы остановимся на некоторых линейных методах сокращения размерности факторного пространства, т. е.

пространства исследуемых признаков. Во многих исследовательских работах исходное число р рассматриваемых, т. е. замеряемых на ис­ следуемых объектах, признаков довольно велико, но тем не менее эти измерения следует обработать и осмыслить. Для наглядности картины, простоты интерпретации и упрощения счета очень часто необходимо представить каждое из наблюдений в виде набора чисел, состоящего из существенно меньшего (чем р) количества признаков. При этом остав­ шиеся признаки могут либо выбираться из числа исходных, либо опре­ деляться по какому-либо правилу по совокупности исходных призна­ ков, например как линейные комбинации последних. При формиро­ вании новой системы признаков к последним предъявляются разного рода требования, такие, как наибольшая информативность с точки зре­ ния правильного разбиения наблюдений на классы, взаимная некор­ релированность, наименьшее искажение внутренней и внешней гео­ метрической структуры множества исходных наблюдений и т. п. В за­ висимости от варианта формальной конкретизации этих требований мы будем приходить к тому или иному алгоритму снижения размерности.

§ 1. МЕТОД ГЛАВНЫХ КОМПОНЕНТ

Главные компоненты представляют собой новое множество иссле­ дуемых признаков

У1", г/(2), .... У[р),

каждый из которых получен в результате некоторой линейной комби­ нации, непосредственно измеренных на объектах, исходных признаков х(1>, х(2), ..., Полученные в результате такого преобразования новые признаки г/(1), у(2), ..., обладают рядом удобных статисти­ ческих свойств. В частности они упорядочены по степени рассеяния в изучаемой совокупности объектов; первый признак обладает наиболь­ шей степенью рассеяния, т. е. наибольшей дисперсией.

Действительно, во многих задачах обработки многомерных наблю­ дений и, в частности, в задачах классификации исследователя интере-

134

суют в первую очередь лишь те признаки, которые обнаруживают наи­ большую изменчивость (наибольший разброс) при переходе от одного объекта к другому. Так, например, при классификации «семей-потреби­ телей» с целью выявления типологии потребления многие из замеряе­ мых по каждой из семей признаков, таких, как душевое потребление хлеба, масла, мыла и некоторых других основных статей, вряд ли будут обнаруживать существенное различие, следовательно, не сыграют почти никакой роли в процедуре обоснованного разбиения совокупно­ сти исследуемых семей на различные типы потребителей.

С другой стороны, не обязательно для описания состояния объекта использовать какие-то из исходных, непосредственно замеренных на нем признаков. Так, например, для определения специфики фигуры че­ ловека при покупке одежды достаточно назвать значения одного из двух признаков (размер-рост), являющихся какими-то производными от измерений ряда параметров фигуры. При этом мы, конечно, теряем ка­ кую-то долю информации (портной измеряет пять-шесть признаков на своем клиенте!), как бы огрубляя (агрегируя) получающиеся при этом классы. Однако, как показали исследования, к вполне удовлетвори­ тельной классификации людей с точки зрения специфики их фигуры приводится система, использующая три признака, каждый из которых является некоторой комбинацией от большего числа непосредственно замеряемых на объекте параметров.

Для пояснения сущности того линейного преобразования исходной системы признаков, которое приводит к так называемым главным ком­ понентам, рассмотрим его геометрическую интерпретацию на примере двумерной системы наблюдений (х)11, х)2’), і — 1, 2, ... п, извлечен­ ной из нормальной генеральной совокупности со средним значением

а — (а(1),

а<2))

и ковариационной матрицей

 

 

 

 

/

ГСТі <та

г К

1,

> 0, а2 >

0.

 

 

V гаг а2

о2

 

 

 

 

 

 

Здесь Оі

и а

2 — дисперсии компонент,

соответственно

ха> и х<2),

а г — коэффициент корреляции между ними. Геометрически это озна­ чает, что точки (хр>, х)2>) будут располагаться примерно в очертаниях

эллипсоидов рассеивания вида (см. рис. 4.1 а)

 

1

,0) . ,

0 )

2

*(1> - ad>

X

1+г2

Оі

 

—2г

о

 

 

 

X

Дг> _ а(2)

 

Д2) _

а<2> А2 -• РЬ

 

 

 

 

02

 

 

В этом случае для изучения (х(1), х(2)) удобно перейти к новым ко­ ординатам (уП), г/<2)) с помощью преобразования:

г/d) =(*U)—а (1>)cosa + (x<2) —a(2>)sin a,

г/(2) = — (x<J) —пД)) sin a -f- (x(2>—a(2>) cos a,

где

tg 2a —

2ral a2

.2 '

 

2

135

X №

х(г)

\

у

4

*-

 

\

 

/

 

\

/

 

\

 

\

 

/

--------.-----------

Ж

 

У

\

!

л

\

/

!

\

/ /

!

 

----- у/.------------

1

 

а«!

 

/

 

 

 

S

Рис. 4.1. Эллипс рассеяния исследуемых наблю­ дений и направление координатных осей глав­ ных компонент г/<‘> и р<2): а) умеренный раз­ брос точек; б) отсутствие разброса точек в на­ правлении второй главной компоненты (вырож­

денный случай)

136

После этого преобразования точки

г/<2)) также будут распре­

делены нормально, но компонента «/<•> уже не будет

зависеть

от г/<2>.

Кроме того, если выбрать направления

так, что

Dг/<>> ^

Ог/<2>, то

геометрически это будет означать следующее: сначала производится перенос начала координат в точку (а*1*, а(2>), а затем оси поворачи­ ваются на угол а так, чтобы ось у шла вдоль главной оси эллипсои­ да рассеивания (рис. 4.1а). Чем ближе [ г | к единице, тем теснее груп­ пируются наблюдения около главной оси эллипсоида рассеивания (т. е. около новой оси */<■>) и тем менее значащим для исследователя яв­

ляется разброс точек в направлении оси

г/(2\

а следовательно, и сама

эта координата. В предельном случае | г | =

1,

исследуемые наблюдения

в координатах (р(1), р(2),) вообще не

отличаются по

координате

г/<2>(см. рис. 4.16).

 

 

 

 

1. Определение главных компонент

 

 

 

 

Будем предполагать, что исследуемые

наблюдения

Х и Х 2,

,... Хп извлечены из некоторой р-мерной

генеральной совокупности

(т. е. совокупности всех мыслимых наблюдений), определяемой соот­ ветствующей вероятностной мерой. Однако для приводимых здесь поня­ тий из всех характеристик исследуемой генеральной совокупности су­

щественное значение имеет лишь ковариационная матрица 2 =

(вц),

где

 

 

 

 

 

 

<j|j =М(л:(,'>—аб'))(х(й —а(/>), і,

/= 1 , 2 ,...,

р.

 

Здесь

компоненты вектора

а средних

значений признаков

х<‘>.

Поскольку, как легко видеть,

элементы а і;-

матрицы 2

не изменятся

при

замене признаков х<!'> признаками

х (г'> =

— с<‘> (с<»> —

произвольные постоянные числа), то будем в дальнейшем считать, что

вектор средних значений а =

0, чего всегда можно добиться,

рассмат­

ривая в качестве исходных признаков

x<2),

д:(р>не

сами из­

мерения -41', *ѵ2)>•••. хѵР) (ѵ =

1,

2,

...,

я),

а их отклонения от своих

выборочных средних значений, т.

е.

полагая

 

 

 

 

*</> =

 

 

»

 

где

Zu)

_ J _

yi

'Z(i)

(4-1)

xw

-

2 j

 

 

 

 

 

n

V — 1

 

 

 

Назовем первой главной компонентой исследуемой генеральной совокупности наблюдений такую нормированную линейную комбина­ цию р исходных признаков х(1), х<2>, ..., х(р),

 

У{1>= 1цХ (1) +

/12 *<2>+ ... +

/1р х<р>=

1[Х

(4.2)

(здесь

/ ; - ( / п ,

/12, ...,/1р), причем /2Х+

/22 +

••• +

/?„ =

1), которая

среди

всех

прочих

нормированных

линейных

комбинаций

л:(1>, х (2), ..., х (р> обладает наибольшей дисперсией.

137

И вообще,

і-й главной компонентой исследуемой генеральной сово­

купности (/ =

2, 3,

р) будем называть такую нормированную линей­

ную комбинацию р исходных признаков хО), х<2), .... х<р>

 

yU) = іп х<%/га ХІ2) + ... + !lp *<р>= If X,

(4.3)

которая среди

всех прочих

линейных нормированных {1\\ + 1}2+

Ifp — 1)

комбинаций,

некоррелированных со всеми предшест­

вующими главными компонентами у<-{\

..., уб—'> (т.е.соѵ(у<‘), у<0) —

= М (у(і'>уО')) ^ о для

/ < /) ,

обладает

наибольшей дисперсией.

Из определения следует,

что,

во-первых, главные

компоненты

у(1), у(2>, ...,

у<р> занумерованы в порядке убывания их дисперсий,

т. е. Dу<0 ^

Dy<2) ^

... ^ D у<р>,

причем легко подсчитать

 

 

Dy(О -

М{if X? r=М (ZhXX' If) = / * 2 Л

(4.4)

и, во-вторых [2, с. 371], вектор /г, определяющий преобразование пере­ хода отх^), х<2>, ..., х<р) к уб) является так называемым і-м собствен­ ным вектором ковариационной матрицы 2, т. е. его компоненты /г1,

/,-2,

..., /^определяются

р

1) решение си-

как нормированное (2 Іц =

стемы уравнений

і=1

 

 

 

 

 

( 2 ~ М ) /, = <>,

(4.5)

где

і-й по величине

корень уравнения

 

 

 

1 2 —W | = 0.

(4.6)

Под I М I подразумевается определитель матрицы М, под I —так назы­ ваемая единичная матрица, а под X — неизвестное число [2].

Из сопоставления (4.4), (4.5) и (4.6) вытекает, что

 

Dуб') — А.;.

 

(4.7)

Таким образом, ковариационная матрица

2 у главных компонент

у(0) у(2)>

у(р) будет иметь вид

 

 

 

 

'Я*

0

0 ..

 

 

 

о

х2

о

 

(4.8)

 

 

 

 

 

 

0

0

о ...

ХТ

 

Опираясь на то, что преобразование

L=

спомощью которого осуществляется переход от исходных компонент X к главным компонентам Y (Y = LX), является ортогональным [2],

138

нетрудно выразить исходные переменные л:<1>, х& \ ..., х<р>через глав­ ные компоненты

 

 

( 2)

,(Р)

(4.9)

hi У(1) + hi УК1>+

+ ІріУ

(в матричной записи X =

L'Y),

а также показать [2, с. 376], что обоб­

щенная дисперсия ) 2 У|

и сумма дисперсий (DyO) + Dy<2>+

... +

+ Dг/(р>) главных компонент

равны

обобщенной дисперсии

12 | и

сумме дисперсий (DxO) + Dx(2>+ ... + Dx<p>) исходных признаков. Это дает исследователю некоторую основу, опорную точку зрения, при вынесении решения о том, сколько последних главных компонент можно без особого ущерба изъять из рассмотрения, сократив тем самым

размерность исследуемого пространства.

Действительно, анализируя изменение относительной доли дис­ персии

q (p') — р У0) + °У{2) + • ■• + Р У{р,) _

h + K +

••• + Ѵ

Da:*1' +Da:*2' + . . .

^1+ ^2+

• • • +^р

(1 ^ p ' ^ р ) , вносимой пер­ выми р ' главными компонен­ тами, в зависимости от числа этих компонент, можно разум­ но определить число компо­ нент, которое целесообразно оставить в рассмотрении. Так: при изменении q ( p ') , изобра­ женном на рис. 4.2, очевидно целесообразно было бы сокра­ тить размерность пространст­ ва с р = 10 до р ' = 3, так как добавление всех осталь­ ных семи главных компонент может повысить суммарную характеристику рассеяния не более чем на 10%.

З а м е ч а н и е 1. В ре­ альных задачах точное зна­ ние ковариационной матрицы 2 является скорее исключе­ нием, чем правилом. Поэтому в тех случаях, когда 2 неиз­ вестна, данное выше опреде­ ление следует использовать применительно к выбороч­ ной ковариационной матрице

Ф')

Ю

у..--''-- Л

—^

0,9

 

 

0,8

0,1

0,5

J__I I__ L

J ___ L

Ю

3 4

6 7 8

Рис. 4.2. Изменение относительной доли сум­ марной дисперсии исследуемых признаков, обусловленной первыми p' главными ком­ понентами, в зависимости от р' (случай

Р-Ю)

2 , элементы которой

подсчитываются на основании имеющихся у нас

наблюдений Х ъ Х 2, ..., Хп по формуле

 

 

а и L 2

1 "

Лі) „(/)

(4.11)

т2.

Л у ) Л у у

 

ѵ= 1

 

 

139

в которой — значение q-я компоненты исследуемого вектора X, за­ меренное на ѵ-м объекте, Xyq) — соответствующее центрированное на­ блюдение, а X<?> — среднее значение q-я компоненты по всем обследо­ ванным объектам, т. е. x^) = [x[q) + x ^ + ... + x ql)/n.

Главные компоненты, вычисленные на основании элементов а ^ вы­

борочной матрицы 2, называют обычно выборочными главными компо­ нентами, или главными компонентами выборки, в отличие от главных компонент генеральной совокупности. В тех случаях, когда нам важно будет отличать главные компоненты выборки от главных ком­ понент генеральной совокупности, мы будем снабжать первые (и все

их характеристики)

«крышками» сверху, например,

%іг /г и т. д.

З а м е ч а н и е

2. Использование главных компонент оказывается

наиболее естественным и плодотворным в ситуациях, в которых все компоненты х*1', х<2)....... х<г> исследуемого вектора X имеют общую физическую природу и соответственно измерены в одних и тех же еди­ ницах. К таким примерам можно отнести исследование структуры бюд­ жета времени индивидуумов (все хО') измеряются в единицах време­ ни), исследование структуры потребления семей (все xO') измеряются в денежных единицах), исследование общего развития и умственных способностей индивидуумов с помощью специальных тестов (все х<‘> измеряются в баллах), разного рода антропологические исследования индивидуумов (все х(г) измеряются в единицах меры длины) и т. д. Если же различные признаки х([>, х<2>, ..., х<р) измеряются в раз­ личных единицах, то результаты исследования с помощью главных компонент будут существенно зависеть от выбора масштаба и природы единиц измерения. Поэтому в подобных ситуациях исследователь пред­ варительно переходит к вспомогательным безразмерным признакам X*«'), например, с помощью нормирующего преобразования

4

і=- 1,

2,

...,

р

(4.12)

°

V Оц

V — 1,

2,

...,

п

 

где оц соответствует обозначениям формул (4.1) и (4.11), а затем строит главные компоненты относительно этих вспомогательных признаков

X* и их ковариационной матрицы 2х»,

которая,

как легко видеть,

является одновременно выборочной корреляционной матрицей R ис­

ходных наблюдений X t.

 

 

 

З а м е ч а н и е 3.

В некоторых задачах оказывается полезным по­

нятие так называемых

обобщенных главных компонент, при определе-

 

 

р

=

1) ограничения на

нии которых оговаривают более общие (чем 2

коэффициенты ltj, т. е. требуют, чтобы

/=і

 

 

 

 

 

 

2 2 ^ ® Л

= 1,

 

 

 

*= 1Л= 1

 

 

 

140

где a>kj — некоторые дополнительно введенные веса. Очевидно, при (ohj = 1 при k = j и ü)hj — 0 при k Ф / мы имеем обычное условие нор­ мировки коэффициентов l(j и обычные главные компоненты. Можно показать [29], что при такой модификации условий нормировки коэф­

фициенты іі

= (1ц,

/j2, ..., hp)', с помощью которых обобщенные глав­

ные

компоненты у

выражаются через

исходные признаки

х Р \

х(2),

....

(4.1 и 4.2), определяются как решения уравнений

 

 

 

 

( 2 - А г й )/, =

0,

(4.5')

 

— і-й по величине корень уравнения

 

 

 

 

(2 _ & 2 ) = 0,

 

(4.6')

а матрица Q = (ыц), і, / = 1,2, ..., р, — некоторая положительно оп­ ределенная матрица весов. При этом, как и прежде, дисперсия обоб­

щенной главной компоненты уМ равна А,іу а г/<‘> и г/(/> при і ф } взаимно некоррелированы.

Заметим, кстати, что если в качестве матрицы весов выбрать матрицу

 

H

l

0

. . .

0

Й =

 

 

 

0

 

СТ2 2

■■ .

0

 

0

 

0

 

а

то, как легко показать, обобщенные компоненты (в метрике П), по­ строенные по исходным признакам хР>, ..., совпадут с обычны­ ми компонентами, построенными по вспомогательным безразмерным (нормированным) признакам х**1*, ..., х*(р) (4.12).

Проиллюстрируем определение главных компонент на численном примере, заимствованном из [26].

П р и м е р 1. По данным измерений (в мм) длины (х<Р), ширины

(х<2>) и высоты (х<3>) панциря 24 особей (п = 24) одного из видов черепах по формуле (4.11) определена выборочная ковариационная матрица

/451,39

271,17

168,70 \

£ =.(271,17

171,73

103,29 •

\ 168,70

103,29

66,65 )

Решая, в соответствии с (4.6), кубичное уравнение (относительно А) вида

451,39 —А

271,17

168,70

= 0,

271,17

171,73 —А

103,29

168,70

103,29

66,65

—А

находим

А, = 680, 40, А2 = 6,50, А3 = 2,86.

141

Подставляя последовательно численные значения

и

в си-

стему (4.5) и решая эти системы относительно неизвестных

/г = (/гі,

/г2>hzY (i = 1, 2, 3), получаем

 

 

В качестве главных компонент получаем

г/<» = 0,81x(D + 0,50*<2>+ 0,31И3>, г/(2) = —О.ббл:«1) + 0,83x<2>+ 0,10х<3>,

г/<3>= — 0,2\x<l) — 0,2bxW + 0,95х<3>.

Здесь

под X

х<2> и

х<3> подразумеваются

в соответствии с (4.1

отклонения размеров длины (х (1)), ширины (х<2>)

и высоты (x<3>) пан­

циря

от своих средних

значений.

 

Вычисление относительной доли суммарной дисперсии, обусловлен­

ной одной,

двумя и тремя главными компонентами, в соответствии

с формулой

(4.10) дает

Отсюда можно сделать вывод, что почти вся информация о специфи­ ке размеров панциря данного вида черепах содержится в одной лишь первой главной компоненте, которую и естественно использовать при соответствующей классификации исследуемых особей.

2. Экстремальные свойства главных компонент. Их интерпретация)а

а) Свойство наименьшей ошибки «автопрогнозау> или наилучшей самовоспроизводимости. Можно показать [27], [29], [28], что с помощью первых р' главных компонент у&\ у<-2\ ..., у (р,) (р' <. р) исходных признаков х*1), х<2>, ..., х^~> достигается наилучший прогноз этих признаков среди всех прогнозов, которые можно построить с помощью р' линейных комбинаций набора из р произвольных признаков.

Поясним и уточним сказанное. Пусть мы хотим заменить исходный исследуемый р-мерный вектор наблюдений X на вектор У = (р(1), г/(2>, ..., г/(р,)) меньшей размерности р' , в котором каждая из компо­ нент являлась бы линейной комбинацией р исходных (или какихлибо других, вспомогательных) признаков, теряя при этом не слишком много информации. Информативность нового вектора У зависит от того, в какой степени р' введенных линейных комбинаций дают возмож­ ность «реконструировать» р исходных (измеряемых на объектах) при-

142

Соседние файлы в папке книги из ГПНТБ