Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Айвазян, С. А. Классификация многомерных наблюдений

.pdf
Скачиваний:
44
Добавлен:
20.10.2023
Размер:
8.58 Mб
Скачать

Можно показать, что предполагаемый метод асимптотически подо­ бен методу максимального правдоподобия. Кроме этого он легко обоб­ щается на случай, когда потери от ошибок классификации разные.

б) Классификация, основанная на оценке дискриминантной функции

При классификации объектов на два класса можно использовать дру­ гой способ, а именно строить разделяющую поверхность с помощью отношения правдоподобия.

Пусть Х хі, Х 2І, ..., Х т.і (і = 1, 2) обучающие последовательности

из р-мерных нормальных совокупностей с разными неизвестными сред­ ними аъ а2 и одинаковыми, но неизвестными ковариационными ма­

трицами 2. Используя оценки средних значений аг= — 2 Х ц и оцен-

т /= 1

ку общей ковариационной матрицы

z т-

1

[т1-\-т2— 2 £ = 1 /=1

мы можем подставить их вместо неизвестных значений в отношение правдоподобия. В этом случае получим, как было показано в преды­ дущем параграфе, линейную разделяющую поверхность (оценку ди­ скриминантной функции)

б12= К ' % ~ Х(ах — а2) ---- Y {âi сг2)'

(аі ~

а2) + с,

где параметр с выбирается в зависимости от вероятностей

ошибок клас­

сификации. Для равных вероятностей ошибок классификации пара­ метр с = 0.

Известно [1], что при тх — оо и т2->■ °о предельным распределе­

нием для б42 при с = 0 будет

 

N ( — р, р ], если U — X £ N (аг, 2 )

и ЛМ------ р, р ), если U =

= : х \ м ( а 2, ^ ) ,

2

где р — расстояние Махалонобиса между классами, т. е.

р = (Сі—а2у 2 " 1(ах—а2).

Это означает, что при достаточно больших mt (і — 1, 2) вероятность неправильной классификации наблюдения X £ .V (аг,2) будет за­ даваться приближенным соотношением

X-

CL \ —f—(X 2

2 1 ( а ! — â 2) < 0 I « Ф (у),

 

где

 

Ѵ р

 

\_

 

У =

+ о

 

2

ГПі

 

 

 

Ф (у) — функция

распределения

стандартного нормального зако­

на [8].

 

 

 

 

43

В работе [6] доказано, что разделяющую поверхность можно пере­ двигать до тех пор, пока ошибки классификации обучающих последо­ вательностей не сравняются. Правда, это доказательство существен­ но опирается на предположения о нормальности распределений и о ра­ венстве ковариационных матриц. Кроме этого предполагается, что объемы обучающих последовательностей одинаковы (mx = т2).

Доказано, что точка z0 — пересечения поверхности 612 с прямой, сое­ диняющей центры классов а± и а2 при т1 = т2 -э- оо распределена

по нормальному закону со средним значением Mz0 = ai^ fl- и дис-

Персией

а количество ошибочно классифицируемых точек v (z0) при т1 оо нормально со средним

и дисперсией

Можно, по-видимому, показать, что такой метод улучшения поло­ жения делящей поверхности L (с)-состоятелен над семейством нор­ мальных распределений с одинаковыми ковариационными матрицами и разными средними.

Аналогичные результаты справедливы для числа классов k >. 2. Привлекательность линейной классификации привела к тому, что в работе [10] линейная классификация применяется и для разделения

нормальных совокупностей с разными ковариационными матрицами. В работе [3] предлагается распространить этот метод для классифика­ ции совокупностей с поверхностями постоянного уровня, состоящими из концентрических эллипсоидов. Известно [3], однако, что методы линейной классификации не являются L (с)-состоятельными уже над семейством нормальных распределений с разными средними и разными ковариационными матрицами.2

2.Непараметрические методы классификации

Внастоящем параграфе рассматриваются методы оценки илотносстей и методы классификации наблюдений, не предполагающие извест­ ных (с точностью до параметров) плотностей наблюдений, принадлежа­ щих к разным классам. Однако мы будем предполагать наличие обу­ чающих выборок из каждого класса. В параметрических задачах клас­ сификации эти выборки служили для оценки неизвестных параметров

44

плотностей, т. е. для оценок самих этих плотностей. В непараметри­ ческих задачах они необходимы также для оценки плотностей, только теперь это будут так называемые непараметрические оценки плотно­ стей, в некотором смысле — многомерный аналог гистограммы.

Методы классификации, опирающиеся на эти оценки, как и в ра­ боте [7] будем называть локальными, так как отнесение наблюдения Z к тому или иному классу будет зависеть от ближайших к нему точек обучающих последовательно­ стей. Поэтому требуются дополнительные предположения относительно понятия близо­ сти наблюдаемых точек.

а) Методы, использующие понятие близости. Понятие близости можно задавать, на­ пример, следующим образом. Определим в пространстве на­

блюдаемых признаков

X' —

= (х1-1), х<2>,

...,

х<р>) некото­

рую

окрестность

ѵ0

точки

О =

(0, 0, ..,

0).

 

 

Задаваясь

произвольным

действительным числом г > 0 и сопоставляя каждой точке U из окрестности нуля ѵ0точ­ ку rlI,— (rud-'>, ги<?\ ..., г«(р>),

мы получим отображение ок­ рестности ѵ0 в некоторую по­ добную ей окрестность ѵ0 (г). Меняя г, будем иметь систему подобных окрестностей {п0 (г)} около точки 0. Тогда для

произвольной точки Z при заданном виде окрестности нуля ѵ0 можно рассмотреть соответствующие подобные окрестности (см. рис. 1.6).

vz {r) = {rU+ Z, и е М-

Таким образом, очевидно, что при заданных ѵ 0и Z для любой р-мерной точки факторного пространства X £ X можно определить множество действительных чисел Rx таких, что если только г■£ R x , то X £ vz(r).

Соответственно полагают, что из двух точек X и Y точка X располо­ жена ближе к точке Z (в смысле окрестности ѵ0), чем точка Y, если min Rx < min R Y-

Обычно понятие близости точек наиболее естественно вводится через расстояние р (X, Z) в пространстве признаков. В этом случае области ѵ2 (г) превращаются в систему «сфер» радиуса г и центром в точке Z.

Приведем вначале несколько способов классификации объекта Z, а затем остановимся более подробно на различных локальных оценках плотностей и отношений правдоподобия в точке Z, на основании ко­ торых производится классификация.

45

Методы классификации точки Z могут состоять в следующем.

1) В зависимости от объемов обучающих выборок определяется число к:

•— рассматривается к ближайших k Z точек из обучающих выборок;

— точка г относится к тому классу і, из которого в числе к ближай­ ших точек присутствует больше точек, чем точек из любого другого

класса j

Ф і (/ = 1, 2,

k).

При двух классах и нечетном к этот метод наиболее хорошо изу­

чен [12]

и обязательно относит точку Z к одному из классов.

2) В зависимости от объемов т* обучающих выборок класса і выби­ раются числа к ;:

— около точки Z для каждого і строится окрестность vz (р() наи­ меньшего радиуса р; такая, что она содержит не менее к* точек из обу­ чающей выборки класса і. Заметим, что определенный таким образом радиус р; является величиной случайной;

— точка Z относится к тому классу і, для которого рг ^ pj (/ =

- 1, 2, ..., k).

3) По непараметрическим оценкам плотностей около точки Z и, сле­ довательно, по оценке функций бг (Z) (или разделяющих поверхностей), точка Z относится к одному из классов аналогично тому, как это дела­ лось в § 2 настоящей главы.

Приведем некоторые общие результаты, которые показывают сос­ тоятельность наиболее изученного метода классификации (метод 1) на два класса при к - ^ - о о и т = т 1 = т 2 ->-оо. Через / (U) обозна­ чим плотность распределения точек, принадлежащих к одному клас­

су, а через ѵг — число точек обучающей последовательности,

попав­

ших в область vz (г).

 

Т е о р е м а 2 [11]. Если / (U) — непрерывная функция

в точке

Z и т J / (U)dU оо при к ->- оо, т->- оо, то величина

 

vz (f)

 

Ѵг

тj f(U)dU

vz (r)

является состоятельной оценкой плотности / (U) в точке Z.

Для евклидова расстояния и сферы vz (г) аналогичные результаты получены в работе [14].

Если Ш]_ф т2 и точки обучающих

последовательностей {Х;і}

и

{Xj2} упорядочены в порядке возрастания расстояний

р (Z, Хц),

£

р (Z, Xj2) от точки Z и взята k-я по расстоянию от

Z точка X

6 {Хц} U {Xjz},

то через т (т х) будем обозначать число точек из по­

следовательности

{Хгі}, с меньшими

(не большими) чем р (X , Z) рас­

стояниями до Z,

а через п (т2) — число таких же точек из последова­

тельности {Xj2}. В этом случае справедлива следующая теорема.

 

Т е о р е м а

3

[7]. Если плотности /х (U) и / 2 (П) разных классов

непрерывны в точке Z и число к = к

(т1г т2) выбрано так, что к -> оо

(к/тх) -> 0, (к /т2)

0 при т1->- оо,

т2

со (но при этом сг <; — -<

46

,

то величина

т (тЛ

состоятельной оценкой для отно­

< с 2),

является

шения

плотностей

-гг—-.

 

 

 

 

 

/2(Z)

 

В случае, когда семейство плотностей {f (U | Ѳ)} параметрическое и

fi (U)

— f {U

I

иѲ /2 і(U) = f (U I

Ѳ2), но используется непарамет­

рический критерий для классификации точки Z, известна [11].

Т е о р е м а

4.

 

Если для всех

Ѳ и для почти всех U (по мере

/ I 0)) оценка f (U) состоятельна для / (U | Ѳ), то правило классифи­ кации

HU 1Ѳх)

1Ѳа)

 

 

 

L (с) состоятельно над семейством

{/ (U |

0)}. С помощью теоремы 2

в работе [7] строится состоятельная

оценка

для

(U) (і = 1, 2) (ме­

тод 2)

 

 

 

кг— 1

U U )

ЩРІ

где р — размерность каждого наблюдения, а к* — фиксированное чис­ ло точек в области vz (р0-

В этом случае f t (U) — асимптотически несмещенная (при т г ->- оо) оценка /у (U) и ее можно использовать для оценки отношения плотностей.

Если области vz (рг) различны для распределений fx (U) и для / 2 (U), а рг такие, что в область vz (рг) попадает равно к х и к 2 точек последо­

вательностей {Хп } и {Xj2},

объемов тх и т2, то

h ( Z )

(ki— 1Дт8 / p ^ p

f2 (Z)

(k2— 1 ) т Д р і 7

является состоятельной

оценкой отношения правдоподобия в точ­

ке Z.

k2 это правило совпадает с известным [11] при

При тх = т2 и kj =

к= 2кі — 1 (метод 1).

Вработе [7] предлагается выбирать величину

4

к; = т 4.+р

1 I

для т1 = т2. Отличаясь от параметрических методов меньшими тре­ бованиями на плотности, локальный метод имеет ряд существенных не­ достатков. Отметим лишь некоторые из них:

при оценке отношения правдоподобия fx (U)/f2 (U) используются лишь точки, входящие в уменьшающуюся с ростом min {ть /п2} ок­ рестность классифицируемой точки Z. Это приводит к тому, что по­ рядок сближения (при min {т1, т 2} о о ) этого метода с наилучшим (основанном на fx (U)/f2 (U)) хуже, чем для параметрических проце­ дур, которые используют все данные обучения при классификации точки Z;

локальный метод классификации требует большей вычислительной работы при классификации новых данных, чем при параметрическом

47

методе классификации и наличии обучения. Например, при классифи­ кации нормальных наблюдений с помощью линейной разделяющей поверхности достаточно знать лишь р + 1 чисел, а при локальном ме­ тоде классификации требуется помнить все р (т1 + /л2) чисел.

Локальный метод, устраняя одну трудность — наличие сведений об общем виде распределения наблюдений,—сразу же заменяет ее дру­ гой — трудностью выбора расстояния между точками-наблюдателя- ми. Эту трудность можно преодолеть, как будет показано ниже, заме­ нив ее другой неопределенностью.

Остановимся коротко на некоторой модификации правила клас­ сификации (1), описанного выше. Эта модификация для двух классов описана, например, в работе [13] и состоит в том, что можно для точки Z принимать, как описано в § 2, п. 4, три решения:

di — отнести точку к классу і (г= 1, 2) и d0 — воздержаться от приня­ тия решения.

Предлагается следующая процедура:

в зависимости от т1 и тг -—числа точек обучающих последователь­ ностей выбираются числа к и к ' ^ [к/2] + 1;

выбираются к ближайших к точке Z точек из множества т1 + т2 точек обучающих выборок;

точка Z относится к классу і (і = 1,2), если в числе к ближайших точек имеется более к' точек из обучающей выборки класса і. Если же

этого не происходит, то принимается решение d0. Это означает,

что

в числе ближайших к Z точек примерно поровну точек классов 1

и 2.

В работе [13] показано, что при априорных

вероятностях классов

n it Ші =

(тг + m2) jt; и mt -»- сю,

k ->- оо,

предлагаемая процедура

сходится к байесовской, описанной

в §

2,

п.

4,

т. е. является L (с)

состоятельной.

 

[к/2]

+

1 эта процедура сов­

Очевидно, что при к нечетном и к' =

падает с описанной в работах [11] и [12].

 

 

 

 

 

б)

Методы, использующие понятия весовой функции. В пространстве

выборочных точек можно отказаться от введения расстояния, не из­ меняя при этом качества алгоритмов классификации (состоятельность и т. д.). Но в этом случае приходится вводить произвольную функцию

веса К (х(1), х<2>, ...,

которая

должна удовлетворять следующим

условиям [26].

 

 

 

 

 

 

Функция К должна быть неотрицательна, симметрична, монотон-

но-мажорируема и интегрируема, т. е.

 

 

 

 

 

 

К (* (1),

х (2>,

х (р> )> 0 ;

 

 

К (*(1),

х<2>, ..., х(р>) =

К ( ± х (1),

± * < 2>, .... ±*< р >);

где

 

 

 

К (х(!>, х<2>,

..., х(р>)

Q(х(1>,

х(2), ..., х(р>),

 

 

 

 

 

 

 

 

 

ПП,г

Х\

"-

Х$> ?

 

 

 

 

 

При

 

 

 

 

 

 

 

 

-J-оо

 

оо

оо

 

 

 

 

 

—оо

—оо

—оо

 

 

 

 

48

Вполне естественно, что в качестве весовой функции К(лД), х(2\ . . . , х (р'>} можно взять любую интегрируемую в области от 0 до оо и неотрица­ тельную функцию ер (г) одномерного параметра, где вместо аргумен­ та г стоит норма ||Х||. Если ф (г) еще и монотонно убывающая функция,

то последние условия автоматически выполняются. Условие j

Q { Z ) d Z < i

<

оо без ограничения общности можно заменить условием j' Q ( Z ) d Z =

=

1 и взять вместо функции веса К (X) мажоранту Q ( X ) ,

если ма­

жоранта

симметрична. Если выбрать ещер последовательностей Д1т,

В 2т, ...,

1 р

Bjm -> 0 при

ВРт, таких, что В1т-+оо при т -> оо, а — П

m -> оо,

то можно получить оценку плотности в

точке

Z = (z(IC

z<2>, .... z <p >)

тр

где Xi =

(х\ \ х\ \ ..., х\р)) (і — 1, 2, ...,

т) —точки обучающей вы­

борки из

какого-либо класса.

условиях можно доказать

В этом случае при вышеприведенных

[16], что оценка fm (zC), z(2), ... , z <p >) состоятельна в точках непрерыв­ ности Z плотности / (Z), а величина

(7) / (Z)

асимптотически оо) нормальна с математическим ожиданием О и единичной дисперсией.

Легко проверить, что последовательности B j m = ш4+р удовлетво­ ряют всем необходимым условиям. Для таких последовательностей

сходимость оценки fm (Z) к плотности / (Z) определяется скоростью убывания дисперсии, равной

Следовательно, скорости сближения оценок в методах, описанных в работе [7] и в работе [16], совпадают для этого частного случая и рав­

ны /п<2 + р/2). Очевидно, что функции

Ф (z) = e~czZ (с > 0), ( a + b z 2) - 1, ( ^ ^ ) 2 и т - д -’

на которых основаны методы классификации с помощью так называе­ мых потенциальных функций (см. главу III), удовлетворяют всем не­ обходимым условиям построения локальных оценок плотностей.

49

В работе [5] доказано, что оценка плотности с весовой функцией

К.(х(1), л'<2>, ...,х(р>) =

П

- обладает всеми приведенными выше свой-

-ствами,

 

 

г= 1

 

х<2),..., х<р>) может принимать и отрица­

хотя функция К(х(1>,

тельные

значения.

Поэтому

от условия

неотрицательности

можно

отказаться.

 

 

 

 

 

 

в) Эвристический метод классификации1.

ягг; I =

 

Пусть

имеется

обучающая выборка

{Хгг} = 1, 2, ...,

=

1, 2,

...,

 

k

 

и эта выборка разбита на& классов Su

k) объема яг = 2 т .,

5 г,

...,

 

 

г= 1

1

 

 

 

S k. Предъявляется

элемент Z £ X, подлежащий классифика­

ции, и производится подсчет числа голосов Г (Z, Sz) за I-й класс следу­

ющим образом. Выбирается р' <

р,

где р — размерность

простран­

ства X и рассматриваются любые р'

координат ^-мерного вектора X.

Пусть этот набор координат обозначен через П, а через

|| Z — X ||п

для любого Z £ X обозначается величина

 

і /

2

 

 

 

г

/еп

 

 

 

Введем функцию

 

 

 

 

 

1,

при IIZ —Х ||< 8 ,

 

/?n(Z, Х) =

при IZ —X II (Д е.

 

 

О,

 

Возьмем любой вектор Х ц

£ Si.

Определим величину

 

Г (Z, X „ )= 2 /? n (Z , x tl).

II

Суммирование здесь ведется по всевозможным наборам р' координат из р (число таких наборов равно Ср).,Тогда величина T(Z, Si) равна

ті

T (Z ,St) = 2 r ( Z , X u). і = 1

Пусть задано некоторое число ц ^ 1. Вектор Z £ X относится к тому классу I, при котором

Г (Z, Sj)

для всех j Ф I. Если такого I не существует, то вектор Z не может быть классифицирован.

В целях проверки качества классификации описанный выше алго­ ритм применяется для классификации элементов обучающей выборки. Затем подсчитывается некоторая величина Е, характеризующая ка­ чество алгоритма, которая выражается через число неправильно клас­ сифицированных объектов и через число объектов не классифициро­ ванных в процессе работы алгоритма. Очевидно, что значение Е зави­ сит от (k, е, ц). Выбираются те значения k, е, м, при которых Е дости­ гает экстремума.

1 Этот метод разработан Ю. И. Журавлевым (ВЦ АН СССР).

50

§ 4. КЛАССИФИКАЦИЯ С ЧАСТИЧНЫМ ОБУЧЕНИЕМ. ПАРАМЕТРИЧЕСКИЙ СЛУЧАЙ

В области социально-экономических исследований сравнительно распространены ситуации, в которых исследователю неизвестно зара­ нее сколько типов (классов, объектов) представлено в изучаемой вы­ борке

{Хі) = Хь Х2, ..., Х п,

однако, предварительные сведения или специальные экспертные оцен­ ки помогают выделить определенные, как правило, небольшие «пор­ ции» данных вида {Хгг} из выборки {Ху} или помимо нее, о каждой из которых известно, что эта порция представляет лишь один какой-то класс.

Учитывая определение частичной обучающей выборки, данное в § 1 настоящей главы, естественно назвать подобные задачи классифи­ кацией при наличии частичного обучения. В этом параграфе мы рас­ смотрим процедуру классификации на неизвестное число классов при наличии частичного обучения и ее свойства применительно к одной частной схеме.

Предположим, что каждый из векторов наблюдений Ху исследуемой выборки извлечен из какой-то нормальной генеральной совокупности, принадлежащей семейству

{N(ah 2)}, /= 1, 2, ..., К,

где

'ö j 1»''

 

\

п{р)

/

 

 

 

\ и/

 

вектор средних значений,

а 2 =

(схгу) — матрица ковариаций компо­

нент исследуемых случайных величин X,-, общая для

всех рассма­

триваемых генеральных

совокупностей. Предположим

также, что

(.т—s) >. (р—1), где, как и прежде, т —общее число наблюдений, сос­ тавляющих s частичных обучающих выборок.

Введем в рассмотрение априорные вероятности я г (I = 1,2, ..., К) появления объекта /-го класса, или иначе л г — это удельный вес /-го класса среди всех исследуемых классов. При этом, вообще говоря, аи 2, К и я г (/ = 1, 2, ..., К) нам неизвестны, а К может быть и + оо. Будем для определенности предполагать, что наблюдения, участвую­ щие в частичных обучающих выборках, не входят в состав исследуемой выборки {Ху}. Этого всегда можно добиться с помощью предваритель­ ного исключения этих наблюдений из состава выборки {Ху}.

1. Описание процедуры классификации

Следуя [9] и [15], определим понятие минимального дистанционного разбиения

Sft(2) = {S!(Z), S2(Z), ...,Sk(Z)j

51

относительно заданных центров

Z = - (Zb Z2,

Zh)

и заданного числа классов k. Выше и далее Z* — вектор в рассматри­ ваемом намир-мерном пространстве/?^) с заданной в нем метрикой р./ В соответствии с этим разбиением класс 5 г (Z) состоит из точек про­ странства /?(р>, ближайших в смысле метрики р к Zг, причем точки, рав­ ноотстоящие от нескольких центров Z;, относятся к классу с наимень­ шим индексом. Так что, если ввести множества1

SHZ) = {Z:X €«((-), р(Х, Z;)< p (X ,Z ;-), / —1, 2,

/г},

то

S1(Z) = St(Z),

Sa(Z)= S;(Z)flSi(Z),

Sh(Z)==SS(Z) n

f n ‘ s,(Z)

 

V/ = 1

Пусть V — номер шага процедуры

классификации, что в нашем

случае совпадает с текущим номером последовательно извлекаемых из {Ху} наблюдений Хѵ.

Сущность описываемой процедуры в предварительном (по ѵ) уточ­

нении «центров тяжести» классов

 

Z(v) — ( Z iv, Z2v.

Z k ( у ) v)

и их числа k (ѵ), а затем использование получаемой на последнем п-м шаге последовательности центров Z(n) для образования классов

<Si(Z(n))> S2(Z(*>), .... S*(n)(Z<»>)

с помощью определенного выше минимального дистанционного раз­

биения 5

)(Z(n>).

Введем

в рассмотрение р (X, Y) — расстояние махаланобисского

типа между случайными векторами X и Y в исследуемом р-мерном про­ странстве /?(р)

р2(Х, F) = (X ~ F )'S - 1(X -F ),

где 2 — ковариационная матрица и для X и для У.

Пусть 2 — оценка максимального правдоподобия с устраненным смещением для 2 , построенная по совокупности частичных обучающих

выборок, р~2 (X, Y) = (X — Y)' 2 - 1 (X — Y ),

V ; (V)

Хі(у)

2

Хн

 

Ѵі (V)

 

 

; = 1

 

1 Черта сверху используется как знак теоретико-множественного дополне­

ния, т. е. множество S=- Р <р>\ S

состоит из

всех точек пространства Р (р), не

принадлежащих к множеству S.

 

 

52

Соседние файлы в папке книги из ГПНТБ