Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
89
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

§ 8. ДВОЙСТВЕННАЯ ЗАДАЧА

319

а) точка ф0, с0 удовлетворяла (14.20) и б) градиент функции в этой точке раскладывался с по­

ложительными коэффициентами по градиентам ограни­ чений, которые достигаются в точке ф0, с0.

Иными словами, необходимо и достаточно, чтобы су­ ществовали такие числа а* 0 и ß7- 0, что

Фо •— 2 i=i

и, кроме того,

д (гр, гр)

дс

- 2 *і -

 

г=1

причем

2

(14.25)

 

з= і

ь

2 ßi = о,

3=1

«г (1 + со — (Фо- х і)) = 0,

(14.26)

ßl ((Фо- + 1 — c0) = 0.

Рассмотрим теперь функцию

 

b

W (а, ß) = 2 аі +

2 ßj — 4 "

i=l

3=1

где положено

аЪ

Ф= 2 aixi

2 ß^j-

г~1

?=1

Будем искать максимум этой функции при ограниче­ ниях

С&г ^ и,

аb

2 «і =

2 ßi-

(14-2V)

i = l

3=1

 

Согласно условиям Куна — Таккера, для того чтобы мак­ симум функции W (ос, ß) при ограничениях (14.27) до­ стигался в точке а0, ß°, необходимо и достаточно, чтобы:

а) точка ос0, ß° удовлетворяла условиям (14.27) и

320 ГЛ. XIV. ПОСТРОЕНИЕ РАЗДЕЛЯЮЩЕЙ ГИПЕРПЛОСКОСТИ

 

б) существовали числа qx <1 0,

. . ., qa

0, qx

0, . . .

. . qb ^

0; с *) такие,

что

 

 

 

 

 

 

dW

(1 — (ф0, Жі)) ■= q{ — с,

dW

— (1 + ('Фоі Xj)) — <7j +

c

да.

"^ß“

 

 

 

 

 

 

 

 

 

и g;aj = 0, q $ j — 0, где положено ф0 =

2

а&і +

2 ßp®r

 

Ввиду

 

 

 

 

i=l

i—1

 

 

произвольности положительных

чисел

q h

qj

условие б) равносильно

существованию числа с такого,

что

 

(Хі,

'фо) >

с + 1,

 

 

 

 

 

 

 

 

(14.28)

 

 

№> Ф«) < с — 1

 

 

и

 

 

 

 

 

 

(1 + С — (ф0, Т ;) ) а°і

 

 

 

 

 

 

0 ,

 

(14.29)

 

 

(1 — с + (ф0,

2ß) ßj =

0.

 

 

 

 

 

 

Сопоставляя условия Куна — Танкера для минимума функции (ф,ф) при ограничениях (14.20) и для максимума функции W (а, ß) при ограничениях (14.27), получаем следующую теорему.

Теорема 14.10. Точка а 0, ß°, в которой достигается мак­ симум функции W (а, ß) при ограничениях (14.27), и век­ тор фо, доставляющий минимум функции (ф, ф) при огра­ ничениях (14.20), связаны соотношением

а

Ь

 

Фо = 2 а°х* -

2

(14.30)

i=l

3=1

 

Таким образом, для нахождения оптимальной разде­ ляющей гиперплоскости достаточно найти максимум функции W (а , ß) при ограничениях (14.27), определить ф0 из (14.30) и задать гиперплоскость уравнением

(х,

 

min (хр фо) + max (x-, фо)

фо) = -!

----------- ----------------•

а

 

Ь

 

*) Условие 2

а. =

2

можно рассматривать как два нера-

і =

1

3 = 1

 

веиства 2оц — 2ß,- 0 и 2сц — 2ßj <J0.

равно В, то «зазор» не превосходит

§ 8. ДВОЙСТВЕННАЯ ЗАДАЧА

321

Отметим, что функция W (а, ß) имеет, вообще говоря, не единственный максимум. Ио все точки а 0, ß°, достав­ ляющие максимум этой функции при ограничениях (14.27), соответствуют одному и тому же вектору ф0.

Значение максимума функции W (а, ß) позволяет су­ дить о расстоянии между выпуклыми оболочками мно­ жеств X и X, которое равно

П(фопт) = Ш "

Действительно,

 

(Фо. Фо) = (Фо. S a ? Xi + 2 ß ? Xj ) .

Напомним, что значения a° и ß° отличны от нуля толь­

ко для тех векторов x t (Xj),

для которых

( * г , Фо) = с + 1,

( x h фо) = с — 1.

Поэтому с учетом (14.27)

 

(Фо. Фо) = 2 ai "Ь 2 ßy

+ с (2 ai

—2 ß?)= 2 a*

i = l

J = 1

Vi= l

j = l '

i —l

;'=1

Следовательно,

 

 

 

 

 

 

 

a

b

 

 

 

 

W (a0i ßo) =

2

2 ß?--------------------грСФо? 'Фо) = 'фо).

Наконец,

г— 1

J=1

 

 

 

 

 

 

 

VW (et»,

 

 

 

 

2

 

 

 

П (фонт)

ІФоІ

 

ß») •

 

Последнее соотношение позволяет в ходе практиче­ ского вычисления оптимальной разделяющей гиперпло­ скости оценивать зазор между разделяемыми множествами. А именно, если найдена точка а, ß, удовлетворяющая ус­ ловиям (14.27), и значение функции W (a, ß) з этой точке

2

в

Для множеств, не разделимых гиперплоскостью, т. е. таких, выпуклые оболочки которых пересекаются, функ­ ция W (a, ß) в области, определяемой соотношениями (14.27), возрастает неограниченно.

11 В. Н. Вапник, А- Я. Червонеикис

322 гл . XIV. ПОСТРОЕНИЕ РАЗДЕЛЯЮЩЕЙ ГИПЕРПЛОСКОСТИ

§ 9. Методы вычисления оптимальной разделяющей гиперплоскости

Вычислять оптимальную разделяющую гиперплоскость на ЦВМ не многим сложнее, чем находить обобщенный портрет.

Для этого достаточно в градиентных методах макси­ мизации функции W (а, ß) заменить условный градиент функции W (а, ß) в положительном квадранте на условный градиент функции при ограничениях

« і > 0, ßj > 0 = 1, 2,

а) (J = 1,2, . . ., Ъ),

аЬ

2

«і = 2 ßi

i=l

3=1

и в качестве начальной точки выбрать точку, удовлетво­ ряющую (14.27). В соответствии с теоремой П. 4, дока­ занной в приложении, условный градиент функции W (а, ß) на многообразии, задаваемом условиями (14.27), однозначно определяется формулой

 

1 — (Xi, ф) +

d, если 1 — (xh ф)4-

Ѵусл W (а, ß) =

 

+ d 0, oCj 0,

 

0

 

в противном случае,

 

1 + (Xj, ф) — d,

(14 ЗЦ

 

если 1 +(Xj, ф) — v

V U

W (а, ß) =

 

- d > 0,ß, > 0 ,

 

0

 

в противном случае

при

условии

 

 

2ѴуСЛW - 2Ѵусл w = 0 .

Теперь остается подобрать величину d так, чтобы это

условие выполнялось. Будем рассматривать VyCn, ѴуСЛ в (14.31) как функции d и обозначим

L(d) = ЗѴуол (d) - 2ѴуСП(d)*

Очевидно, что для нахождения условного градиента до­ статочно найти корень уравнения

L (d) = 0,

§ 9. ВЫЧИСЛЕНИЕ ОПТИМАЛЬНОЙ ГИПЕРПЛОСКОСТИ

323

Из определения следует, что функция L (d) — моно­ тонно возрастающая непрерывная кусочно-линейная функция. Кроме того, при d —»- с» она неограниченно убы­ вает. Поэтому корень заведомо есть. Функция L {d) может иметь изломы (разрывы первой произвольной) только в точках

di = (хи ф) — 1, dj = (Xj, ф) + 1.

Поэтому корень L (d) можно определить так: найти ли­ нейный кусок, на котором лежит корень, а затем найти корень линейной функции, совпадающий с L (d) на этом куске.

Таким образом, приходим к следующему алгоритму. 1. Вычисляется значение функции L в точках dt {dj).

 

2. Если при всех dt {dj) функция L {d) >

0, то корень

лежит на луче d

 

min {dt, dj)

и равен

 

 

 

 

,,

 

 

 

 

Ф))

 

 

 

 

а ~

 

 

а' + 6'

 

 

 

 

где 2 ' берется по всем векторам x t, для которых а (

0;

2 "

берется по всем векторам

а'

— число векторов х и

для которых аі

 

0; Ъ' — число векторов х}.

 

 

3. Если при некоторых dt {dj) функция меньше нуля,

то

следует

найти

максимальное

dt {dj),

при котором

L {d) < 0.

Обозначим его через d*.

0 лежит на участке,

 

Тогда корень уравнения L {â) ~

прилегающем справа к точке d*, и равен

 

 

 

 

 

 

- № жі)) + S " (1 + (Ф.

 

 

 

 

а ~~

 

 

а' + V

 

 

 

где 2 ' берется по тем векторам xt,

для которых at

0

или 1 — {xt, ф) +

d*

0; 2 "

берется по

тем векторам

Xj,

для которых

 

 

0, или 1 — d*—(Xj,

ф) >= 0;

а’ и

Ъ'

— соответственно числа слагаемых в сумме 2 ' и

2 " .

 

4. ^Значение

ЛуСЛW вычисляется путем подстановки

в (44.31) корня

уравнения L {d) =

0.

 

 

 

Подробнее структура алгоритма построения оптималь­

ной разделяющей гиперплоскости будет рассмотрена в главе XV.

11*

324 ГЛ. XIV . ПОСТРОЕНИЕ РАЗДЕЛЯЮ Щ ЕЙ ГИПЕРПЛОСКОСТИ

§ 10. Построение оптимальной разделяющей гиперплоскости модифицированным методом Гаусса — Зайделя

Рассмотрим еще один метод построения оптимальной разделяющей гиперплоскости. Идея метода основана на том, что оптимальная разделяющая гиперплоскость орто­ гональна отрезку, соединяющему ближайшие точки вы­ пуклых оболочек X и X, и проходит через его середину. Точка X* принадлежит выпуклой оболочке векторов

хѵ . . ., ха, если

X = 2осг:гг, 2 а г = 1, а г

0.

Аналогично точка х* принадлежит выпуклой оболочке векторов % , . . . , хь, если

X* =

2 ß j — 1, ßj > 0.

Поэтому, для того чтобы найти оптимальную разделяю­ щую гиперплоскость, достаточно найти минимум квадра­ тичной формы (ф, ф), где

ф = hctiXi — 2 ßjXj,

в области

2 а г = 1, а г > 0,

(14.32)

2 ß , = 1, ß , > 0 .

Вектор ф, доставляющий минимум, будет направляющим вектором оптимальной гиперплоскости.

В вычислительном плане эта задача никак не проще той, которая рассмотрена в предыдущем параграфе. Здесь ограничения задаются двумя условиями типа ра­ венства, тогда как там входило лишь одно такое условие.

Рассмотрим модифицированный метод Гаусса — Зайделя для поиска максимума (ф, ф)' в области (14.32). Модификация метода Гаусса — Зайделя направлена на то, чтобы при движении вдоль выбранной координаты, во-первых, не выйти за пределы положительного квад­ ранта, а во-вторых, все время оставаться на многообра­

зии

2 а г = 1 (или

2ß; =

1).

Итак,

пусть в

t-й момент времени точка а (t — 1),

ß (t

— 1)

удовлетворяет

условию (14.32) и совершается

§ іо. ПОСТРОЕНИЕ МЕТОДОМ ГАУССА — ЗАЙДЕЛЯ

325

шаг вдоль координаты а,. Тогда величина шага Аа, модифицированного метода Гаусса — Зайделя опреде­ ляется из условия

max

\х* {t — 1) (1 — Аа,) + Аа,ж,— х* (t — 1)|2, (14.33)

0 < Д а ,< 1

 

 

 

 

где

 

а

 

Ь

 

 

 

 

 

X* (t — 1) =

2 <*i (t — 1) XU

X* (t — 1) = 2 ßj (г — 1) Щ-

 

 

i=l

 

j=1

 

Минимум величины (14.33)

находится при шаге

 

 

О,

еС ЛИ

(X*(t 1 )

X*{t— 1 ) , X* ( t1 ) —

X,)sCC О,

 

1,

если

(ж (t_i) _

ж («—1 ), ж(г—1) — ж,)

> 1 ,

Да, =

-----;---------------;----------------

 

 

(t1) Ж(, X (t1) Ж()

 

(ж*(г—1)—Ж*(І—1), X (f—1)—Ж()

в остальных случаях.

(ж (І—1) — Xt, X (г—1) — ж,;

Таким образом, рекуррентная процедура поиска оп­ тимальной разделяющей гиперплоскости задается так:

X* (t) = X* (t — 1) (1 — Да,) + ж,Да,. (14.34)

Аналогично находится значение х* (() в случае движе­ ния по ßt:

X* (t) = X* (t) (1 — Aßj) -f ж,Aß,,

где

если

(X* (t — 1) — X*(t — 1), xt X* (t — 1)) ^ 0,

’ 0,

.

если

(ж, ж (t — 1), X (f — 1) — ж (£ - 1)) . .

1,

Ц — -— -------------------- —> 1 ,

(ж, ж (£ 1), ж, — ж (t — 1))

Aß, =

(ж, — Ж* (f — 1), X* (t — 1) — ж* (t 1)) в остальных

(Ж, — Ж (i — 1), Ж, — Ж (f — 1))

случаях.

(14.35)

Зная X* и X*, нетрудно построить оптимальную разде­ ляющую гиперплоскость. Она задается парой

ф = X* X*, с — (х , X ) (ж , ж )

326 гл. X IV . ПОСТРОЕНИЕ РАЗДЕЛЯЮ Щ ЕЙ ГИПЕРПЛОСКОСТИ

Рекуррентная процедура (14.34), по существу, есть алгоритм Б. Н. Козинца для построения оптимальной разделяющей гиперплоскости.

Замечательная особенность этого алгоритма — пре­ дельная простота реализации. Однако существуют за­ дачи (особенно при большой размерности вектора х), для которых скорость сходимости алгоритма оказывается мед­ ленной (вспомним, что скорость поиска максимума в этом алгоритме определяет метод Гаусса — Зайделя). Именно для таких задач и строят значительно более сложные ал­ горитмы, в которых для увеличения скорости сходимости используются более эффективные методы поиска максиму­ ма квадратичной формы.

§11. Применение метода обобщенного портрета для нахождения оптимальной разделяющей гиперплоскости

Задача нахождения обобщенного портрета при задан­ ном к несколько проще, чем задача нахождения оптималь­ ной разделяющей гиперплоскости. В частности, при ре­ шении двойственной задачи в случае поиска обобщенного портрета отсутствует ограничение вида S aj = S ß;-.

Существует два способа применить метод обобщенного портрета для отыскания оптимальной разделяющей ги­ перплоскости.

Первый способ основан на последовательном построе­ нии обобщенных портретов при разных к и подборе к, близкого к к 0(теорема 14.3).

При подборе к можно исходить непосредственно из критерия

и искать максимум по к одним из известных способов по­

иска экстремума функции одной переменной.

Можно так­

же подбирать к из условия Sa* =

Sß*, где a,j

0 и ß;-

;> О — коэффициенты разложения

обобщенного портре­

та по крайним векторам. При выполнении этого условия, как нетрудно убедиться, обобщенный портрет ф (к) коллинеарен ф 0Пт*

§11. ПРИМЕНЕНИЕ МЕТОДА ОБОБЩЕННОГО ПОРТРЕТА 327

Второй способ основан на следующем свойстве вектора фонтРассмотрим всевозможные разности вида

УИ = хі %j ( х і GE X , X j ЕЕ X

При этом вектор фопт обладает свойством

тіп(фопт, Уіі) =

max тіп(ф, уі})

і,}

|ч>|=1 г,3

и поэтому, как было указано в § 2, он коллинеарен обоб­ щенному портрету ф класса Y — {уц} при пустом втором классе. Число векторов ytj обычно много больше, чем дли­ на обучающей выборки. Поэтому непосредственное по­ строение обобщенного портрета ф затруднительно. Вместо этого можно воспользоваться следующей итеративной про­ цедурой.

1. Берется произвольная пара векторов

х и, XJt. Обра­

зуется класс Ух всего из одного вектора

ух ~ хи

Строится обобщенный портрет фх этого класса (при пустом втором классе),

2. Допустим, что на <-м шаге построены класс векто­

ров Yt и его

обобщенный портрет ф(. В

обучающей по­

следовательности

находится вектор хім

такой, что

 

 

СФо Ч/+х) =

min (ф(, хі),

 

и вектор Xj

такой, что

 

 

 

 

(tn *Ѵг+і) =

max (^i’ *})■

 

Образуется вектор г/і+х

= хң+1 — 2X(+r

 

3. Если

(ф4,

г/(+1) < 1

— е ( с ^ >0 — параметр про­

цедуры), то класс Yt пополняется вектором уі+1. Далее находится обобщенный портрет ф,+х образовавшегося класса У(+1 и процесс продолжается дальше.

Если же (ф£, yt+1) 1 — е, то процесс заканчивается и за приближение оптимальной разделяющей гиперпло­ скости принимается гиперплоскость

min (хѵ ф() + max (sjt ф()

(ф/, *) = — 2

328 ГЛ. XIV. ПОСТРОЕНИЕ РАЗДЕЛЯЮЩЕЙ ГИПЕРПЛОСКОСТИ

При е = 0 процесс за конечное число итераций приво­

дит к нахождению обобщенного портрета класса

Y =

= {уц}, а следовательно, и оптимальной разделяющей

по­

верхности.

При реализации этой процедуры удобно на каждой итерации при образовании класса У;+1 из Y t удалять все векторы у, входящие с нулевым весом в разложение обобщенного портрета ф(.

§ 12. Некоторые статистические особенности метода обобщенного портрета

Вглаве VI были получены оценки качества алгоритмов, строящих разделяющие гиперплоскости методом миними­ зации эмпирического риска.

Вчастности, было показано, что для детерминист­ ского случая математическое ожидание вероятности оши­ бочной классификации с помощью решающего правила,

построенного по выборке длины I, не может быть меньше

R ~ c ~ r

где с — константа, п — емкость класса.

Были получены и верхние оценки качества. Верхние оценки были двух типов — зависящие от размерности про­ странства (эти оценки следует из общей теории равномер­ ной сходимости) и оценки, зависящие от относительного расстояния (эти оценки следуют из обобщенной теоремы Новикова 6.2).

В этом параграфе будут исследованы оценки качества алгоритмов, реализующих метод обобщенного портрета. Будет показано, что для этих алгоритмов справедливы одновременно оценки обоих типов (тем самым выполняет­ ся лучшая из них). При этом существенно то, что верхняя

оценка,

зависящая от размерности, значительно ближе к

п

нижнеи с — , чем оценки для произвольных алгоритмов,

строящих разделяющую гиперплоскость на основе ми­ нимума эмпирического риска. Тем самым будут показа­ ны особые статистические свойства метода обобщенного портрета,

Соседние файлы в папке книги из ГПНТБ