Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
86
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

§ 3. НЕКОТОРЫ Е СВОЙСТВА ОБОБЩЕННОГО ПОРТРЕТА 299

из определения

Ä и Tfj* (14.6)

немедленно

следует,

что

гиперплоскости

 

 

 

 

 

(^(&0),ж) = . Ц р !

 

 

и

 

 

 

 

 

Сі (Ч’опт) “f' Сг (Ф<Шт)

 

 

(фо пт 5 X )

£

 

 

совпадают. Теорема доказана.

 

следует,

что

Замечание. Из

доказательства теоремы

п (*»'> = r a w -

§ 3. Некоторые свойства обобщенного портрета

Нахождение обобщенного портрета, очевидно, сво­ дится к задаче квадратичного программирования: найти минимум функции (ф, ф) при линейных ограничениях

(14.3).

В настоящее время известны алгоритмы решения об­ щей задачи квадратичного программирования. Однако, опираясь на некоторые особенности обобщенного порт­ рета, удается привести задачу о его нахождении к прос­ тому частному варианту задачи квадратичного програм­ мирования и найти для этого частного варианта эффек­ тивные методы решения.

Для дальнейшего нам понадобится следующая теорема. Теорема 14.4 (Куна — Таккера). Пустъ заданы диф­ ференцируемая выпуклая функция F (х) и линейные функ­

ции ft (х); і — 1, . .., I.

Пустъ х 0

доставляет минимум

F (х) при ограничениях

 

 

 

 

 

 

/ , ( * ) > 0

(г = 1,2,

. . . , I).

 

(14.8)

Тогда существуют такие числа Яі

> 0,

удовлетворяю­

щие условиям

 

 

 

 

 

 

h fl (») =

о

(г = 1,

2,

. . .,

I),

(14.9)

что справедливо равенство

I

 

 

 

 

 

 

 

 

 

(14.10)

Ѵ ^ Ы =

2 VF/г Ы

 

 

 

г—I

 

 

 

 

(V — знак оператора градиента).

300 ГЛ. XIV . ПОСТРОЕНИЕ РАЗДЕЛЯЮ Щ ЕЙ ГИПЕРПЛОСКОСТИ

И обратно, если для некоторой точки х 0 выполняются условия (14.8) и можно найти числа А,г!>0, удовлетворяю­ щие условиям (14.9) и (14.10), то в точке х 0 достигается условный минимум F (X) при ограничениях (14.8).

Доказательство этой теоремы приведено в приложении. Введем еще одно определение.

Определение. Будем говоритъ, что вектор x t (xf) явля­ ется крайним вектором множества X (X) для вектора і|), удовлетворяющего (14.3) при константе к, если вы­ полняется равенство

і, і|?) = 1

((Xj, i|)) = к) .

Справедлива следующая важная для дальнейшего теорема.

Теорема 14.5. Обобщенный портрет может бытъ представлен в виде линейной комбинации крайних векто­ ров. Причем крайние векторы множества X входят в это разложение вектора с неотрицательными коэффициента­ ми, а крайние векторы множества X — с неположитель­ ными коэффициентами.

Иначе говоря, минимальный по модулю вектор "ф, удов­ летворяющий (14.3) может бытъ представлен как

аЬ

 

 

Ч5=

2

« л — 2

РА'-

 

 

 

 

 

 

i ~

l

j = l

 

 

 

 

 

 

а * > 0

 

(г = 1 , 2 , . . ., а),

 

 

 

 

ßi > 0

'

(/ — 1 , 2 , . . . ,

Ъ),

 

(14Л1)

причем

 

 

 

 

 

 

 

 

 

«г {(х і> Ч?) — 1) =

0(г

= 1, 2, . .., а),

(14 12)

 

ßj (&—(xJt 40) =

0(/

=1 , 2 ,.. ., Ь).

 

 

Д о к а з а т е л ь с т в о .

Для

доказательства

тео­

ремы

14.5

воспользуемся

теоремой 14.4, где

положим

ft

 

F (40 =

(4?, 4?).

 

1, 2, . . ., a),

(4?) = ((*i. 4?) — 1) > 0

(i =

f i

(4?) =

(ko (Xj,

4?))

> 0

(/ =

1 , 2 , . . .,

b).

 

§ 3. НЕКОТОРЫ Е СВОЙСТВА ОБОБЩ ЕННОГО ПОРТРЕТА 301

Согласно утверждению теоремы 14.4 существуют такие

неотрицательные І,- (1 <

і <

а) и

(1 < /

^ Ъ), что

М ь ’Ю — 1) = 0 = 1, 2, . .

а),

Xj (к (Xj, ф))

= 0

(/ =

1, 2, . .

b)

И

 

 

 

 

а

 

 

Ь

 

grad (ф, ф) = 2

grad ({х{, ф) — 1) + 2 h grad (к — (ж,-, ф)).

І= 1

j = 1

Вычисляя градиент, имеем

аЬ

2т|) = 2 M i — 2 Mi-

i —1

; = i

Полагая

 

 

получаем

 

b

a

 

ф = 2

ал — 2

i =

l

j ~ l

 

а* >

0,

 

ß, >

0;

«iMplO — l] = o,

ß;- [к — (ж/ф)] = 0.

Теорема доказана.

Справедлива обратная теорема.

Теорема 14.6. Всякий вектор ф, удовлетворяющий (14.3) и допускающий разложение вида (14.11) по своим крайним векторам, совпадает с обобщенным портретом.

Д о к а з а т е л ь с т в о немедленно следует из об­ ратного утверждения теоремы 14.4 (Куна — Танкера) и единственности обобщенного портрета, если функции F (X) и / г (х) интерпретировать так же, как при доказатель­ стве предыдущей теоремы.

Замечание. В теореме 14.2 была доказана един­ ственность обобщенного портрета. Однако обобщенный портрет, вообще говоря, не единственным образом разла­ гается по своим крайним векторам- в виде (14.11).

302 ГЛ. XIV . ПОСТРОЕНИЕ РАЗДЕЛЯЮ Щ ЕЙ ГИПЕРПЛОСКОСТИ

§4. Двойственная задача

Вэтом параграфе будет рассмотрена частная задача квадратичного программирования, решение которой эк­ вивалентно построению обобщенного портрета.

Введем пространство параметров а, ß и рассмотрим в нем функцию

аЬ

w > ,ß ) = S

ß ; - 4-О М О ’

i=l

3—1

где вектор ф есть

 

а

Ь

ф = 2 щщ — 2 ßj% -

І= 1

3=1

Будем искать максимум этой функции в положитель­

ном квадранте а г > 0, ß^ >

0.

Для построения разделяющих гиперплоскостей су­

щественным оказывается то,

что точка максимума а 0, ß0

функции W (а, ß) в положительном квадранте определяет

обобщенный портрет для заданного параметра к, а значе­ ние максимума W (сс0, ß0) определяет расстояние между проекциями векторов первого и второго классов на нап­ равление обобщенного портрета.

Итак, рассмотрим точку максимума а, ß функции

W(а, ß) в положительном квадранте.

Необходимыми и достаточными условиями максимума

функции W (а, ß) в точке а? > 0, ß? > 0 являются ус­ ловия:

dW(a°, ß°)

j

0’

если af^>0,

даі

 

0, если а? = 0,

dW (я», ß?)

_ j

0,

если

ß? >

0,

ößj

i<^ 0 ,

если

ß ° =

0 .

Выпишем эти условия, обозначив

ф° = 2 « ? x t S ß ?

 

§ 4. ДВОЙСТВЕННАЯ

 

ЗАДАЧА

 

303

получим

 

 

 

 

 

 

! - < * „ - r t - L J ;

если а? >

О,

( 1 4 .1 3 )

если а? = О,

 

 

 

 

 

I

0,

 

если ß°

О,

 

 

(Х}, “Ф0) — к

0,

 

если ß“ =

0.

 

 

 

 

 

Условия

(14.13) могут быть переписаны в виде нера­

венств (14.3)

 

 

 

 

 

 

і.

Ф°) >

1,

 

 

 

(xj,

ф°) <

к

 

 

и равенств

(14.12)

 

 

 

 

 

 

«г ((*і, Ф°) — 1) = О,

 

 

 

ß;(к — (Xj, Ф0))= 0.

 

 

Согласно утверждению теоремы 14.6, эти

условия одно­

значно определяют обобщенный портрет ф°.

Таким образом, связь между обобщенным портретом и максимумом функции W (а, ß) в положительном квад­ ранте устанавливает следующая теорема.

Теорема 14.7. Для того чтобы функция W (а, ß) была ограничена сверху в положительном квадранте, необхо­ димо и достаточно, чтобы к имело допустимое значение. При допустимом к точка а„, ß0, в которой достигается условный максимум W {а, ß) в положительном квадранте, задает обобщенный портрет соотношением

аЬ

Ф(к) = 2 а?я4—2

1=1 3=1

Существует также связь между значением этого мак­ симума W (а, ß) и модулем обобщенного портрета.

Теорема 14.8. При допустимом к максимум функции W (а, ß) в положительном квадранте равен половине квад­ рата модуля обобщенного портрета ф (к).

Д о к а з а т е л ь с т в о . Действительно, по теоре­ ме 14.7

аb

Ф (к) = фо = 2 “ fci 2 РзЧ‘>

1=1 3=1

304 ГЛ. XIV. ПОСТРОЕНИИ РАЗДЕЛЯЮЩЕЙ ГИПЕРПЛОСКОСТИ

поэтому

а

Ъ

I ф (ft) I2 = 2 « і ( « і » ф ) —

2 ß ? (г з> ф )

і=1

3=1

 

и, вспоминая, что отличны от нуля лишь коэффициенты при крайних векторах х и X, имеем

а ъ

И’(Л)і2= іф6і* = 2 « ? -*2 $•

Таким образом,

аЪ

W (а0, ß0) = 2 а? - * 2 ßi - 4 " ^ ° ’ ^0) =

Теорема доказана.

Из теоремы 14.8 вытекает важное для конструирования алгоритмов построения разделяющих гиперплоскостей следствие.

Следствие. В случае, когда среди крайних векторов обоб­ щенного портрета ф (к) встречаются векторы обоих клас­ сов, справедливо соотношение

( а > 0 , ß <0) , (14.14)

причем равенство достигается при а = а 0, ß = ß0.

есть расстояние между проекциями

классов X и I на направление обобщенного портрета. Действительно, в силу теоремы 14.8

/ 2 W > 0,ßo) = I ф (к) |.

Далее, по условию

j M

=

_1_

І Ф І I

 

ІФ І ’

ф \

_

к

і ф і Г

і ф і '

§ 4. ДВОЙСТВЕННАЯ ЗАДАЧА

305

Поэтому

 

1 - к

 

VW JpbTW

 

Отсюда, учитывая, что

 

W{a, ß ) < W ( a 0, ß0),

 

получаем (14.14).

Это следствие используется для конструирования кри­ терия неделе_ния. В самом деле, будем считать, что два мно­ жества X и X не могут быть разделены с допустимым «за­ зором» с помощью обобщенного портрета ф (к), < 1),

если соответствующая величина П

меньше заданной

константы р

0.

 

Тогда существование такой точки а > 0 , ß>0, что

 

W ( a , ß ) > - ^ ß - ,

(14.15)

и будет означать, что множества неразделимы с заданным

зазором с помощью обобщенного портретаф (к).

максимум

Итак, согласно теоремам

14.7 и 14.8,

W (а,

ß) в положительном квадранте определяет обобщен­

ный

портрет,

а, согласно

следствию, тот факт, что при

W (а,

ß) = В

максимум

еще

не достигнут,

означает,

что множества

неразделимы с

зазором, большим, чем

1 —к

 

 

 

 

 

V 2 B

Таким образом, проблема построения обобщенного портрета свелась к поиску максимума функции W (а, ß) в положительном квадранте или оценке снизу величины максимума этой функции.

Оказывается, что и другие методы построения разделяющей гиперплоскости в определенном смысле реализуют различные алгоритмы поиска максимума функции W (а, ß) в положительном квадранте. Это об­ стоятельство дает возможность сравнивать их между

собой: тот алгоритм построения разделяющей гипер­

плоскости эффективнее, в основе которого

лежит бо­

лее эффективная процедура максимизации

функции

W(a, ß).

306гл. XIV. ПОСТРОЕНИЕ РАЗДЕЛЯЮЩЕЙ ГИПЕРПЛОСКОСТИ

§5. Алгоритмы персептронного типа

1.В главе I был сформулирован алгоритм построени разделяющей гиперплоскости персептрона. В этом па­ раграфе рассмотрим различные модификации метода Га­ усса—Зайделя для поиска максимума W (а, ß) в положи­ тельном квадранте и покажем, что алгоритм построения разделяющей гиперплоскости персептрона отражает одну из модификаций этого метода.

Итак, пусть задана функция F (z1, . . ., z”) от п аргу­ ментов z1, . . ., z". Поиск максимума функции методом Гаусса — Зайделя состоит в следующем: из начальной

точки zj, . . ., Zq делается первый шаг вдоль первой ко­ ординаты при фиксированных значениях остальных ко­ ординат до достижения функцией F (z) условного макси­ мума по этому направлению, затем ищется условный мак­ симум по второй координате при фиксированных значе­ ниях остальных координат и т. д. После того как сделаны шаги вдоль всех координат, поиск максимума вновь на­ чинается по первой координате и т. д. Процесс поиска максимума оканчивается, когда выполняется система неравенств

d F ( z \ .

те.

 

* ) < е (і = 1,2,

и).

dz1

 

 

Рассмотрим модифицированный метод Гаусса—Зайделя. Модификация метода направлена на то, чтобы искать макси­ мум функции F (z1, . . ., z") в положительном квадранте. Изменение метода Гаусса—Зайделя состоит в следующем:

1)в качестве начальной точки выбирается точка, рас­ положенная в положительном квадранте (в дальнейшем всегда в качестве такой точки будем выбирать начало ко­ ординат);

2)движение вдоль каждой из координат происходит либо до точки, где достигается максимум функции на этом направлении, либо, если этот максимум достигается при отрицательном значении координаты, до обращения в нуль этой координаты;

3)процесс поиска максимума прекращается, когда вы­ полнятся неравенства

d F ( z \ . . . , z n)

Р op.TTW

О

§ 5. АЛГОРИТМЫ ПЕРСЕПТРОННОГО ТИПА

307

и

dF(zx.....zn)

о >

если z* = 0.

dz1

 

 

2. Применение модифицированного метода Гаусса— Зайделя для максимизации функции W (а, ß) в области

«г > 0, ßj ^ 0 приводит к следующему алгоритму по­ строения обобщенного портрета. Если на t-м шаге произ­ водится движение вдоль координаты а*, то

щ (t) = c£j (t — 1) + Ааi.

Аналогично в случае движения вдоль координаты ß^

ß/ (0 = ß/ (t — 1) + Aß;-

Значения остальных координат сохраняются. Приращения Ааг (Aßу), доставляющие максимум по

направлению шага, определяются из условий

= [і_ (ф(f_ 1),а:г)]- IXiI2Ащ = 0

І

( öA ßT

1 ) ’ ®j)

I Щ|2 A ßj — ,

где положено

а Ъ

— 1) = 2 аі(^ — і )жі — 2 — i)^i-

3=1

Учитывая, что шаг не должен выводить за пределы огра­ ничений, получаем

Даг =

max

1 — W>(г —1),

, — Vi{t — 1)) .

 

 

l*t l*

 

Aßj =

max

(Ф(*-1), *j)- k

, - ß H f - i ) ) •

Іг;Іг

 

 

 

Процесс подъема продолжается до тех пор, пока не бу­ дет построен обобщенный портрет, либо не будет установ­ лено, что множества не могут быть разделены с помощью обобщенного портрета ф (А) с допустимым зазором (§ 4).

308 гл. XIV . ПОСТРОЕНИЕ РАЗДЕЛЯЮ Щ ЕЙ ГИПЕРПЛОСКОСТИ

В первом случае останов производится по условию

I 1 — (Хі,

ф) | <

е, если

<хг

 

0,

1 — (Xi,

ф) <

е, если

а г

=

0

Л {Я}, я)?) к |< е, если ß/ > 0,\

\(xt, ф) — к < е, если ß;- = 0 ) ’

Во втором случае критерием останова служит выпол­ нение неравенства (14.15)

где р — допустимый зазор.

Алгоритм можно реализовать и в такой форме:

ф (t) = ф (t — 1) + ХіАосі при движении вдоль осг,

ф (t) = ф (t — 1) — г^Дß^ при движении вдоль ßj-.

3. С помощью метода Гаусса — Зайделя удается до­ стигнуть максимума W (а, ß) и тем самым построить обоб­ щенный портрет. Однако часто требуется найти просто разделяющую гиперплоскость (х , ф) = с (не обязательно экстремальную) такую, что

X Ф) > ,

(14.16)

(** ф к Ц ± .

Построение такой гиперплоскости обеспечит следую­ щая огрубленная модификация метода Гаусса — Зай­ деля:

1) движение вдоль каждой из координат а *(ßj) проис ходит только в сторону от ограничений тогда, когда

(Хі, ф) <

1

 

2

(xh ф) >

1 + к

 

2

В случае выполнения этих условий значение вектора ф вычисляется по формулам

ф (0 = Ф (t —- 1) + ДаіХі

(0 = ф (t — 1) — Aßj Xj ) ,

Соседние файлы в папке книги из ГПНТБ