
книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения
.pdf§ 3. НЕКОТОРЫ Е СВОЙСТВА ОБОБЩЕННОГО ПОРТРЕТА 299
из определения |
Ä и Tfj* (14.6) |
немедленно |
следует, |
что |
гиперплоскости |
|
|
|
|
|
(^(&0),ж) = . Ц р ! |
|
|
|
и |
|
|
|
|
|
Сі (Ч’опт) “f' Сг (Ф<Шт) |
|
|
|
(фо пт 5 X ) — |
£ |
|
|
|
совпадают. Теорема доказана. |
|
следует, |
что |
|
Замечание. Из |
доказательства теоремы |
п (*»'> = r a w -
§ 3. Некоторые свойства обобщенного портрета
Нахождение обобщенного портрета, очевидно, сво дится к задаче квадратичного программирования: найти минимум функции (ф, ф) при линейных ограничениях
(14.3).
В настоящее время известны алгоритмы решения об щей задачи квадратичного программирования. Однако, опираясь на некоторые особенности обобщенного порт рета, удается привести задачу о его нахождении к прос тому частному варианту задачи квадратичного програм мирования и найти для этого частного варианта эффек тивные методы решения.
Для дальнейшего нам понадобится следующая теорема. Теорема 14.4 (Куна — Таккера). Пустъ заданы диф ференцируемая выпуклая функция F (х) и линейные функ
ции ft (х); і — 1, . .., I. |
Пустъ х 0 |
доставляет минимум |
||||
F (х) при ограничениях |
|
|
|
|
|
|
/ , ( * ) > 0 |
(г = 1,2, |
. . . , I). |
|
(14.8) |
||
Тогда существуют такие числа Яі |
> 0, |
удовлетворяю |
||||
щие условиям |
|
|
|
|
|
|
h fl (») = |
о |
(г = 1, |
2, |
. . ., |
I), |
(14.9) |
что справедливо равенство |
I |
|
|
|
|
|
|
|
|
|
|
(14.10) |
|
Ѵ ^ Ы = |
2 VF/г Ы |
|
||||
|
|
г—I |
|
|
|
|
(V — знак оператора градиента).
300 ГЛ. XIV . ПОСТРОЕНИЕ РАЗДЕЛЯЮ Щ ЕЙ ГИПЕРПЛОСКОСТИ
И обратно, если для некоторой точки х 0 выполняются условия (14.8) и можно найти числа А,г!>0, удовлетворяю щие условиям (14.9) и (14.10), то в точке х 0 достигается условный минимум F (X) при ограничениях (14.8).
Доказательство этой теоремы приведено в приложении. Введем еще одно определение.
Определение. Будем говоритъ, что вектор x t (xf) явля ется крайним вектором множества X (X) для вектора і|), удовлетворяющего (14.3) при константе к, если вы полняется равенство
(Хі, і|?) = 1
((Xj, i|)) = к) .
Справедлива следующая важная для дальнейшего теорема.
Теорема 14.5. Обобщенный портрет может бытъ представлен в виде линейной комбинации крайних векто ров. Причем крайние векторы множества X входят в это разложение вектора с неотрицательными коэффициента ми, а крайние векторы множества X — с неположитель ными коэффициентами.
Иначе говоря, минимальный по модулю вектор "ф, удов летворяющий (14.3) может бытъ представлен как
аЬ
|
|
Ч5= |
2 |
« л — 2 |
РА'- |
|
|
|
|
|
|
|
i ~ |
l |
j = l |
|
|
|
|
|
|
а * > 0 |
|
(г = 1 , 2 , . . ., а), |
|
|
|||
|
|
ßi > 0 |
' |
(/ — 1 , 2 , . . . , |
Ъ), |
|
(14Л1) |
||
причем |
|
|
|
|
|
|
|
|
|
|
«г {(х і> Ч?) — 1) = |
0(г |
= 1, 2, . .., а), |
(14 12) |
|||||
|
ßj (&—(xJt 40) = |
0(/ |
=1 , 2 ,.. ., Ь). |
|
|
||||
Д о к а з а т е л ь с т в о . |
Для |
доказательства |
тео |
||||||
ремы |
14.5 |
воспользуемся |
теоремой 14.4, где |
положим |
|||||
ft |
|
F (40 = |
(4?, 4?). |
|
1, 2, . . ., a), |
||||
(4?) = ((*i. 4?) — 1) > 0 |
(i = |
||||||||
f i |
(4?) = |
(ko — (Xj, |
4?)) |
> 0 |
(/ = |
1 , 2 , . . ., |
b). |
|
§ 3. НЕКОТОРЫ Е СВОЙСТВА ОБОБЩ ЕННОГО ПОРТРЕТА 301
Согласно утверждению теоремы 14.4 существуют такие
неотрицательные І,- (1 < |
і < |
а) и |
(1 < / |
^ Ъ), что |
М ь ’Ю — 1) = 0 (і = 1, 2, . . |
а), |
|||
Xj (к — (Xj, ф)) |
= 0 |
(/ = |
1, 2, . . |
b) |
И |
|
|
|
|
а |
|
|
Ь |
|
grad (ф, ф) = 2 |
grad ({х{, ф) — 1) + 2 h grad (к — (ж,-, ф)). |
І= 1 |
j = 1 |
Вычисляя градиент, имеем
аЬ
2т|) = 2 M i — 2 Mi-
i —1 |
; = i |
|
Полагая |
|
|
получаем |
|
b |
a |
|
|
ф = 2 |
ал — 2 |
|
i = |
l |
j ~ l |
|
а* > |
0, |
|
ß, > |
0; |
«iMplO — l] = o,
ß;- [к — (ж/ф)] = 0.
Теорема доказана.
Справедлива обратная теорема.
Теорема 14.6. Всякий вектор ф, удовлетворяющий (14.3) и допускающий разложение вида (14.11) по своим крайним векторам, совпадает с обобщенным портретом.
Д о к а з а т е л ь с т в о немедленно следует из об ратного утверждения теоремы 14.4 (Куна — Танкера) и единственности обобщенного портрета, если функции F (X) и / г (х) интерпретировать так же, как при доказатель стве предыдущей теоремы.
Замечание. В теореме 14.2 была доказана един ственность обобщенного портрета. Однако обобщенный портрет, вообще говоря, не единственным образом разла гается по своим крайним векторам- в виде (14.11).
302 ГЛ. XIV . ПОСТРОЕНИЕ РАЗДЕЛЯЮ Щ ЕЙ ГИПЕРПЛОСКОСТИ
§4. Двойственная задача
Вэтом параграфе будет рассмотрена частная задача квадратичного программирования, решение которой эк вивалентно построению обобщенного портрета.
Введем пространство параметров а, ß и рассмотрим в нем функцию
аЬ
w > ,ß ) = S |
ß ; - 4-О М О ’ |
i=l |
3—1 |
где вектор ф есть |
|
а |
Ь |
ф = 2 щщ — 2 ßj% - |
|
І= 1 |
3=1 |
Будем искать максимум этой функции в положитель |
|
ном квадранте а г > 0, ß^ > |
0. |
Для построения разделяющих гиперплоскостей су |
|
щественным оказывается то, |
что точка максимума а 0, ß0 |
функции W (а, ß) в положительном квадранте определяет |
обобщенный портрет для заданного параметра к, а значе ние максимума W (сс0, ß0) определяет расстояние между проекциями векторов первого и второго классов на нап равление обобщенного портрета.
Итак, рассмотрим точку максимума а, ß функции
W(а, ß) в положительном квадранте.
Необходимыми и достаточными условиями максимума
функции W (а, ß) в точке а? > 0, ß? > 0 являются ус ловия:
dW(a°, ß°) |
j |
0’ |
если af^>0, |
||
даі |
|
0, если а? = 0, |
|||
dW (я», ß?) |
_ j |
0, |
если |
ß? > |
0, |
ößj |
i<^ 0 , |
если |
ß ° = |
0 . |
Выпишем эти условия, обозначив
ф° = 2 « ? x t — S ß ?
§ 4. ДВОЙСТВЕННАЯ ЗАДАЧА |
305 |
Поэтому |
|
1 - к |
|
VW JpbTW |
|
Отсюда, учитывая, что |
|
W{a, ß ) < W ( a 0, ß0), |
|
получаем (14.14).
Это следствие используется для конструирования кри терия неделе_ния. В самом деле, будем считать, что два мно жества X и X не могут быть разделены с допустимым «за зором» с помощью обобщенного портрета ф (к), (к < 1),
если соответствующая величина П |
меньше заданной |
|
константы р |
0. |
|
Тогда существование такой точки а > 0 , ß>0, что |
||
|
W ( a , ß ) > - ^ ß - , |
(14.15) |
и будет означать, что множества неразделимы с заданным
зазором с помощью обобщенного портретаф (к). |
максимум |
||||
Итак, согласно теоремам |
14.7 и 14.8, |
||||
W (а, |
ß) в положительном квадранте определяет обобщен |
||||
ный |
портрет, |
а, согласно |
следствию, тот факт, что при |
||
W (а, |
ß) = В |
максимум |
еще |
не достигнут, |
означает, |
что множества |
неразделимы с |
зазором, большим, чем |
|||
1 —к |
|
|
|
|
|
V 2 B
Таким образом, проблема построения обобщенного портрета свелась к поиску максимума функции W (а, ß) в положительном квадранте или оценке снизу величины максимума этой функции.
Оказывается, что и другие методы построения разделяющей гиперплоскости в определенном смысле реализуют различные алгоритмы поиска максимума функции W (а, ß) в положительном квадранте. Это об стоятельство дает возможность сравнивать их между
собой: тот алгоритм построения разделяющей гипер |
|
плоскости эффективнее, в основе которого |
лежит бо |
лее эффективная процедура максимизации |
функции |
W(a, ß).
§ 5. АЛГОРИТМЫ ПЕРСЕПТРОННОГО ТИПА |
307 |
и
dF(zx.....zn) |
о > |
если z* = 0. |
|
dz1 |
|||
|
|
2. Применение модифицированного метода Гаусса— Зайделя для максимизации функции W (а, ß) в области
«г > 0, ßj ^ 0 приводит к следующему алгоритму по строения обобщенного портрета. Если на t-м шаге произ водится движение вдоль координаты а*, то
щ (t) = c£j (t — 1) + Ааi.
Аналогично в случае движения вдоль координаты ß^
ß/ (0 = ß/ (t — 1) + Aß;-
Значения остальных координат сохраняются. Приращения Ааг (Aßу), доставляющие максимум по
направлению шага, определяются из условий
= [і_ (ф(f_ 1),а:г)]- IXiI2Ащ = 0
І
( öA ßT |
1 ) ’ ®j) |
I Щ|2 A ßj — , |
где положено
а Ъ
— 1) = 2 аі(^ — і )жі — 2 — i)^i-
3=1
Учитывая, что шаг не должен выводить за пределы огра ничений, получаем
Даг = |
max |
1 — W>(г —1), |
, — Vi{t — 1)) . |
|
|
|
l*t l* |
|
|
Aßj = |
max |
(Ф(*-1), *j)- k |
, - ß H f - i ) ) • |
|
Іг;Іг |
||||
|
|
|
Процесс подъема продолжается до тех пор, пока не бу дет построен обобщенный портрет, либо не будет установ лено, что множества не могут быть разделены с помощью обобщенного портрета ф (А) с допустимым зазором (§ 4).
308 гл. XIV . ПОСТРОЕНИЕ РАЗДЕЛЯЮ Щ ЕЙ ГИПЕРПЛОСКОСТИ
В первом случае останов производится по условию
I 1 — (Хі, |
ф) | < |
е, если |
<хг |
|
0, |
1 — (Xi, |
ф) < |
е, если |
а г |
= |
0 |
Л {Я}, я)?) —к |< е, если ß/ > 0,\
\(xt, ф) — к < е, если ß;- = 0 ) ’
Во втором случае критерием останова служит выпол нение неравенства (14.15)
где р — допустимый зазор.
Алгоритм можно реализовать и в такой форме:
ф (t) = ф (t — 1) + ХіАосі при движении вдоль осг,
ф (t) = ф (t — 1) — г^Дß^ при движении вдоль ßj-.
3. С помощью метода Гаусса — Зайделя удается до стигнуть максимума W (а, ß) и тем самым построить обоб щенный портрет. Однако часто требуется найти просто разделяющую гиперплоскость (х , ф) = с (не обязательно экстремальную) такую, что
X Ф) > ,
(14.16)
(** ф к Ц ± .
Построение такой гиперплоскости обеспечит следую щая огрубленная модификация метода Гаусса — Зай деля:
1) движение вдоль каждой из координат а *(ßj) проис ходит только в сторону от ограничений тогда, когда
(Хі, ф) < |
1 +к |
|
2 |
(xh ф) > |
1 + к |
|
2 |
В случае выполнения этих условий значение вектора ф вычисляется по формулам
ф (0 = Ф (t —- 1) + ДаіХі
(ф (0 = ф (t — 1) — Aßj Xj ) ,