
книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения
.pdf§ 5. АЛГОРИТМЫ ПЕРСЕПТРОННОГО ТИПА |
309 |
где шаг по-прежнему выбирается из условия максимизации функции W (а, ß) по направлению
Дсц = |
1 — (*{. Ф (г)) |
|
Ң12 |
|
Ф(0) — к _ |
2) процесс подъема по функции W (а, ß) прекращает ся, когда будут выполнены все неравенства (14.16). Легко видеть, что при к = —1 полученный алгоритм совпадает с алгоритмом построения разделяющей гиперплоскости, предложенным Уидроу (см. главу IV).
Нетрудно убедиться, что после каждого изменения вектора ф функция W (а, ß) возрастает на величину
1
AW > 8 D1 ’
D = max (I xt |, | х}\).
Поэтому, учитывая, что, согласно (14.14),
max W (а, ß) = ~ ^ ,
а , (3
где р — расстояние между проекциями классов на на правление обобщенного портретаф (к), получаем, что мак симальное число исправлений в алгоритме Уидроу ог раничено величиной
|
г ^ |
max W (а, ß) |
4Z>- |
|
|
______ __ |
|
||
|
|
min AW |
p2 |
|
(Здесь принято, что a (0) = ß (0) = |
0.) Оценка аналогич |
|||
на оценке числа исправлений для персептрона (глава I, |
||||
теорема |
Новикова). |
|
|
Гаусса — |
4. |
Еще более грубая модификация метода |
|||
Зайделя приводит к алгоритму построения разделяющей |
||||
гиперплоскости, использованному |
в персептроне. |
Этот |
||
алгоритм получается сразу из рассмотренного в преды |
||||
дущем пункте, если положить к = |
—1 и Да*’= Aßj = 1. |
§ 6. |
ГРАДИЕНТНЫЕ МЕТОДЫ |
311 |
где g (к + 1) и g (к) |
— соответственно градиенты функции |
F (X) в точках х (к) и х (к — 1), а z (к) — направление дви жения из точки X (к — 1).
Движение по направлению z (к + 1) ведется до до стижения условного максимума. Точка х (к + 1), достав ляющая этот максимум, находится (16.26) из выражения
x(k + l) = x{k) + -(T(F I f g + 21}(f +1}) g(fe + 1). (14.18)-
Формулы (14.17) и (14.18) задают, таким образом, алго ритм поиска максимума квадратичной функции F (х). Как уже указывалось, этот метод гарантирует отыскание максимума за п шагов.
Для вычисления максимума функции F (х) в поло жительном квадранте можно использовать модификации метода сопряженных градиентов. Модификации направ лены на то, чтобы ограничить область поиска максимума положительным квадрантом. При этом число шагов, необходимых для достижения максимума, может быть большим п, однако оно остается конечным.
Рассмотрим следующую модификацию метода сопря
женных градиентов: |
|
х1 |
|
|||
1) |
Поиск максимума функции F (х) в области |
> |
||||
0, |
. . ., |
хп > |
0 начинается с точки х (0) = (я1 (0) |
|||
0, |
. . ., |
хп (0) |
0). При этом движение в соответствии |
|||
с формулами (14.17) |
и (14.18) происходит лишь до |
тех |
||||
пор, |
пока точка х (к) |
находится внутри области х1^ |
0. |
Если траектория движения не выводит за ограничения, то не более чем за п шагов максимум будет найден.
2) Если же на некотором шаге к оказывается, что точ ка, в которой достигается условный максимум по направ лению, лежит за пределами ограничений, то величина ша га должна быть сокращена. Нетрудно убедиться, что при этом максимально допустимая величина шага определяет ся формулой
h = min |
Xх (к) |
хп (к) |
(14.19) |
|
І*Ч* + 1)І ’ |
" І*п(* + і)І |
|||
І |
|
где минимум берется лишь по тем координатам і, для ко торых z' < 0. При этом для всех і оказывается
Хі (к + 1) 0,
312 ГЛ. XIV . ПОСТРОЕНИЕ РАЗДЕЛЯЮ Щ ЕЙ ГИПЕРПЛОСКОСТИ
но по крайней мере для одной координаты хі окажется, что х’ = 0, т. е. движение происходит до выхода на ограни чение.
Итак, в этом случае
X (к + 1) = X (к) + hz (к + 1).
3) Если на некотором шаге к траектория выводит на ограничение, т. е. величину шага приходится уменьшать
по формуле (14.19), то некоторые координаты хіг, . . ., х1т обратятся в нуль. Дальнейший поиск максимума ве дется в положительном квадранте координатного под пространства En-m размерности п — т, задаваемого уравнениями
хіі = 0, . . ., х т = 0.
Для этого действуем снова в соответствии с пи. 1) и 2), но уже в подпространстве Еп.-т. При этом либо условный максимум функции в этом подпространстве будет найден не более чем за п — т шагов, либо при поиске еще раз будут нарушены ограничения. В последнем случае вновь сокращается размерность пространства и ищется услов ный максимум функции в положительном квадранте но вого подпространства.
4) Так продолжается до тех пор, пока в положительном квадранте некоторого координатного подпространства хг, . . хп не будет найден условный максимум функции. Пусть он достигается в точке £. Если при этом выполня ются условия:
dF (х) ^ с, |
если |
X1 |
0, |
|
дхі |
|
|
|
|
dF (X) |
е, |
если |
х{ = |
0 (і = 1, ..., п), |
|
д х 1
то в действительности точка ж доставляет условный мак симум функции и в положительном квадранте исходного пространства Еп. В противном случае точка х берется за начальную и поиск максимума продолжается по той же схеме, начиная с п. 1).
Легко убедиться в том, что при подобной модификации метода сопряженных градиентов максимум функции F (х)
§ |
6. ГРАДИЕНТНЫЕ |
МЕТОДЫ |
313 |
будет найден за |
конечное число |
шагов. |
В самом деле, |
в силу алгоритма каждый раз за конечное число шагов бу дет достигаться условный максимум на соответствующем подпространстве Еп^т, причем каждый раз условный максимум будет достигаться на разных координатных под пространствах. Конечность числа шагов следует из того, что число различных координатных подпространств ко нечно.
Рассмотрим еще одну модификацию метода сопряжен
ных градиентов. |
|
функцию |
(х): |
|
|
|||
Определим следующую |
|
|
||||||
|
dF (х) |
если |
хк =f=0 |
или ------- |
|
О, |
||
|
дхк |
|
||||||
V {х) = |
|
|
|
дхк |
|
|
||
0, |
если |
к n |
и |
dF (х) |
____ |
|||
|
||||||||
|
хк = О |
■— т-і ^ |
0. |
дхк
Вектор g (х) есть условный градиент функции F (х) на множестве x t )> 0 (см. формулу (П. 8) приложения). Будем теперь совершать восхождение к максимуму, ис пользуя (14.17), (14.18), (14.19), где g (х) заменено на условный градиент g (х). Движение начинается из про извольной точки положительного квадранта и происхо дит до момента нарушения ограничения в точке х 0. Тогда снова начинается восхождение по методу сопряженных градиентов из точки х 0 и т. д. Поиск максимума закан чивается, когда выполнятся неравенства
I gi (х) I < е.
Важной особенностью модифицированного метода по иска максимума функции F (х) в положительном квад ранте является то обстоятельство, что он допускает по следовательную процедуру поиска. Пусть пространство Еп имеет координаты х1, . . ., ж*, хі+1, . . ., хп. Можно сначала найти условный максимум функции при огра ничениях X1 > 0, . . ., X1> 0 и хі+1 = 0, . . ., хп = 0.
Затем, используя найденную точку максимума как на чальную точку, найти максимум F (х) в области х1 0, ...
. . ., хп > 0.
Применим вторую модификацию метода сопряженных градиентов к задаче нахождения обобщенного портрета.
314 ГЛ. X IV . ПОСТРОЕНИЕ РАЗДЕЛЯЮ Щ ЕЙ ГИПЕРПЛОСКОСТИ
Максимизируемая функция W (а, ß) имеет вид
W{a, ß )= S |
ai - Ä S ß j - - T |
S ßj *i | • |
i — 1 |
j — 1 |
i = l |
Квадратичная часть этой функции есть
а |
b |
|
2 |
|
|
|
Q(a, ß) = |
2 a&i — 2 |
h xi |
|
||||
|
|
|
|
|
|
i=i |
j=i |
|
|
|
Обозначим |
составляющие условного |
градиента через |
|
|||||||
|
г dW_ |
= |
1 — te. Ф). |
если |
аг> 0 |
или (1 — (Xi, ф) > |
О, |
|||
Öi = |
даг |
|||||||||
|
о |
|
в противном случае, |
|
||||||
|
|
|
|
|
||||||
ß; = |
( dW |
= (% |
|
если |
ßj > 0 или (Sj, ф) — к > |
О, |
||||
Ѣ |
|
0 |
|
|
в противном случае, |
|
||||
|
|
|
|
|
|
|||||
|
|
|
|
|
о |
Ь |
|
|
|
|
где положено ф = |
2 аіхі — 2 ßi^r Обозначим составляю- |
|||||||||
щиѳ вектора z |
(t), |
І= 1 |
3=1 |
направление движения |
на |
|||||
t-м шаге, |
|
|
|
задающего |
||||||
через |
ссг, ßj. |
|
|
|
|
При вычислении величины шага по формуле (14.18) необходимо вычислять величину (z (t), Az (У)), т. e. значе ние квадратичной функции F (х) при подстановке в нее вектора г. В нашем случае
а |
|
|
|
|
(z, Az) = 2 |
аіхі |
2 |
Ря |
іф р |
і=і |
|
3=1 |
|
|
где обозначено |
2 äjXi |
|
|
|
ф = |
- |
SМу- |
|
Таким образом, заменяя формулы (14.17), (14.18) и (14.19) в соответствии с введенными обозначениями, при ходим к следующему алгоритму.
Находится условный градиент в точке а (У), ß (У):
аі (£ + 1) = |
|
если а (У)> 0 или 1 — (зГіф (У)) > О, |
Г 1 — (ж{ф (У)), |
||
( |
0 |
в противном случае, |
|
|
|
§ 6. |
ГРАДИЕНТНЫЕ |
МЕТОДЫ |
315 |
||||||
$j ( t + 1)= |
|
|
|
|
|
|
|
|
|
|
О, |
|
_ |
l(xj>Ф (t)) — к, если ß; (t) > 0 или (ж/ф (t)) —к > |
|||||||||||
~ |
{ |
0 |
|
|
в противном |
случае. |
|
|||||
Определяется направление |
движения: |
|
||||||||||
|
<хг (t |
+ |
1) = |
âi |
(t |
+ |
1) |
+ |
б (t |
+ |
1) ät (t), |
|
где |
ßj (t |
+ |
1) = |
h |
(t |
+ |
1) |
+ |
6 (t |
+ |
1) fr, (t), |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
*?(* + !)+ |
2 |
ßy^+ '1) |
|
||||
|
H t + |
l ) = = 4 r ------ |
|
y=1 |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
2 |
i?w + |
2 |
ß?(f) |
|
|||
Далее вычисляется |
|
i=x |
|
|
J=1 |
|
|
|
||||
|
|
|
|
|
b |
|
|
|
||||
|
|
|
o |
|
|
|
|
|
|
|
||
^(* + |
i) |
= 2 |
|
|
+ |
|
|
2 |
ßj(< + i) ^ . |
|
||
|
|
|
j=i |
|
|
|
|
j=i |
|
|
|
Новое значение а* и ß; находится по формулам
at (t + 1) = at (t) + &t (t + 1) h (t + 1),
ßi (* + 1) = ß^ (t) + ßj (t + 1) h (t + 1).
Здесь h (t + 1) — величина шага, определяемая из усло вия достижения максимума по направлению или выхода на ограничение:
h (t + |
1) = min (Го (t + |
1), Ti (t + |
1), Tj (t + 1)), |
|||||
где |
|
i,] |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
2 «f (* + i)+ 2 |
ß| c*+ 1 ) |
|
|||
To (*•+ 1) = |
i=l |
|
|
|
|
|||
|
|
|
№(* + 1). *(* + !)) |
|
|
|||
|
|
|
“i (0 |
если |
äi(t + |
i) < 0 , |
||
Ti(« + |
1) = |
a^t + i) |
||||||
|
|
|
|
|||||
+ |
oo, |
если |
â i(t -f- 1) > |
0, |
||||
|
|
|||||||
|
|
|
В. It) |
|
ßj {t + |
1) < |
0, |
|
|
|
- ^r-1------, если |
||||||
Ti(* + |
1) = |
РД* + 1) |
|
; |
^ |
|
||
+ |
оо, |
если |
ß;-(f + |
1 )> 0 . |
||||
|
|
316 гл. XIV . ПОСТРОЕНИЕ РАЗДЕЛЯЮ Щ ЕЙ ГИПЕРПЛОСКОСТИ
Наконец,
ф (t + 1) = ф (t) + ф (t + 1) h (t + 1).
Первый шаг (t = 0) отличается от общего лишь тем, что значения ссг (1), ß7- (1) задаются следующим образоом
ä; (1) = ±і (1),
ßl (1) = ßj (1).
Критерий останова: | â* j <; е и | ßy | < e или
W(a, ß ) > Д.
Вглаве XV будет подробно рассмотрена структура ал горитма построения обобщенного портрета на основе ме тода сопряженных градиентов в первой модификации.
§7. Теория оптимальной разделяющей гиперплоскости
Напомним, что оптимальной разделяющей гиперпло скостью была названа плоскость
где Фопт — единичныя вектор, доставляющий максимум функции
П (ер) = Сі (ф ) — |
с2 (ф ) = min (х, |
фопт) — max (Я, ф ), |
|
|
х |
|
X |
І-О П Т |
г 1 (Фопт) |
' |
(Фопт) |
----- |
9 |
• |
Рассмотрим теперь минимальный по модулю вектор ф (доставляющий минимум функции (ф, ф)), удовлетворяю щий неравенствам
(ян Ф) > 1 + с,
(14.20)
(®і, Ф) < —1 + с.
Параметр с считается допустимым, если неравенства (14.20) совместны. Нетрудно убедиться, что если множества X и I разделимы гиперплоскостью, то множество допу стимых с не пусто. Будем искать минимум функции (ф, ф)
318 ГЛ. XXV. ХІОСТРОЕНИЕ р а з д е л я ю щ е й г и п е р п л о с к о с т и
получаем для любого вектора ф, удовлетворяющего (14.20),
> |
2 |
(14.23) |
|
І [ (Фопт) |
|||
|
‘ |
В силу единственности оптимальной разделяющей гиперплоскости (теорема 14.1) неравенства (14.21) и (14.22) переходят в равенство для векторов, удовлетворяющих (14.20), только при
Ф
|
7 7 7 |
— Фот, |
(14.24) |
|
Сі _Ф_ |
g+* |
r ( j t . |
||
с — 1 |
||||
ІФІ |
|
|
||
ж ’ |
2 l m |
ж • |
Только при этих условиях, очевидно, достигается равен ство и в (14.23).
Разрешая эти равенства относительно і|)ис, получаем что минимум (ф, ф) при ограничениях (14.20) достигается только в точке
_____ ^Фопт_____
Фо =
|
(Фонт) |
(Фонт) |
|
(Фонт) ~Ь |
(Фопт) |
|
Сі (Фопт) Сі (Фопт) |
|
Теорема доказана. |
|
|
Таким |
образом, вектор тр0, доставляющий максимум |
|
(ір, ф) при |
ограничениях (14.20), |
всегда коллинеареп <г0пт |
и оптимальная разделяющая гиперплоскость может быть задана в виде
< * , « =
§ 8. Двойственная задача
Точно так же как при нахождении обобщенного порт рета, здесь оказывается удобным перейти к двойственной задаче. Воспользуемся условиями Куна — Таккера. Согласно теореме 14.4, для того чтобы величина (ф, ф), рассматриваемая как функция ф и с, достигала минимума при ограничениях (14.20) в точке ф0, с0, необходимо и до статочно, чтобы