
книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения
.pdf322 гл . XIV. ПОСТРОЕНИЕ РАЗДЕЛЯЮЩЕЙ ГИПЕРПЛОСКОСТИ
§ 9. Методы вычисления оптимальной разделяющей гиперплоскости
Вычислять оптимальную разделяющую гиперплоскость на ЦВМ не многим сложнее, чем находить обобщенный портрет.
Для этого достаточно в градиентных методах макси мизации функции W (а, ß) заменить условный градиент функции W (а, ß) в положительном квадранте на условный градиент функции при ограничениях
« і > 0, ßj > 0 (і = 1, 2, |
а) (J = 1,2, . . ., Ъ), |
аЬ
2 |
«і = 2 ßi |
i=l |
3=1 |
и в качестве начальной точки выбрать точку, удовлетво ряющую (14.27). В соответствии с теоремой П. 4, дока занной в приложении, условный градиент функции W (а, ß) на многообразии, задаваемом условиями (14.27), однозначно определяется формулой
|
1 — (Xi, ф) + |
d, если 1 — (xh ф)4- |
|
Ѵусл W (а, ß) = |
|
+ d 0, oCj 0, |
|
|
0 |
|
в противном случае, |
|
1 + (Xj, ф) — d, |
(14 ЗЦ |
|
|
если 1 +(Xj, ф) — v |
||
V U |
W (а, ß) = |
|
- d > 0,ß, > 0 , |
|
0 |
|
в противном случае |
при |
условии |
|
|
2ѴуСЛW - 2Ѵусл w = 0 .
Теперь остается подобрать величину d так, чтобы это
условие выполнялось. Будем рассматривать VyCn, ѴуСЛ в (14.31) как функции d и обозначим
L(d) = ЗѴуол (d) - 2ѴуСП(d)*
Очевидно, что для нахождения условного градиента до статочно найти корень уравнения
L (d) = 0,
324 ГЛ. XIV . ПОСТРОЕНИЕ РАЗДЕЛЯЮ Щ ЕЙ ГИПЕРПЛОСКОСТИ
§ 10. Построение оптимальной разделяющей гиперплоскости модифицированным методом Гаусса — Зайделя
Рассмотрим еще один метод построения оптимальной разделяющей гиперплоскости. Идея метода основана на том, что оптимальная разделяющая гиперплоскость орто гональна отрезку, соединяющему ближайшие точки вы пуклых оболочек X и X, и проходит через его середину. Точка X* принадлежит выпуклой оболочке векторов
хѵ . . ., ха, если
X = 2осг:гг, 2 а г = 1, а г |
0. |
Аналогично точка х* принадлежит выпуклой оболочке векторов % , . . . , хь, если
X* = |
2 ß j — 1, ßj > 0. |
Поэтому, для того чтобы найти оптимальную разделяю щую гиперплоскость, достаточно найти минимум квадра тичной формы (ф, ф), где
ф = hctiXi — 2 ßjXj,
в области
2 а г = 1, а г > 0,
(14.32)
2 ß , = 1, ß , > 0 .
Вектор ф, доставляющий минимум, будет направляющим вектором оптимальной гиперплоскости.
В вычислительном плане эта задача никак не проще той, которая рассмотрена в предыдущем параграфе. Здесь ограничения задаются двумя условиями типа ра венства, тогда как там входило лишь одно такое условие.
Рассмотрим модифицированный метод Гаусса — Зайделя для поиска максимума (ф, ф)' в области (14.32). Модификация метода Гаусса — Зайделя направлена на то, чтобы при движении вдоль выбранной координаты, во-первых, не выйти за пределы положительного квад ранта, а во-вторых, все время оставаться на многообра
зии |
2 а г = 1 (или |
2ß; = |
1). |
|
Итак, |
пусть в |
t-й момент времени точка а (t — 1), |
||
ß (t |
— 1) |
удовлетворяет |
условию (14.32) и совершается |
§ іо. ПОСТРОЕНИЕ МЕТОДОМ ГАУССА — ЗАЙДЕЛЯ |
325 |
шаг вдоль координаты а,. Тогда величина шага Аа, модифицированного метода Гаусса — Зайделя опреде ляется из условия
max |
\х* {t — 1) (1 — Аа,) + Аа,ж,— х* (t — 1)|2, (14.33) |
||||
0 < Д а ,< 1 |
‘ |
|
|
|
|
где |
|
а |
|
Ь |
|
|
|
|
|
||
X* (t — 1) = |
2 <*i (t — 1) XU |
X* (t — 1) = 2 ßj (г — 1) Щ- |
|||
|
|
i=l |
|
j=1 |
|
Минимум величины (14.33) |
находится при шаге |
|
|||
|
О, |
еС ЛИ |
(X*(t — 1 ) |
— X*{t— 1 ) , X* ( t— 1 ) — |
X,)sCC О, |
|
1, |
если |
(ж (t_i) _ |
ж («—1 ), ж(г—1) — ж,) |
> 1 , |
Да, = |
-----;---------------;---------------- |
||||
|
|
(ж (t—1) — Ж(, X (t—1) — Ж() |
|
(ж*(г—1)—Ж*(І—1), X (f—1)—Ж()
в остальных случаях.
(ж (І—1) — Xt, X (г—1) — ж,;
Таким образом, рекуррентная процедура поиска оп тимальной разделяющей гиперплоскости задается так:
X* (t) = X* (t — 1) (1 — Да,) + ж,Да,. (14.34)
Аналогично находится значение х* (() в случае движе ния по ßt:
X* (t) = X* (t) (1 — Aßj) -f ж,Aß,,
где |
если |
(X* (t — 1) — X*(t — 1), xt — X* (t — 1)) ^ 0, |
’ 0, |
||
. |
если |
(ж, — ж (t — 1), X (f — 1) — ж (£ -— 1)) . . |
1, |
Ц — -— -------------------- —> 1 , |
(ж, — ж (£ — 1), ж, — ж (t — 1))
Aß, =
(ж, — Ж* (f — 1), X* (t — 1) — ж* (t — 1)) в остальных
(Ж, — Ж (i — 1), Ж, — Ж (f — 1))
случаях.
(14.35)
Зная X* и X*, нетрудно построить оптимальную разде ляющую гиперплоскость. Она задается парой
ф = X* — X*, с — (х , X ) — (ж , ж )
326 гл. X IV . ПОСТРОЕНИЕ РАЗДЕЛЯЮ Щ ЕЙ ГИПЕРПЛОСКОСТИ
Рекуррентная процедура (14.34), по существу, есть алгоритм Б. Н. Козинца для построения оптимальной разделяющей гиперплоскости.
Замечательная особенность этого алгоритма — пре дельная простота реализации. Однако существуют за дачи (особенно при большой размерности вектора х), для которых скорость сходимости алгоритма оказывается мед ленной (вспомним, что скорость поиска максимума в этом алгоритме определяет метод Гаусса — Зайделя). Именно для таких задач и строят значительно более сложные ал горитмы, в которых для увеличения скорости сходимости используются более эффективные методы поиска максиму ма квадратичной формы.
§11. Применение метода обобщенного портрета для нахождения оптимальной разделяющей гиперплоскости
Задача нахождения обобщенного портрета при задан ном к несколько проще, чем задача нахождения оптималь ной разделяющей гиперплоскости. В частности, при ре шении двойственной задачи в случае поиска обобщенного портрета отсутствует ограничение вида S aj = S ß;-.
Существует два способа применить метод обобщенного портрета для отыскания оптимальной разделяющей ги перплоскости.
Первый способ основан на последовательном построе нии обобщенных портретов при разных к и подборе к, близкого к к 0(теорема 14.3).
При подборе к можно исходить непосредственно из критерия
и искать максимум по к одним из известных способов по
иска экстремума функции одной переменной. |
Можно так |
|
же подбирать к из условия Sa* = |
Sß*, где a,j |
0 и ß;- |
;> О — коэффициенты разложения |
обобщенного портре |
та по крайним векторам. При выполнении этого условия, как нетрудно убедиться, обобщенный портрет ф (к) коллинеарен ф 0Пт*
328 ГЛ. XIV. ПОСТРОЕНИЕ РАЗДЕЛЯЮЩЕЙ ГИПЕРПЛОСКОСТИ
При е = 0 процесс за конечное число итераций приво
дит к нахождению обобщенного портрета класса |
Y = |
= {уц}, а следовательно, и оптимальной разделяющей |
по |
верхности.
При реализации этой процедуры удобно на каждой итерации при образовании класса У;+1 из Y t удалять все векторы у, входящие с нулевым весом в разложение обобщенного портрета ф(.
§ 12. Некоторые статистические особенности метода обобщенного портрета
Вглаве VI были получены оценки качества алгоритмов, строящих разделяющие гиперплоскости методом миними зации эмпирического риска.
Вчастности, было показано, что для детерминист ского случая математическое ожидание вероятности оши бочной классификации с помощью решающего правила,
построенного по выборке длины I, не может быть меньше
R ~ c ~ r ’
где с — константа, п — емкость класса.
Были получены и верхние оценки качества. Верхние оценки были двух типов — зависящие от размерности про странства (эти оценки следует из общей теории равномер ной сходимости) и оценки, зависящие от относительного расстояния (эти оценки следуют из обобщенной теоремы Новикова 6.2).
В этом параграфе будут исследованы оценки качества алгоритмов, реализующих метод обобщенного портрета. Будет показано, что для этих алгоритмов справедливы одновременно оценки обоих типов (тем самым выполняет ся лучшая из них). При этом существенно то, что верхняя
оценка, |
зависящая от размерности, значительно ближе к |
„ |
п |
нижнеи с — , чем оценки для произвольных алгоритмов,
строящих разделяющую гиперплоскость на основе ми нимума эмпирического риска. Тем самым будут показа ны особые статистические свойства метода обобщенного портрета,