![](/user_photo/_userpic.png)
книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения
.pdfs 9. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД 71
Запишем теперь интеграл I в виде
ф |
|
|
Г(*) = с(9 § |
-L |
“ |
[ к + т р г ( * - *8)3 + (* - |
и)*(I +1)] 2 |
|
|
оо |
|
|
dz |
|
1 (х —хаУ |
Е Г $ |
*2) ' |
2 — оо (1 + |
||
V |
|
|
! + 1 аэ •+• (1 + 1)»
Заметим, что подынтегральное выражение не зависит от парамет
ров. Таким образом, оказывается, |
что |
|
|
с' (I) |
с" (Z, сэ) |
(—1 |
(3.24) |
І(х) |
|
||
1(х — х9)г 1 i-2i |
(х — хэ)2 |
|
|
LT+T+ (z+ D2J |
|
|
|
Нам остается нормировать к единице выражение (3.24):
1 (х)
Р(х)
(3.25)
j I (х) dx
Известно [57], что интеграл в знаменателе (3.25) равен следующему выражению:
Г |
? |
|
o"(l,ea)dx |
|
|
\ J { x ) d x = \ |
Г |
(* — ха? 1 |
г- i |
|
|
|
|
|
|||
|
|
L1+ ( ■ + « < |
2 |
|
|
|
|
|
|
||
|
|
|
с"(1,в9 ) Ѵ 1 + 1о8Г (4-) Г (4-1 |
||
|
|
|
|
г— 1 |
|
Обозначим |
|
|
|
|
|
Е(1) |
/1 + 1 г ^ М - у - 1) /я У і+ і г (4- і |
||||
|
г -1 ) |
г— 1 |
|||
|
Т [ |
^ |
) |
Г і ~ 2 |
“ |
Таким |
образом, |
окончательно |
находим |
|
|
|
Р(*) |
1 |
1 |
• |
|
|
£(0 + |
(Ж—Жэ)2 |
|||
|
|
|
|
1 |
2 |
(1 + 1)8
Г л а в а IV
Р Е К У Р Р Е Н Т Н Ы Е А Л Г О Р И Т М Ы О Б У Ч Е Н И Я Р А С П О З Н А В А Н И Ю О Б Р А З О В
§ 1. Метод стохастической аппроксимации
Метод стохастической аппроксимации применительно к задаче о минимизации среднего риска состоит в том, что для отыскания минимума по а функционала
R (а) = J Q (z, а) dP (z)
используется |
рекуррентная |
процедура |
|
||
а (і) = |
а (і — 1) — у (і)д (ztJTa (і — 1)). |
(4.1) |
|||
Теория этого метода устанавливает, когда (при каких |
|||||
Q (z, а), q (z, а), |
у (і)) рекуррентная процедура приводит |
||||
к успеху. Оказывается, итерационный процесс (4.1) |
при |
||||
водит к успеху (см. главу IX), если: |
по а |
||||
вектор-функция q (z, а) |
является градиентом |
||||
функции Q (z, |
а) |
при фиксированном z (или обобщенным |
|||
градиентом *) этой^функции); |
|
||||
последовательность |
положительных чисел у (1), . . . |
||||
. . ., ѵ*(0, • • • |
такова, |
что |
|
|
|
|
2 |
Т (*) = |
°°» |
2 т2(і) < ° ° |
|
|
І=1 |
|
|
і=1 |
|
*) Обобщенным градиентом функции F (х) называется векторфункция / (х), которая определяет некоторый вектор, совпадающий с градиентом функции F (х) в тех точках, где градиент существует, и которая специально определяется в тех точках, где градиент не существует. Обобщенный градиент может быть определен нетдля всех функций F (х). Точное определение см. в главе IX.
$ 1. МЕТОД СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ |
73 |
(примером такой последовательности может служить гар-
моническии ряд |
1 |
1 |
1 |
\ |
и |
, -г-, |
П |
I |
|
|
О |
Если при любом фиксированном z функция Q (z, а) одноэкстремальна по а, то с помощью процедуры (4.1) может быть достигнут минимум функционала R (а). Если же функция не одноэкстремальна, то можно га рантировать лишь достижение локального минимума (под робнее см. главу IX).
ф
1I I I I
I
а |
а* |
â |
|
Рис. 6. |
|
Попытка применить метод стохастической аппрокси мации непосредственно для решения задачи обучения распознаванию образов к успеху не приводит. Функция потерь этой задачи
Ф = (о) — F (х, а))2 |
(4.2) |
такова, что поиск нужного значения а этим методом не возможен. На рис. 6 приведена функция потерь при фик сированных значениях со и ж. Во всех точках прямой, кроме точки а = а*, градиент этой функции равен нулю, а в точке а = а* его не существует. Отыскание решения для такой функции потерь должно проходить согласно процедуре (4.1). В нашем случае вектор q (z, а) либо равен нулю, либо не определен. Таким образом, проце дура (4.1) оказывается невозможной.
§ 2. Детерминистская и стохастическая постановки задачи обучения распознаванию образов
Идея применения метода стохастической аппроксима ции для решения задачи обучения распознаванию обра зов связана с заменой функции потерь (4.2) другой функци ей, такой, чтобы по ней была возможна организация рѳ-
74 ГЛ. IV. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ
куррентной процедуры. Замена функции потерь, по суще ству, означает, что задача об обучении распознаванию образов подменяется некоторой другой задачей. В одних случаях такая подмена приемлема, а в других — непри емлема, так как дает результаты, значительно отличаю щиеся от оптимальных. Чтобы разделять эти случаи, принято различать два варианта постановки задачи обу чения распознаванию образов — детерминистскую поста новку и стохастическую *). В детерминистской постанов ке предполагается, что среди характеристических функ ций F (X, а) есть такая, которая идеально решает задачу классификации, т. е. существует такое а = а 0, что Р (а0) = 0- Стохастическая постановка предусма тривает случай, когда идеальное решение задачи не возможно.
Оказывается, что в первом случае удается построить такую функцию потерь, что, с одной стороны, минимум соответствующего функционала достигается на той же функции F (X, а 0), которая обеспечивает безошибочное разделение классов, а с другой стороны, для введенной функции потерь может быть организована рекуррентная процедура поиска.
В качестве примера вновь обратимся к классу решаю щих правил персептрона. Вспомним, что для перспептрона Розенблатта может быть выписан функционал, миними зация которого составляет суть задачи обучения. В коор динатах спрямляющего пространства функционал имеет вид
|
ТП |
Р ( Ь ) = |
ХіУ^ dP (<и, у). |
Предположим, что существует точное решение задачи распознавания, т. е. существует такое X = Х°, что Р (Х°) = 0, и, кроме того, для всех векторов у первого класса справедливо
(Ь°, у ) > б > О,
а для векторов второго класса
______________ |
(Ь°, У) < - в . |
*) Термины здесь выбраны неудачно, так как и в той и в другой постановке задача остается статистической. Однако эти термины широко распространены и поэтому будем их придерживаться.
I 2. ДЕТЕРМИНИСТСКАЯ ПОСТАНОВКА ЗАДАЧИ |
75 |
Построим новый функционал, например, со следующей функцией потерь:
f m m
|
12 |
h y j + |
* I + 2 |
hy* + Ö, |
если |
со = |
0, |
Ф (со, у, %) |
j'=i |
|
i= 1 |
|
|
|
|
m |
|
m |
|
|
|
|
|
. |
I 2 |
~ |
® I — 2 |
'^іУІ — |
если |
® = |
1. |
3=1 |
i=l |
|
|
|
|
(4.3)
График этой функции при фиксированных со и у при веден на рис. 7. Введенная функция потерь имеет простой смысл: для каждого X она
определяет величину по тери в зависимости от то го,[как расположен вектор у относительно разделяю щей гиперплоскости
Ш
2 hyj = о.
j=i |
|
|
Если с помощью разде |
Рис. 7. |
|
ляющей |
гиперплоскости |
|
вектор у |
классифицирует |
|
ся правильно, то штраф равен нулю, если, же классифи кация проводится неправильно, то величина штрафа на значается пропорционально расстоянию от этого век тора до разделяющей гиперплоскости. Например, если вектор должен быть отнесен к первому классу, а
т
2 Хіу1— б = с< о,
з'=і
то штраф численно равен 2 | с |; если же у должен быть отнесен ко второму классу, а
т
2 ^зУ^ + ö = с 0)
3=1
то величина штрафа численно равна 2с (сравним с
76 |
ГЛ. |
IV. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ |
функцией |
потерь персептрона, где при любой ошибке |
штраф равен единице).
Используя эту функцию потерь, можно подменить задачу о минимизации функционала Р (Я) задачей о ми нимизации другого функционала
Рі ( 4 = $ф (ю. У’ Ь)dp К »
на том основании, что точка минимума нового фукнционала доставляет минимум исходному функционалу.
Для функции потерь Ф (со, у, Я) может |
быть най |
|||||
ден обобщенный градиент |
и, следовательно, выписана |
|||||
рекуррентная |
процедура. |
Обобщенный |
градиент |
|||
равен |
|
|
|
|
|
|
|
О, |
если |
со == 1 и |
2 |
hVj > |
б> |
|
|
|
|
3=1 |
|
|
|
|
|
|
т |
|
|
II (со, у, Я) |
О, |
если |
со = 0 и |
2 |
^зУ3 |
—Ö, |
|
|
|
з=і |
|
|
|
|
|
|
|
т |
|
|
|
у, |
если •со'= 1 и 2 Я ^ < б , |
||||
|
|
|
|
3=1 |
|
|
|
|
|
|
га |
|
|
|
— у, |
если |
со = 0 и |
2 ЦУ} > —ö. |
||
|
|
|
|
3=1 |
|
|
Соответствующая рекуррентная процедура |
|
|||||
Я (і) = |
Я (£ — 1) + у |
(і)П (со*, уі, |
Я (і — 1)) |
означает, что если вектор у правильно классифицируется построенной к этому времени разделяющей гиперплос костью, то вектор коэффициентов Я (і — 1) не меняется. Если же совершается ошибка одного рода (вектор при надлежит первому классу, а относится правилом ко вто рому), то к вектору коэффициентов Я (г — 1) прибавляется вектор V (і) у{. Если же совершается ошибка другого рода
§ S. МЕТОД ЦИКЛИЧЕСКОГО ПОВТОРЕНИЯ |
85 |
ни одного исправления коэффициентов. Прекращение исправлений решающего правила как раз и будет озна чать, что обучающая последовательность разделена пра вильно. Но это-то и означает также, что реализуется метод минимизации эмпирического риска.
Таким образом, попытка уменьшить длину обучающей последовательности приводит к тому, что рекуррентную процедуру приходится заменять более сложной — рекур рентной процедурой с циклическим повторением обучаю щей последовательности, что приводит к методу миними зации эмпирического риска. Однако теперь приходится помнить всю обучающую последовательность. Это об стоятельство лишает рекуррентную процедуру ее основ ного удобства.
Наличие памяти у обучающегося устройства сущест венно меняет его возможности. Теперь в процессе обуче ния целесообразно различать два момента. Во-первых, сколько элементов обучающей последовательности доста точно хранить в памяти, чтобы, в конце концов, гаран тировать выбор нужного решающего правила. И, вовторых, сколько раз должна просматриваться обучающая последовательность, прежде чем будет выбрано решающее правило, безошибочно ее разделяющее.
Таким образом, при конструировании обучающихся машин с памятью приходится отвечать на два вопроса: какой должен быть информационный массив, достаточный для выбора нужного решения, и как долго этот массив будет обрабатываться.
У персептрона Розенблатта на каждом шаге вычисли тельной процедуры использовался один элемент обучаю щей последовательности, и поэтому здесь информационный массив равен количеству шагов, необходимых для выбора нужного правила. Оценка достаточной длины обучающей последовательности персептрона, по существу, устанавли вает и достаточное количество шагов для вычисления ре шающего правила.
Если же модифицировать персептрон Розенблатта, снабдив его памятью, а при обучении элементы обучаю щей последовательности циклически повторять до тех пор, пока не перестанут меняться коэффициенты К, то доста точный информационный массив такого персептрона, как будет показано в главе V, пропорционален величине
86ГЛ. ІУ. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ
т(т — размерность спрямляющего пространства), а чис ло шагов, необходимое для выбора нужного правила, про-
порционально величине 1 .
Важно, что при р 0 информационный массив (длина обучающей последовательности) не увеличивается, а уве личивается лишь объем вычислений. При наличии совре менных вычислительных средств увеличение объема вы числений не является принципиальной трудностью для решения задач обучения распознаванию образов, в то время как увеличение информационного массива сопря жено с трудностями отыскания новой информации.
§ 6. Метод потенциальных функций
В 60-х годах М. А. Айзерман, Э. М. Браверман, Л. И. Розоноэр предложили для решения задач обучения распознаванию образов использовать разработанный ими метод потенциальных функций [1]. Этот метод также реа лизует идею рекуррентной процедуры минимизации сред него риска. Применительно к задаче обучения распо знаванию образов суть метода заключается в следующем. На пространстве входных векторов х задается функция, которая называется «потенциалом». Потенциал определя ет близость двух точек, х, xQ, и обычно задается как функ ция расстояния между точками. Потенциальная функция, как правило, такова, что она монотонно уменьшается с увеличением расстояния. Примерами потенциальной функции могут служить
К (х, Хо) = I г2а > К (•*-> З'о) — е г а,
/т
2 (яо — х\)2—расстояние от точки х0 = (xj,...
і=1 |
. . ., xi); а — константа. |
..., Хо) до точки Xj = |
С помощью таких функций на пространстве X образует ся потенциальное поле. Считается, что вектор х относится к первому классу, если потенциал поля в точке х поло жителен; в противном случае вектор х относится ко вто рому классу. Процесс обучения, таким образом, заклю
i 6. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЯ |
87 |
чается в построении с помощью обучающей последова тельности потенциального поля.
Геометрическая интерпретация метода построения по тенциального поля очень наглядна (рис. 9). Пусть для обучения машине предъявляется обучающая последова тельность . . ., соі%і- При появлении первого элемен та обучающей последовательности хх «выпускается» по тенциал с центром в точке х±. Знак потенциала определя ется тем, к какому классу относится предъявленный
пример: если к первому, то знак у потенциала положи тельный, если ко второму, то отрицательный. Теперь на пространстве X задан некоторый потенциал. Для второго элемента обучающей последовательности может быть вы числена величина потенциала К (х2, хх). Если величина потенциала положительная, а элемент обучающей по следовательности относится к первому классу, то потен циальное поле на пространстве X не меняется; если же величина потенциала в точке х2 положительная, а вектор х2 должен быть отнесен ко второму классу, то из точки х2 «выпускается» новый потенциал, но с отрицательным знаком. Теперь на пространстве X действует новый сум марный потенциал
Ф (х) = К (ж, хх) — К (ж, х2).
Аналогично, если при классификации элемента обучающей последовательности с помощью суммарного
88 ГЛ. IV. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ
потенциала совершается ошибка, потенциал меняется так, чтобы по возможности выправить ошибку.
Таким образом, результатом обучения в методе по тенциальных функций является построение на простран стве X потенциального поля
ф (*) = 2І ' ( - 1 ) 1""1* (?.*»)
(здесь штрих у суммы означает, что суммирование про водится не по всем элементам обучающей последователь ности, а лишь по тем, на которых совершалась «ошибка»).
Это поле разбивает все пространство на две части: часть пространства X, где значение суммарного потен циала положительно (все точки в этой части пространства считаются принадлежащими первому классу), и части, где значения потенциала отрицательны (точки в этой части пространства считаются принадлежащими второму классу). Поверхность, на которой потенциал принимает нулевые значения, является разделяющей поверхностью.
Оказывается, что для всякого вида потенциала суще ствует система функций (х), . . . cpk (х), . . . (вообще говоря, бесконечная!) такая, что все возможные разделяю щие поверхности, которые могут быть получены с помощью метода потенциальных функций, могут быть получены с помощью персептрона Розенблатта, где соответствующее спрямляющее пространство задается преобразованиями Фі ( « ) , . . . , <рт (ж), . . .. С другой стороны, для каждого персептрона легко находится соответствующая потен циальная функция.
Таким образом, метод потенциальных функций близок к персептронным методам Розенблатта. Для метода по тенциальных функций возможны те же модификации, что и для персептрона Розенблатта.