Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
39
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

s 9. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ, БАЙЕСОВ МЕТОД 71

Запишем теперь интеграл I в виде

ф

 

 

Г(*) = с(9 §

-L

[ к + т р г ( * - *8)3 + (* -

и)*(I +1)] 2

 

 

оо

 

 

dz

1 (х —хаУ

Е Г $

*2) '

2 — оо (1 +

V

 

 

! + 1 аэ •+• (1 + 1)»

Заметим, что подынтегральное выражение не зависит от парамет­

ров. Таким образом, оказывается,

что

 

 

с' (I)

с" (Z, сэ)

(—1

(3.24)

І(х)

 

1(х — х9)г 1 i-2i

(х — хэ)2

 

LT+T+ (z+ D2J

 

 

 

Нам остается нормировать к единице выражение (3.24):

1 (х)

Р(х)

(3.25)

j I (х) dx

Известно [57], что интеграл в знаменателе (3.25) равен следующему выражению:

Г

?

 

o"(l,ea)dx

 

 

\ J { x ) d x = \

Г

(* — ха? 1

г- i

 

 

 

 

 

 

L1+ ( ■ + « <

2

 

 

 

 

 

 

 

 

с"(1,в9 ) Ѵ 1 + 1о8Г (4-) Г (4-1

 

 

 

 

г— 1

 

Обозначим

 

 

 

 

Е(1)

/1 + 1 г ^ М - у - 1) /я У і+ і г (4- і

 

г -1 )

г— 1

 

Т [

^

)

Г і ~ 2

Таким

образом,

окончательно

находим

 

 

Р(*)

1

1

 

£(0 +

(Ж—Жэ)2

 

 

 

 

1

2

(1 + 1)8

Г л а в а IV

Р Е К У Р Р Е Н Т Н Ы Е А Л Г О Р И Т М Ы О Б У Ч Е Н И Я Р А С П О З Н А В А Н И Ю О Б Р А З О В

§ 1. Метод стохастической аппроксимации

Метод стохастической аппроксимации применительно к задаче о минимизации среднего риска состоит в том, что для отыскания минимума по а функционала

R (а) = J Q (z, а) dP (z)

используется

рекуррентная

процедура

 

а (і) =

а (і — 1) — у (і)д (ztJTa (і — 1)).

(4.1)

Теория этого метода устанавливает, когда (при каких

Q (z, а), q (z, а),

у (і)) рекуррентная процедура приводит

к успеху. Оказывается, итерационный процесс (4.1)

при­

водит к успеху (см. главу IX), если:

по а

вектор-функция q (z, а)

является градиентом

функции Q (z,

а)

при фиксированном z (или обобщенным

градиентом *) этой^функции);

 

последовательность

положительных чисел у (1), . . .

. . ., ѵ*(0, • • •

такова,

что

 

 

 

2

Т (*) =

°°»

2 т2(і) < ° °

 

 

І=1

 

 

і=1

 

*) Обобщенным градиентом функции F (х) называется векторфункция / (х), которая определяет некоторый вектор, совпадающий с градиентом функции F (х) в тех точках, где градиент существует, и которая специально определяется в тех точках, где градиент не существует. Обобщенный градиент может быть определен нетдля всех функций F (х). Точное определение см. в главе IX.

$ 1. МЕТОД СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ

73

(примером такой последовательности может служить гар-

моническии ряд

1

1

1

\

и

, -г-,

П

I

 

О

Если при любом фиксированном z функция Q (z, а) одноэкстремальна по а, то с помощью процедуры (4.1) может быть достигнут минимум функционала R (а). Если же функция не одноэкстремальна, то можно га­ рантировать лишь достижение локального минимума (под­ робнее см. главу IX).

ф

1I I I I

I

а

а*

â

 

Рис. 6.

 

Попытка применить метод стохастической аппрокси­ мации непосредственно для решения задачи обучения распознаванию образов к успеху не приводит. Функция потерь этой задачи

Ф = (о) — F (х, а))2

(4.2)

такова, что поиск нужного значения а этим методом не­ возможен. На рис. 6 приведена функция потерь при фик­ сированных значениях со и ж. Во всех точках прямой, кроме точки а = а*, градиент этой функции равен нулю, а в точке а = а* его не существует. Отыскание решения для такой функции потерь должно проходить согласно процедуре (4.1). В нашем случае вектор q (z, а) либо равен нулю, либо не определен. Таким образом, проце­ дура (4.1) оказывается невозможной.

§ 2. Детерминистская и стохастическая постановки задачи обучения распознаванию образов

Идея применения метода стохастической аппроксима­ ции для решения задачи обучения распознаванию обра­ зов связана с заменой функции потерь (4.2) другой функци­ ей, такой, чтобы по ней была возможна организация рѳ-

74 ГЛ. IV. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ

куррентной процедуры. Замена функции потерь, по суще­ ству, означает, что задача об обучении распознаванию образов подменяется некоторой другой задачей. В одних случаях такая подмена приемлема, а в других — непри­ емлема, так как дает результаты, значительно отличаю­ щиеся от оптимальных. Чтобы разделять эти случаи, принято различать два варианта постановки задачи обу­ чения распознаванию образов — детерминистскую поста­ новку и стохастическую *). В детерминистской постанов­ ке предполагается, что среди характеристических функ­ ций F (X, а) есть такая, которая идеально решает задачу классификации, т. е. существует такое а = а 0, что Р (а0) = 0- Стохастическая постановка предусма­ тривает случай, когда идеальное решение задачи не­ возможно.

Оказывается, что в первом случае удается построить такую функцию потерь, что, с одной стороны, минимум соответствующего функционала достигается на той же функции F (X, а 0), которая обеспечивает безошибочное разделение классов, а с другой стороны, для введенной функции потерь может быть организована рекуррентная процедура поиска.

В качестве примера вновь обратимся к классу решаю­ щих правил персептрона. Вспомним, что для перспептрона Розенблатта может быть выписан функционал, миними­ зация которого составляет суть задачи обучения. В коор­ динатах спрямляющего пространства функционал имеет вид

 

ТП

Р ( Ь ) =

ХіУ^ dP (<и, у).

Предположим, что существует точное решение задачи распознавания, т. е. существует такое X = Х°, что Р (Х°) = 0, и, кроме того, для всех векторов у первого класса справедливо

(Ь°, у ) > б > О,

а для векторов второго класса

______________

(Ь°, У) < - в .

*) Термины здесь выбраны неудачно, так как и в той и в другой постановке задача остается статистической. Однако эти термины широко распространены и поэтому будем их придерживаться.

I 2. ДЕТЕРМИНИСТСКАЯ ПОСТАНОВКА ЗАДАЧИ

75

Построим новый функционал, например, со следующей функцией потерь:

f m m

 

12

h y j +

* I + 2

hy* + Ö,

если

со =

0,

Ф (со, у, %)

j'=i

 

i= 1

 

 

 

 

m

 

m

 

 

 

 

.

I 2

~

® I — 2

'^іУІ

если

® =

1.

3=1

i=l

 

 

 

 

(4.3)

График этой функции при фиксированных со и у при­ веден на рис. 7. Введенная функция потерь имеет простой смысл: для каждого X она

определяет величину по­ тери в зависимости от то­ го,[как расположен вектор у относительно разделяю­ щей гиперплоскости

Ш

2 hyj = о.

j=i

 

 

Если с помощью разде­

Рис. 7.

ляющей

гиперплоскости

вектор у

классифицирует­

 

ся правильно, то штраф равен нулю, если, же классифи­ кация проводится неправильно, то величина штрафа на­ значается пропорционально расстоянию от этого век­ тора до разделяющей гиперплоскости. Например, если вектор должен быть отнесен к первому классу, а

т

2 Хіу1— б = с< о,

з'=і

то штраф численно равен 2 | с |; если же у должен быть отнесен ко второму классу, а

т

2 ^зУ^ + ö = с 0)

3=1

то величина штрафа численно равна 2с (сравним с

76

ГЛ.

IV. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ

функцией

потерь персептрона, где при любой ошибке

штраф равен единице).

Используя эту функцию потерь, можно подменить задачу о минимизации функционала Р (Я) задачей о ми­ нимизации другого функционала

Рі ( 4 = $ф (ю. У’ Ь)dp К »

на том основании, что точка минимума нового фукнционала доставляет минимум исходному функционалу.

Для функции потерь Ф (со, у, Я) может

быть най­

ден обобщенный градиент

и, следовательно, выписана

рекуррентная

процедура.

Обобщенный

градиент

равен

 

 

 

 

 

 

 

О,

если

со == 1 и

2

hVj >

б>

 

 

 

 

3=1

 

 

 

 

 

 

т

 

 

II (со, у, Я)

О,

если

со = 0 и

2

^зУ3

—Ö,

 

 

 

з=і

 

 

 

 

 

 

т

 

 

 

у,

если •со'= 1 и 2 Я ^ < б ,

 

 

 

 

3=1

 

 

 

 

 

 

га

 

 

 

у,

если

со = 0 и

2 ЦУ} > —ö.

 

 

 

 

3=1

 

 

Соответствующая рекуррентная процедура

 

Я (і) =

Я (£ — 1) + у

(і)П (со*, уі,

Я (і — 1))

означает, что если вектор у правильно классифицируется построенной к этому времени разделяющей гиперплос­ костью, то вектор коэффициентов Я — 1) не меняется. Если же совершается ошибка одного рода (вектор при­ надлежит первому классу, а относится правилом ко вто­ рому), то к вектору коэффициентов Я (г — 1) прибавляется вектор V (і) у{. Если же совершается ошибка другого рода

§ S. МЕТОД ЦИКЛИЧЕСКОГО ПОВТОРЕНИЯ

85

ни одного исправления коэффициентов. Прекращение исправлений решающего правила как раз и будет озна­ чать, что обучающая последовательность разделена пра­ вильно. Но это-то и означает также, что реализуется метод минимизации эмпирического риска.

Таким образом, попытка уменьшить длину обучающей последовательности приводит к тому, что рекуррентную процедуру приходится заменять более сложной — рекур­ рентной процедурой с циклическим повторением обучаю­ щей последовательности, что приводит к методу миними­ зации эмпирического риска. Однако теперь приходится помнить всю обучающую последовательность. Это об­ стоятельство лишает рекуррентную процедуру ее основ­ ного удобства.

Наличие памяти у обучающегося устройства сущест­ венно меняет его возможности. Теперь в процессе обуче­ ния целесообразно различать два момента. Во-первых, сколько элементов обучающей последовательности доста­ точно хранить в памяти, чтобы, в конце концов, гаран­ тировать выбор нужного решающего правила. И, вовторых, сколько раз должна просматриваться обучающая последовательность, прежде чем будет выбрано решающее правило, безошибочно ее разделяющее.

Таким образом, при конструировании обучающихся машин с памятью приходится отвечать на два вопроса: какой должен быть информационный массив, достаточный для выбора нужного решения, и как долго этот массив будет обрабатываться.

У персептрона Розенблатта на каждом шаге вычисли­ тельной процедуры использовался один элемент обучаю­ щей последовательности, и поэтому здесь информационный массив равен количеству шагов, необходимых для выбора нужного правила. Оценка достаточной длины обучающей последовательности персептрона, по существу, устанавли­ вает и достаточное количество шагов для вычисления ре­ шающего правила.

Если же модифицировать персептрон Розенблатта, снабдив его памятью, а при обучении элементы обучаю­ щей последовательности циклически повторять до тех пор, пока не перестанут меняться коэффициенты К, то доста­ точный информационный массив такого персептрона, как будет показано в главе V, пропорционален величине

86ГЛ. ІУ. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ

т— размерность спрямляющего пространства), а чис­ ло шагов, необходимое для выбора нужного правила, про-

порционально величине 1 .

Важно, что при р 0 информационный массив (длина обучающей последовательности) не увеличивается, а уве­ личивается лишь объем вычислений. При наличии совре­ менных вычислительных средств увеличение объема вы­ числений не является принципиальной трудностью для решения задач обучения распознаванию образов, в то время как увеличение информационного массива сопря­ жено с трудностями отыскания новой информации.

§ 6. Метод потенциальных функций

В 60-х годах М. А. Айзерман, Э. М. Браверман, Л. И. Розоноэр предложили для решения задач обучения распознаванию образов использовать разработанный ими метод потенциальных функций [1]. Этот метод также реа­ лизует идею рекуррентной процедуры минимизации сред­ него риска. Применительно к задаче обучения распо­ знаванию образов суть метода заключается в следующем. На пространстве входных векторов х задается функция, которая называется «потенциалом». Потенциал определя­ ет близость двух точек, х, xQ, и обычно задается как функ­ ция расстояния между точками. Потенциальная функция, как правило, такова, что она монотонно уменьшается с увеличением расстояния. Примерами потенциальной функции могут служить

К (х, Хо) = I г2а > К (•*-> З'о) — е г а,

/т

2 (яо х\)2—расстояние от точки х0 = (xj,...

і=1

. . ., xi); а — константа.

..., Хо) до точки Xj =

С помощью таких функций на пространстве X образует­ ся потенциальное поле. Считается, что вектор х относится к первому классу, если потенциал поля в точке х поло­ жителен; в противном случае вектор х относится ко вто­ рому классу. Процесс обучения, таким образом, заклю­

i 6. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЯ

87

чается в построении с помощью обучающей последова­ тельности потенциального поля.

Геометрическая интерпретация метода построения по­ тенциального поля очень наглядна (рис. 9). Пусть для обучения машине предъявляется обучающая последова­ тельность . . ., соі%і- При появлении первого элемен­ та обучающей последовательности хх «выпускается» по­ тенциал с центром в точке х±. Знак потенциала определя­ ется тем, к какому классу относится предъявленный

пример: если к первому, то знак у потенциала положи­ тельный, если ко второму, то отрицательный. Теперь на пространстве X задан некоторый потенциал. Для второго элемента обучающей последовательности может быть вы­ числена величина потенциала К (х2, хх). Если величина потенциала положительная, а элемент обучающей по­ следовательности относится к первому классу, то потен­ циальное поле на пространстве X не меняется; если же величина потенциала в точке х2 положительная, а вектор х2 должен быть отнесен ко второму классу, то из точки х2 «выпускается» новый потенциал, но с отрицательным знаком. Теперь на пространстве X действует новый сум­ марный потенциал

Ф (х) = К (ж, хх) К (ж, х2).

Аналогично, если при классификации элемента обучающей последовательности с помощью суммарного

88 ГЛ. IV. РЕКУРРЕНТНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ

потенциала совершается ошибка, потенциал меняется так, чтобы по возможности выправить ошибку.

Таким образом, результатом обучения в методе по­ тенциальных функций является построение на простран­ стве X потенциального поля

ф (*) = 2І ' ( - 1 ) 1""1* (?.*»)

(здесь штрих у суммы означает, что суммирование про­ водится не по всем элементам обучающей последователь­ ности, а лишь по тем, на которых совершалась «ошибка»).

Это поле разбивает все пространство на две части: часть пространства X, где значение суммарного потен­ циала положительно (все точки в этой части пространства считаются принадлежащими первому классу), и части, где значения потенциала отрицательны (точки в этой части пространства считаются принадлежащими второму классу). Поверхность, на которой потенциал принимает нулевые значения, является разделяющей поверхностью.

Оказывается, что для всякого вида потенциала суще­ ствует система функций (х), . . . cpk (х), . . . (вообще говоря, бесконечная!) такая, что все возможные разделяю­ щие поверхности, которые могут быть получены с помощью метода потенциальных функций, могут быть получены с помощью персептрона Розенблатта, где соответствующее спрямляющее пространство задается преобразованиями Фі ( « ) , . . . , <рт (ж), . . .. С другой стороны, для каждого персептрона легко находится соответствующая потен­ циальная функция.

Таким образом, метод потенциальных функций близок к персептронным методам Розенблатта. Для метода по­ тенциальных функций возможны те же модификации, что и для персептрона Розенблатта.

Соседние файлы в папке книги из ГПНТБ