Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
39
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

Г л а в а V

А Л Г О Р И Т М Ы , М И Н И М И З И Р У Ю Щ И Е Э М П И Р И Ч Е С К И Й Р И С К

§ 1. Метод минимизации эмпирического риска

Выше было установлено, что рекуррентные алгоритмы обучения распознаванию образов приводят к успеху, но при этом необходимо использовать достаточно большую обучающую последовательность. Длину последователь­ ности можно сократить, но тогда обучающееся устройство должно иметь память и помнить'всю обучающую последо­ вательность. Последовательность должна использоваться многократно до тех пор, пока коэффициенты разделяющей гиперплоскости не перестанут меняться, т. е. до тех пор, пока элементы обучающей последовательности не будут разделены гиперплоскостью безошибочно. Безошибочное разделение обучающей последовательности означает, что выбрано решающее правило, минимизирующее эмпири­ ческий риск.

Таким образом, оказалось, что попытка уменьшить достаточную для обучения длину последовательности при­ вела к минимизации эмпирического риска. Возникает вопрос, всегда ли в задаче обучения распознаванию обра­ зов метод минимизации эмпирического риска приводит к успеху?

Нет, это не так. Вот пример обучающегося устройства, которое минимизирует эмпирический риск, но не способ­ но обучаться. Устройство запоминает элементы обучаю­ щей последовательности, а каждую ситуацию, предъяв­ ленную для распознавания, сравнивает с примерами, хранящимися в памяти. Если предъявленная ситуация совпадает с одним из хранящихся в памяти! примеров, to она будет отнесена к тому классу, к которому относится

90 ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

пример. Если же в памяти устройства нет аналогичного примера, то ситуации классифицируются наудачу (на­ пример, с помощью бросания монеты). Понятно, что это устройство, вообще говоря, не может ничему научиться, так как в обучающую последовательность обычно входит лишь ничтожная доля ситуаций, которые могут возник­ нуть при контроле. А вместе с тем такое устройство клас­ сифицирует элементы обучающей последовательности безо­ шибочно.

Как же различить, когда метод минимизации эмпири­ ческого риска может быть успешно применен в задаче обучения распознаванию образов, а когда нет? Ответ на вопрос и составляет содержание теории алгоритмов обу­ чения распознаванию образов, минимизирующих эмпи­ рический риск.

§ 2. Равномерная сходимость частот появления событий к их вероятностям

Рассмотрим снова функционал, минимизация которого в нашей постановке составляет суть задачи обучения рас­ познаванию,

Р (а) = j(cü — F (х, а))2 dP (со, х).

Как уже указывалось, этот функционал для каждого решающего правила F (х, а) определяет вероятность ошибочной классификации. Эмпирическая оценка функ­ ционала, вычисленная на обучающей последовательности

I

Рэмп (а) = ѵ(а) = 4" S К — F (я, а))2

г—1

для каждого решающего правила F (х, а), определяет частоту неправильной классификации на обучающей по­ следовательности.

Согласно классическим теоремам теории вероятностей частота появления любого события сходится к вероятно­ сти этого события при неограниченном увеличении числа испытаний. Однако из этих теорем никак не следует, что решающее правило F (х, а*), которое имеет минималь­ ную частоту ошибок ѵ (а), будет иметь минимальную (среди этих же правил) или близкую к минимальной вероятность

§ 2. РАВНОМЕРНАЯ СХОДИМОСТЬ ЧАСТОТ К ВЕРОЯТНОСТЯМ 91

ошибки. Это утверждение является очень важным и по­ этому разберем его подробнее.

Предположим для наглядности, что решающие правила F (ж, а) задаются скаляром а, который может принимать значения от 0 до 1. Каждому значению а ставится в соот­ ветствие решающее правило, для котогого существует вероятность ошибки Р (а).

Таким образом, каждому

а может быть поставлено

всоответствие число Р(а). Рассмотрим функцию Р (а) (рис. 10). Наряду с этой функцией может быть по­

строена и функция V (а),

 

которая для

каждого

а

 

определяет

частоту оши­

 

бочной классификации

с

Рис. 10.

помощью правила F (ж, а),

 

вычисленную на

обучающей

последовательности.

Метод минимизации эмпирического риска предлагает

по минимуму функции V (а) судить о минимуме функции

Р (а). Для того чтобы по точке

минимума и минималь­

ному значению функции ѵ (а) можно было судить о точке минимума функции Р (а) и о ее минимальном значении, достаточно, чтобы кривая ѵ (а) находилась внутри е-трубки кривой Р (а). Напротив, выброс хотя бы в од­ ной точке (как на рис. 10) может привести к тому, что в качестве минимального значения Р (а) будет выбрана точка выброса. В этом случае минимум ѵ (а) никак не характеризует минимум функции Р (а). Если же функция V (а) приближает Р (а) равномерно по а с точностью е, то качество эмпирически оптимального решающего пра­ вила отличается от качества истинно оптимального пра­ вила не более чем на 2е.

Формально это означает, что нас интересуют не клас­

сические условия, когда

для л)Ы?ых а и

е

имеет место

Р {I ѵ (а) — Р (а) I > е) -> 0,

/W. И

 

1-*оо

 

л aKf

a более сильные условия, когда для любого е справедливо

Р {sup| V (а)

Р (а) I )> е}

0.

(5.1)

а

І-ѵоо

92ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

Вслучае, когда выполняется (5.1), говорят, что имеет место равномерная сходимость частот к вероятностям по классу S событий А (а). Каждое событие А (а) в классе S задается решающим правилом F (х , а) как множество векторов X, которое это правило ошибочно классифи­ цирует.

Таким образом, эффективность решения задачи обуче­ ния распознаванию образов методом минимизации эмпи­ рического риска оказалась связанной с существованием равномерной сходимости частот к вероятностям по классу

событий S.

§3. Теорема Гливенко

Вклассической математике уже однажды решалась задача о равномерной сходимости. В 30-х годах замеча­ тельный советский математик В. И. Гливенко доказал теорему, согласно которой с ростом объема выборки эм­

пирическая кривая распределения сходится к функции

распределения

равномерно.

 

 

 

Теорема Гливенко может быть сформулирована еще и

так: на

прямой х задана система решающих правил

F (х, а).

Правило F (х, а) относит точку х к первому

классу,

если х ^ а,

и

относит ко второму,

если х

а.

В соответствие

этому

правилу

может быть

поставлено

событие

А (а),

которое

состоит

в том, что точка

х

отнесена к первому классу. Теорема утверждает, что ча­ стоты сходятся к вероятностям равномерно по всем собы­ тиям А (а) €= S1.

Однако с помощью этой теоремы можно обосновывать правомочность замены среднего риска эмпирическим лишь при поиске решений среди самых примитивных решаю­ щих правил, таких, которые позволяют классифицировать только одномерные векторы по принципу: вектор х отно­

сится к первому классу,

если х

а*,

и ко второму,

если X > а*.

 

 

 

ми­

Чтобы гарантировать успех в применении метода

нимизации эмпирического

риска в классе

линейных

ре­

шающих правил, надо установить равномерную сходи­ мость частот к вероятностям для более сложного класса событий S m. Подобно тому как класс событий S1 в теореме Гливенко задавался всеми возможными полупрямыми,

§ 4. ЧАСТНЫЙ СЛУЧАЙ

93

класс событий S m определяется всеми возможными полу­ пространствами m-мерного векторного пространства х. Здесь, аналогично одномерному случаю, каждое событие задается неравенством

m

2 h& < К- i=l

В этом смысле теорема, доказывающая равномерную сходимость частот к вероятностям по классу событий S m, явилась бы прямым обобщением теоремы Гливенко на многомерный случай. Для обоснования же применения метода минимизации эмпирического риска в задаче обучения распознаванию образов (не только для случая линейных решающих правил!) надо найти условия, при которых можно гарантировать равномерную сходимость частот к вероятностям для различных классов событий.

§ 4. Частный случаи

Рассмотрим простой случай: множество S конечно и состоит из N событий А г, . . ., А и. Для каждого фикси­ рованного события справедлив закон больших чисел (ча­ стота сходится к вероятности при неограниченном увели­ чении числа испытаний). Одним из выражений этого за­ кона является оценка

Р (| ѵ( Л) ~ Р ( А ) I

(5.2)

Нас, однако, интересует случай равномерной сходи­ мости, т. е. вероятность одновременного выполнения всех неравенств | ѵ (A t) — Р {A t) | <; е (t = 1, 2, . . ., N).

Такая вероятность может быть оценена, коль скоро оце­ нена вероятность выполнения отдельно каждого неравен­ ства (5.2), а именно

Р {sup

I V {Ад - Р {Ад I > 8} <

 

1

N

 

 

< % Р { \ ѵ { А д - Р

( Лі )|> в } .

 

і=»1

 

Учитывая (5.2), получим

 

 

Р {sup I V (4,) - Р {Ад I > е} <

(5.3)

і

94

ГЛ. V. МИНИМИЗАЦИЯ*ЭМПИРИЧЕСКОГО РИСКА

Неравенство (5.3) означает, что имеет место равномер­ ная сходимость

Р {sup \ ѵ { А і) - Р { А і) | > е } — >0.

І

Потребуем теперь, чтобы вероятность

Р (sup I V ( A t ) Р ( A t) I > е }

І

не превосходила величины т), т. е.

Р {sup I V ( Ai ) Р ( A i ) I > 8} < Т).

(5.4)

Неравенство (5.4) во всяком случае будет иметь место, если величины N, е, т], I связаны соотношением

N e -2t“ = т].

(5.5)

Разрешая равенство (5.5) относительно е, найдем для данных N, I, т] оценку максимального уклонения частоты от вероятности в рассматриваемом классе событий:

_

, /

ln N — ln т|

Е -

V

21

Разрешая равенство (5.5) относительно I, найдем, какова должна быть длина обучающей последовательности, чтобы с вероятностью, не меньшей 1 — т], можно было утвер­ ждать, что минимум вероятности по классу событий S отличается от минимума частоты по этому же классу событий на величину, не превосходящую е:

7 In ІѴ— ln. rj 2ea

Иначе говоря, выше была доказана следующая теорема.

Теорема 5.1. Если из множества, состоящего из N ре­ шающих правил, выбирается решающее правило, частота ошибок которого на обучающей последовательности рав­ на V, то с вероятностью 1 — г) можно утверждать, что вероятность ошибочной классификации с помощью вы­ бранного правила составит величину, меньшую ѵ + е, если длина обучающей последовательности не меньше

7 _

lnW — ln Г)

(5.6)

1 ~

2еа

 

§ 4.

ЧАСТНЫЙ СЛУЧАЙ

95

В теореме важно,

что достаточная длина

обучающей

последовательности лишь логарифмически зависит от числа событий в классе N.

Число решающих правил является весьма гру­ бой характеристикой разнообразия класса решающих правил (такая характеристика, например, никак не учи­ тывает, состоит ли класс из одних и тех же или «близких» элементов или же он состоит из существенно «различных» функций). Однако качественные выводы, которые можно

сделать

из этой

оценки,

довольно

хорошо отра­

жают существо

дела — чем меньше

емкость класса, тем

меньшей может

быть длина

обучающей

последователь­

ности.

Наоборот,

чем универсальнее обучающееся ус­

тройство, тем большая информация

необходима ему для

обучения.

 

 

 

 

 

Используя формулу (5.6), можно получать достаточные оценки длин обучающих последовательностей для различ­ ных алгоритмов, реализующих метод минимизации эм­ пирического риска. Так может быть получена оценка длины обучающей последовательности для персептрона с памятью (метод обучения с циклическим повторением обучающей последовательности). Для этого достаточно оценить число N различных решающих правил персеп­ трона. Для бинарного спрямляющего пространства число

различных векторов не превосходит 2т . Существует 22"*

способов разделения векторов

на

два класса.

Однако персептрон делит множество

векторов не всеми

способами, а только с помощью линейных

дискриминант­

ных функций.

 

 

Число различных способов разделений с помощью линейных дискриминантных функций N значительно мень­

ше чем 22"1-

 

2т2, и тогда, соглас­

Ниже будет показано, что N <

но теореме, оценка достаточной

длины обучающей по­

следовательности будет

равна

 

j

т2 — In г)

1 ~

т. е. обучающая последовательность пропорциональна тг (сразу же заметим, что эта оценка завышена; ниже будет показано, что справедлива оценка I ~ т).

96

ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

§ 5. Оценка числа различных линейных разделений векторов

Итак, оценим количество способов, которыми с по­ мощью гиперплоскостиіможно^разделить на два класса I векторов % , . . . , ж, в пространстве размерности т.

Заметим, что

в соответствие каждому вектору

X — (ж1, . . ., ж” )

пространства X может быть поставлена

гиперплоскость

m

 

 

 

 

2

М 1= о,

 

 

 

і=і

 

 

проходящая

через

нуль

в

пространстве Л векторов

X = (А-л,

. . ., Хт) и

наоборот,

каждому вектору X в прос­

транстве

X

может быть поставлена в соответствие гипер­

плоскость,

проходящая

через начало координат,

ТП

2 М = о.

і=і

Таким образом, I векторам х1, . . ., хі в пространстве Л ставится в соответствие I гиперплоскостей (рис. 11). Наше утверждение состоит в том, что число различ­ ных разделений векторов равно числу компонент, на которые эти I гиперплоскостей разбивают m-мерное про­ странство Л.

§ 5. ОЦЕНКА ЧИСЛА ЛИНЕЙНЫХ РАЗДЕЛЕНИЙ

97

В самом деле, поставим в соответствие каждой гипер­ плоскости в пространстве X вектор К пространства А, равный направляющему вектору гиперплоскости. При этом непрерывному вращению разделяющей гиперплос­ кости в X, не изменяющему разделение точек хг, . . х,, соответствует в А непрерывная траектория движения точки X внутри одной из компонент пространства.

Оценим теперь, на какое число компонент могут раз- . бить то-мерное пространство I гиперплоскостей, проходя- ' щих через начало координат. Обозначим через Ф (т, I)

максимальное число компонент, на которое I гипер­ плоскостей делят пространство размерности т, и определим рекуррентную процедуру поиска числа ком­ понент.

Очевидно, что в одномерном случае справедливо

Ф (1, I) = 2.

Одна гиперплоскость делит пространство размерно­ сти т на две части, т. е. справедливо

Ф (т, 1) = 2.

Пусть известно, что I — 1 гиперплоскость Tlt . . ., Гг_г делит нг-мерное пространство не более чем на Ф (т, I — 1) компонент. Добавим новую гиперплоскость Гг. Если эта гиперплоскость проходит через одну из «старых» компо­ нент, то она дробит ее надвое. В противном случае старая компонента сохраняется. Таким образом, при проведении

гиперплоскости Гг число компонент

увеличится на столь­

ко, сколько

компонент окажется

разделено

надвое.

В свою очередь

каждая такая компонента К і

оставляет

на Г*следА{

f)

Гг. Число таких следов в точности равно

числу компонент, на которое гиперплоскости Гь . . ., Г;_! дробят новую гиперплоскость Г;. Поскольку размерность Г; равна т — 1, число следов не превосходит Ф — 1,

I - 1).

Таким образом, мы получим следующее рекуррентное

уравнение:

 

 

Ф (т, I) — Ф (т, I — 1) +

Ф 1,1 — 1),

 

Ф (т, 1) =

2,

(5.7)

Ф (1, I) =

2.

 

4 В. Н. В апник, А. Я. Ч ервоненкис

9? ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

Решением уравнения (5.7) является выражение

m—1

 

 

2 2 С?—1»

если

т ^.1,

Ф (т, I) — І=0

если

т^>1.

2г,

Нам, однако, удобнее будет пользоваться не этой формулой, а ее оценкой сверху (см. главу X)

,771-1

ф К г) < 3 (7^гТ )Г’

или даже более грубой оценкой

Ф (т, I) < Г .

Число различных бинарных векторов не превосходит и, следовательно, справедлива еще более грубая оцен­ ка числа различных разделяющих гиперплоскостей:

N < Ф (т, 2т) < 2т\

Эта-то оценка используется для получения оценки длины обучающей последовательности.

Подставляя оценку N в (5.6), получаем

7 _

тг In г)

 

1

т. е. длина обучающей последовательности должна быть пропорциональна т2‘.

Как уже отмечалось, число различных решающих правил является слишком грубой характеристикой клас­ са. Уже простейшие классы решающих правил содержат бесконечное число элементов. Например, если только в персептроне спрямляющее пространство не бинарное, то число различных гиперплоскостей, разделяющих точки этого пространства, бесконечно. Для такого класса ре­ шающих правил проблема возможности замены миними­ зации среднего риска минимизацией его эмпирической оценки оставалась открытой и, как уже отмечалось, сво­ дилась к исследованию обобщенной теоремы Гливенко.

Соседние файлы в папке книги из ГПНТБ