Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
39
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

§ 1. О КРИТЕРИЯХ ОЦЕНКИ КАЧЕСТВА АЛГОРИТМОВ Ц 9

мы определили выше как

Jf?(a) = \ (со — F (х, а * ) ) 2 dP (х , со).

Но поскольку выбор решающего правила зависит от слу­

чайно составленной обучающей последовательности соь ...

ссгсог, величина Р (а) будет

случайной, зависящей от той

или иной реализации обучаю­

щей

последовательности.

Случайная величина наибо­

лее полно характеризуется сво­

ей

функцией

распределения.

В нашем случае

качество алго­

ритма, решающего фиксирован­ ную задачу на выборках длины I, будет определяться функцией распределения качества р(Р(а)).

Сравнивать качество двух алгоритмов — значит сравни­

вать две функции распределения. Если одна из функций расположена не ниже другой (так, как на рис. 13), то выбор может быть сделан однозначно. При таком распо­

 

ложении

кривых

для любых

 

двух точек с равными ордина­

 

тами абсцисса точки первой кри­

 

вой лежит левее абсциссы точ­

 

ки второй кривой. Это значит,

 

что для любого уровня надеж­

 

ности первый алгоритм гаран­

 

тирует

достижение

меньшего

 

значения функционала и пото­

 

му лучше второго.

Однако воз­

 

можны

и

такие расположения

Рис. 14.

функций распределения качест­

 

ва

двух

 

алгоритмов,

как на

 

рис.

14.

 

 

 

 

Вэтом случае для одного уровня надежности (р —

1 —т1г) оказывается предпочтительнее первый алгоритм,

адля другого = 1 — %) предпочтение должно быть

отдано второму. Таким образом, сравнивать между собой функции распределения качества алгоритмов, решающих некоторую задачу Р (х , о) на выборках длины I, можно

120 ГЛ. VI. МЕТОД УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

только при фиксированном уровне надежности. Это соз­ дает некоторые неудобства, поэтому будем иногда харак­ теризовать качество алгоритма не функцией распределе­ ния р, (а)), а математическим ожиданием качества

Я = J -Р (а) dp (а))-

Теперь для решения предложенной задачи на выборках длины I будем считать тот алгоритм лучшим, для которого соответствующая величина математического ожидания меньше.

Обозначим через А алгоритм обучения, а через Т кон­ кретную задачу; тогда качество алгоритма А, решающего задачу обучения распознавания образов Т на выборках длины I, можно записать как функцию двух переменных

Ri(A, Т).

Итак, определено, как должно измеряться качество R i ( A , Т ) для любой фиксированной задачи Т . Далее сле­ дует договориться, как измерять качество алгоритма, предназначенного для решения класса задач { Т } .

Разрешению этой трудности посвящена теория стати­ стических решений. В этой теории для сравнения различ­ ных алгоритмов предлагаются следующие три критерия:

а) критерий Байеса, б) критерий минимакса,

в) критерий минимакса потерь.

Критерий Байеса предлагает вычислять для каждого алгоритма среднее по множеству всех задач качество. Для этого надо знать закон, который указывал бы, с какой вероятностью придется решать ту или иную зада­ чу, т. е. знать функцию распределения Р (Т). Тогда критерий Байеса определяется так:

^Байеса (А) = $ R i ( А , Т ) dP ( Т ) .

Критерий минимакса наиболее осторожен. Он пред­ лагает оценивать качество алгоритма как качество ре­ шения наиболее неблагоприятной для данного алгоритма задачи. При таком критерии, напротив, совершенно не принимается во внимание, какова вероятность того, что на практике придется решать эту неблагоприятную за­ дачу. Поэтому может оказаться так, что качество алго­ ритма определяет задача, которая на практике никогда

§ 2. МИНИМАКСНЫЙ КРИТЕРИЙ

121

не встретится. Иначе говоря, этот критерий конструирует­ ся так:

#мм (4) = max R[ {А, Т).

т

Критерий минимакса потеръ предполагает минимиза­ цию наибольшей величины потери качества, ко­ торая возникает из-за применения данного алгоритма для решения разных задач по сравнению с применением опти­ мального для каждой из задач алгоритма. Иначе говоря, критерий минимакса потерь конструируется по правилу:

#м.п (-4) = max (R, {А , Т ) — min R, (А, Т)).

т

А

Эта глава посвящена сравнению различных алгорит­ мов обучения распознаванию образов. В ней будут рас­ смотрены оптимальные с точки зрения различных крите­ риев алгоритмы, установлена близость алгоритмов, ми­ нимизирующих эмпирический риск, к оптимальным с точки зрения минимаксного критерия и критерия минимакса потерь. Однако алгоритмы, оптимальные по этим двум критериям, не столь интересны, как алгоритмы, оптими­ зирующие критерий Байеса. Построение же оптимальных по критерию Байеса алгоритмов — задача, практически неосуществимая из-за чрезвычайно громоздких вычис­ лений. Поэтому представляют интерес квазибайесовы про­ цедуры, которые сохраняют ценные свойства байесовых процедур, но не столь громоздки. В этой главе будут рас­ смотрены алгоритмы упорядоченной минимизации риска, которые реализуют такие процедуры.

Рассмотрение оптимальных алгоритмов начнем с ис­ следования алгоритмов, оптимальных по минимаксному критерию.

§ 2. Минимаксный критерий

Как было указано выше, в этом случае алгоритмы срав­ ниваются по тому, как они решают наихудшую для себя задачу. Используя этот критерий для выбора оптимально­ го алгоритма, мы будем сействовать наиболее осторожно. Следует отметить, что применение этого критерия бессмыс­ ленно в случае, когда на круг решаемых задач заранее не наложено ограничений. Дело в том, что всегда

122 ГЛ. VI. МЕТОД УП ОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

существуют задачи, которым не может обучиться никакой алгоритм (например, если Р (со | ж), независимо от х, равно 0,5 при о) = 1 и при со = 0), и именно эти задачи и будут наиболее неблагоприятными для всякого алгоритма обу­ чения, а потому все алгоритмы будут оценены одинаково. Если же круг задач заранее ограничен, минимаксный критерий может представлять интерес.

Пусть, например, заранее известно, что все задачи та­ ковы, что для каждой из них в классе S существует без­ ошибочное разделяющее правило (детерминистский слу­ чай). Тогда, как установлено в предыдущей главе, для лю­ бой задачи алгоритм А, основанный на минимизации эм­ пирического риска, с вероятностью, превышающей 1 — т), построит по обучающей последовательности длины I решающее правило с качеством не хуже

 

 

п

1 1 1 21

\ Ни­

 

 

 

е = 2

 

I

 

 

 

 

 

 

где

п — показатель функции

роста класса S.. Полагая

т] =

i ß

и переходя к математическому ожиданию,

полу­

чим,

что

 

 

 

 

 

min R t (А, Т) <

2 _"(1п 21-1-п " + Л + - 1 + ^ .

 

 

 

А

 

1

 

для любой задачи Т рассматриваемого типа.

 

Следовательно,

 

 

 

min max Rt (А, Т) <

2 ге(> 2г~ Іп” + ^) + 1 +1я2*

_

 

А

Т

 

1

 

С другой стороны, как показано в приложении, сущест­ вует и оценка снизу:

min max Д, (Л, Т) ;>

ат

[

/

1

,

если Z < n,

 

0,5 ^1— —j_—j

I

 

_ 1 Г т )г^

0’2т т г ’

еслиг> и-

Таким образом, в этом случае любой алгоритм, осно ванный на минимизации эмпирического риска, довольно близок к минимаксному. Кроме того, при конечном п

I 3. КРИТЕРИЙ МИНИМАКСА ПОТЕРЬ

12â

минимакс стремится к нулю при I -> оо, но тем медленнее, чем больше п.

Отметим, что непосредственное конструирование оп­ тимального с точки зрения минимаксного критерия алго­ ритма обучения для заданного круга задач,—вообще гово­ ря, проблема чрезвычайно сложная и, вероятно, не­ благодарная.

§ 3. Критерий минимакса потерь

Рассмотренный в предыдущем параграфе критерий тре­ бует предварительного явного выделения определенного круга задач. Это не всегда удобно. Чаще ситуация такова, что задан определенный класс решающих правил S и рассчитывают на задачи, для которых в этом классе есть «достаточно хорошие» разделяющие правила. Критерий минимакса потерь позволяет не определять явно, что зна­ чит «достаточно хорошие» правила.

Идея этого критерия состоит в следующем. Для задан­ ного набора алгоритмов Q потери л определяются как раз­ ность между качеством данного алгоритма А для данной задачи и качеством наилучшего для этой задачи алгорит­ ма из набора Q:

n(A,T) = R t (А, Т) - min Rt {А, Т).

А<=Q

В дальнейшем будем считать, что Q состоит из всевозмож­ ных алгоритмов обучения, выбирающих решающие пра­ вила из класса S. Тогда, как нетрудно убедиться,

я (И, Т) = R t (А, Т) — min Р (ос, Т),

a e S

где Р (a, Т) — качество решающего правила F (х, а) для задачи Т, и следовательно,

min Р (a, Т) аes

—- это качество наилучшего для данной задачи решающе­ го правила из класса S.

Таким образом, потери оценивают степень «недоучен­ ное™», тогда как min/*(a, Т) — это тот процент ошибок,

a e s

который неизбежен даже при идеальной обученности.

124 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

Максимум потерь определяется как потери на наибо­ лее неблагоприятной с этой точки зрения задаче. Заме­ тим, что в случае минимаксного критерия задача счи­ тается «плохой», если выбранный алгоритм дает большое число ошибок на экзамене независимо от того, сущест­ вует ли вообще в данном наборе алгоритм, который хо­ рошо решает задачу. В случае же минимакса потерь за­ дача считается «плохой», если выбранный алгоритм работает плохо, но существует другой алгоритм из данного набора, который эту конкретную задачу решает хорошо.

Результаты предыдущей главы могут быть применены для оценки сверху величины минимакса потерь алгорит­ мов, минимизирующих эмпирический риск. В соответ­ ствии с оценкой (5.11) для любой задачи распознавания алгоритм А, основанный на минимизации эмпирического риска, с вероятностью 1 — ц выберет решающее правило, отличающееся от оптимального в классе S не более чем на

_

0 -| f

re (Іа 2/ — ln re -(- 1) ■ ln г|/5

г -

z у

Г=1

Положив т( = у, перейдем к математическому ожиданию;

получим, учитывая, что Р (а) < 1 ,

я (Л, ТX 2 У ^ I - ^ J L + Л + ,1а Ы

Следовательно,

min max я (А, Г) < 2 У п (In 21 — ln re -f- 1) -f- ln 5/

АТ I

Сдругой стороны, можно установить оценку снизу (см. приложение)

min max я (А, Т) > <

0,5е п ,

если

I

n,

0,25+

если

n

I <( 21,

А Т

 

 

 

 

. P - f c 1

- ® ' f ( l » ,

если I 2n,

 

і з. Кр и т е р и й м и н и м а к с а п о т е р ь

125

для алгоритмов А , выбирающих разделяющее правило из класса S, и любых задач распознавания.

Таким образом, алгоритмы, минимизирующие эмпи­ рический риск, оказываются довольно близкими к опти­ мальным по критерию минимакса потерь. Очевидно, что минимакс потерь при конечном п стремится к нулю при I -> оо. Если же функция роста ms (I) = 2г, то максималь­ ные потери вообще не убывают с ростом I, оставаясь рав­ ным 0,5, т. е. обучение не происходит.

Как было показано в главе V, величина п, входящая как в верхнюю, так и в нижнюю оценку минимакса по­ терь, является мерой объема класса S. Таким образом, минимакс потерь тем больше, чем шире класс решающих правил, из которого осуществляется выбор. Это несколь­ ко парадоксальное заключение легко понять, если учесть, что мы фактически рассматриваем только такие задачи,

для которых в

классе S есть решающее правило, удов­

летворительно

разделяющее классы. Это значит, что

с увеличением

класса

S расширяется и круг задач, из

которого выбирается

наиболее трудная для данного

алгоритма.

Вообще для данного алгоритма А и задачи Т средний риск (т. е. качество) распадается на три составляющие:

R (А, Т) = я (А, Т) + А, (Т, S ) + Д2 (Т).

Здесь Д2 — это неизбежная составляющая риска, которая остается даже при использовании самого лучшего решаю­ щего правила для данной задачи, выбранного без всяких ограничений. Величина Дх + Д2 определяет качество наи­ лучшего решающего правила в классе S', таким образом, Дг — это потери, связанные с ограничением, заставляю­ щим выбирать правило только из класса S (в детерминист­ ской постановке Д2 + Дх = 0). Наконец, я — это потери в смысле, определенном выше; они отражают то, насколь­ ко решающее правило, выбираемое алгоритмом А в ходе обучения, близко к оптимальному в классе S.

Величина Д2 (Т) зависит только от задачи распознава­ ния. Величина Дх (Т, А) зависит уже от класса S, но не зависит от алгоритма обучения. Потери же я [А, Т) за­ висят от задачи, класса S и конкретного алгоритма обу­ чения.

І26 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

§ 4. Критерий Байеса

Пусть априорные сведения о природе задач, на кото­ рые рассчитывается алгоритм обучения, задаются как ап­ риорная вероятность тех или иных задач. В этом случае теория статистических решений предлагает метод построе­ ния оптимального алгоритма обучения в смысле средне­ го качества по ансамблю задач, т. е. метод минимизации критерия Байеса

ДвміесаИ) = 2 Рапр(Г)'Я/(А Т ) .

т

Следующая схема реализует оптимальную по критерию

Байеса процедуру обучения.

 

 

 

. .

1.

Пусть дана обучающая последовательность

. . . ,

х ь

Wj. По этой

последовательности

для

каждой

задачи Т

вычисляется апостериорная вероятность Р аП0ст (Т )

того,

что алгоритм

столкнулся именно с этой задачей:

 

 

 

 

 

г

 

 

 

 

 

 

 

^ ап р ('О

П

Р Т (х і> toi)

 

 

 

 

Р а п о с т ( Г )

=

---------------- Щ ------------------

,

 

 

 

 

 

21 -^апр Н )

П

(жі> ыг)

 

 

 

 

 

 

Т

г=1

 

 

 

где Рапр ( Т ) — априорная вероятность задачи Т .

Здесь Рт {х, о) — распределение, соответствующее за­

даче

Т .

 

2. Для каждой ситуации х вычисляется апостериор­

ная

вероятность того,

что она будет отнесена (учителем)

к классу со:

 

 

Р апост ( Ь) \ х)

S Рт (® |ж) Р апост ( Т).

 

 

Т

3. Наконец, строится решающее правило F (х), ра­ ботающее следующим образом:

Ж-, /V _ /4» если Рапост (1 W >

0,5,

t

\0, если Р ап ост (1И <

0,5.

Несмотря на всю привлекательность байесовой стра­ тегии обучения, она оказывается практически неосущест­ вимой, так как, за исключением простейших случаев, приводит к чрезвычайно громоздким вычислениям. Кроме

§ 5. УПОРЯДОЧЕНИЕ КЛАССОВ РЕШАЮЩИХ ПРАВИЛ 127

того, сведения об априорной вероятности различных за­ дач весьма расплывчаты, поэтому точное следование оп­ тимальной по Байесу процедуре'может оказаться нецелесо­ образным. Представляют интерес «квазибайесовы» про­ цедуры, которые сохраняют ее ценные свойства и не столь громоздки.

Необходимо отметить, что, в отличие от других приме­ нений байесовой процедуры, в задачах распознавания об­ разов априорные сведения о задачах, которые предстоит решать, существенны и от них сильно зависит выбираемое решающее правило. В частности, можно показать, что эффективно могут работать лишь алгоритмы, рассчитан­ ные на достаточно узкий класс задач по сравнению со все­ ми возможными. Поэтому, для того чтобы байесова стра­ тегия была эффективной, необходимы такие априорные вероятности задач, чтобы огромное большинство задач было в совокупности маловероятно, а ничтожное мень­ шинство образовывало множество, вероятность которого близка к единице.

§ 5. Упорядочение классов решающих правил

Последнее замечание предыдущего параграфа можно записать следующим образом. Пусть Q — множество всех возможных задач. Тогда из этого множества может быть выделена система вложенных подмножеств

<?і С <?2 С ... С Qn С Q

( 6 . 1 )

такая, что вероятность Р (Qt) встретить задачу из Qt об­ разует систему неравенств

р (Ql) < Р т < ~ . < Р (Qn) < 1.

(6 .2 )

Суть замечания состоит в том, что при переходе от Qt к Qi+i количество задач должно резко возрастать, в то вре­ мя как величины

АРі = Р (Qi+1) - Р (Qt)

монотонно уменьшаются.

Задание системы вложенных множеств (6.1) и вероят­ ностей (6 .2 ) составляют априорные сведения о тех зада­ чах, которые предстоит решать.

128 ГЛ. VI. МЕТОДЫ УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

Огрубление байесовой стратегии обучения мы начнем с того, что будем использовать априорную информацию, заданную не двумя условиями (6 .1 ) и (6 .2 ), а одним усло­ вием (6 .1 ), полагая, что АP t уменьшаются. Особенностью байесовой стратегии является то, что она с большим весом

учитывает

гипотезы, априори

более вероятные. Поэтому,

учитывая,

что АP t монотонно

уменьшаются, следующую

стратегию можно понимать как некоторую квазибайесо­ ву стратегию.

К обучающей последовательности применяется сна­ чала алгоритм, рассчитанный на задачи из класса Qx. Только в том случае, если он дает неудовлетворительные результаты, применяется алгоритм, рассчитанный на задачи из класса Q2, и т. д.

Назовем такую стратегию методом упорядоченной ми­

нимизации

риска.

этого метода такова. В классе ре­

Схема

реализации

шающих правил S вводится упорядочение, т. е. строится

система вложенных множеств

 

 

S x С

S 2d ...

С SN = S.

Затем в классе S x ищется

правило, минимизирующее

эмпирический риск. Если найденное решающее правило оценивается как неудовлетворительное, то ищется пра­ вило, минимизирующее эмпирический риск в классе S 2, и т. д. Процедура поиска оканчивается, когда будет най­ дено удовлетворительное решающее правило.

Заметим, что решения, полученные методом упорядо­ ченной минимизации риска, вообще говоря, отличаются от решений, полученных методом минимизации эмпири­ ческого риска.

В первом случае выбирается правило, минимизирую­ щее эмпирический риск лишь в классе функций S t d S, в то время как во втором случае правило минимизирует эмпирический риск в S.

Метод упорядоченной минимизации риска удобно рас­ сматривать как двухуровневую процедуру обучения. На первом уровне к обучающей последовательности приме­ няется N алгоритмов А г, . . ., Ajy, каждый из которых выбирает решающее правило, минимизирующее эмпи­ рический риск в классах S t. На втором уровне из N ото­

Соседние файлы в папке книги из ГПНТБ