Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
47
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

$ 6. УСЛОВИЯ РАВНОМЕРНОЙ сходимости

99

§ 6. Условия равномерной сходимости частот появления событий к их вероятностям

Обобщение теоремы Гливенко и построение теории равномерной сходимости частот появления событий к их вероятностям стали возможны благодаря введению более тонкой меры разнообразия класса функций, чем число функций в классе. Вот как она определяется.

Пусть задана система Q решающих функций F (ж, а). Рассмотрим класс событий

А (а) = {ж : F (ж, а) = 1}.

Рассмотрим, далее, выборку жх, . . ., жг. Известно, что, вообще говоря, эта выборка может быть разделена на два класса 2' способами. Однако нас будут интересовать толь­ ко те способы разделения выборки, которые могут быть реализованы с помощью решающих правил F (ж, а). Чдсло таких разделений зависит как от класса решающих правил, так и от состава выборки. Будем обозначать это число

As (жх, . . ., х{).

Так как хъ . . ., жг — случайная и независимая вы­ борка, то число разделений — величина случайная, т. е. случайной величиной будет As (жх, . . ., жг).

Разнообразие класса решающих правил будем изме­ нять величиной математического ожидания lg2 As (жІ5 ...

. . ., жi). Эту величину будем называть энтропией класса S

решающих правил на выборках длины I и обозначать

HS(l) = М {lg2 А« (ж,, . . ., ж,)}.

(5.8)

Оказывается, что для существования равномерной сходимости частот ѵ (а) появления событий к их вероят­ ностям Р (а) по классу событий S необходимо и доста­ точно, чтобы последовательность

H s (1)

Н s (2)

H s (Z)

1 >

2 ’ ' • • ’

I ’ ' "

стремилась к нулю при неограниченном увеличении длины

выборки I. Стремление к нулю отношения Н ^ означа­

ет, что класс решающих правил состоит из «не слишком

4#

100 ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

разнообразного множества функций». Доказательство этих утверждений дано в главах X и XI.

Как и всякие исчерпывающие условия, приведенные необходимые и достаточные условия равномерной сходи­ мости частот появления событий к их вероятностям ис­ пользуют довольно тонкие понятия. На практике проверка таких условий представляет значительные трудности. В нашем случае трудности связаны с тем, что характер распределения неизвестен, в то время как проверке под­ вергается свойство энтропии, которая конструктируется с помощью распределения Р (х).

Поэтому для использования на практике условий равномерной сходимости целесообразно из данных усло­ вий получить более грубые достаточные условия, которые не зависели бы от свойств распределения Р (х). Такие условия могут быть получены абстрагированием от свойств распределения. Иначе говоря, на практике нас будут ин­ тересовать те условия, которым должен удовлетворять класс решающих правил, чтобы при любой функции рас­ пределения можно было гарантировать существование равномерной сходимости.

Огрубление необходимых и достаточных условий за­ ключается в том, что вместо энтропии функции F (х , а) рассматривается логарифм функции

ms (I) = max As (хи .. ., xt),

Xi....

где максимум определяется по всем возможным выборкам длины I. Функцию ms (I) назовем функцией роста класса

F (х, а).

Функция роста построена так, что она не зависит от распределения Р (х), и, кроме того, всегда выполняется неравенство

lg2 ms (I) > Hs (l).

Теперь, если окажется, что величина

i g a m s (l)

I

стремится к нулю с ростом /, то отношение

HS(l)

I

I 7. СЙОЙСТВА ФУНКЦИИ POCfA

101

и подавно устремится к нулю. Поэтому условие

lim > - 7 S(I) = О г-*=о L

является достаточным условием существования равно­ мерной сходимости. Это условие может быть легко про­ верено для различных классов решающих правил.

§ 7. Свойства функции роста

Функция роста класса решающих правил имеет про­ стой смысл: она равна максимальному числу способов разделения I точек на два класса с помощью решающих правил F (X, а).

В главе X будет показано, что функция роста обладает одним замечательным свойством, которое дает возмож­

ность ее легко оценивать: она либо тождественно равна 21,

Іп~

либо мажорируется степенной функцией 1,5 —-----т-т-, где

( П

1)1

п — минимальное число, при котором нарушается равен-

ство ms (I) = 21.

В первом случае для любого I найдется комбинация точек хг, . . ., Хі такая, что ее можно разбить всеми воз­ можными способами на два класса с помощью решающих правил F (х, а).

Во втором случае это не всегда возможно. Существует максимальное число точек п — 1, которое еще разбива­ ется всеми возможными способами с помощью правил F (X, а), но уже никакие п точек этим свойством не обла­ дают. Оказывается, что при этом функция роста мажори­ руется степенной функцией с показателем роста п — 1.

Число п — 1, таким образом, может служить мерой разнообразия решающих правил в классе Q. Мы будем называть его емкостью класса £2 (при ms (I) = 2' считаем емкость бесконечной).

Нетрудно убедиться, что, если емкость класса конечна) всегда имеет место равномерная сходимость частот к ве­ роятностям. В самом деле, при этом

lim

i g ^ - <

l i m

(" - |>lg, ^ 1'5 = О

г-*»

1

I—юо

1

и достаточное условие выполнено.

1Ö2

ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

Найдем функцию роста для класса линейных решаю­ щих функций. Для этого достаточно определить макси­ мальное число точек в пространстве размерности т, ко­ торые с помощью гиперплоскости можно разбить всеми возможными способами на два класса. Известно, что это число равно т + 1. Поэтому

+1

Тот факт, что емкость класса линейных правил конеч­ на (равна т + 1), доказывает обобщенную теорему Гливенко. Отметим, что для гиперплоскостей, проходящих через начало координат, более точная оценка функции роста фактически была выведена в предыдущем параграфе.

§ 8. Оценка уклонения эмпирически оптимального решающего правила

В главе X будет получена оценка скорости равномер­ ной сходимости. Оказывается, что

0 ( 1- 1)

Р {sup IР (а) — V (а) I > е} < Sms (21) е

4 •

(5-9)

а

 

 

Оценка имеет тот же вид, что и для конечной системы событий, но вместо числа событий N в правой части нера­ венства стоит функция роста. Таким образом, функция роста служит мерой разнообразия класса событий.

Если емкость класса бесконечна (ms (I) = 2г), оценка (5.9) тривиальна, так как правая часть неравенства боль; ше единицы при всех I.

Если же емкость г конечна, оценка

приобретает вид

г

 

0(1-1)

 

P {sup|P (a) — V(a) I > е} < 4 ,5 - у

е

4

(5.10)

Правая часть неравенства стремится

к

нулю

при

I -> оо и притом тем быстрее, чем меньше г.

Можно по­

требовать, чтобы вероятность Р {sup | Р )—v (a) |

е}

a

 

 

 

 

не превышала заданное значение тгр

§ 8. ОЦЕНКА УКЛОНЕНИЯ

103

Это во всяком случае произойдет, если

 

ЕгР-1)

 

4,5

4

= 11-

Это равенство можно разрешить относительно е. Таким образом, справедливо утверждение: с вероятностью, не превышающей 1 — р, максимальное по классу S укло­ нение частоты выпадения событий от вероятности не пре­ восходит

8 = 2

+

'

(5.11)

Отсюда, в силу сказанного в § 2, непосредственно сле­ дует, что с вероятностью, превышающей 1 — р, качество эмпирически оптимального решающего правила отлича­ ется от качества истинно оптимального не более чем на Л — 2е, т. е.

где I — длина обучающей выборки, а г — емкость класса решающих правил, из которого осуществляется выбор. В частности, для линейных решающих правил в простран­ стве размерности т

А = 4 /

И + 1)

21

- ln д5

 

 

 

 

Таким образом, при заданной длине обучающей вы­ борки качество решающего правила, выбранного алго­ ритмом, тем ближе к наилучшему в классе, чем меньше емкость класса £2. Но следует помнить, что качество наи­ лучшего в классе Q решающего правила, вообще говоря, напротив, тем выше, чем шире класс Q.

Разрешая равенство (5.11) относительно I, можно оценить для фиксированной точности и надежности до­ статочную длину обучающей последовательности (см. главу XIII). Оказывается, что качество эмпирически оптимального решающего правила с вероятностью,

104

ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

превышающей 1—ц, отличается от наилучшего в классе Q не более чем на е, если только длина обучающей выборки достигает

гДос-г~с^

— •

(5.12)

Следовательно, достаточная длина выборки пропор­ циональна емкости класса решающих функций. В част­ ности, для линейных решающих функций в т-мерном спрямляющем пространстве достаточная длина пропор­ циональна размерности т.

§9. Метод минимизации эмпирического риска

вдетерминистской постановке задачи обучения

распознаванию образов

До сих пор при исследовании методов минимизации эмпирического риска в задаче обучения распознаванию образов не возникала необходимость различать две по­ становки — детерминистскую и стохастическую, как при исследовании методов стохастической аппроксимации.

Однако, вообще говоря, применение методов мини­ мизации эмпирического риска в детерминистском вариан­ те задачи обучения распознаванию образов дает более эффективные результаты. Во всяком случае, оценки ско­ рости равномерной сходимости указывают на более быст­ рую сходимость. Чтобы выяснить, почему это происходит,

вернемся

сначала к частному

случаю, рассмотренному

в § 4.

пусть класс решающих правил состоит из конеч­

. * Итак,

ного числа

N элементов {F (х, ос*)} (і =

1, 2, . . ., N).

Особенность

детерминистской

постановки

заключается

в том, что по предположению среди этих решающих пра­ вил есть то, которое идеально решает задачу. Его-то или близкое к нему правило и предлагается найти, используя

вы борку Хх, . . ., Ж(.

!-й Искать такое решающее правило будем'методом мини­ мизации эмпирического риска. Так как среди функций {F (х, а,})} есть та, которая идеально решает задачу, то заведомо ясно, что на любой выборке хх, . . ., xt зна­ чение минимума эмпирического риска будет равно нулю.

Однако этот минимум может достигаться на многих функциях. Поэтому возникает необходимость оценить ве-

§ 9. МИНИМИЗАЦИЯ РИСКА В ДЕТЕРМИНИСТСКОЙ ЗАДАЧЕ Ю5

роятность того, что при выборе любой функции, достав- ^ ляющей нуль величине эмпирического риска, можно га­ рантировать, что выбрана функция, качество которой не хуже заданного е.

Введем функцию

Ѳ>) =

1 ,

если z =

О,

О,

если z

0 .

Тогда формально оценка скорости равномерной схо­ димости частот к вероятностям по множеству правил, для которых частота ошибок равна нулю, связана с оценкой вероятности следующего события:

{sup I V* — Р і І-Ѳ (ѵj) > е}.

г

Так как число функций, на которых достигается нуль величины эмпирического риска, не превосходит N числа всех элементов в классе, то справедливо неравен­ ство

Р {sup I Ѵі Рі I • Ѳ(v;) > e} < NP[,

(5.13)

І

 

где P[ — вероятность того, что решающее правило, для которого вероятность совершить ошибку есть величина, большая е, правильно классифицирует все векторы обу­ чающей последовательности. Эту вероятность легко оце­ нить:

РІ < (1 - б)'.

Подставляя оценку РІ в (5.13), получим

Р {sup [ ѵ4 Рі I -Ѳ (Vj) > e} < N (1 — e)'.

І

Для того чтобы вероятность Р {sup [ ѵг— Р і |-Ѳ(ѵг) Д> е} i

не превосходила величину Г|, достаточно выполнения

условия

 

тр

(5.14)

N (1 — е)г =

Разрешая относительно I это

равенство,

получим

.

ln N — ln

 

(5.15)

f " - l n (1 - е ) •

 

106 ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

Так как для малых г справедливо

—ln (1 — е) да е,

то формула (5.15) может быть представлена в виде

I

ln N — ln Ti

(5.16)

е

 

 

Вотличие от оценки (5.6) здесь знаменатель равен е,

ане е2. Разрешая (5.14) относительно е, аналогично

получим

е =

ln N — ln г]

(5.17)

 

І

 

Таким образом, справедлива следующая теорема.

Теорема 5.2. Если из множества, состоящего из N ре­ шающих правил, выбирается такое правило, которое ни обучающей последовательности не совершает ни одной ошибки, то с вероятностью 1 — ц можно утверждать, что вероятность ошибочной классификации с помощью выбранного правила составит величину, меньшую г, если длина обучающей последовательности не меньше

і_ ln N ln г]

ln (1 — е)

Вобщем случае, когда класс решающих правил S состоит из бесконечного числа элементов, оценка скорости равномерной сходимости для тех правил, на которых частота равна нулю, имеет ту же структуру, что

и(5.6) (см. главу XIII):

 

Р (sup |P(ct) — V (а) I-Ѳ(ѵ (а))

£*

 

е} <^ms (2l)-e

2 , (5.18)

 

Gt

 

 

где ms (I) — функция роста

класса решающих правил S.

В

(5.18) величина ms (I) играет роль «числа

элементов»

в

классе.

 

 

 

Если объем класса ограничен:

 

mS(Z)< 1,5

т. е. выполнены достаточные условия равномерной

9 10. ЗАМЕЧАНИЕ ОБ ОЦЕНКЕ СКОРОСТИ СХОДИМОСТИ Ю7

сходимости, то можно потребовать, чтобы вероятность

Р {sup I Р (а) — V(а) I • Ѳ(ѵ(а)) )> е}

а

не превосходила заданное значение г).

I, г, г\, г

Это заведомо произойдет, если величины

будут связаны соотношением

 

 

 

е/

 

1,5

~2 = л-

 

Разрешая это равенство относительно I, можно получить

(см. главу XIII)

г — ІП Г]

 

Iд о с т --- с

(5.19)

 

8

 

(в отличие от (5.12) здесь знаменатель не с2, а е). Разре­ шим еще это же равенство относительно е. Заменяя г! по формуле Стирлинга, получаем

 

 

21

I

-ІП -

 

 

 

In — •

(5.19')

8 =

2 -

Г

 

 

 

 

 

 

Таким образом, в детерминистском варианте поста­ новки задачи оценки оказываются лучше, чем в общем случае.

§10. Замечание об оценке скорости равномерной сходимости частот появления событий

ких вероятностям

Почему же оценки, полученные для детерминистского и стохастического вариантов постановки задачи, так сильно различаются

Объяснение этому частично дано в предыдущем пара­ графе, где формулы (5.3), (5.10) и (5.13), (5.18) определяют скорости равномерной сходимости частот появления событий к их вероятностям по различным классам событий S.

В детерминистском варианте постановки учитывают­ ся только те события исходного множества событий S, частоты которых равны нулю. Обозначим эт от подкласс

108

ГЛ. V- МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

S 0. В стохастическом варианте задачи уклонение оцени­ валось для всех событий исходного класса событий S.

Формально этот факт находит свое отражение в струк­ туре формул, задающих оценку равномерной сходимости, (5.10), (5.18). Правая часть неравенств (5.10), (5.18) со­ стоит из двух сомножителей. Первый сомножитель ха­ рактеризует емкость класса событий (он идентичен, как в случае (5.10), так и в (5.18)), второй сомножитель оцени­ вает вероятность уложиться в заданное уклонение е частоты от вероятности для любого события заданного класса (в детерминистской постановке этот класс есть S 0, в стохастической — этот класс совпадает с S).

Оказывается, удается существенно по-разному оценить этот второй сомножитель. Так как при стохастическом варианте постановки априори не известны никакие ха­ рактеристики вероятностей событий класса S, то оценка уклонения частоты от вероятности для любого события А, принадлежащего S, производится в условиях наиболее

неблагоприятного

случая,

когда

Р (^4)

=

Поэтому

возможна лишь оценка (5.10).

 

 

 

Для детерминистского

варианта постановки наиболее

неблагоприятное

событие

в

классе

S то,

для

которого

Р (А) = е. Для оценки уклонения частоты от вероятно­ сти этого события возможна более тонкая оценка (5.14).

Таким образом, оценки, полученные для детерминист­ ского и стохастического вариантов постановки задачи, различаются так, как различаются оценки уклонения частот от вероятностей в двух событиях: в событии А, для которого Р (А) близко к нулю, и в событии А', для которого Р (A') близко к г/2.

Это обстоятельство заставляет внимательно отнестись к тем требованиям, которые предъявляются к величинам уклонения частот от вероятностей.

В задаче обучения распознаванию образов можно ослабить требования к характеру сходимости: разумно требовать не равномерного отклонения частот от вероят­ ностей для всех событий, а разрешить большее уклонение для тех событий, которым соответствует вероятность, близкая к Ѵ2 , и меньшее для событий с вероятностями,

близкими

к нулю. Рассмотрим снова функции Р (а) и

V (а) (рис.

12), где Р (а) — вероятность ошибки для рѳ-

Соседние файлы в папке книги из ГПНТБ