Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
40
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

§ 1. ОЦЕНКА ДЛИНЫ ОБУЧАЮЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ 279

алгоритмом обучения рассматриваемого типа, отличалось от оптимального не более чем на е, с вероятностью боль­ шей, чем 1 — тр Для этого, в соответствии с (13.1), дос­ таточно положить

 

т]]> 6ms (21) е

іКі-1)

 

 

 

16

 

 

и разрешить это неравенство относительно I.

 

Допустим,

что ms (I) ф 2[, и пусть

п — такое число,

что ms (п) =

2", а ms (п + 1) <

2П+1;

тогда,

в соответ­

ствии с замечанием 1 к теореме 10.1,

ms (Z )< l,5-^-

или, заменяя п\ по формуле Стирлинга,

тҢ 1)< 1,5 ( - M V .

Здесь п — это максимальная длина последователь­ ности, которую можно разбить всеми возможными спо­ собами с помощью решающих правил из Q.

Разрешим относительно I неравенство

21

еЧІ-1)

г| -> 9 ( 1 е'1е

16

Л огарифмируем:

. д . , 121 \ . ln - J - > n ln ^ — ) +

Обозначим

гЧ

=

16п

е2 (I — 1)

(13.5)

и ------*----- L

16

 

X.

Тогда

 

 

1

11

 

1п“9"

1 - * - 1п -32ш

- ШГ + —

Іпх +

и соответственно

П

е2

 

580 гл. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ

Разрешим это неравенство относительно х. Учитывая, что

 

 

ln X <

0,5 X ,

 

 

получаем

 

 

 

 

 

 

 

 

Т)

 

е2

 

 

ж > 2

1 -

1п 6 — 16

 

 

 

 

ІПІГ )

 

откуда

 

 

 

 

 

1JL

 

 

 

 

32п

IL

 

 

^дост —

1 - 1п

6

— 16

1пж

(13.6)

 

 

 

 

-

 

Эта оценка, однако, завышена.

Более точную оценку получим из следующих сооб­ ражений.

Пусть обучение проведено на последовательности длины I, а затем устроен экзамен на последовательности такой же длины. Оценим вероятность того, что частота ошибок на обучении и на экзамене будет отличаться более чем на е для решающего правила, выбранного произвольным алгоритмом, из класса Q по обучающей последовательности. Эта вероятность во всяком случае меньше, чем

Р {sup I V (4;

хх , . . .,

*,) — V (А;

х 1+1 , . . ., хг1) | > е}.

A&S

 

 

 

где А — событие вида

{со Ф F (х,

а)}.

Но для этой величины оценка получена при выводе

теоремы 10.2:

 

 

 

Р {sup Iу

(Л) - ѵ" (Л) I > е) < 3ms (2l)é-^l-1K

А

 

 

 

Отсюда, аналогично выводу (13.6), получаем, что для того, чтобы с вероятностью, большей 1 — ц, частота оши­ бок на материале обучения и на экзамене отличалась меньше чем на 8, достаточно, чтобы

 

2п

 

(13.7)

 

Iдост

 

где

п — максимальная!

длина

последовательности

§ 1.

ОЦЕНКА ДЛИНЫ ОБУЧАЮЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ 281

х х ,

. . хп такой, что ее можно разбить всеми возмож­

ными способами с помощью правил из Q.

Обе оценки зависят только от свойств класса решаю­ щих функций и никак не связаны с распределением ве­ роятностей на множестве пар х, и. Требуется лишь, чтобы ситуации возникали независимо и с неизменным распределением. Полудим еще оценку для задачи'*’обучения распознаванию в детерминированной постановке. В этом случае среди решающих правил заведомог есть правило, обеспечивающее безошибочное распознавание. Алгоритм, минимизирующий эмпирический риск, выбе­ рет решающее правило, которое всю обучающую после­ довательность классифицирует безошибочно. Оценим ве­ роятность Р (е, Z) того, что решающее правило, выбран­ ное таким алгоритмом по обучающей последовательности длины I, сделает более гі ошибок на экзамене длины I. Очевидно, что вероятность Р (е, Z) не превосходит

Р (sup (ѵ (А; хѵ . . ., Х[) = 0) и (ѵ (А; х [+ь . . ., x2t) > е)}, AeS

т. е. вероятность того, что найдется событие А вида

{х, ca: F (х, a) =f=со}

такое, что частота его выпадения на первой полувыборке равна 0, а частота выпадения на второй полувыборке пре­ вышает е. Для одного события А вероятность того, что ѵ'(А) = 0, а ѵ"(Л)^>8, равна

С[і-т

(2г —m)...(Z —m-f-1)

- C1 -

2г.(2г —!)...(/+ i) ’

если число т элементов А в выборке хъ ..., х21 превос­ ходит е/, и нулю в противном случае.

Поэтому во всех случаях

В общем случае, как и при доказательстве условий равномерной сходимости, достаточно учесть* конечное Число событий А , различимых на выборке хг , . . . ,Хщ.

282 ГЛ. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ

Поэтому

I

\ J

_ ^

Р (е, I) < ms (21) 1 -

-i-j < mS (21) i

2 .

Опять-таки аналогично выводу (13.6), получаем, что длина обучающей последовательности, достаточная для того, чтобы с вероятностью 1 — т] частота ошибок на экзамене такой же длины не превышала е, равна

W = (і — ln -J- — ln - p j ,

где n определяется, как и раньше, как максимальная длина последовательности, которую еще можно разбить всеми возможными способами с помощью правил из Q.

Эта величина является характеристической. Все оценки при фиксированных е и ц являются линейными функция­ ми п. В ряде случаев оказывается, что с вероятностью 1 As (хг , . . . ,Хі) = ms (1). В этом случае, рассуждая аналогично доказательству необходимости в теореме 11.1, можно показать, что с вероятностью, близкой к единице, максимальное по классу S уклонение частот в двух следующих друг за другом полувыборках длины I

не меньше п!2і при 21 >

п и равно 1 при 21 <1 п. Поэтому

без дополнительных предположений нельзя получить

оценку лучшую, чем

 

 

 

 

 

I

-

 

 

''дост —

2е ’

3.

Выясним,

наконец,

чему равна функция ms (I)

для наиболее часто

используемых классов решающих

функций.

Линейные решающие правила в случае двух классов (случай большего числа классов сводится к последова­

тельной дихотомии) имеют вид:

 

 

X

относится к I классу, если (х,

<р)

с,

X

относится ко II классу, если (х,

ф) <

с.

Здесь тг-мерный вектор ф и константа с являются па­ раметрами класса решающих функций.

Нас интересует функция ms (Г) для системы событий вида

{(х, ф) > с].

§ 1. ОЦЕНКА ДЛИНЫ ОБУЧАЮЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ 283

Для случая с — О функция ms (I) была найдена в примере 3 § 3 главы X. Она равна

тҢ1) = 2 % С 1 1< 3 - g ^ j - ,

і=0 ' '

где п — размерность пространства.

Случай произвольного с сводится к предыдущему пу­ тем введения дополнительной координаты, причем раз­ мерность увеличивается на единицу. Таким образом, для линейных решающих правил

где п — размерность пространства.

Отсюда следует, что в оценках длины обучающей последовательности, полученных в предыдущем пункте для линейных решающих правил, п — это размерность пространства.

К этому же случаю сводятся алгоритмы решающих правил, основанных на переходе к спрямляющему про­ странству и построении в этом новом пространстве линей­ ного решающего правила. Соответствующие правила имеют вид:

 

 

 

П

 

X относится к

I

классу,

если 2

ѴРі (я) > с,

 

 

 

г=1

 

 

 

 

п

 

X относится ко

II

классу,

если 2

^іФі (*) с -

 

 

 

г=1

 

Здесь набор функций срг (х) фиксирован для данного клас­ са решаюших правил, а параметры и с задают конкрет­ ное решающее правило в классе. В этом случае оценки те же, что для линейных правил, но и — это размерность спрямляющего пространства (число функций ф* (ж)).

Рассмотрим более сложный вид решающего правила:

і е і , если К (Ѳо.фі (ж, Ѳ^.фг (ж,Ѳ2), . . . , фь {x,Qh)) > О,

ж еІІ, если К (Ѳ0, фі (ж, Ѳх), ф2 {х, Ѳ2), ..., фь (ж, Ѳь))< 0 .

284 ГЛ. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ

f десь функции Ä”и фі фиксированы для класса решаю­ щих правил, а параметры Ѳ0, Ѳь . . . ,Ѳк (скалярные или векторные) задают конкретное решающее правило. Кро­ ме того, предположим, что функции фі принимают лишь два значения: —1 и - fl.

Тогда, если известны функции

ms0 (I) для класса событий {у: К (Ѳ0, уи . . ., у к) > 0}, . . .,

mfi (I) для класса событий {х\ фг (£0г) = 1}.

то интересующая нас функция ms (I) оценивается

к -

гпЧІХЦт-Ні)-

і=0І

В частности, пусть х — m-мерный вектор, а функции Фі и К — линейные пороговые функции, т. е.

к = sgn2 ѳог/д

т

Уі = Фі(я) = SgH 2 QiXP

3=1

где Ѳ{ и Ѳо — настраиваемые параметры,

(— 1

при z ^

0,

sgnz = < .

.

f.

I 1

при z |> 0.

Тогда

Z)]* Ф (к ,

Z),

ms (I) [Ф (m ,

где

m

 

 

 

® (m,z) = 2 2 c U

i=l

к

Ф ( к , 0= 22 с ц .

Я= 1

Порядок роста функции ms (Z) равен тк + к и, сле­ довательно, в оценках длины обучающей последователь­ ности, полученных в предыдущем пункте, в качестве п для этого случая можно взять

п = тк -f к.

І 2. СХОДИМОСТЬ К МАТЕМАТИЧЕСКИМ ОЖИДАНИЯМ 285

Этот класс решающих функций используется при настройке многослойных персептронов, в машинах типа «Маделин» и вообще нри построении кусочно-линейных решающих правил.

Во всех рассмотренных случаях оказалось, что за число п в оценках предыдущего пункта может быть при­ нято число настраиваемых параметров данного алгорит­ ма обучения распознаванию образов. Видимо, и вообще, за исключением патологических случаев, эти оценки справедливы для алгоритмов обучения распознаванию при п, равном числу настраиваемых параметров.

§2. Равномерная сходимость средних

кматематическим ожиданиям

1.В общем случае вопрос о равномерной близости функций Я (а) и Ята (а) сводится к равномерной по пара­ метру а сходимости средних к математическим ожиданиям.

Всамом деле, функция

R (а) = ^ Q (z, а)dP (z)

есть математическое ожидание функции потерь Q (z, а),

тогда как

I

-Яэма (а) = -J - 2 Q&Zi, а)

І—1

есть среднее арифметическое этой случайной величины, вычисленное по выборке zt , . . . ,z{.

Сформулируем в точных терминах проблему равно­ мерной сходимости средних к математическим ожиданиям.

Пусть X — элементарное событие из пространства X , Р (X) — вероятностная мера в нем, а — некоторый абст­ рактный параметр, F (х, а) — некоторая функция, измери­ мая при всех а относительно меры Р (х) в пространстве X.

Предположим, что существует математическое ожи­ дание этой функции при всех а

М (<х) = ^ F (X, а) dP (х).

X

Пусть, далее, задана повторная выборка Х ‘~ хх , ...

. . . ,хі из пространства X , т. е. выборка, полученная в

286 ГЛ. X III. ПРИМ ЕНЕНИ Е ТЕОРИИ РАВНОМ ЕРНОЙ СХОДИМОСТИ

последовательности независимых испытаний при неиз­ менном распределении. Тогда для каждого а по этой выборке можно вычислить среднее значение

I

Мэмп (<т) = —- 2 F (%ь а)-

І= 1

Если бы а была постоянной величиной, то сходимость среднего к математическому ожиданию обеспечивалась бы законом больших чисел. Но если параметр а может изменяться в пределах некоторого множества Q, то воз­ никает вопрос о равномерности по параметру а оценки математического ожидания средним значением. Точнее, обозначим через Р (X 1) вероятностную меру в простран­ стве выборок длины I. Тогда равномерность близости средних к математическим ожиданиям может быть оце­

нена величиной

I

Рг(Q, I) =

Р {sup IМ (а) — Мэмп (X1, а) | > е),

т. е. вероятностью того, что максимальное по а уклоне­ ние средневыборочного значения от математического ожидания превзойдет е.

Говорят, что имеет место равномерная по параметру сходимость средних к математическим ожиданиям, если

случайная величина sup | М (а) — Мэмп (X*, а) | стремится к ае!)

нулю соответственно по вероятности или почти навер­ ное при I —►оо.

Приводимые ниже достаточные критерии такой схо­ димости (за исключением последнего) сводят при опре­ деленных условиях вопрос о равномерной сходимости средних к математическим ожиданиям к исследованной в предыдущих главах проблеме равномерной сходимости частот к вероятностям в некотором классе событий.

Теорема 13.1. Пустъ F (х, а)

( а е £ 2 ) — семейство

измеримых на

функций, причем выполнено условие

О F (х, а) ^

а (число а не зависит от х и а). Рассмот­

рим систему S событий вида

 

 

А = {х\ F (х, а)

с}

для всевозможных а и с.

§ 2. СХОДИМОСТЬ К МАТЕМАТИЧЕСКИМ ОЖИДАНИЯМ 287

Тогда равномерная сходимость частот к вероятнос­ тям по классу событий S является достаточным услоем для равномерной сходимости средних к математичес­ ким ожиданиям. При этом выполняется соотношение

sup I М (а) — Мэмп (а) К

а sup | Р (А) — ѵ(Л) |.

а

 

 

 

 

A e S

 

 

Д о к а з а т е л ь с т в о .

Действительно,

согласно

определению интеграла

Лебега

 

 

АналогичноМ(“ ) = ^

І

ДП

Р {'<*■

“ » ■ 4 - } '

Мэмп (а) =

Н т 2

-~Г v \ F

а) > “Т"! •

 

 

П->ооі==і

П

I

П

J

Обозначим

событие

 

 

 

 

 

 

 

 

{ F ( x ,a » 4 - }

 

 

через І іл е

5. Тогда

 

 

 

 

 

 

 

 

П

 

 

 

 

IМ (а) — м 'мп (а) |<

lim

 

 

I ^ (4„) — ѵ (Д„) | <

 

 

П—>оо

 

 

<

а sup I Р (Л) — ѵ<г>(А ) I,

 

 

 

 

 

 

 

 

 

 

 

A S S

 

чем и доказывается наше утверждение. Кроме того, получаем

Р {sup I М (а) — Мэмп (а) | > ае}< Р {sup | Р (Л) — ѵ (А) | > е}.

ccSO A G S

Тем самым из оценок для равномерной сходимости частот к вероятностям по классу событий можно всегда получить оценки для равномерной сходимости средних к математическим ожиданиям для равномерно ограничен­ ных функций F (х, а).

Следствие. В силу полученных в главах X u XI условий равномерной сходимости частот к вероятностям в слу­ чае, когда

О F (х, а) а,

288 ГЛ. X III. ПРИМ ЕНЕНИЕ ТЕОРИИ РАВНОМЕРНОЙ СХОДИМОСТИ

для равномерной сходимости средних к математическим ожиданиям (почти наверное) достаточно, чтобы ms (I) ф ф 2' или (более слабое условие)

lim

= 0,

I—*оо

 

где S определенная выше совокупность событий. При этом справедлива оценка:

Р {sup IМ (а) — МэМП(а) | ае} < 6ms (21) е 4 .(13.8)

ае £ І

Отметим, что необходимые и достаточные условия равномерной сходимости частот к вероятностям перехо­ дят здесь лишь в достаточные условия равномерной схо­ димости средних к математическим ожиданиям.

Замечание. Равномерная ограниченность функции F (х, а) в этом рассуждении существенна, так как в про­ тивном случае можно построитъ примеры, где равномер­ ная по классу S сходимость частот к вероятностям имеет место, тогда как равномерной сходимости средних к ма­ тематическим ожиданиям нет.

Однако это требование может быть ослаблено. В ряде случаев существенно не абсолютное, а относительное ук­ лонение средних от математических ожиданий. В этом случае из допущения, что

sup F (х, а)

М (а) > ° и -JL7Ä(ä-----< * ’

где к не зависит от а и х, аналогично доказанной теореме выводится неравенство

sup

I М (®) - Мэмп («) I < /е sup I Р (/1) — Ѵ(4)|,

 

а

АЛ(а)

Aes

 

где система S определена как и раньше. Отсюда следуют

аналогичные оценки и

условия сходимости.

І

Применим полученный результат для оценки алгорит­ мов, основанных на минимизации эмпирического риска. Допустим, что функция потерь Q (х, а) неотрицательна и равномерно ограничена. Тогда из (13.8) следует, что

Е«Ц-1)

P{R (а*) - Ң К ) > е} < 6ms (21)е~ 1ваг ,

Соседние файлы в папке книги из ГПНТБ