Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Башкирский Государственный Аграрный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf

Скачиваний:

Добавлен:

25.10.2023

Размер:

12.29 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 4211 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

§ 10. ЗАМЕЧАНИЕ ОБ ОЦЕНКЕ СКОРОСТИ СХОДИМОСТИ Ю9

шающего правила F (х, а), ѵ (а) — частота ошибок этого правила на выборке хг, . . . , х г.

Допустим, что оптимальным является правило F (х, а 0), т. е. при а = а 0 достигается минимум функции Р (а). Для того чтобы гарантировать, что качество решающего

правила F(x,	аД, выбранного
из условия	минимума числа

ошибок, отличается от опти мального не более чем на е, не обходимо и достаточно, чтобы этот минимум лежал в области, где Р (ос) < Р (а0) + е.

Учтем далее, что сходимость частот к вероятностям для фик сированного значения а проис ходит значительно быстрее, чем равномерная сходимость по

всем значениям параметра. Поэтому уже при сравнительно

небольшой длине		выборки можно				принять,	что Р (ос0) ж
ж ѵ (а0).	Тогда е —- близость качества правил F (х, осД
и F (х, а 0) будет гарантирована, если потребовать,								чтобы
для всех	ос, для	которых			Р (ос)	Р (сс0)	+ в, частота
V ( а ) была бы больше чем ѵ ( а 0) ж						Р ( ос0) .		В гла
Оценим требующуюся для этого длину выборки.								В гла
ве XII будет показано, что справедлива односторонняя
оценка:	sup Р(Я)-ѵ(а(°) 0				',< l 6ms(2Qg		ьч
Р	sup Р(Я)-ѵ(а(°) 0				',< l 6ms(2Qg		4	(5.20)
	V р
Положим
		Ö =		V Р («о)+ е
Тогда из условия				V Р («о)+ е
Тогда из условия			Р і а ) -		vjx) <	ö		(5.211
		sup	Р і а ) -		vjx) <	ö
		sup		-------
следует,	что	а		У Р	(=0
следует,	что
	V к '	Р w		/ Р (<*>) + в
При Р (а) > (Ра) (>а0) +(а)е- получаем,						/ Р Й -
		V (а) >		Р (осД ж		V (аД.

HO	ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

Таким образом, условия (5.21) достаточно для е-бли- зости эмпирически оптимального решающего правила к истинно оптимальному. Подставляя значение б в (5.20), получаем

____ гЧ___
Р {Р (oti) — Р (а0) > 8} < 16ms (2/) е	4(Р(а°)+е) . (5.22)
В детерминистском случае Р (сс0) — 0 и мы получаем
оценку, близкую к (5.18), а при Р (а)	~ х/а — оценку,
близкую к (5.10).

Результаты главы XII позволяют получить и другую оценку качества решающего правила. Допустим, что

выполняется (5.21). Тогда,	разрешая (5.21) относитель
но Р (а), получим
^ ( “) < Т - ( 1 + /	1 + і ^ г І )+ ѵ ( а ) .	(5.22')

Потребуем теперь, чтобы (5.21) выполнялось для всех а с вероятностью, превышающей 1 — г). Для этого до статочно правую часть (5.20) приравнять ц:

ъч

16mS(2Z)e 4 = гр

Разрешая это уравнение относительно б и подставляя найденное значение в (5.22'), получаем окончательно

lnm s (2Z) — ln		^	4ѵ (а) I
Р ( а ) < 2		16	4ѵ (а) I
Р ( а ) < 2		/ 1 + In т ° (21) — ln -jg-
		/ 1 + In т ° (21) — ln -jg-
			+	ѵ(а)
При m(2l)	f
При m(2l)	1,5 -py
г (ln — + l ) — l n - ^-
а {P < 2 —---- ------I--		4v (а) I	+ v(o).	(5.23)
X / 1 +		r(la-2L + l ) - l n £	+ v(o).	(5.23)

i 11. ЗАМЕЧАНИЯ OB ОСОБЕННОСТЯХ МЕТОДА

111

Как и раньше, примем, что в точке & 0

V (а0) ж Р (а0).

Заметим, что для эмпирически оптимального а х справед ливо

V (а ,) <

Тогда с вероятностью 1

г Іи 21

Р (аі) — Р (а0) < 2 -

X 1 + / s

V ( а 0) = Р (ао).

ln -24

	X
	4v2 (ofi) I	(5.23')
	21	(5.23')
	21
	r In '

Используя (5.22), можно получить оценку длины обу чающей последовательности, которая в одном предельном

случае	(при Р (а0) =	0) совпадает с оценкой (5.19), а в
другом	предельном	случае (Р (а 0) ä 2/2) — с оценкой

(5.12). Для этого достаточно правую часть неравенства

(5.22) приравнять ц и разрешить относительно I. Получаем

I (г —In В) (Р (<*») + е)

е2

В этой главе были приведены качественные оценки длины обучающей последовательности. Строгие оценки получены в главе X III. Однако при использовании оце нок важно не столько их конкретное выражение (ведь оценки получены в предположении наиболее неблаго приятных условий), сколько структура связи основных параметров

г, I, е, Р ( а0), У].

§ И . Замечания об особенностях метода минимизации эмпирического риска

Характерной особенностью изложенной теории мини мизации эмпирического риска является полное отсутст вие каких бы то ни было указаний на конструктивную воз можность построения алгоритма. Это обстоятельство име ет как свои недостатки, так и преимущества. Недостаток заключается в том, что построенная теория не указывает

112 ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

на регулярные процедуры, которые должна реализовать обучающая программа, как было в теории рекуррентных алгоритмов. Здесь исследователю каждый раз приходится изобретать алгоритмы, подчиняющиеся определенным об щим правилам.

Преимущество такой теории — ее общность. Так, при исследовании задачи обучения распознаванию образов не возникает необходимости различать две постановки зада чи — детерминистскую и стохастическую. И если все су ществующие рекуррентные алгоритмы обучения распозна ванию образов, по существу, строят в спрямляющем про странстве разделяющую гиперплоскость, то конструк тивные идеи алгоритмов обучения распознаванию образов, использующих метод минимизации эмпирического риска, значительно богаче. В частности, метод минимизации эмпирического риска может быть применен в классе ку сочно-ломаных функций, логических функций опреде ленного вида и др.

у Все эти преимущества связаны с тем, что метод мини мизации эмпирического риска отвечает на вопрос «что надо делать», оставляя в стороне вопрос о том, «как это сделать». Поэтому для минимизации эмпирического рис ка широко могут быть использованы различные методы, в том числе и эвристические.

Применение эвристических методов в этом случае име ет теоретическое оправдание: если в классе решающих правил, емкость которого невелика, выбрать правило, которое хотя и не минимизирует эмпирический риск, но доставляет ему достаточно малую величину, то в силу рав номерной сходимости выбранное правило будет иметь до статочно высокое качество.

Таким образом, алгоритм заведомо способен обучаться, если:

1 ) емкость класса решающих правил алгоритма неве лика,

2 ) выбирается правило, которое доставляет величине эмпирического риска малое значение.

Конструктивные идеи таких алгоритмов имеют чрез вычайно наглядную геометрическую интерпретацию: в пространстве надо построить гиперповерность, принадле жащую заданному классу гиперповерхностей (характер класса гиперповерхностей существенно определяет осо

§ 12. АЛГОРИТМЫ МЕТОДА ОБОБЩ ЕННОГО ПОРТРЕТА

И З

бенность алгоритма), которая по возможности с мень шим количеством ошибок, разделяет векторы обучающей последовательности одного класса от векторов обучающей последовательности второго класса. Методы построения таких разделяющих поверхностей и составляют кон структивную особенность алгоритмов обучения распозна ванию образов. При этом принято различать два класса алгоритмов: алгоритмы, строящие «гладкие» разделяющие гиперповерхности, и алгоритмы, строящие «не глад кие» разделяющие поверхности. Методы построения гладких разделяющих поверхностей основаны на построении разделяющей гиперплоскости в соответ ствующем спрямляющем пространстве. Один из них — метод обобщенного портрета будет подробно рассмотрен в третьей части книги. Методы построения «не гладких» разделяющих гиперповерхностей берут свое начало с работ М. М. Бонгарда и М. Н. Вайнцвайга, предложивших один из наиболее популярных алгоритмов обучения такого типа — алгоритм «Кора» [4, 9].

§ 12. Алгоритмы метода обобщенного портрета

Алгоритмы метода обобщенного портрета реализуют идею минимизации эмпирического риска в классе линей ных и кусочно-линейных функций.

Сам метод обобщенного портрета состоит в специальном способе построения разделяющей гиперплоскости. В слу чае, если обучающая последовательность может быть разделена гиперплоскостью, существует целое семейство разделяющих гиперплоскостей. Особенность метода зак лючается в том, что с его помощью строится оптимальная разделяющая гиперплоскость (т. е. гиперплоскость, ко торая из всех разделяющих гиперплоскостей наиболее далеко отстоит от ближайшего к ней элемента обучающей последовательности). Важной особенностью метода обоб щенного портрета является возможность установить (в случае, если это так), что «безошибочного» разделения элементов обучающей последовательности не существует.

Различные алгоритмы, реализующие метод построения обобщенного портрета, предназначены для построения разделяющей гиперплоскости в условиях, когда безоши бочное разделение векторов невозможно. В этих случаях

114 ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

используются алгоритмы, минимизирующие эмпиричес кий риск в классе линейных или кусочно-линейных ре шающих правил.

В качестве примера приведем здесь идею двух таких алгоритмов (подробно система алгоритмов метода обоб щенного портрета будет рассмотрена в третьей части книги).

Если обучающая последовательность не может быть безошибочно разделена на два класса, среди векторов обу чающей последовательности определяется тот, который наиболее «препятствует» разделению. Он исключается из обучающей последовательности, а оставшиеся векторы вновь разделяются гиперплоскостью. Если разделение все еще невозможно, то исключается еще один вектор, и так до тех пор, пока множество оставшихся векторов не будет разделено. При этом считается, что число исключенных векторов минимально (или близко к нему). Правило удалений определяется эвристическим понятием «вектора, наиболее препятствующего разделению». Удаленные из обучающей последовательности векторы как раз и со ставляют множество неправильно опознанных векторов. Отношение числа этих векторов к числу всех векторов обучающей последовательности определяет величину эмпирического риска для выбранного решающего пра вила (обобщенного портрета). Величина же истинного риска для найденного правила с вероятностью 1 — ц отли чается от эмпирического риска не более чем на е, где е определяется согласно (5.11).

Если с помощью приведенного алгоритма будет пост роена разделяющая гиперплоскость, которая неправильно классифицирует слишком много векторов обучающей по следовательности, то считается, что в классе линейных решающих правил нет удовлетворительного правила, и делается попытка отыскать такое правило в классе ку сочно-линейных правил. Для этого сначала строится раз деляющая гиперплоскость, минимизирующая число оши бок, а затем к ней «пристраивается» еще одна гиперплос кость, с тем чтобы с помощью гиперповерхности, состав ленной из двух кусков гиперплоскостей, минимизировать число ошибок при разделении обучающей последователь ности. Если ошибок все еще много, то достраивается ещо одна гиперплоскость и т. д.

§13. АЛГОРИТМ КОРА

115

С увеличением числа к кусков гиперплоскостей умень шается количество неправильно опознанных векторов, т. е. уменьшается величина эмпирического риска. Однако величина ек гарантированного уклонения истинного риска от эмпирического растет с ростом числа кусков гипер плоскостей по линейному закону

гк = кг.

Отсюда следует, что желательно разделить обучающую последовательность с помощью минимального числа кус ков гиперплоскостей.

Различные алгоритмы реализуют разные идеи построе ния такого кусочно-линейного правила, которое миними зирует сумму величины эмпирического риска и величины гарантированного уклонения.

§ 13. Алгоритм Кора

Все рассмотренные до сих пор конструктивные идеи алгоритмов обучения распознаванию образов были свя заны с построением в спрямляющем пространстве разде ляющей гиперплоскости. Алгоритм обучения распознава нию образов «Кора» исходит из иных конструктивных идей.

Пусть обучающая последовательность распадается на два множества векторов — множество векторов первого класса {х} и множество векторов второго класса {х}. Задается множество характеристических функций ф (х, т), которые называются признаками. Из множества при знаков алгоритм выделяет так называемые достаточные признаки. Достаточным признаком для векторов первого класса называется признак ф (х, т*), который на всех векторах второго класса принимает значение 0 , а на не которых векторах первого класса 1 .

Аналогично определяются достаточные признаки вто рого класса. Алгоритм выбирает t достаточных признаков первого класса и t достаточных признаков второго клас са, так, чтобы для каждого вектора обучающей после довательности нашлось несколько достаточных призна ков, принимающих на этом векторе значение 1. Иными словами, признаки должны «покрывать» все множество примеров.

116	ГЛ. V. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА

Опознание вектора, не участвовавшего в обучении, проводится так: подсчитывается, сколько достаточных признаков первого класса на этом векторе приняли зна чение единица и сколько достаточных признаков второго класса приняли значение единица. Вектор относится к тому классу, для которого число достаточных признаков, принявших значение единица, больше.

Особенность алгоритма «Кора» состоит в том, что рас сматривается бинарное пространство X. В качестве клас са характеристических функций ф (х , т) берутся все воз можные конъюнкции двух-трех переменных.

Для каждого класса отбор конъюнкций (признаков) производится по следующим правилам:

1.Из всех возможных признаков (конъюнкций трех переменных) отбираются достаточные признаки. Доста точные признаки упорядочиваются: считается, что при знак ф (X, тД лучше, чем ф (х , т2), если число векторов обучающей последовательности, обладающих этим при знаком (т. е. векторов, для которых ф (х, тД = 1), больше числа векторов, обладающих признаком ф (х , т2).

2.Из найденного множества достаточных признаков исключаются «подчиненные». Признакф (х, т2) называется «подчиненным» признаку ф (х, тД, если множество векто ров обучающей последовательности {х : ф (х, тД= 1}, обладающих признаком ф (х, тД, включает в себя мно жество векторов {ж:ф(ж, тД = 1}, обладающих при знаком ф (х, тД. Подчиненность признаков легко про

веряется от старшего в упорядоченном ряду признака

кмладшему.

3.Из оставшихся достаточных признаков произво дится окончательный отбор t признаков. Принцип отбора таков, чтобы в окончательный набор вошли признаки, которые «покрывают» все множество примеров, данное на обучение, и чтобы, по возможности, все примеры обладали приблизительно одинаковым количеством признаков

(признаки должны «покрывать» множество примеров «рав номерно»).

Характерной особенностью алгоритма «Кора» являются небольшая емкость класса решающих правил и чрезвы чайно простой метод (хотя и эвристический) поиска пра вила, минимизирующего эмпирический риск.. Заметим, что указать класс функций малой емкости, в котором

§ 13. АЛГОРИТМ КОРА

117

можно найти достаточно хорошее решающее правило, значительно труднее, чем класс функций большой ем кости.

Оценим число возможных решающих правил для алго ритма «Кора». Пусть бинарное пространство X имеет раз мерность п, тогда число возможных троек координат рав

но Сп■На каждой тройке с помощью конъюнкции может быть задано восемь функций алгебры логики. Таким об

разом, всего возможно Т = 8 С® различных признаков. Из возможных признаков должно быть отобрано t доста точных признаков первого класса и t достаточных призна

ков второго класса. Так как существует не более Ст спо собов выбрать t признаков из множества, содержащего Т элементов, то число различных решающих правил N ограничено величиной

N < (8 С1Т) \

Следовательно, N < пъі и, согласно (5.17), в случае,! если величина эмпирического риска близка к нулю, ве-І роятность неправильной классификации с помощью най-' денного правила уклонится от эмпирической оценки не более чем на величину

6t ln п — ln n

е = -------

1------

L-

Заметим, что величина уклонения пропорциональна только логарифму размерности пространства. В этом и есть замечательная особенность рассмотренного класса не гладких решающих правил.

Г л а в а VI

М Е Т О Д У П О Р Я Д О Ч Е Н Н О Й М И Н И М И З А Ц И И Р И С К А

§ 1. О критериях оценки качества алгоритмов

До сих пор мы интересовались только тем, каким усло виям должен удовлетворять алгоритм, чтобы обеспечить машине способность обучаться. Были рассмотрены рекур рентные алгоритмы. Оказалось, что они требуют достаточ но большой обучающей последовательности. Поэтому бы ла рассмотрена их модернизация, которая заключалась в запоминании обучающей последовательности и много кратном ее использовании. Суть этой модернизации со стояла в том, что задача решалась методом минимизации эмпирического риска. Были найдены условия, при кото рых алгоритмы минимизации эмпирического риска при водят к успеху, и тем самым получена возможность строить различные алгоритмы, способные обучаться рас познаванию образов. Какой же алгоритм выбрать теперь для решения конкретных задач? Какой из алгоритмов обу чения распознаванию образов будет лучше работать на выборках фиксированной длины Z?

Для того чтобы строить наилучшие алгоритмы на вы борках фиксированной длины (конечно-оптимальные ал горитмы), надо прежде всего договориться о том, как оценивать качество алгоритма (т. е. о том, каков критерий оптимизации).

Качество алгоритма обучения при решении конкрет ной задачи естественно определять как качество решаю щего правила, выбранного им по обучающей последова тельности. Качество же решающего правила F (х , а*) для конкретной задачи, заданной распределением Р (х, со),

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 4211 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в папке книги из ГПНТБ