Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Башкирский Государственный Аграрный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf

Скачиваний:

Добавлен:

25.10.2023

Размер:

12.29 Mб

Скачать

☆

<<< < Предыдущая 8 9 10 11 12 13 14 15 16 17 18 1920 / 4220 21 22 23 24 25 26 27 28 29 30 31 32 > Следующая >>>

§ 4.	УСЛОВИЯ		СХОДИМОСТИ	199
то
Поэтому		л >	Y d '	(9.23)
Поэтому
бг = р (а (0 ф GSg	I а	{N) е	Ge) <
< Р {(I а		(г) — сг6 (г) \| > Л) \| а		(N) е Gt }.

Воспользуемся неравенством Чебышева

^{|« (0 — « е (0|> Л |а (ЛГ )еС ,> <

М{(а(0-«е(і))*|а(Л0еСІ}

Ч---------------- Л2----------------

Учитывая далее (9.22) и (9.23), получаем

2 Т- (О-

i = N + l

Правая часть неравенства не зависит от і, поэтому, выбрав N достаточно большим, можно добиться, чтобы бг было меньше б при всех і N, а это и значит, что последова тельность выходит из бг2е с вероятностью, меньшей б.

Лемма доказана.

Докажем теперь теорему 9.1.

Для заданных е и б подберем N x так, чтобы для всякого N N-l вероятность последовательности выйти за пре делы области

G2t = {а: R (а) < А + 2е}

при условии, что а (N ) ge Gz, была меньше б. Это можно сделать в силу леммы 3.

Далее, в силу леммы 2 последовательность а (1),...

. . ., а (N), . . . с вероятностью 1 хоть раз войдет в G, после момента N x и, следовательно, выйдет из G2t с ве роятностью, меньшей б. Ввиду произвольности б и е это означает, что

R (а (і)) — ^ inf R (а)

І-КЯ а

свероятностью единица.

Теорема доказаңа,

200 ГЛ.	IX . О СХОДИМОСТИ РЕ К У РРЕ Н Т Н Ы Х АЛГОРИТМОВ
§ 5.	Еще одно условие сходимости рекуррентных
	алгоритмов

В условиях теоремы 1 не предполагалось, что сущест вует минимум функционала R (а). Достаточно было того, что функционал ограничен снизу и, следовательно, су ществует точная нижняя грань. Сходимость к точной нижней грани и утверждала теорема.

Сейчас будем предполагать, что минимум функционала существует. Это позволит ослабить требования к порядку роста модуля градиента функции потерь.

Теорема 9.2. (Б. М. Литваков [44]). Пустъ выполнены

следующие	условия'.
1) функционал R (а) ограничен снизу и существует
непустое	множество		Т = {а:	R (а) = inf R (а)},
'2) M{\|V0 <?(z, а )\|2} < 0				(1 + I а \|2),
3) М {£2 I а}		< £>	(1 + I а \|2).
Тогда	при	любом	а нач	с вероятностью единица

справедливо: R (а (і)) -—> inf R (а).

і —►СО	Выберем произвольную
Д о к а з а т е л ь с т в о .

точку а 0 €Е Т. Оценим долю б тех последовательностей, которые хоть раз выйдут из гипершара G с центром в а 0 и радиуса г. Для этого положим, что рекуррентные соот


ношения (9.13) выполняются лишь для			I а — а 0		\|	г
и вне гипершара G последовательность «залипает»,					т.	е.
а (і — 1), если	I а (г — 1) — а 0		\| ^> г,
а (і — 1) — у (г) [Ѵ0 Q (z,		а (і — 1)) +		£,],
І	если	I а (і — 1) —		а 0	\|	г.

Таким образом, последовательность, выйдя из гипершара, не может войти обратно.

Аналогично теореме 9.1, учитывая условия выпукло сти Q (z, а) и условия теоремы 9.2, можно показать, что

справедливо		неравенство
М {(а (і)	-	а 0)2} < М {(а (і -		1) - а 0)2} +
		+	2f (i)DМ {(1 +			а 2 (і -	1))}. (9.24)
Усилим	неравенство		(9.24),	для	чего	оценим величину
М (1 + а 2 (г -			1)} =	1 +	М {а2 (і -		1)}.

§ 5. ЕЩ Е ОДНО УСЛОВИЕ		СХОДИМОСТИ		201
Воспользовавшись	неравенством	а2 ^	2 (а — Ъ)2 + 2Ъ2,
получим
М {1 + а 2 (і - 1)} < 1 + 2М {(а (і -			1) - а 0)2} +
Подставляя (9.25) в (9.24), получим			+ 2аІ (9.25)

М {(а (і) - а 0)2} <	(1 + 4у2 (і) £>)М {(а (і -			1 ) - а 0)2}+
	+ 2у2 (i)D (1 +			2а%). (9.26)

Из неравенства (9.26) следует, что величина М {(а (і) —

—а 0)2} ограничена числом L,		не зависящим от номера і.
Покажем это.			2D (1 -f	2аІ) =	Ъ. По
Обозначим	( а Нач — “ о)2 =	а,	2D (1 -f	2аІ) =	Ъ. По
кажем, что справедливо неравенство
	г		г
М {(а (0 - а0)2} <	П (1 + 4Т2 (/) D) ( а + Ъ 2			Т2 (/))•	(9.27)
	з'=і	'	з=і	'

Для і = 1	справедливость неравенства легко проверяется:
М {(а (1) -	а 0)2} < (1 + 4у2	(1) D )a + y 2 (1) Ъ<
	<	(1 + 4у2 (1) D) {а + у2 (1) Ь).

По индукции легко доказывается справедливость нера венства и для любого і, если оно справедливо для і — 1:

						•і—1
М {(а (і) — а0)2} <				(1 +	4т2 (і) D)	П (* +		4?2 (Д D) х
	і—1				і	3 = 1			і
	і—1				і				і
X		Т2(І)) + b r2( 0 < n ( l + 4720')ö )(a +							3=1	Т* (7)) •
'	3=1		'		3=1			'	3=1	'
			'							'
	Остается показать, что величина							М {(а (і) — а 0)2}
ограничена, т. е.						оо
		оо				оо
		П (1 + 4т2 (Д D) (а +				Ъ 2	Г2 О)) <			(9.28)
		3=1			'	3=1		1
В	самом	деле,		в	произведении		(9.28) сомножитель
	оо							ОО
(а + Ъ 2		Т2(Д)		ограничен, так как			2 г 2(/)<С°°.

з=і

202 Г Л . ІХ . О СХОДИМ ОСТИ Р Е К У Р Р Е Н Т Н Ы Х АЛГОРИТМ ОВ

Сомножитель

со

11(1 - И г 2 (/) г)

3=1

также ограничен, так как бесконечное произведение

оо

П ( 1 + 4 т 2(У) D)

3 = 1

ограничено тогда и только тогда, когда сумма

оо

2 4 Т 2(/)Я і—1

ограничена.

Таким образом,

М {(ос (і) - а0)2} < L.

Используя	неравенство Чебышева, можно получить
неравенство	6 < ^ у .

На множестве G функция М {Q (z, а)} ограничена. Рассмотрим процесс, отличающийся от (9.13) лишь тем, что при выходе за пределы G он «залипает». Очевидно, что все реализации исходного процесса, не покидающие G, при этом сохранятся и вероятность «залипания» меньше б. Применительно к новому процессу можно повторить все рассуждения теоремы (9.1) и показать, что с вероят ностью, превышающей 1 — б, для этого процесса

R(a(i)) — > inf R (а).

г — оо а

Отличие лишь в том, что в лемме 2 величина бг есть вероятность того, что процесс за первые і шагов ни разу не вышел из области G и не вошел в Gt. Получая, далее, что lim öt = 0, приходим к выводу, что с вероятностью,

і —*оо

превышающей 1 — б, процесс входит в Gt. Остальные рассуждения повторяются, по существу, без изменения.

Далее, соответствующим выбором г величина б может быть сделана сколь угодно малой, откуда и следует ут верждение теоремы.

Гл а в а X

Д О С Т А Т О Ч Н Ы Е У С Л О В И Я Р А В Н О М Е Р Н О Й С Х О Д И М О С Т И Ч А С Т О Т

Е В Е Р О Я Т Н О С Т Я М Н О К Л А С С У

СО Б Ы Т И Й

§1. О близости минимума эмпирического риска

кминимуму среднего риска

Перейдем теперь к анализу методов, основанных на минимизации эмпирического риска. Пусть задана выборка

zx, • • •! Z;,

полученная в серии независимых испытаний при неизмен ном распределении Р (z), и известна функция Q (z, а). Требуется найти минимум функционала

R (а) = § Q (z, а) dP (г).

В дальнейшем будем полагать, что минимум R (а) суще ствует и достигается при а = а 0.

Рассматриваются методы, где в качестве приближения берется значение а*, доставляющее минимум функции

Дэмп (о) = -у- 2 Q (г,, а).

І = 1

Естественно, в качестве меры близости а 0 и а* взять разность значений функционала R (а) в этих точках:

р (а0, а*) = R (а*) — R (а„).

Как было указано в главе V,	близость значений а 0
и а* в этом смысле может быть	гарантирована, если

204 ГЛ. X. ДОСТАТОЧНЫЕ УСЛОВИЯ РАВНОМЕРНОЙ с х о д и м о с т и

функция Дэмп (а) равномерно по параметру а приближает функцию Д (а). В самом деле, если

sup I R (а) — Дэмп (а) | < е,

		а
то		R (а) — ДЭМп (а) <				е,		(10.1)
		ДЭмп Ю	— R Ю		<	е.		(10.2)
Кроме	того,	поскольку а 0 и			а* — точки минимума
соответственно		функций	Д (а) и Дэмп (а),				то
		Д (а0) <		Д (а*),				(10.3)
		■^эмп (а*) <		І ? Э М П Ю -				(10.4)
Из (10.1) — (10.4) непосредственно вытекает,								что
Или, иначе,		Д (а*) — Д (а0) <1 2е.

	Д (а‘) — Д (а0) <		2 sup \| Д (а) — Дэмп (а) \|.					(10.5)
Таким	образом, если		отклонение			функций		Дэмп (а)
и Д (а) при всех значениях				параметра не			превосходит

8, то значение истинного риска Д (а) в точке эмпириче ского оптимума а* не более чем на 2е отклоняется от минимального. Если же максимальное по а уклонение риска Д (а) и его эмпирической оценки велико, то, вообще говоря, замена истинного минимума эмпирическим может привести к большим ошибкам.

В задаче обучения распознаванию образов функция Q (z, а) в функционале Д (а) имеет специальный вид. Здесь каждый элемент z есть пара х, ю, где х — описание ситуации, а © — указатель класса, к которому в действи тельности относится эта ситуация. Обычно число классов невелико, т. е. со может принимать конечное небольшое число значений 0, 1, . . к. Каждому значению параметра а соответствует решающее правило F (х, а), причем функция F (х, а) принимает те же дискретные значения, что И (О.

В качестве критерия Д (а) обычно берется вероятность неправильной классификации с помощью правила F (х,а). Это значит, что определена функция штрафа

0 при (а = F,

Ф (CD, F) = {1 при © ф F

§ 1. ОБ УКЛОНЕНИИ МИНИМУМА ЭМПИРИЧЕСКОГО РИСКА 205

и функционал R (а) задан в виде

R (а) =■ J Ф (со, F (X, а)) dP (х , со).

Функция Ф (со, F) есть характеристическая функция множества

Та. = {х, со: F (X, а) ф со}.

Соответственно функционал R (а) при каждом значении а есть вероятность события Таі

R (а) = Р {F (х, со) Ф со} = Р (Гя).

Эмпирическая оценка Дэмп (а) равна частоте ѵ (Га) появлений этого события в обучающей выборке, т. е. частоте ошибок на материале обучения. Пусть теперь параметр а принимает всевозможные допустимые значе ния а 6Е Q. Соответствующие события Та образуют класс событий S. Равномерная близость функций Л (а) и R mn(a) означает равномерную близость частот и вероятностей событий Та по классу S.

Применяя формулу (10.5) в данном случае, имеем

R (а) - R Ы < 2 sup I у (Гв) - Р (Та) |. (10.5') xaes

В более общем случае проблема равномерной сходи мости функций ЛЭмп (а) и Л (а) также может быть све дена к равномерной сходимости частот к вероятностям в определенном классе событий (§ 2 главы XIII).

Перейдем теперь к выводу условий, которым должен удовлетворять класс событий S для того, чтобы выполня лась равномерная по классу сходимость частот появления событий к их вероятностям. Существенно, что при опре деленных условиях удается получить оценку равномерной близости частот к вероятностям, не зависящую от рас пределения Р (X, со), которое обычно неизвестно, и опре деляемую только внутренней структурой класса S. Эта оценка не содержит произвольных констант и позволяет эффективно оценить близость эмпирического оптималь ного решающего правила к истинному для заданного класса решающих правил при фиксированной длине обучающей последовательности.

206 ГЛ, X. ДОСТАТОЧНЫЕ УСЛОВИЯ РАВНОМЕРНОЙ с х о д и м о с т и

§2. Определение равномерной сходимости частот

квероятностям

Согласно классической теореме Бернулли, частота появления некоторого события А сходится (по вероят ности) в последовательности независимых испытаний к вероятности этого события. Выше мы убедились, что возникает необходимость судить одновременно о вероят ностях событий целого класса S по одной и той же вы борке. При этом требуется, чтобы частота событий схо дилась к вероятности равномерно по всем событиям клас са S. Точнее, требуется, чтобы вероятность того, что максимальное по классу уклонение частоты от вероят ности превзойдет заданную сколь угодно малую поло жительную константу, стремилась к нулю при неограни ченном увеличении числа испытаний.

Оказывается, что даже в простейших примерах такая равномерная сходимость моясет не иметь места. Поэтому хотелось бы найти критерий, по которому можно было бы судить, есть ли такая сходимость или же ее нет.

В этой главе будут найдены достаточные условия такой равномерной сходимости, не зависящие от свойства распределения, и дана оценка скорости такой сходимости. В главе XI мы введем необходимые и достаточные усло вия равномерной сходимости частоты к вероятностям. Эти условия уже будут зависеть от свойств распределения.

Пусть X — множество элементарных событий, на ко тором задана вероятностная мера Р (х). Пусть S — неко торая совокупность случайных событий, т. е. подмножеств пространства X, измеримых относительно меры Р (х) (S включается в а-алгебру случайных событий, но не обя зательно совпадает с ней). Обозначим через X (I) про странство выборок из X длины I. Тот факт, что выборка является повторной, т. е. получена в последовательности независимых испытаний при неизменном распределении, формализуется заданием вероятностной продукт-меры на X (I) из условия

Р Ы г X	. . . X А,]	= Р (AJ . . . Р (At),
где А — измеримые подмножества X.			события
Для каждой	выборки	X 1 = хх, . . ., ж, и	события
определена частота выпадения событий А,			равная

; X l )

ѵ{Х іі •

§ 2. ОПРЕДЕЛЕНИЕ р а в н о м е р н о й с х о д и м о с т и

207

отношению числа п (А) элементов выборки, принадлежа щих А, к общей длине выборки]

п(А)

I •

Теорема Бернулли утверждает, что при фиксирован ном событии А уклонение частоты от вероятности стре мится к нулю (по вероятности) с ростом объема выборки, т. е. для любого А справедливо:

Р {|І>(Л) - ѵ ( 4 ) |> е } - * 0 . l—*QO

Нас же будет интересовать максимальное по классу S уклонение частоты от вероятности:

я (Z) = sup IV1(4) — Р (Л) |. Aes

Величина я (I) является функцией точки в простран стве X (I). Будем предполагать, что эта функция измерима относительно меры в X (I), т. е. что я (Z) есть случайная величина.

Если величина я (Z) стремится по вероятности к нулю при неограниченном увеличении длины выборки Z, то говорят, что частота событий А S стремится (по веро ятности) к вероятности этих событий равномерно по классу S. Дальнейшие теоремы посвящены оценкам ве роятности события

{я (Z) >	е}
и выяснению условий, когда	для любого е > 0 справед
ливо

lim Р {я (Z) Д> е} = 0.

I—>оо

Вотличие от обычного закона больших чисел равно мерная сходимость частот к вероятностям может иметь или не иметь места в зависимости от того, как выбрано

множество S и задана вероятностная мера Р (х). Приве дем простейший пример, когда равномерной сходимости нет.

Пусть X — интервал (0, 1) и на нем задано равномер ное распределение вероятностей, т. е.

Р {х < а} = а; (0 < а < 1).

208гл . X. ДОСТАТОЧНЫЕ УСЛОВИЯ РАВНОМЕРНОЙ с х о д и м о с т и

Вкачестве системы S рассмотрим любую совокупность событий (измеримых подмножеств X), содержащую все ко нечные подмножества интервала (0,1). Очевидно, что ве роятностная мера Р (А ) каждого события, состоящего лишь из конечного числа элементов, в нашем случае равна нулю.

Пусть теперь дана выборка х1, ..., жг. Рассмотрим ко нечное множество А* ЕЕ S, состоящее из тех и только тех элементов х, которые встретились в этой выборке. Очевид но, что

ѵ(Л‘;жь . ..,ж,) = ^ - ^ - = 1,

в то время как Р (А*) = 0. Учитывая, что всегда

I Р (Л) - V (А) I < 1,

получаем

sup IV (Л; хъ ..., ж,) — Р (Л) I = 1. Aes

Это соотношение выполняется тождественно для любой выборки любой длины. Таким образом, в данном случае величина

л й ( а * , . . . , х і ) = 1

и не стремится к нулю ни в каком смысле. Совершенно аналогично показывается, что

n s ( хг , . . . , Хі) = = 1

и в более общем случае, когда X есть и-мерное евклидово пространство, Р (х) — любое распределение, обладающее плотностью, а S — любая система событий, включающая все события, состоящие из конечного чиСяа элементов. В частности, при этих предположениях в качестве S мож но взять полную систему событий, составляющую всю а-алгебру; тогда

л(Жі, ..., жг) =3 1

иравномерной сходимости нет. Таким образом, во многих случаях равномерная сходимость частот к вероятностям не имеет места для полной системы событий. Для того чтобы такая сходимость происходила, приходится в каче-

<<< < Предыдущая 8 9 10 11 12 13 14 15 16 17 18 1920 / 4220 21 22 23 24 25 26 27 28 29 30 31 32 > Следующая >>>

Соседние файлы в папке книги из ГПНТБ