Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Башкирский Государственный Аграрный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf

Скачиваний:

Добавлен:

25.10.2023

Размер:

12.29 Mб

Скачать

☆

<<< < Предыдущая 7 8 9 10 11 12 13 14 15 16 17 1819 / 4219 20 21 22 23 24 25 26 27 28 29 30 31 > Следующая >>>

§ 3. ОБОБЩЕННЫЙ ГРАДИЕНТ

189

Очевидно, что во всех точках, где выпуклая функция дифференцируема, обобщенный градиент совпадает с обыч

ным. В		самом деле, допустим, что в некоторой							точке а 0
VF (а0)	ф V0F (а0).		Тогда	существует				вектор	е такой,
что		((V0F - V F ) ,			е) =	с >	0.

Положим			а (t)	=	а 0 +	te.

Тогда
F (а0) -		F (а (t)) -	(VF,	e)t + o(t) =
			=	(VoF,		e ) t - c t + о (t). (9.12)
Поскольку с > О,			а о (t)	— величина			второго		порядка
малости,		при достаточно малых t ф- 0					обе части равенст-о
ва (9.12)		становятся	меньше,		чем (Ѵ0		F,	е), что противо- '
речит	(9.11).
Рассмотрим пример выпуклой функции, которая не
всюду	дифференцируема:

Ф (а) = I (а, z) — с j ,

где z — некоторый фиксированный вектор, а с — фикси рованный скаляр. Эта функция имеет градиент всюду, за исключением многообразия

{а: (а,		z) — с}.
Определим обобщенный	градиент следующим образом:
	Z	при (<х0, z) >	с,
VоФ (о-о)	0	при (а0, z) =	с,
	—z при (а0, z) <		с.

При (а0, z) Ф с обобщенный градиент совпадает с обыч ным, а при (а0, z) = с условие (9.11), очевидно, выпол няется, поскольку нри этом

(Ѵ0Ф (а0), (а — а 0)) = 0,

вто время как

Ф(а) — Ф (а0) = Ф (а) > 0.

190ГЛ. IX. О СХОДИМОСТЕЙ РЕКУРРЕНТНЫХ АЛГОРИТМ0Й

Вглаве IV была введена в рассмотрение функция потерь

Q (г,а) = 2 ° і гі + с	а :Zl
г=1

Как нетрудно убедиться, в качестве обобщенного гра диента суммы функций можно взять сумму обобщенных градиентов.

Поэтому для этой функции обобщенный градиент можно положить равным

		П
2z	при	2 <»>.
		г—1
VaQ (z, а) = Z		П
VaQ (z, а) = Z	лри	2 aizi =
		г—1
		п
0	при	2 аг2І <С С-
		г=1

В дальнейшем будем рассматривать только выпуклые по а функции потерь. Это будет означать, что для таких функций всегда существует обобщенный градиент и вы полнены условия

Q (z, а) — Q (z, а 0) > (Ѵ0 Q (z, а 0), (а — а 0)).

§ 4. Условия сходимости рекуррентных алгоритмов

Итак, пусть задана выпуклая по а при любом фиксиро ванном z функция потерь Q (z, а) и определена процедура получения последовательности а (1), . . ., а (п), . . .:

а (і) = а (і — 1) +	у (і) Ѵ„ Q (zb	а (i — 1)).
Рассмотрим несколько более общую, чем в главе IV,
процедуру образования	последовательности
а (г) = а (г — 1) + у (г) [V0 Q (zt, а (г —		1)) + У , (9.13)

отличающуюся тем, что — случайная помеха при изме рении обобщенного градиента, которая удовлетворяет

§ 4. УСЛОВИЯ СХОДИМОСТИ

191

условиям

М ( І I а, z) = О,

Будем	М	(£2	I а, z ) < Z > < оо.
	М		I а, z ) < Z > < оо.
	считать,		что величины у (г)	О, образующие

бесконечную последовательность неотрицательных чисел, таковы, что

2	Т (0 =
І—1
оо
2	та(0 < °°-
і= 1

Процедура (9.13) для заданного начального условия а = = а нач определяет случайный процесс. Реализации этого случайного процесса индуцируются последователь ностями точек zx, . . ., zn, . . ., которые появляются неза висимо в соответствии с распределением Р (z). Распре деление же Р (z) таково, что для любого а существует

R ( а ) =	§ (z . а)dP (z ) =	{<? (2 . а )}
и
D (а) = $ I Ѵо<? (2, а) I2 ^ (2) =		Мг(\| Ѵ0<? (z, а) \|®}.
Справедлива	теорема	[44]): Если:
Теорема 9.1.	(Б. М. Литваков	[44]): Если:

1)функционал R (а) ограничен снизу,

2)функция D (а) ограничена сверху, т. е. D (а) ^ D,

3)дисперсия помехи % ограничена сверху, т. е. D (%) D , то при любом начальном векторе а н;1Ч последователь

ность R [ а ( і ) ] —> i n f	R (а) с вероятностью 1 .
і —*оо а	теоремы опирается на _ .следующие
Доказательство	теоремы опирается на _ .следующие

леммы.

Лемма 1. Для любых N и б > 0 можно подобрать такое г > 0, чтобы вероятность того, что вектор а (N) ока жется внутри гипершара Gn с центром в а нач и радиусом г, была больше 1 — б.

Д о к а з а т е л ь с т в о . Покажем сначала, что для любого і существует ограниченная величина Г (г) =

Ü92 ГЛ. IX . О СХОДИМОСТИ РЕК У РРЕН ТН Ы Х а л г о р и т м о в

*=М{(а (г) — а нач)2} *). Согласно процедуре (9.13) спра ведливо равенство

М {(а (і) — а нач)2} = М {(а (і — 1) — а нач)2} — 2у (і) х

X М {((а (і - 1 ) -	а Нач ), (Ѵ0 Q (zit		а (г -	1 )) +	5 , ) ) } +
+ V2 (ОМ {	I Vo Q (z;,	(i	1)) +	U I 2}.	(9.14)

Увеличим правую часть этого равенства. Согласно условию
теоремы					a	-
теоремы		М {I I a,			z } =	О,
		М {I I a,			z } =	О,
		М {[Ѵ0<?А,		а (і — I))]2} <				D,
		М {£2 [ а (г — 1),
	Поэтому у2 (i)M		{[Ѵ0 Q {zu а (i — 1)) +					g{]2} <	2y2 (i) D.
Кроме того,		используя		то,	что	для выпуклой			функции
и любых z,		а х и а 2 справедливо неравенство
	((«і — а 2), Ѵ0 Q (z,			«!)) > Q (z,			а х) — Q (z,		а 2),
оценим величину			М {((а (г — 1) — а нач),					Ѵ0 Q (z,		a (i —
									-	1)))}:
М {((а (г — 1) — а нач),				Vo Q (z,		a	(i — 1)))} >
> М {<? (г,		а (і —	1))} — M{Q (z, а нач)} =
		=	Л (а (і — 1)) —Л (анач)					А	Л (аНач),
где	А — inf Л (а).								а)
	а
	Таким образом, оказывается справедливым неравенство
М {(а (г) — а нач)2} < М {[а (г — 1) — а нач]2} + с (г),										(9.15)
где	с (і) =	2у (г) (Л (ана,,) — А)				+ 2Dy2 (і).			что
	Используя неравенство				(9.15) и учитывая,				что
		М {(а (1) — а нач)2}				=	с (1),
непосредственно получаем,					что	N
						N
	М {(а(7Ѵ )-анач)2} <					2	с (і) =	Г№,
						г = і

т. е. величина М {(а (N ) — а нач)2} ограничена числом Tjv.

*) Для сокращения записи здесь и дальше используются обод, начения а2 := (а* в),

§ 4. УСЛОВИЯ СХОДИМОСТИ

193

Для доказательства леммы воспользуемся неравен ством Чебышева для нецентрированных случайных ве личин

Р ( |а ( Л 0 - а нач|> г ) < М {[ а (N) — «нач I2}

г2

Усилим это неравенство; учитывая, что

М {| а (N) — анач I2} < TN,

получим

Р ( |а ( У ) - а нач |> г ) < - ^ - .

Потребуем, чтобы эта вероятность не превосходила б. Это произойдет, если величины г, TN, б будут связаны соотношением

£jv

г2

откуда следует, что с вероятностью, превышающей 1 — б, точка а (N ) будет находиться внутри гипершара G с цен тром в а нач и радиусом

Лемма 1 доказана.

Пусть, далее,

А = inf R (а).

Обозначим через Gz область значений а:

Gt = {a: R ( а ) < А + е}.

Лемма 2.	Для		любых	г	0 и N последовательность
а х, . . ., a N,	. .	.,	а г, . . .	с вероятностью 1 жотгеьраз вой
дет в область		Gz при і ^			N.
Утверждение леммы 2 эквивалентно такому: вероят
ность того,	что		подпоследовательность а#, . . .,			a t ни
разу не заходит в область Gt, стремится к нулю при і						оо.
Д о к а з а т е л ь с т в о .					Для доказательства	удоб

но рассмотреть процедуру, отличающуюся от (9.13)

только	тем, что	если	последовательность при г	N
входит	в область	Gt,	то она там и остается.

7 В. Н. Вапник, А. Я. Червонешшс

194 ГЛ.	IX .	О СХОДИМОСТИ	РЕ К У РРЕ Н Т Н Ы Х	АЛГОРИТМОВ
Для	этого будем считать, что соотношение
а (г) = а (г — 1) — у			(і) [Ѵ0 Q (z, а (і — 1)) + У
выполняется всегда при і			N + 1, а при і !> N +		1 —
лишь для		а (і — 1) ф Gt . В случае же,		когда при	і ^
> N +	1	элемент а (і — 1) принадлежит		бге, последова
тельность		«залипает», т. е.
		а (і) = а (і — 1).

Очевидно, что если последовательность а (1), ..., а (N), ...

..., а(і), построенная в силу исходного алгоритмами разу не заходит в Gt при і > N , то последовательность, постро енная по новому правилу, ничем не отличается от исход ной и, в частности, не заходит в GEпри і ^ N. Поэтому достаточно оценить вероятность того, что новая последо вательность ни разу не войдет в Gt при і > N.

Вобласти Gt выберем точку а*, для которой і?(а‘) < Л + |

(это всегда можно сделать), и оценим величину М {(а (г)—

— а*)3} для процедуры

а (і)	'а(і — 1), если			і > N + 1 и	а ( і - 1 ) е С і ,
	а (і -	1) -	Г (і) [ Ѵ0Q (zu а (і -		1)) + У	(9.16)
				в противном случае.
Согласно		этой	процедуре при		а (і — 1) ф. Gt
М ((а (і) — а*)2 I а (і				— 1)} =tf(а (г — 1) — а*)2 —
—2у	(і) [М {Ѵ0<2 (z, os			(i — 1)) I а (i — 1)}, (а (і — 1) —
— а*)] — 2у (і) [М {It				I а (і — 1)}, (а (і — 1) — а*)] +
	+ у2 (і) М {І2 -f			[Ѵ0 Q (z, а (і — I))]31а (і		— 1)}.
В	силу условий теоремы
				М { I t I а} =	О,

атакже

М{ІѴ0 Q (z, а)]2} < Л и М { ? 2 | а } < 0 .

§ 4.

УСЛОВИЯ

СХОДИМОСТИ

195

Поэтому

справедливо

неравенство

М {(а (і) — а*)2

I а

(і — 1)} ^ f( a

(i — 1) — а*)2—

—2у (t) (М {V0

(z,

а (i — 1))},

(а (i

— 1) — а*)) +

2у2 (i) D.

(9.17)

Далее, поскольку функция Q (z, а (і — 1)) выпукла, то

(Vo Q (z, а

(і — 1)), (а (і — 1) — а*)) >

Q (z, а (і — 1)) —

— Q (z, а*)

и поэтому

(М {Ѵ0 Q (z,

а (і — 1)) I а ( і— 1)},

(а (і — 1 )—

а*)) >

> Л (а (і -

1)) -

Л (а*).

(9.18)

Но точки а (і — 1) и а*

выбраны так, что

Л (а (і — 1))

А +

(поскольку

а (і — 1) ф. Gt)

Л (а*)< Л +

и, следовательно,

Л ( а ( і - 1 ) ) - Л ( а ‘) >

(9.19)

Объединяя (9.17),

(9.18)

и (9.19),

получаем,

что при

а (і — 1)

М {(а (і) -

а*)2

I а (г -

1)}

(г -

1) - а*)2 -

— У (0 е + 2у2 (і) D.

Если же

при і

1 элемент

(і

— 1) ЕЕ Ge,

то

М {(а (і) — а*)2 I а (і

— 1)} = (а (і

— 1) — а*)2.

Пусть

бг — вероятность

того,

что

а (і — 1) ф Gz.

Тогда, переходя к безусловному математическому ожида нию, получим для і > N + 1

М{(а (і) — а*)2} ^ М {(а (і — 1) — а*)2} — s8,y (і) +

+2Т2 (і) D.

196 ГЛ. IX. О СХОДИМОСТИ РЕКУРРЕНТНЫХ АЛГОРИТМОВ

Из этого рекуррентного соотношения, очевидно, сле

дует, что	при	£ > ІѴ + 1
М {(а (£) -	а*)2} <	М {(а (N ) — а*)2} —
		г	г
		— 8 2 tyr(y') +	2D 2 Т2(Л-
		j=N+l	3=JV+l

Всилу леммы 1 величина

М( а (N ) — а * )2

ограничена, и по условию	теоремы ряд	2	Т2(0 схо-
дится. Поэтому		І=ІѴ+1
дится. Поэтому	і
	і
М { ( а ( 0 - с О 2} <	С - е 2	(7),	(9.20)
	j=jv+l

где с — константа, не зависящая от г.

Далее, поскольку процедура (9.16) организована так, что, попав в Ge, последовательность «залипает», вероят ность 6і не возрастает с ростом і.

Если	бы при этом öj оставалась больше некоторого
б Д> 0,	то величина
	І
	2 бя(у)
	J=IV+1

с ростом і неограниченно возрастала, поскольку при этом

		1	і
		2 öiT (7)>Ö	2 Т(Л,
	СО	i = N - f l	3=ІѴ+1
а ряд	2	Т (І) расходится.
Но	jWV-f-l	невозможно, потому что тогда правая часть
Но	это	невозможно, потому что тогда правая часть

неравенства (9.20) становилась бы отрицательной при достаточно больших £, тогда как левая часть положитель

на. Следовательно,	последовательность	бг	стремится
к нулю при і -V оо.
Остается отметить, что последовательность а (і) орга
низована процедурой	(9.16) так, что если	она	хоть раз

§	4. УСЛОВИЯ	сходимости	197
войдет в 6ге при і	N + 1,	то она там и останется к мо

менту і. Следовательно, вероятность того, что последо

вательность a N, . . .,				а г ни разу не заходит в Gu равна
6г и стремится к нулю при t — ОО.
Лемма	доказана.				О и б )> 0 существует такое
Лемма 3. Для любых е
N lt что	при	всех	N	Д N t	вероятность последователь
ности ам,	. .	., а г,	. . . выйти из области
		G%t =		{а: М (а) ^ А -\|- 2е},

при условии а (N ) 6= Gt, меньше б.

Д о к а з а т е л ь с т в о . Оценим вероятность б* того, что в последовательности aN, . . ., а, хотя бы один эле

мент	не	принадлежит	(г2е при условии,		что	а n Gr Gt.
Для этого' изменим процедуру (9.13) при і						N + 1,
положив
	а	(г — 1), если	а (і — 1)	Git,
а (і) =	а (і — 1) — у (i) [V0 Q (z, а (i — 1)) +				£,],	(9.21)
			если а (i — 1) e		G2E.

Очевидно, что величина б* равна вероятности того, что ссі ZjÉ G2s при условии ajy £Е Ge, если, начиная с i = = N + 1, действует процедура (9.21).

Обозначим через а£ (£) точку множества Ge, ближай шую к а (г), и оценим величину

М {(а (і) — а е (і))2}.

Очевидно, справедливо неравенство

(а (і) — а е (г))2 < [а (г) — а е (г — I)]2.

Поэтому при а (г — 1) е G2e в силу процедуры (9.21)

М {(а (і) — а £ (і))21а (і — 1)} <		М {(а (г) —
- «е (і - I))21 а (і - 1)}	< (а	(Ä — 1) —	(і -	I))2 -
—2у (г) (М (Ѵ0<? (z, а (г — 1))}, (а (і —1) — а е (і —				1))) +
			+ 2Пу2 (г).
В силу выпуклости (? (г,	а) справедливо неравенство
(М {Ѵ0<2 (z, а (і — 1))}, (а (г — 1) — а е (£ — 1))) >
>	R (а	(г - 1)) -	R (а, (і - 1)).

198 гл . IX . О СХОДИМОСТИ РЕ К У РРЕ Н Т Н Ы Х АЛГОРИТМОВ

Но при	а (і — 1) <= Gz элементы а (і) г оЕ(і) совпадают,
а при	а (і — 1) ф	G&
	R (а	(і	— 1))^> R		(се£ (і —			1)).
Поэтому
	R (а (і	—	1)) — R (а£ (і			— 1))		0.
Следовательно,
М {(а (і) — а £ (і))2		I а	(і — 1)} <		(а (і		— 1) —
				— at (i — I))2 +					2у2 (г) D.
Если же а (і — 1) ф			G2£	при і ;> ІѴ + 1, то
М {(а (і) — а £ (г))2		\| а	(і — 1)} =		(а (і — 1) —а £ (і — I))2.
Таким	образом, всегда
М {(а (і) — а £ (г)) I а (і — 1 )} <
	<	(« (і		- 1) -	а е (і		-	I))2 +	2у2 (і) £>.
Из этого рекуррентного				соотношения			следует,		что при
і ]> N	справедливо					І
						І
M { (a (i)-a £(0 )2\|a(iV0 eEGE} < 2 D						2	т20 ')<
							оо
					< 2 D		2	Т2 0)і (9.22)
							j=N+x
поскольку при а (/V) ЕЕ Gt имеет место

(а (N) - а £ (ІѴ))2 = 0.

Далее, оценим расстояние Л между произвольным эле ментом а ф С2е и множеством G£, т. е. ширину зоны, которую должна пройти точка а (£), чтобы из Gt уйти за пределы G2£. Так как функция R (а) выпукла,

Ѵ0Я ( а) = М (I Ѵ0 Q(z, а) |} < / Я ,

для всякой точки a g C j выполняется неравенство

R (а) А + е

и для всякой точки а ф Ga — неравенство

R (а) > А + 2в,

<<< < Предыдущая 7 8 9 10 11 12 13 14 15 16 17 1819 / 4219 20 21 22 23 24 25 26 27 28 29 30 31 > Следующая >>>

Соседние файлы в папке книги из ГПНТБ