 
        
        книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения
.pdf| § 3. ОБОБЩЕННЫЙ ГРАДИЕНТ | 189 | 
Очевидно, что во всех точках, где выпуклая функция дифференцируема, обобщенный градиент совпадает с обыч
| ным. В | самом деле, допустим, что в некоторой | точке а 0 | |||||||
| VF (а0) | ф V0F (а0). | Тогда | существует | вектор | е такой, | ||||
| что | 
 | ((V0F - V F ) , | е) = | с > | 0. | 
 | 
 | ||
| 
 | 
 | 
 | 
 | ||||||
| Положим | а (t) | = | а 0 + | te. | 
 | 
 | 
 | ||
| 
 | 
 | 
 | 
 | 
 | 
 | ||||
| Тогда | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| F (а0) - | 
 | F (а (t)) - | (VF, | e)t + o(t) = | 
 | 
 | |||
| 
 | 
 | 
 | = | (VoF, | e ) t - c t + о (t). (9.12) | ||||
| Поскольку с > О, | а о (t) | — величина | второго | порядка | |||||
| малости, | при достаточно малых t ф- 0 | обе части равенст-о | |||||||
| ва (9.12) | становятся | меньше, | чем (Ѵ0 | F, | е), что противо- ' | ||||
| речит | (9.11). | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| Рассмотрим пример выпуклой функции, которая не | |||||||||
| всюду | дифференцируема: | 
 | 
 | 
 | 
 | 
 | 
 | ||
Ф (а) = I (а, z) — с j ,
где z — некоторый фиксированный вектор, а с — фикси рованный скаляр. Эта функция имеет градиент всюду, за исключением многообразия
| {а: (а, | z) — с}. | 
 | |
| Определим обобщенный | градиент следующим образом: | ||
| 
 | Z | при (<х0, z) > | с, | 
| VоФ (о-о) | 0 | при (а0, z) = | с, | 
| 
 | —z при (а0, z) < | с. | |
При (а0, z) Ф с обобщенный градиент совпадает с обыч ным, а при (а0, z) = с условие (9.11), очевидно, выпол няется, поскольку нри этом
(Ѵ0Ф (а0), (а — а 0)) = 0,
вто время как
Ф(а) — Ф (а0) = Ф (а) > 0.
190ГЛ. IX. О СХОДИМОСТЕЙ РЕКУРРЕНТНЫХ АЛГОРИТМ0Й
Вглаве IV была введена в рассмотрение функция потерь
П
| Q (г,а) = 2 ° і гі + с | а :Zl | 
| г=1 | 
 | 
Как нетрудно убедиться, в качестве обобщенного гра диента суммы функций можно взять сумму обобщенных градиентов.
Поэтому для этой функции обобщенный градиент можно положить равным
| 
 | 
 | П | 
| 2z | при | 2 <*»**>*. | 
| 
 | 
 | г—1 | 
| VaQ (z, а) = Z | 
 | П | 
| лри | 2 aizi = | |
| 
 | 
 | г—1 | 
| 
 | 
 | п | 
| 0 | при | 2 аг2І <С С- | 
| 
 | 
 | г=1 | 
В дальнейшем будем рассматривать только выпуклые по а функции потерь. Это будет означать, что для таких функций всегда существует обобщенный градиент и вы полнены условия
Q (z, а) — Q (z, а 0) > (Ѵ0 Q (z, а 0), (а — а 0)).
§ 4. Условия сходимости рекуррентных алгоритмов
Итак, пусть задана выпуклая по а при любом фиксиро ванном z функция потерь Q (z, а) и определена процедура получения последовательности а (1), . . ., а (п), . . .:
| а (і) = а (і — 1) + | у (і) Ѵ„ Q (zb | а (i — 1)). | 
| Рассмотрим несколько более общую, чем в главе IV, | ||
| процедуру образования | последовательности | |
| а (г) = а (г — 1) + у (г) [V0 Q (zt, а (г — | 1)) + У , (9.13) | |
отличающуюся тем, что — случайная помеха при изме рении обобщенного градиента, которая удовлетворяет
| § 4. УСЛОВИЯ СХОДИМОСТИ | 191 | 
условиям
М ( І I а, z) = О,
| Будем | М | (£2 | I а, z ) < Z > < оо. | 
 | 
| 
 | 
 | 
 | ||
| 
 | считать, | что величины у (г) | О, образующие | |
бесконечную последовательность неотрицательных чисел, таковы, что
| 2 | Т (0 = | 
| І—1 | 
 | 
| оо | 
 | 
| 2 | та(0 < °°- | 
| і= 1 | 
 | 
Процедура (9.13) для заданного начального условия а = = а нач определяет случайный процесс. Реализации этого случайного процесса индуцируются последователь ностями точек zx, . . ., zn, . . ., которые появляются неза висимо в соответствии с распределением Р (z). Распре деление же Р (z) таково, что для любого а существует
| R ( а ) = | § (z . а)dP (z ) = | {<? (2 . а )} | 
| и | 
 | 
 | 
| D (а) = $ I Ѵо<? (2, а) I2 ^ (2) = | Мг(| Ѵ0<? (z, а) |®}. | |
| Справедлива | теорема | [44]): Если: | 
| Теорема 9.1. | (Б. М. Литваков | |
1)функционал R (а) ограничен снизу,
2)функция D (а) ограничена сверху, т. е. D (а) ^ D,
3)дисперсия помехи % ограничена сверху, т. е. D (%) D , то при любом начальном векторе а н;1Ч последователь
| ность R [ а ( і ) ] —> i n f | R (а) с вероятностью 1 . | 
| і —*оо а | теоремы опирается на _ .следующие | 
| Доказательство | 
леммы.
Лемма 1. Для любых N и б > 0 можно подобрать такое г > 0, чтобы вероятность того, что вектор а (N) ока жется внутри гипершара Gn с центром в а нач и радиусом г, была больше 1 — б.
Д о к а з а т е л ь с т в о . Покажем сначала, что для любого і существует ограниченная величина Г (г) =
Ü92 ГЛ. IX . О СХОДИМОСТИ РЕК У РРЕН ТН Ы Х а л г о р и т м о в
*=М{(а (г) — а нач)2} *). Согласно процедуре (9.13) спра ведливо равенство
М {(а (і) — а нач)2} = М {(а (і — 1) — а нач)2} — 2у (і) х
| X М {((а (і - 1 ) - | а Нач ), (Ѵ0 Q (zit | а (г - | 1 )) + | 5 , ) ) } + | |
| + V2 (ОМ { | I Vo Q (z;, | (i | 1)) + | U I 2}. | (9.14) | 
| Увеличим правую часть этого равенства. Согласно условию | ||||||||||
| теоремы | 
 | 
 | 
 | a | - | 
 | 
 | 
 | 
 | |
| М {I I a, | z } = | О, | 
 | 
 | 
 | 
 | ||||
| 
 | 
 | 
 | 
 | 
 | 
 | |||||
| 
 | 
 | М {[Ѵ0<?А, | а (і — I))]2} < | D, | 
 | 
 | ||||
| 
 | 
 | М {£2 [ а (г — 1), | 
 | 
 | 
 | 
 | 
 | |||
| 
 | Поэтому у2 (i)M | {[Ѵ0 Q {zu а (i — 1)) + | g{]2} < | 2y2 (i) D. | ||||||
| Кроме того, | используя | то, | что | для выпуклой | функции | |||||
| и любых z, | а х и а 2 справедливо неравенство | 
 | 
 | |||||||
| 
 | ((«і — а 2), Ѵ0 Q (z, | «!)) > Q (z, | а х) — Q (z, | а 2), | ||||||
| оценим величину | М {((а (г — 1) — а нач), | Ѵ0 Q (z, | a (i — | |||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | - | 1)))}: | 
| М {((а (г — 1) — а нач), | Vo Q (z, | a | (i — 1)))} > | 
 | 
 | |||||
| > М {<? (г, | а (і — | 1))} — M{Q (z, а нач)} = | 
 | 
 | ||||||
| 
 | 
 | = | Л (а (і — 1)) —Л (анач) | А | Л (аНач), | |||||
| где | А — inf Л (а). | 
 | 
 | 
 | 
 | 
 | а) | |||
| 
 | а | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| 
 | Таким образом, оказывается справедливым неравенство | |||||||||
| М {(а (г) — а нач)2} < М {[а (г — 1) — а нач]2} + с (г), | (9.15) | |||||||||
| где | с (і) = | 2у (г) (Л (ана,,) — А) | + 2Dy2 (і). | что | ||||||
| 
 | Используя неравенство | (9.15) и учитывая, | ||||||||
| 
 | 
 | М {(а (1) — а нач)2} | = | с (1), | 
 | 
 | 
 | |||
| непосредственно получаем, | что | N | 
 | 
 | 
 | 
 | ||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | М {(а(7Ѵ )-анач)2} < | 2 | с (і) = | Г№, | 
 | 
 | ||||
| 
 | 
 | 
 | 
 | 
 | 
 | г = і | 
 | 
 | 
 | 
 | 
т. е. величина М {(а (N ) — а нач)2} ограничена числом Tjv.
*) Для сокращения записи здесь и дальше используются обод, начения а2 := (а* в),
| § 4. УСЛОВИЯ СХОДИМОСТИ | 193 | 
Для доказательства леммы воспользуемся неравен ством Чебышева для нецентрированных случайных ве личин
Р ( |а ( Л 0 - а нач|> г ) < М {[ а (N) — «нач I2}
г2
Усилим это неравенство; учитывая, что
М {| а (N) — анач I2} < TN,
получим
Р ( |а ( У ) - а нач |> г ) < - ^ - .
Потребуем, чтобы эта вероятность не превосходила б. Это произойдет, если величины г, TN, б будут связаны соотношением
£jv
г2
откуда следует, что с вероятностью, превышающей 1 — б, точка а (N ) будет находиться внутри гипершара G с цен тром в а нач и радиусом
Лемма 1 доказана.
Пусть, далее,
А = inf R (а).
а
Обозначим через Gz область значений а:
Gt = {a: R ( а ) < А + е}.
| Лемма 2. | Для | любых | г | 0 и N последовательность | ||
| а х, . . ., a N, | . . | ., | а г, . . . | с вероятностью 1 жотгеьраз вой | ||
| дет в область | Gz при і ^ | N. | 
 | |||
| Утверждение леммы 2 эквивалентно такому: вероят | ||||||
| ность того, | что | подпоследовательность а#, . . ., | a t ни | |||
| разу не заходит в область Gt, стремится к нулю при і | оо. | |||||
| Д о к а з а т е л ь с т в о . | Для доказательства | удоб | ||||
но рассмотреть процедуру, отличающуюся от (9.13)
| только | тем, что | если | последовательность при г | N | 
| входит | в область | Gt, | то она там и остается. | 
 | 
7 В. Н. Вапник, А. Я. Червонешшс
| 194 ГЛ. | IX . | О СХОДИМОСТИ | РЕ К У РРЕ Н Т Н Ы Х | АЛГОРИТМОВ | 
 | 
| Для | этого будем считать, что соотношение | 
 | |||
| а (г) = а (г — 1) — у | (і) [Ѵ0 Q (z, а (і — 1)) + У | 
 | |||
| выполняется всегда при і | N + 1, а при і !> N + | 1 — | |||
| лишь для | а (і — 1) ф Gt . В случае же, | когда при | і ^ | ||
| > N + | 1 | элемент а (і — 1) принадлежит | бге, последова | ||
| тельность | «залипает», т. е. | 
 | 
 | ||
| 
 | 
 | а (і) = а (і — 1). | 
 | 
 | |
Очевидно, что если последовательность а (1), ..., а (N), ...
..., а(і), построенная в силу исходного алгоритмами разу не заходит в Gt при і > N , то последовательность, постро енная по новому правилу, ничем не отличается от исход ной и, в частности, не заходит в GEпри і ^ N. Поэтому достаточно оценить вероятность того, что новая последо вательность ни разу не войдет в Gt при і > N.
Вобласти Gt выберем точку а*, для которой і?(а‘) < Л + |
(это всегда можно сделать), и оценим величину М {(а (г)—
— а*)3} для процедуры
| а (і) | 'а(і — 1), если | і > N + 1 и | а ( і - 1 ) е С і , | 
 | ||
| а (і - | 1) - | Г (і) [ Ѵ0Q (zu а (і - | 1)) + У | (9.16) | ||
| 
 | 
 | 
 | 
 | в противном случае. | 
 | |
| Согласно | этой | процедуре при | а (і — 1) ф. Gt | |||
| М ((а (і) — а*)2 I а (і | — 1)} =tf(а (г — 1) — а*)2 — | |||||
| —2у | (і) [М {Ѵ0<2 (z, os | (i — 1)) I а (i — 1)}, (а (і — 1) — | ||||
| — а*)] — 2у (і) [М {It | I а (і — 1)}, (а (і — 1) — а*)] + | |||||
| 
 | + у2 (і) М {І2 -f | [Ѵ0 Q (z, а (і — I))]31а (і | — 1)}. | |||
| В | силу условий теоремы | 
 | 
 | |||
| 
 | 
 | 
 | 
 | М { I t I а} = | О, | 
 | 
атакже
М{ІѴ0 Q (z, а)]2} < Л и М { ? 2 | а } < 0 .
| 
 | 
 | 
 | § 4. | УСЛОВИЯ | СХОДИМОСТИ | 
 | 
 | 195 | |||||
| Поэтому | справедливо | неравенство | 
 | 
 | 
 | 
 | |||||||
| М {(а (і) — а*)2 | I а | (і — 1)} ^ f( a | (i — 1) — а*)2— | 
 | |||||||||
| —2у (t) (М {V0 | (z, | а (i — 1))}, | (а (i | — 1) — а*)) + | |||||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | + | 2у2 (i) D. | (9.17) | |
| Далее, поскольку функция Q (z, а (і — 1)) выпукла, то | |||||||||||||
| (Vo Q (z, а | (і — 1)), (а (і — 1) — а*)) > | Q (z, а (і — 1)) — | |||||||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | — Q (z, а*) | ||
| и поэтому | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| (М {Ѵ0 Q (z, | а (і — 1)) I а ( і— 1)}, | (а (і — 1 )— | а*)) > | ||||||||||
| 
 | 
 | 
 | 
 | 
 | > Л (а (і - | 1)) - | Л (а*). | 
 | (9.18) | ||||
| Но точки а (і — 1) и а* | выбраны так, что | 
 | 
 | ||||||||||
| 
 | 
 | 
 | Л (а (і — 1)) | А + | е | 
 | 
 | 
 | |||||
| (поскольку | а (і — 1) ф. Gt) | и | 
 | 
 | 
 | 
 | 
 | 
 | |||||
| 
 | 
 | 
 | 
 | Л (а*)< Л + | ! | 
 | 
 | 
 | 
 | 
 | |||
| и, следовательно, | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||
| 
 | 
 | Л ( а ( і - 1 ) ) - Л ( а ‘) > | I | . | 
 | (9.19) | |||||||
| Объединяя (9.17), | (9.18) | и (9.19), | получаем, | что при | |||||||||
| а (і — 1) | 
 | Gt | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| М {(а (і) - | 
 | а*)2 | I а (г - | 1)} | 
 | (г - | 1) - а*)2 - | 
 | |||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | — У (0 е + 2у2 (і) D. | ||||
| Если же | при і | 
 | N | + | 1 элемент | а | (і | — 1) ЕЕ Ge, | то | ||||
| М {(а (і) — а*)2 I а (і | — 1)} = (а (і | — 1) — а*)2. | 
 | ||||||||||
| Пусть | бг — вероятность | того, | что | а (і — 1) ф Gz. | |||||||||
Тогда, переходя к безусловному математическому ожида нию, получим для і > N + 1
М{(а (і) — а*)2} ^ М {(а (і — 1) — а*)2} — s8,y (і) +
+2Т2 (і) D.
7*
196 ГЛ. IX. О СХОДИМОСТИ РЕКУРРЕНТНЫХ АЛГОРИТМОВ
Из этого рекуррентного соотношения, очевидно, сле
| дует, что | при | £ > ІѴ + 1 | 
 | 
| М {(а (£) - | а*)2} < | М {(а (N ) — а*)2} — | 
 | 
| 
 | 
 | г | г | 
| 
 | 
 | — 8 2 tyr(y') + | 2D 2 Т2(Л- | 
| 
 | 
 | j=N+l | 3=JV+l | 
Всилу леммы 1 величина
М( а (N ) — а * )2
| ограничена, и по условию | теоремы ряд | 2 | Т2(0 схо- | 
| дится. Поэтому | 
 | І=ІѴ+1 | 
 | 
| і | 
 | 
 | |
| 
 | 
 | 
 | |
| М { ( а ( 0 - с О 2} < | С - е 2 | (7), | (9.20) | 
| 
 | j=jv+l | 
 | 
 | 
где с — константа, не зависящая от г.
Далее, поскольку процедура (9.16) организована так, что, попав в Ge, последовательность «залипает», вероят ность 6і не возрастает с ростом і.
| Если | бы при этом öj оставалась больше некоторого | 
| б Д> 0, | то величина | 
| 
 | І | 
| 
 | 2 бя(у) | 
| 
 | J=IV+1 | 
с ростом і неограниченно возрастала, поскольку при этом
| 
 | 
 | 1 | і | 
| 
 | 
 | 2 öiT (7)>Ö | 2 Т(Л, | 
| 
 | СО | i = N - f l | 3=ІѴ+1 | 
| а ряд | 2 | Т (І) расходится. | 
 | 
| Но | jWV-f-l | невозможно, потому что тогда правая часть | |
| это | |||
неравенства (9.20) становилась бы отрицательной при достаточно больших £, тогда как левая часть положитель
| на. Следовательно, | последовательность | бг | стремится | 
| к нулю при і -V оо. | 
 | 
 | 
 | 
| Остается отметить, что последовательность а (і) орга | |||
| низована процедурой | (9.16) так, что если | она | хоть раз | 
| § | 4. УСЛОВИЯ | сходимости | 197 | 
| войдет в 6ге при і | N + 1, | то она там и останется к мо | |
менту і. Следовательно, вероятность того, что последо
| вательность a N, . . ., | а г ни разу не заходит в Gu равна | ||||
| 6г и стремится к нулю при t — ОО. | |||||
| Лемма | доказана. | 
 | О и б )> 0 существует такое | ||
| Лемма 3. Для любых е | |||||
| N lt что | при | всех | N | Д N t | вероятность последователь | 
| ности ам, | . . | ., а г, | . . . выйти из области | ||
| 
 | 
 | G%t = | {а: М (а) ^ А -|- 2е}, | ||
при условии а (N ) 6= Gt, меньше б.
Д о к а з а т е л ь с т в о . Оценим вероятность б* того, что в последовательности aN, . . ., а, хотя бы один эле
| мент | не | принадлежит | (г2е при условии, | что | а n Gr Gt. | |
| Для этого' изменим процедуру (9.13) при і | N + 1, | |||||
| положив | 
 | 
 | 
 | 
 | 
 | |
| 
 | а | (г — 1), если | а (і — 1) | Git, | 
 | 
 | 
| а (і) = | а (і — 1) — у (i) [V0 Q (z, а (i — 1)) + | £,], | (9.21) | |||
| 
 | 
 | 
 | если а (i — 1) e | G2E. | 
 | |
Очевидно, что величина б* равна вероятности того, что ссі ZjÉ G2s при условии ajy £Е Ge, если, начиная с i = = N + 1, действует процедура (9.21).
Обозначим через а£ (£) точку множества Ge, ближай шую к а (г), и оценим величину
М {(а (і) — а е (і))2}.
Очевидно, справедливо неравенство
(а (і) — а е (г))2 < [а (г) — а е (г — I)]2.
Поэтому при а (г — 1) е G2e в силу процедуры (9.21)
| М {(а (і) — а £ (і))21а (і — 1)} < | М {(а (г) — | 
 | ||
| - «е (і - I))21 а (і - 1)} | < (а | (Ä — 1) — | (і - | I))2 - | 
| —2у (г) (М (Ѵ0<? (z, а (г — 1))}, (а (і —1) — а е (і — | 1))) + | |||
| 
 | 
 | 
 | + 2Пу2 (г). | |
| В силу выпуклости (? (г, | а) справедливо неравенство | |||
| (М {Ѵ0<2 (z, а (і — 1))}, (а (г — 1) — а е (£ — 1))) > | 
 | |||
| > | R (а | (г - 1)) - | R (а, (і - 1)). | |
198 гл . IX . О СХОДИМОСТИ РЕ К У РРЕ Н Т Н Ы Х АЛГОРИТМОВ
| Но при | а (і — 1) <= Gz элементы а (і) г оЕ(і) совпадают, | ||||||||
| а при | а (і — 1) ф | G& | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | R (а | (і | — 1))^> R | (се£ (і — | 1)). | 
 | |||
| Поэтому | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | R (а (і | — | 1)) — R (а£ (і | — 1)) | 0. | 
 | |||
| Следовательно, | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| М {(а (і) — а £ (і))2 | I а | (і — 1)} < | (а (і | — 1) — | 
 | ||||
| 
 | 
 | 
 | 
 | — at (i — I))2 + | 2у2 (г) D. | ||||
| Если же а (і — 1) ф | G2£ | при і ;> ІѴ + 1, то | 
 | ||||||
| М {(а (і) — а £ (г))2 | | а | (і — 1)} = | (а (і — 1) —а £ (і — I))2. | ||||||
| Таким | образом, всегда | 
 | 
 | 
 | 
 | 
 | 
 | ||
| М {(а (і) — а £ (г)) I а (і — 1 )} < | 
 | 
 | 
 | 
 | 
 | ||||
| 
 | < | (« (і | - 1) - | а е (і | - | I))2 + | 2у2 (і) £>. | ||
| Из этого рекуррентного | соотношения | следует, | что при | ||||||
| і ]> N | справедливо | 
 | 
 | 
 | 
 | І | 
 | 
 | 
 | 
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| M { (a (i)-a £(0 )2|a(iV0 eEGE} < 2 D | 2 | т20 ')< | 
 | ||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | оо | 
 | |
| 
 | 
 | 
 | 
 | 
 | < 2 D | 2 | Т2 0)і (9.22) | ||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | j=N+x | 
 | |
| поскольку при а (/V) ЕЕ Gt имеет место | 
 | 
 | |||||||
(а (N) - а £ (ІѴ))2 = 0.
Далее, оценим расстояние Л между произвольным эле ментом а ф С2е и множеством G£, т. е. ширину зоны, которую должна пройти точка а (£), чтобы из Gt уйти за пределы G2£. Так как функция R (а) выпукла,
Ѵ0Я ( а) = М (I Ѵ0 Q(z, а) |} < / Я ,
для всякой точки a g C j выполняется неравенство
R (а) А + е
и для всякой точки а ф Ga — неравенство
R (а) > А + 2в,
