книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения
.pdf§ 3. ОБОБЩЕННЫЙ ГРАДИЕНТ |
189 |
Очевидно, что во всех точках, где выпуклая функция дифференцируема, обобщенный градиент совпадает с обыч
ным. В |
самом деле, допустим, что в некоторой |
точке а 0 |
|||||||
VF (а0) |
ф V0F (а0). |
Тогда |
существует |
вектор |
е такой, |
||||
что |
|
((V0F - V F ) , |
е) = |
с > |
0. |
|
|
||
|
|
|
|
||||||
Положим |
а (t) |
= |
а 0 + |
te. |
|
|
|
||
|
|
|
|
|
|
||||
Тогда |
|
|
|
|
|
|
|
|
|
F (а0) - |
|
F (а (t)) - |
(VF, |
e)t + o(t) = |
|
|
|||
|
|
|
= |
(VoF, |
e ) t - c t + о (t). (9.12) |
||||
Поскольку с > О, |
а о (t) |
— величина |
второго |
порядка |
|||||
малости, |
при достаточно малых t ф- 0 |
обе части равенст-о |
|||||||
ва (9.12) |
становятся |
меньше, |
чем (Ѵ0 |
F, |
е), что противо- ' |
||||
речит |
(9.11). |
|
|
|
|
|
|
|
|
Рассмотрим пример выпуклой функции, которая не |
|||||||||
всюду |
дифференцируема: |
|
|
|
|
|
|
Ф (а) = I (а, z) — с j ,
где z — некоторый фиксированный вектор, а с — фикси рованный скаляр. Эта функция имеет градиент всюду, за исключением многообразия
{а: (а, |
z) — с}. |
|
|
Определим обобщенный |
градиент следующим образом: |
||
|
Z |
при (<х0, z) > |
с, |
VоФ (о-о) |
0 |
при (а0, z) = |
с, |
|
—z при (а0, z) < |
с. |
При (а0, z) Ф с обобщенный градиент совпадает с обыч ным, а при (а0, z) = с условие (9.11), очевидно, выпол няется, поскольку нри этом
(Ѵ0Ф (а0), (а — а 0)) = 0,
вто время как
Ф(а) — Ф (а0) = Ф (а) > 0.
190ГЛ. IX. О СХОДИМОСТЕЙ РЕКУРРЕНТНЫХ АЛГОРИТМ0Й
Вглаве IV была введена в рассмотрение функция потерь
П
Q (г,а) = 2 ° і гі + с |
а :Zl |
г=1 |
|
Как нетрудно убедиться, в качестве обобщенного гра диента суммы функций можно взять сумму обобщенных градиентов.
Поэтому для этой функции обобщенный градиент можно положить равным
|
|
П |
2z |
при |
2 <*»**>*. |
|
|
г—1 |
VaQ (z, а) = Z |
|
П |
лри |
2 aizi = |
|
|
|
г—1 |
|
|
п |
0 |
при |
2 аг2І <С С- |
|
|
г=1 |
В дальнейшем будем рассматривать только выпуклые по а функции потерь. Это будет означать, что для таких функций всегда существует обобщенный градиент и вы полнены условия
Q (z, а) — Q (z, а 0) > (Ѵ0 Q (z, а 0), (а — а 0)).
§ 4. Условия сходимости рекуррентных алгоритмов
Итак, пусть задана выпуклая по а при любом фиксиро ванном z функция потерь Q (z, а) и определена процедура получения последовательности а (1), . . ., а (п), . . .:
а (і) = а (і — 1) + |
у (і) Ѵ„ Q (zb |
а (i — 1)). |
Рассмотрим несколько более общую, чем в главе IV, |
||
процедуру образования |
последовательности |
|
а (г) = а (г — 1) + у (г) [V0 Q (zt, а (г — |
1)) + У , (9.13) |
отличающуюся тем, что — случайная помеха при изме рении обобщенного градиента, которая удовлетворяет
§ 4. УСЛОВИЯ СХОДИМОСТИ |
191 |
условиям
М ( І I а, z) = О,
Будем |
М |
(£2 |
I а, z ) < Z > < оо. |
|
|
|
|
||
|
считать, |
что величины у (г) |
О, образующие |
бесконечную последовательность неотрицательных чисел, таковы, что
2 |
Т (0 = |
І—1 |
|
оо |
|
2 |
та(0 < °°- |
і= 1 |
|
Процедура (9.13) для заданного начального условия а = = а нач определяет случайный процесс. Реализации этого случайного процесса индуцируются последователь ностями точек zx, . . ., zn, . . ., которые появляются неза висимо в соответствии с распределением Р (z). Распре деление же Р (z) таково, что для любого а существует
R ( а ) = |
§ (z . а)dP (z ) = |
{<? (2 . а )} |
и |
|
|
D (а) = $ I Ѵо<? (2, а) I2 ^ (2) = |
Мг(| Ѵ0<? (z, а) |®}. |
|
Справедлива |
теорема |
[44]): Если: |
Теорема 9.1. |
(Б. М. Литваков |
1)функционал R (а) ограничен снизу,
2)функция D (а) ограничена сверху, т. е. D (а) ^ D,
3)дисперсия помехи % ограничена сверху, т. е. D (%) D , то при любом начальном векторе а н;1Ч последователь
ность R [ а ( і ) ] —> i n f |
R (а) с вероятностью 1 . |
і —*оо а |
теоремы опирается на _ .следующие |
Доказательство |
леммы.
Лемма 1. Для любых N и б > 0 можно подобрать такое г > 0, чтобы вероятность того, что вектор а (N) ока жется внутри гипершара Gn с центром в а нач и радиусом г, была больше 1 — б.
Д о к а з а т е л ь с т в о . Покажем сначала, что для любого і существует ограниченная величина Г (г) =
Ü92 ГЛ. IX . О СХОДИМОСТИ РЕК У РРЕН ТН Ы Х а л г о р и т м о в
*=М{(а (г) — а нач)2} *). Согласно процедуре (9.13) спра ведливо равенство
М {(а (і) — а нач)2} = М {(а (і — 1) — а нач)2} — 2у (і) х
X М {((а (і - 1 ) - |
а Нач ), (Ѵ0 Q (zit |
а (г - |
1 )) + |
5 , ) ) } + |
|
+ V2 (ОМ { |
I Vo Q (z;, |
(i |
1)) + |
U I 2}. |
(9.14) |
Увеличим правую часть этого равенства. Согласно условию |
||||||||||
теоремы |
|
|
|
a |
- |
|
|
|
|
|
М {I I a, |
z } = |
О, |
|
|
|
|
||||
|
|
|
|
|
|
|||||
|
|
М {[Ѵ0<?А, |
а (і — I))]2} < |
D, |
|
|
||||
|
|
М {£2 [ а (г — 1), |
|
|
|
|
|
|||
|
Поэтому у2 (i)M |
{[Ѵ0 Q {zu а (i — 1)) + |
g{]2} < |
2y2 (i) D. |
||||||
Кроме того, |
используя |
то, |
что |
для выпуклой |
функции |
|||||
и любых z, |
а х и а 2 справедливо неравенство |
|
|
|||||||
|
((«і — а 2), Ѵ0 Q (z, |
«!)) > Q (z, |
а х) — Q (z, |
а 2), |
||||||
оценим величину |
М {((а (г — 1) — а нач), |
Ѵ0 Q (z, |
a (i — |
|||||||
|
|
|
|
|
|
|
|
|
- |
1)))}: |
М {((а (г — 1) — а нач), |
Vo Q (z, |
a |
(i — 1)))} > |
|
|
|||||
> М {<? (г, |
а (і — |
1))} — M{Q (z, а нач)} = |
|
|
||||||
|
|
= |
Л (а (і — 1)) —Л (анач) |
А |
Л (аНач), |
|||||
где |
А — inf Л (а). |
|
|
|
|
|
а) |
|||
|
а |
|
|
|
|
|
|
|
|
|
|
Таким образом, оказывается справедливым неравенство |
|||||||||
М {(а (г) — а нач)2} < М {[а (г — 1) — а нач]2} + с (г), |
(9.15) |
|||||||||
где |
с (і) = |
2у (г) (Л (ана,,) — А) |
+ 2Dy2 (і). |
что |
||||||
|
Используя неравенство |
(9.15) и учитывая, |
||||||||
|
|
М {(а (1) — а нач)2} |
= |
с (1), |
|
|
|
|||
непосредственно получаем, |
что |
N |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
М {(а(7Ѵ )-анач)2} < |
2 |
с (і) = |
Г№, |
|
|
||||
|
|
|
|
|
|
г = і |
|
|
|
|
т. е. величина М {(а (N ) — а нач)2} ограничена числом Tjv.
*) Для сокращения записи здесь и дальше используются обод, начения а2 := (а* в),
§ 4. УСЛОВИЯ СХОДИМОСТИ |
193 |
Для доказательства леммы воспользуемся неравен ством Чебышева для нецентрированных случайных ве личин
Р ( |а ( Л 0 - а нач|> г ) < М {[ а (N) — «нач I2}
г2
Усилим это неравенство; учитывая, что
М {| а (N) — анач I2} < TN,
получим
Р ( |а ( У ) - а нач |> г ) < - ^ - .
Потребуем, чтобы эта вероятность не превосходила б. Это произойдет, если величины г, TN, б будут связаны соотношением
£jv
г2
откуда следует, что с вероятностью, превышающей 1 — б, точка а (N ) будет находиться внутри гипершара G с цен тром в а нач и радиусом
Лемма 1 доказана.
Пусть, далее,
А = inf R (а).
а
Обозначим через Gz область значений а:
Gt = {a: R ( а ) < А + е}.
Лемма 2. |
Для |
любых |
г |
0 и N последовательность |
||
а х, . . ., a N, |
. . |
., |
а г, . . . |
с вероятностью 1 жотгеьраз вой |
||
дет в область |
Gz при і ^ |
N. |
|
|||
Утверждение леммы 2 эквивалентно такому: вероят |
||||||
ность того, |
что |
подпоследовательность а#, . . ., |
a t ни |
|||
разу не заходит в область Gt, стремится к нулю при і |
оо. |
|||||
Д о к а з а т е л ь с т в о . |
Для доказательства |
удоб |
но рассмотреть процедуру, отличающуюся от (9.13)
только |
тем, что |
если |
последовательность при г |
N |
входит |
в область |
Gt, |
то она там и остается. |
|
7 В. Н. Вапник, А. Я. Червонешшс
194 ГЛ. |
IX . |
О СХОДИМОСТИ |
РЕ К У РРЕ Н Т Н Ы Х |
АЛГОРИТМОВ |
|
Для |
этого будем считать, что соотношение |
|
|||
а (г) = а (г — 1) — у |
(і) [Ѵ0 Q (z, а (і — 1)) + У |
|
|||
выполняется всегда при і |
N + 1, а при і !> N + |
1 — |
|||
лишь для |
а (і — 1) ф Gt . В случае же, |
когда при |
і ^ |
||
> N + |
1 |
элемент а (і — 1) принадлежит |
бге, последова |
||
тельность |
«залипает», т. е. |
|
|
||
|
|
а (і) = а (і — 1). |
|
|
Очевидно, что если последовательность а (1), ..., а (N), ...
..., а(і), построенная в силу исходного алгоритмами разу не заходит в Gt при і > N , то последовательность, постро енная по новому правилу, ничем не отличается от исход ной и, в частности, не заходит в GEпри і ^ N. Поэтому достаточно оценить вероятность того, что новая последо вательность ни разу не войдет в Gt при і > N.
Вобласти Gt выберем точку а*, для которой і?(а‘) < Л + |
(это всегда можно сделать), и оценим величину М {(а (г)—
— а*)3} для процедуры
а (і) |
'а(і — 1), если |
і > N + 1 и |
а ( і - 1 ) е С і , |
|
||
а (і - |
1) - |
Г (і) [ Ѵ0Q (zu а (і - |
1)) + У |
(9.16) |
||
|
|
|
|
в противном случае. |
|
|
Согласно |
этой |
процедуре при |
а (і — 1) ф. Gt |
|||
М ((а (і) — а*)2 I а (і |
— 1)} =tf(а (г — 1) — а*)2 — |
|||||
—2у |
(і) [М {Ѵ0<2 (z, os |
(i — 1)) I а (i — 1)}, (а (і — 1) — |
||||
— а*)] — 2у (і) [М {It |
I а (і — 1)}, (а (і — 1) — а*)] + |
|||||
|
+ у2 (і) М {І2 -f |
[Ѵ0 Q (z, а (і — I))]31а (і |
— 1)}. |
|||
В |
силу условий теоремы |
|
|
|||
|
|
|
|
М { I t I а} = |
О, |
|
атакже
М{ІѴ0 Q (z, а)]2} < Л и М { ? 2 | а } < 0 .
|
|
|
§ 4. |
УСЛОВИЯ |
СХОДИМОСТИ |
|
|
195 |
|||||
Поэтому |
справедливо |
неравенство |
|
|
|
|
|||||||
М {(а (і) — а*)2 |
I а |
(і — 1)} ^ f( a |
(i — 1) — а*)2— |
|
|||||||||
—2у (t) (М {V0 |
(z, |
а (i — 1))}, |
(а (i |
— 1) — а*)) + |
|||||||||
|
|
|
|
|
|
|
|
|
|
+ |
2у2 (i) D. |
(9.17) |
|
Далее, поскольку функция Q (z, а (і — 1)) выпукла, то |
|||||||||||||
(Vo Q (z, а |
(і — 1)), (а (і — 1) — а*)) > |
Q (z, а (і — 1)) — |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
— Q (z, а*) |
||
и поэтому |
|
|
|
|
|
|
|
|
|
|
|
|
|
(М {Ѵ0 Q (z, |
а (і — 1)) I а ( і— 1)}, |
(а (і — 1 )— |
а*)) > |
||||||||||
|
|
|
|
|
> Л (а (і - |
1)) - |
Л (а*). |
|
(9.18) |
||||
Но точки а (і — 1) и а* |
выбраны так, что |
|
|
||||||||||
|
|
|
Л (а (і — 1)) |
А + |
е |
|
|
|
|||||
(поскольку |
а (і — 1) ф. Gt) |
и |
|
|
|
|
|
|
|||||
|
|
|
|
Л (а*)< Л + |
! |
|
|
|
|
|
|||
и, следовательно, |
|
|
|
|
|
|
|
|
|
|
|||
|
|
Л ( а ( і - 1 ) ) - Л ( а ‘) > |
I |
. |
|
(9.19) |
|||||||
Объединяя (9.17), |
(9.18) |
и (9.19), |
получаем, |
что при |
|||||||||
а (і — 1) |
|
Gt |
|
|
|
|
|
|
|
|
|
|
|
М {(а (і) - |
|
а*)2 |
I а (г - |
1)} |
|
(г - |
1) - а*)2 - |
|
|||||
|
|
|
|
|
|
|
|
|
— У (0 е + 2у2 (і) D. |
||||
Если же |
при і |
|
N |
+ |
1 элемент |
а |
(і |
— 1) ЕЕ Ge, |
то |
||||
М {(а (і) — а*)2 I а (і |
— 1)} = (а (і |
— 1) — а*)2. |
|
||||||||||
Пусть |
бг — вероятность |
того, |
что |
а (і — 1) ф Gz. |
Тогда, переходя к безусловному математическому ожида нию, получим для і > N + 1
М{(а (і) — а*)2} ^ М {(а (і — 1) — а*)2} — s8,y (і) +
+2Т2 (і) D.
7*
196 ГЛ. IX. О СХОДИМОСТИ РЕКУРРЕНТНЫХ АЛГОРИТМОВ
Из этого рекуррентного соотношения, очевидно, сле
дует, что |
при |
£ > ІѴ + 1 |
|
М {(а (£) - |
а*)2} < |
М {(а (N ) — а*)2} — |
|
|
|
г |
г |
|
|
— 8 2 tyr(y') + |
2D 2 Т2(Л- |
|
|
j=N+l |
3=JV+l |
Всилу леммы 1 величина
М( а (N ) — а * )2
ограничена, и по условию |
теоремы ряд |
2 |
Т2(0 схо- |
дится. Поэтому |
|
І=ІѴ+1 |
|
і |
|
|
|
|
|
|
|
М { ( а ( 0 - с О 2} < |
С - е 2 |
(7), |
(9.20) |
|
j=jv+l |
|
|
где с — константа, не зависящая от г.
Далее, поскольку процедура (9.16) организована так, что, попав в Ge, последовательность «залипает», вероят ность 6і не возрастает с ростом і.
Если |
бы при этом öj оставалась больше некоторого |
б Д> 0, |
то величина |
|
І |
|
2 бя(у) |
|
J=IV+1 |
с ростом і неограниченно возрастала, поскольку при этом
|
|
1 |
і |
|
|
2 öiT (7)>Ö |
2 Т(Л, |
|
СО |
i = N - f l |
3=ІѴ+1 |
а ряд |
2 |
Т (І) расходится. |
|
Но |
jWV-f-l |
невозможно, потому что тогда правая часть |
|
это |
неравенства (9.20) становилась бы отрицательной при достаточно больших £, тогда как левая часть положитель
на. Следовательно, |
последовательность |
бг |
стремится |
к нулю при і -V оо. |
|
|
|
Остается отметить, что последовательность а (і) орга |
|||
низована процедурой |
(9.16) так, что если |
она |
хоть раз |
§ |
4. УСЛОВИЯ |
сходимости |
197 |
войдет в 6ге при і |
N + 1, |
то она там и останется к мо |
менту і. Следовательно, вероятность того, что последо
вательность a N, . . ., |
а г ни разу не заходит в Gu равна |
||||
6г и стремится к нулю при t — ОО. |
|||||
Лемма |
доказана. |
|
О и б )> 0 существует такое |
||
Лемма 3. Для любых е |
|||||
N lt что |
при |
всех |
N |
Д N t |
вероятность последователь |
ности ам, |
. . |
., а г, |
. . . выйти из области |
||
|
|
G%t = |
{а: М (а) ^ А -|- 2е}, |
при условии а (N ) 6= Gt, меньше б.
Д о к а з а т е л ь с т в о . Оценим вероятность б* того, что в последовательности aN, . . ., а, хотя бы один эле
мент |
не |
принадлежит |
(г2е при условии, |
что |
а n Gr Gt. |
|
Для этого' изменим процедуру (9.13) при і |
N + 1, |
|||||
положив |
|
|
|
|
|
|
|
а |
(г — 1), если |
а (і — 1) |
Git, |
|
|
а (і) = |
а (і — 1) — у (i) [V0 Q (z, а (i — 1)) + |
£,], |
(9.21) |
|||
|
|
|
если а (i — 1) e |
G2E. |
|
Очевидно, что величина б* равна вероятности того, что ссі ZjÉ G2s при условии ajy £Е Ge, если, начиная с i = = N + 1, действует процедура (9.21).
Обозначим через а£ (£) точку множества Ge, ближай шую к а (г), и оценим величину
М {(а (і) — а е (і))2}.
Очевидно, справедливо неравенство
(а (і) — а е (г))2 < [а (г) — а е (г — I)]2.
Поэтому при а (г — 1) е G2e в силу процедуры (9.21)
М {(а (і) — а £ (і))21а (і — 1)} < |
М {(а (г) — |
|
||
- «е (і - I))21 а (і - 1)} |
< (а |
(Ä — 1) — |
(і - |
I))2 - |
—2у (г) (М (Ѵ0<? (z, а (г — 1))}, (а (і —1) — а е (і — |
1))) + |
|||
|
|
|
+ 2Пу2 (г). |
|
В силу выпуклости (? (г, |
а) справедливо неравенство |
|||
(М {Ѵ0<2 (z, а (і — 1))}, (а (г — 1) — а е (£ — 1))) > |
|
|||
> |
R (а |
(г - 1)) - |
R (а, (і - 1)). |
198 гл . IX . О СХОДИМОСТИ РЕ К У РРЕ Н Т Н Ы Х АЛГОРИТМОВ
Но при |
а (і — 1) <= Gz элементы а (і) г оЕ(і) совпадают, |
||||||||
а при |
а (і — 1) ф |
G& |
|
|
|
|
|
|
|
|
R (а |
(і |
— 1))^> R |
(се£ (і — |
1)). |
|
|||
Поэтому |
|
|
|
|
|
|
|
|
|
|
R (а (і |
— |
1)) — R (а£ (і |
— 1)) |
0. |
|
|||
Следовательно, |
|
|
|
|
|
|
|
|
|
М {(а (і) — а £ (і))2 |
I а |
(і — 1)} < |
(а (і |
— 1) — |
|
||||
|
|
|
|
— at (i — I))2 + |
2у2 (г) D. |
||||
Если же а (і — 1) ф |
G2£ |
при і ;> ІѴ + 1, то |
|
||||||
М {(а (і) — а £ (г))2 |
| а |
(і — 1)} = |
(а (і — 1) —а £ (і — I))2. |
||||||
Таким |
образом, всегда |
|
|
|
|
|
|
||
М {(а (і) — а £ (г)) I а (і — 1 )} < |
|
|
|
|
|
||||
|
< |
(« (і |
- 1) - |
а е (і |
- |
I))2 + |
2у2 (і) £>. |
||
Из этого рекуррентного |
соотношения |
следует, |
что при |
||||||
і ]> N |
справедливо |
|
|
|
|
І |
|
|
|
|
|
|
|
|
|
|
|
|
|
M { (a (i)-a £(0 )2|a(iV0 eEGE} < 2 D |
2 |
т20 ')< |
|
||||||
|
|
|
|
|
|
|
оо |
|
|
|
|
|
|
|
< 2 D |
2 |
Т2 0)і (9.22) |
||
|
|
|
|
|
|
|
j=N+x |
|
|
поскольку при а (/V) ЕЕ Gt имеет место |
|
|
(а (N) - а £ (ІѴ))2 = 0.
Далее, оценим расстояние Л между произвольным эле ментом а ф С2е и множеством G£, т. е. ширину зоны, которую должна пройти точка а (£), чтобы из Gt уйти за пределы G2£. Так как функция R (а) выпукла,
Ѵ0Я ( а) = М (I Ѵ0 Q(z, а) |} < / Я ,
для всякой точки a g C j выполняется неравенство
R (а) А + е
и для всякой точки а ф Ga — неравенство
R (а) > А + 2в,