Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
47
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

§ 3. ОБОБЩЕННЫЙ ГРАДИЕНТ

189

Очевидно, что во всех точках, где выпуклая функция дифференцируема, обобщенный градиент совпадает с обыч­

ным. В

самом деле, допустим, что в некоторой

точке а 0

VF (а0)

ф V0F (а0).

Тогда

существует

вектор

е такой,

что

 

((V0F - V F ) ,

е) =

с >

0.

 

 

 

 

 

 

Положим

а (t)

=

а 0 +

te.

 

 

 

 

 

 

 

 

 

Тогда

 

 

 

 

 

 

 

 

 

F (а0) -

 

F (а (t)) -

(VF,

e)t + o(t) =

 

 

 

 

 

=

(VoF,

e ) t - c t + о (t). (9.12)

Поскольку с > О,

а о (t)

— величина

второго

порядка

малости,

при достаточно малых t ф- 0

обе части равенст-о

ва (9.12)

становятся

меньше,

чем (Ѵ0

F,

е), что противо- '

речит

(9.11).

 

 

 

 

 

 

 

Рассмотрим пример выпуклой функции, которая не

всюду

дифференцируема:

 

 

 

 

 

 

Ф (а) = I (а, z) — с j ,

где z — некоторый фиксированный вектор, а с — фикси­ рованный скаляр. Эта функция имеет градиент всюду, за исключением многообразия

{а: (а,

z) — с}.

 

Определим обобщенный

градиент следующим образом:

 

Z

при (<х0, z) >

с,

VоФ (о-о)

0

при (а0, z) =

с,

 

—z при (а0, z) <

с.

При (а0, z) Ф с обобщенный градиент совпадает с обыч­ ным, а при (а0, z) = с условие (9.11), очевидно, выпол­ няется, поскольку нри этом

(Ѵ0Ф (а0), (а — а 0)) = 0,

вто время как

Ф(а) — Ф (а0) = Ф (а) > 0.

190ГЛ. IX. О СХОДИМОСТЕЙ РЕКУРРЕНТНЫХ АЛГОРИТМ0Й

Вглаве IV была введена в рассмотрение функция потерь

П

Q (г,а) = 2 ° і гі + с

а :Zl

г=1

 

Как нетрудно убедиться, в качестве обобщенного гра­ диента суммы функций можно взять сумму обобщенных градиентов.

Поэтому для этой функции обобщенный градиент можно положить равным

 

 

П

2z

при

2 <*»**>*.

 

 

г—1

VaQ (z, а) = Z

 

П

лри

2 aizi =

 

 

г—1

 

 

п

0

при

2 аг2І <С С-

 

 

г=1

В дальнейшем будем рассматривать только выпуклые по а функции потерь. Это будет означать, что для таких функций всегда существует обобщенный градиент и вы­ полнены условия

Q (z, а) — Q (z, а 0) > (Ѵ0 Q (z, а 0), (а — а 0)).

§ 4. Условия сходимости рекуррентных алгоритмов

Итак, пусть задана выпуклая по а при любом фиксиро­ ванном z функция потерь Q (z, а) и определена процедура получения последовательности а (1), . . ., а (п), . . .:

а (і) = а — 1) +

у (і) Ѵ„ Q (zb

а (i — 1)).

Рассмотрим несколько более общую, чем в главе IV,

процедуру образования

последовательности

а (г) = а (г — 1) + у (г) [V0 Q (zt, а (г —

1)) + У , (9.13)

отличающуюся тем, что — случайная помеха при изме­ рении обобщенного градиента, которая удовлетворяет

§ 4. УСЛОВИЯ СХОДИМОСТИ

191

условиям

М ( І I а, z) = О,

Будем

М

(£2

I а, z ) < Z > < оо.

 

 

 

 

 

считать,

что величины у (г)

О, образующие

бесконечную последовательность неотрицательных чисел, таковы, что

2

Т (0 =

І—1

 

оо

 

2

та(0 < °°-

і= 1

 

Процедура (9.13) для заданного начального условия а = = а нач определяет случайный процесс. Реализации этого случайного процесса индуцируются последователь­ ностями точек zx, . . ., zn, . . ., которые появляются неза­ висимо в соответствии с распределением Р (z). Распре­ деление же Р (z) таково, что для любого а существует

R ( а ) =

§ (z . а)dP (z ) =

{<? (2 . а )}

и

 

 

D (а) = $ I Ѵо<? (2, а) I2 ^ (2) =

Мг(| Ѵ0<? (z, а) |®}.

Справедлива

теорема

[44]): Если:

Теорема 9.1.

(Б. М. Литваков

1)функционал R (а) ограничен снизу,

2)функция D (а) ограничена сверху, т. е. D (а) ^ D,

3)дисперсия помехи % ограничена сверху, т. е. D (%) D , то при любом начальном векторе а н;1Ч последователь­

ность R [ а ( і ) ] —> i n f

R (а) с вероятностью 1 .

і —*оо а

теоремы опирается на _ .следующие

Доказательство

леммы.

Лемма 1. Для любых N и б > 0 можно подобрать такое г > 0, чтобы вероятность того, что вектор а (N) ока­ жется внутри гипершара Gn с центром в а нач и радиусом г, была больше 1 — б.

Д о к а з а т е л ь с т в о . Покажем сначала, что для любого і существует ограниченная величина Г (г) =

Ü92 ГЛ. IX . О СХОДИМОСТИ РЕК У РРЕН ТН Ы Х а л г о р и т м о в

*=М{(а (г) — а нач)2} *). Согласно процедуре (9.13) спра­ ведливо равенство

М {(а (і) — а нач)2} = М {(а (і — 1) — а нач)2} — 2у (і) х

X М {((а - 1 ) -

а Нач ), (Ѵ0 Q (zit

а (г -

1 )) +

5 , ) ) } +

+ V2 (ОМ {

I Vo Q (z;,

(i

1)) +

U I 2}.

(9.14)

Увеличим правую часть этого равенства. Согласно условию

теоремы

 

 

 

a

-

 

 

 

 

М {I I a,

z } =

О,

 

 

 

 

 

 

 

 

 

 

 

 

М {[Ѵ0<?А,

а (і — I))]2} <

D,

 

 

 

 

М {£2 [ а (г — 1),

 

 

 

 

 

 

Поэтому у2 (i)M

{[Ѵ0 Q {zu а (i — 1)) +

g{]2} <

2y2 (i) D.

Кроме того,

используя

то,

что

для выпуклой

функции

и любых z,

а х и а 2 справедливо неравенство

 

 

 

((«і — а 2), Ѵ0 Q (z,

«!)) > Q (z,

а х) — Q (z,

а 2),

оценим величину

М {((а (г — 1) — а нач),

Ѵ0 Q (z,

a (i —

 

 

 

 

 

 

 

 

 

-

1)))}:

М {((а (г — 1) — а нач),

Vo Q (z,

a

(i — 1)))} >

 

 

> М {<? (г,

а (і —

1))} — M{Q (z, а нач)} =

 

 

 

 

=

Л (а (і — 1)) —Л (анач)

А

Л (аНач),

где

А — inf Л (а).

 

 

 

 

 

а)

 

а

 

 

 

 

 

 

 

 

 

 

Таким образом, оказывается справедливым неравенство

М {(а (г) — а нач)2} < М {[а (г — 1) — а нач]2} + с (г),

(9.15)

где

с (і) =

2у (г) (Л (ана,,) — А)

+ 2Dy2 (і).

что

 

Используя неравенство

(9.15) и учитывая,

 

 

М {(а (1) — а нач)2}

=

с (1),

 

 

 

непосредственно получаем,

что

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

М {(а(7Ѵ )-анач)2} <

2

с (і) =

Г№,

 

 

 

 

 

 

 

 

г = і

 

 

 

 

т. е. величина М {(а (N ) — а нач)2} ограничена числом Tjv.

*) Для сокращения записи здесь и дальше используются обод, начения а2 := (а* в),

§ 4. УСЛОВИЯ СХОДИМОСТИ

193

Для доказательства леммы воспользуемся неравен­ ством Чебышева для нецентрированных случайных ве­ личин

Р ( |а ( Л 0 - а нач|> г ) < М {[ а (N) — «нач I2}

г2

Усилим это неравенство; учитывая, что

М {| а (N) — анач I2} < TN,

получим

Р ( |а ( У ) - а нач |> г ) < - ^ - .

Потребуем, чтобы эта вероятность не превосходила б. Это произойдет, если величины г, TN, б будут связаны соотношением

£jv

г2

откуда следует, что с вероятностью, превышающей 1 — б, точка а (N ) будет находиться внутри гипершара G с цен­ тром в а нач и радиусом

Лемма 1 доказана.

Пусть, далее,

А = inf R (а).

а

Обозначим через Gz область значений а:

Gt = {a: R ( а ) < А + е}.

Лемма 2.

Для

любых

г

0 и N последовательность

а х, . . ., a N,

. .

.,

а г, . . .

с вероятностью 1 жотгеьраз вой­

дет в область

Gz при і ^

N.

 

Утверждение леммы 2 эквивалентно такому: вероят­

ность того,

что

подпоследовательность а#, . . .,

a t ни

разу не заходит в область Gt, стремится к нулю при і

оо.

Д о к а з а т е л ь с т в о .

Для доказательства

удоб­

но рассмотреть процедуру, отличающуюся от (9.13)

только

тем, что

если

последовательность при г

N

входит

в область

Gt,

то она там и остается.

 

7 В. Н. Вапник, А. Я. Червонешшс

194 ГЛ.

IX .

О СХОДИМОСТИ

РЕ К У РРЕ Н Т Н Ы Х

АЛГОРИТМОВ

 

Для

этого будем считать, что соотношение

 

а (г) = а (г — 1) — у

(і) [Ѵ0 Q (z, а (і — 1)) + У

 

выполняется всегда при і

N + 1, а при і !> N +

1 —

лишь для

а (і — 1) ф Gt . В случае же,

когда при

і ^

> N +

1

элемент а (і — 1) принадлежит

бге, последова­

тельность

«залипает», т. е.

 

 

 

 

а (і) = а (і — 1).

 

 

Очевидно, что если последовательность а (1), ..., а (N), ...

..., а(і), построенная в силу исходного алгоритмами разу не заходит в Gt при і > N , то последовательность, постро­ енная по новому правилу, ничем не отличается от исход­ ной и, в частности, не заходит в GEпри і ^ N. Поэтому достаточно оценить вероятность того, что новая последо­ вательность ни разу не войдет в Gt при і > N.

Вобласти Gt выберем точку а*, для которой і?(а‘) < Л + |

(это всегда можно сделать), и оценим величину М {(а (г)—

— а*)3} для процедуры

а (і)

'а(і — 1), если

і > N + 1 и

а ( і - 1 ) е С і ,

 

а (і -

1) -

Г (і) [ Ѵ0Q (zu а (і -

1)) + У

(9.16)

 

 

 

 

в противном случае.

 

Согласно

этой

процедуре при

а (і — 1) ф. Gt

М ((а (і) — а*)2 I а (і

— 1)} =tf(а (г — 1) — а*)2 —

—2у

(і) [М {Ѵ0<2 (z, os

(i — 1)) I а (i — 1)}, (а — 1) —

— а*)] — 2у (і) {It

I а (і — 1)}, (а (і — 1) — а*)] +

 

+ у2 (і) М {І2 -f

[Ѵ0 Q (z, а (і — I))]31а

— 1)}.

В

силу условий теоремы

 

 

 

 

 

 

М { I t I а} =

О,

 

атакже

М{ІѴ0 Q (z, а)]2} < Л и М { ? 2 | а } < 0 .

 

 

 

§ 4.

УСЛОВИЯ

СХОДИМОСТИ

 

 

195

Поэтому

справедливо

неравенство

 

 

 

 

М {(а (і) — а*)2

I а

— 1)} ^ f( a

(i — 1) — а*)2—

 

—2у (t) (М {V0

(z,

а (i — 1))},

(i

— 1) — а*)) +

 

 

 

 

 

 

 

 

 

 

+

2у2 (i) D.

(9.17)

Далее, поскольку функция Q (z, а (і — 1)) выпукла, то

(Vo Q (z, а

— 1)), (а (і — 1) — а*)) >

Q (z, а (і — 1)) —

 

 

 

 

 

 

 

 

 

 

 

Q (z, а*)

и поэтому

 

 

 

 

 

 

 

 

 

 

 

 

 

(М {Ѵ0 Q (z,

а — 1)) I а ( і— 1)},

(а (і — 1 )—

а*)) >

 

 

 

 

 

> Л (а (і -

1)) -

Л (а*).

 

(9.18)

Но точки а (і — 1) и а*

выбраны так, что

 

 

 

 

 

Л (а (і — 1))

А +

е

 

 

 

(поскольку

а (і — 1) ф. Gt)

и

 

 

 

 

 

 

 

 

 

 

Л (а*)< Л +

!

 

 

 

 

 

и, следовательно,

 

 

 

 

 

 

 

 

 

 

 

 

Л ( а ( і - 1 ) ) - Л ( а ‘) >

I

.

 

(9.19)

Объединяя (9.17),

(9.18)

и (9.19),

получаем,

что при

а (і — 1)

 

Gt

 

 

 

 

 

 

 

 

 

 

 

М {(а (і) -

 

а*)2

I а (г -

1)}

 

(г -

1) - а*)2 -

 

 

 

 

 

 

 

 

 

 

У (0 е + 2у2 (і) D.

Если же

при і

 

N

+

1 элемент

а

— 1) ЕЕ Ge,

то

М {(а (і) — а*)2 I а

— 1)} = (а

— 1) — а*)2.

 

Пусть

бг — вероятность

того,

что

а (і — 1) ф Gz.

Тогда, переходя к безусловному математическому ожида­ нию, получим для і > N + 1

М{(а (і) — а*)2} ^ М {(а — 1) — а*)2} — s8,y (і) +

+2Т2 (і) D.

7*

196 ГЛ. IX. О СХОДИМОСТИ РЕКУРРЕНТНЫХ АЛГОРИТМОВ

Из этого рекуррентного соотношения, очевидно, сле­

дует, что

при

£ > ІѴ + 1

 

М {(а (£) -

а*)2} <

М {(а (N ) — а*)2} —

 

 

 

г

г

 

 

8 2 tyr(y') +

2D 2 Т2(Л-

 

 

j=N+l

3=JV+l

Всилу леммы 1 величина

М( а (N ) — а * )2

ограничена, и по условию

теоремы ряд

2

Т2(0 схо-

дится. Поэтому

 

І=ІѴ+1

 

і

 

 

 

 

 

М { ( а ( 0 - с О 2} <

С - е 2

(7),

(9.20)

 

j=jv+l

 

 

где с — константа, не зависящая от г.

Далее, поскольку процедура (9.16) организована так, что, попав в Ge, последовательность «залипает», вероят­ ность 6і не возрастает с ростом і.

Если

бы при этом öj оставалась больше некоторого

б Д> 0,

то величина

 

І

 

2 бя(у)

 

J=IV+1

с ростом і неограниченно возрастала, поскольку при этом

 

 

1

і

 

 

2 öiT (7)>Ö

2 Т(Л,

 

СО

i = N - f l

3=ІѴ+1

а ряд

2

Т (І) расходится.

 

Но

jWV-f-l

невозможно, потому что тогда правая часть

это

неравенства (9.20) становилась бы отрицательной при достаточно больших £, тогда как левая часть положитель­

на. Следовательно,

последовательность

бг

стремится

к нулю при і -V оо.

 

 

 

Остается отметить, что последовательность а (і) орга­

низована процедурой

(9.16) так, что если

она

хоть раз

§

4. УСЛОВИЯ

сходимости

197

войдет в 6ге при і

N + 1,

то она там и останется к мо­

менту і. Следовательно, вероятность того, что последо­

вательность a N, . . .,

а г ни разу не заходит в Gu равна

6г и стремится к нулю при t — ОО.

Лемма

доказана.

 

О и б )> 0 существует такое

Лемма 3. Для любых е

N lt что

при

всех

N

Д N t

вероятность последователь­

ности ам,

. .

., а г,

. . . выйти из области

 

 

G%t =

{а: М (а) ^ А -|- 2е},

при условии а (N ) 6= Gt, меньше б.

Д о к а з а т е л ь с т в о . Оценим вероятность б* того, что в последовательности aN, . . ., а, хотя бы один эле­

мент

не

принадлежит

(г2е при условии,

что

а n Gr Gt.

Для этого' изменим процедуру (9.13) при і

N + 1,

положив

 

 

 

 

 

 

а

(г — 1), если

а (і — 1)

Git,

 

 

а (і) =

а (і — 1) — у (i) [V0 Q (z, а (i — 1)) +

£,],

(9.21)

 

 

 

если а (i — 1) e

G2E.

 

Очевидно, что величина б* равна вероятности того, что ссі ZjÉ G2s при условии ajy £Е Ge, если, начиная с i = = N + 1, действует процедура (9.21).

Обозначим через а£ (£) точку множества Ge, ближай­ шую к а (г), и оценим величину

М {(а (і) — а е (і))2}.

Очевидно, справедливо неравенство

(а (і) — а е (г))2 < [а (г) — а е (г — I)]2.

Поэтому при а (г — 1) е G2e в силу процедуры (9.21)

М {(а (і) — а £ (і))21а — 1)} <

М {(а (г) —

 

- «е (і - I))21 а (і - 1)}

< (а

(Ä — 1) —

(і -

I))2 -

—2у (г) (М (Ѵ0<? (z, а (г — 1))}, (а (і —1) — а е (і —

1))) +

 

 

 

+ 2Пу2 (г).

В силу выпуклости (? (г,

а) справедливо неравенство

(М {Ѵ0<2 (z, а (і — 1))}, (а (г — 1) — а е (£ — 1))) >

 

>

R

(г - 1)) -

R (а, (і - 1)).

198 гл . IX . О СХОДИМОСТИ РЕ К У РРЕ Н Т Н Ы Х АЛГОРИТМОВ

Но при

а (і — 1) <= Gz элементы а (і) г оЕ(і) совпадают,

а при

а (і — 1) ф

G&

 

 

 

 

 

 

 

R (а

— 1))^> R

(се£

1)).

 

Поэтому

 

 

 

 

 

 

 

 

 

R (а (і

1)) — R (а£ (і

— 1))

0.

 

Следовательно,

 

 

 

 

 

 

 

 

М {(а (і) — а £ (і))2

I а

(і — 1)} <

— 1) —

 

 

 

 

 

— at (i — I))2 +

2у2 (г) D.

Если же а — 1) ф

G2£

при і ;> ІѴ + 1, то

 

М {(а (і) — а £ (г))2

| а

(і — 1)} =

(а (і — 1) —а £ — I))2.

Таким

образом, всегда

 

 

 

 

 

 

М {(а (і) — а £ (г)) I а (і — 1 )} <

 

 

 

 

 

 

<

(« (і

- 1) -

а е (і

-

I))2 +

2у2 (і) £>.

Из этого рекуррентного

соотношения

следует,

что при

і ]> N

справедливо

 

 

 

 

І

 

 

 

 

 

 

 

 

 

 

 

 

M { (a (i)-a £(0 )2|a(iV0 eEGE} < 2 D

2

т20 ')<

 

 

 

 

 

 

 

 

оо

 

 

 

 

 

 

< 2 D

2

Т2 0)і (9.22)

 

 

 

 

 

 

 

j=N+x

 

поскольку при а (/V) ЕЕ Gt имеет место

 

 

(N) - а £ (ІѴ))2 = 0.

Далее, оценим расстояние Л между произвольным эле­ ментом а ф С2е и множеством G£, т. е. ширину зоны, которую должна пройти точка а (£), чтобы из Gt уйти за пределы G2£. Так как функция R (а) выпукла,

Ѵ0Я ( а) = М (I Ѵ0 Q(z, а) |} < / Я ,

для всякой точки a g C j выполняется неравенство

R (а) А + е

и для всякой точки а ф Ga — неравенство

R (а) > А + 2в,

Соседние файлы в папке книги из ГПНТБ