Цифровая обработка сигналов (сборник книг) / Граничин О.Н. Введения в методы стохастической оптимизации и оценивания, 2003
.pdf4. М то ы стох стич ской ппроксим ции
èслуч йно о поиск
Âшироком смысл м то ом стох стич ской ппроксим - ции н ы ют посл о т льный спосо улучш ния оц нки, миними ирующ й функцион л ср н о риск
f(X) = EwfF (w; X)g
(см. р . 1.4), исполь ующий н к ом ш но ы н лю - ния и пр ш ст ующую оц нку. Если штр фн я функция F (w; X) ифф р нциру м по X, то миними ирующи этот функцион л кторы н хо ятся ср и р ш ний óð í íèÿ ð ð ññèè
g(X) = Z rxF(w; X)Pw(dw) = 0:
Пусть р спр л ни роятност й Pw( ) н и стно, но - н о уч ющ я посл о т льность w1; w2; : : :, èì ïîðî í- í ÿ, è ê ûé ìîì íò ð ì íè n (n = 1; 2; : : :) оступны и - м р нию личины yn, я ляющи ся при опр л нном ы ор точ к Xn ли о н ч ниями функции F(wn; Xn), ли о н ч - ниями ктор- р и нт rxF(wn; Xn), и м р нными, мо-т ыть, с пом х ми. В т кой ситу ции ля поиск р ш ний ур н ния р р ссии мо но исполь о ть р курр нтную про-
ö óðó òèï |
|
^ |
^ |
n = n 1 ng^n( n 1); |
n = 1; 2; : : :, f ng сп ци льным о р ом по ир м я посл о т льность н отриц т льных чис л, н ы мых -
личин ми р оч о ш ,
^ |
; : : : ; y1 |
^ |
g^n( n 1) = ~gn(yn; yn 1 |
; xn; xn 1; : : : ; x1; n 1) |
н котор я "хорош я" ппроксим ция точк ^n 1 ëÿ ê-
тор- р и нт функции f( ). По о ны л оритмы типич-
61
ны ля м то стох стич ской ппроксим ции. Ино фор- м льно опр л ни м то стох стич ской ппроксим ции опир тся им нно н посл нюю формулу, которой ч сто пр пол тся, что f ng нн я т рминиро нн я пос- л о т льность н отриц т льных чис л. Случ йный ы ор f ng х р кт р н ля л оритмо случ йно о поиск
4.1.Поиск корня н и стной функции. Ал оритм Ро инс Монро
П р ой по р курр нтным стох стич ским л оритм м ы- л р от Ро инс и Монро [73], которой иссл о л сь
ч о н хо нии корня щ ст нной функции g(X) отщ ст нно о р ум нт X. Пр пол лось, что функция н и стн , но н лю нию эксп рим нт тор оступны н - ч ния ы ир мых им точк х, мо т ыть, с пом х ми.
Если функция g(X) н м и стн и н пр ры но ифф р н- циру м , то ч пр р щ тся кл ссич скую и числ н- но о н ли . Для р ш ния мо но осполь о ться м то-
ом Ньютон , который н риру т посл о т льность оц нок
f^ng корня функции ( ):
g X
n = 1; 2; : : :, или ол простой, но м н эфф кти ной, про- ц урой:
с фиксиро нным ост точно м лым коэффици нтом > 0,
котор я н тр у т ум ния ычислять прои о ную функции.
^
Åñëè í ÷ ëüíî í ÷ íè 0 ы р но ост точно ли ко к , то проц ур р нтиру т схо имость оц нок к корню функции g(X) ïðè ïð ïîëî íèÿõ î òîì, ÷òî g(X) < 0 ïðè X < , g(X) > 0 при X > , прои о н я функции о р нич н и g0(X) > 0 н которой окр стности точки . Воо щ о оря, эт проц ур н тр у т и ифф р нциру мости функции
g(X).
62
Т п рь пр поло им, что точны н ч ния функции g(X) и прои о ной н и стны, оступны только н ч ния функции ы ир мых точк х X, но иск нны пом х ми. Бол точно: пусть к ому щ ст нному X соот тст у т н котор я щ ст нн я случ йн я личин G(w; X) с н и -стным р спр л ни м роятност й и ср ним н ч ни м
g(X) = EwfG(w; X)g = Z +1 G(w; X)Pw(dw):
1
Òð ó òñÿ н йти н ч ни , при котором g( ) = 0; н осно - нии н лю ний р ли о нных н ч ний случ йных личин G(w1; X1); G(w1; X2); : : : при ы ор п р м тро испыт ний X1; X2; : : :. Для упрощ ния у м счит ть, что функция g(X)н у ы ющ я и им т инст нный кор нь. При н лю - ниях с пом х ми м то Ньютон н прим ним, но торой (упрощ нной) проц урой осполь о ться мо но, м ни , к прим ру, н ч ния функции н их "хороши " при ли ния, получ мы уср н ни м н скольких н лю ний. Н с момл , к к уст но или Г. Ро инс и С. Монро [73], н т н о хо и-
мости прои о ить с рию н лю ний ля к о о р н ы - |
|
^ |
^ |
р нно о п р м тр испыт ний n 1 |
, поскольку личины n 1 |
и р ют ычисл ниях пром уточную роль и н ч ния функции этих точк х пр ст ляют инт р с н с ми по с , только той ст п ни, н сколько они ут н с н пр л нии к корню функции. Был пр ло н но ый л оритм:
^ = ^
n n 1 nYn
с н которой ы ир мой поль о т л м посл о т льностью поло ит льных чис л f ng, ñòð ìÿù éñÿ ê íóëþ ïðè n ! 1 и у о л т оряющ й усло иям
X |
n = |
1 |
; |
X |
n2 < |
1 |
: |
|
|
||||||
n |
|
|
n |
|
|
||
|
|
|
|
|
|
тот л оритм исполь у т н n-м ш н лю ни Yn, ïð -
(^ )
ñò ëÿþù ñî îé øóìë ííî í ÷ íè g n 1 , ð íî
63
^ |
|
Rr |
, л оритм |
G(wn; n 1). Â ìíî îì ðíîì ñëó÷ , êî X 2 |
|
||
èì ò ò êîé è è Yn |
Rr . Он получил о щ при н нно |
í íè 2 . К н стоящ му р м ни
проц ур Ро инс Монро
р иты м то ы, ок ы ющи схо имость получ мой т - ким о р ом посл о т льности оц нок к корню функции g(X) при ол о щих пр поло ниях о с ойст х н и стной функции и м ньших о р нич ниях н посл о т льность f ng (см. р . П.4.2). Вс спосо ы ок т льст состоя- т льности оц нок исполь уют пр рит льную информ цию о пом х х, пр пол я их ц нтриро нность том или ином смысл .
Для прим р при м н которы соо р ния, пок ы-ющи , что пом хи с нул ым ср ним и о р нич нной ис- п рси й н лияют н симптотич ско по ни л оритм
ïðè n |
! 1 |
. |
С о ной стороны, при ольших н ч ниях n |
||||||||||
|
|
|
|
|
|
|
|
^ |
м няются м л нно. С |
||||
ш л оритм n ! 0 |
è í ÷ íèÿ n |
||||||||||||
ру ой, ля ост точно м ло о > 0 îïð ëèì N |
ò ê, ÷òî û |
||||||||||||
n+N |
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
P |
|
|
: Проц уру Ро инс Монро мо но п р пис ть |
||||||||||
i=n n i |
|
||||||||||||
è |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
^ |
|
^ |
|
|
^ |
|
|
|
|
^ |
|
|
|
n |
= n 1 ng( n 1) + n(g( n 1) Yn): |
||||||||||
À í ÷èò, |
n+Nn n 1 g( n 1) + |
|
|
||||||||||
|
|
|
; |
||||||||||
|
|
^ |
|
^ |
|
|
|
^ |
|
|
"îøè ê " |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n+N |
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
X |
|
^ |
|
|
|
|
|
|
|
|
"îøè ê " |
= |
i(g( i 1) Yi): |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
i=n |
|
|
|
|
|
|
Åñëè ïð ïîëî èòü, ÷òî ïîì õè |
fYn |
|
^ |
|
|||||||||
g( n 1)gn=1;2;::: ïð - |
|||||||||||||
ст ляют со ой посл о т льность |
орто он льных случ й- |
ных личин с нул ыми ср ними н ч ниями и о р нич н-
64
|
|
|
2 |
^ |
|
|
|
|
|
íîé èñï ðñè é |
( n 1), òî ëÿ èñï ðñèè îøè êè èì ì |
||||||||
|
n+N |
|
|
|
|
|
n+N |
|
|
|
n |
|
|
|
2 |
|
n |
|
|
< X |
|
|
|
= |
X |
|
|||
|
^ |
|
2 |
||||||
E 8 |
i=n |
i yn g( n 1) |
|
9 = |
i=n |
|
O( i ) = O( ) n: |
È ïîñë: н о соотнош ния и ;íî, ÷òî í èò ð öèÿõ è èíò ð-
ë [n; n + Nn) ля м лых и ольших n ср н и м н нин ч ния п р м тр ол сущ ст нно, ч м "оши к ". Сл о-
ò ëüíî, ïî êð éí é ì ð ôîðì ëüíî, è ïðè ëè ííîé ôîð-
^ ^
ìóëû ëÿ êîí ÷íûõ ð íîñò é n+Nn n 1 мо но с л тьключ ни о том, что симптотич ско по ни оц нок -
роятн с о со п т с симптотич ским по ни м н которо о р ш ния о ыкно нно о ифф р нци льно о ур н - ния
^ При ополнит льных о р нич ниях мо но пок ть, чтоn ! с роятностью иниц , сли я ля тся симптотич с- ки устойчи ой точкой это о ур н ния.
4.2.Миними ция функцион л ср н о риск
Р ссмотрим чу миними ции функции
f(x) = EwfF (w; x)g
(тип функцион л ср н о риск см. р . 1.4), исящ й от кторно о r-м рно о р ум нт x. Пр поло им, что w
ñëó÷ éíûé êòîð è Ewf g оп р ция уср н ния по о р спр л нию. Пусть f( ) н пр ры но ифф р нциру м я
функция. Н о хо имым усло и м то о, что точк минимум функции f( ), ÿ ëÿ òñÿ ð íñò î íóëþ ýòîé òî÷ê
êòîð- ð è íò rf( ) = 0.
Пр поло им, что и стны н ч ния ктор- р и нт функции f( ) и м тицысси н . Для н хо ния точки
65
минимум мо но осполь о ться кл ссич ской сх мой ычис- л ний по м то у Ньютон :
^ |
^ |
2 |
^ |
1 |
|
|
^ |
n = n 1 |
[r |
f( n 1)] |
|
rf( n 1); |
|||
n = 1; 2; : : : : Åñëè ì òðèö - ññè í r |
2 |
^ |
|||||
|
f( n 1) н которой |
окр стности точки т поло ит льный о р нич нный оп -
^
ð òîð è í ÷ ëüíî í ÷ íè 0 ы р но ост точно ли ко к
точк лок льно о минимум , то посл о т льность оц нок
^
f ng схо ится к . Н ост тком это о л оритм я ля тся н о хо имость о р щ ть м трицусси н н к ом ш ,
что мо т пр ст лять со ой опр л нную тру ность приольшой р м рности. В н которых случ ях у тся ы р ть р курр нтный спосо ля п р сч т м триц, о р тных к с-
си ну. Для упрощ ния л оритм , м трицы [r2 (^n 1)] 1 f
èíî î îñíî ííî ì íÿþò í ïîëî èò ëüíû ÷èñë n, получ я р ульт т л оритм тип проц уры Ро инс Монро.
Если н ч ния р и нт функции f( ) н и стны, то ст н-ртным по хо ом к р ш нию чи я ля тся исполь о ни кон чных р ност й ля ппроксим ции р и нт . Пусть f ng н котор я посл о т льность поло ит льных чис л. О о н чим ч р ei ст н ртный иничный ктор н пр - л нии i-й коор ин ты. В к ч ст ппроксим ции i-й компо- н нты ктор- р и нт мо но исполь о ть
|
^ |
^ |
+ nei) |
|
|
^ |
|
nei) |
|
|
f( n 1 |
|
f( n 1 |
|
|
||||
r |
f( n 1)i |
|
|
|
|
|
: |
||
|
2 n |
|
|
|
|
Отм тим, что этот ст н ртный по хо к ппроксим цииктор- р и нт тр у т н к ом ш л оритм оц ни-ния прои сти 2r и м р ний н ч ний миними иру мой функции при р м рности искомо о миними ирующ о кто- р , р ной r.
66
4.3.Проц ур Киф р Вольфо иц
К к поступить, сли н ль я исполь о ть л оритм н только р и нт функции f( ), но и точны н ч ния? Т -
к я про л м о ник т, сли и функций f( ) è F ( ; ) и с- т н н полностью ли о сли н ычисл ни соот тст ующих
н ч ний тр чи тся чр м рно колич ст о усилий приоро о и н эксп рим нто или ольшой р м рности ктор н и стных п р м тро . В ч х оптими ции ост точно ч сто мо но осполь о ться только шумл нной информ - ци й о н ч ниях функции F (w; X) ы ир мых точк х X с н контролиру мыми при этом н ч ниями случ йной личи- ны w.
Д . Киф р с Д . Вольфо иц м [68] при r = 1 и Д . Блюммно ом рном случ [61] ля постро ния посл о т льности оц нок пр ло или исполь о ть проц уру сл ующ о и :
^ ^ |
|
|
Y + |
|
Y |
|
|
|
n |
n |
|
n |
; |
||
n = n 1 |
|
|
|
|
|||
|
|
|
2 n |
|
î î í ÷ íî:
|
|
|
|
|
|
|
|
3 |
^ |
|
|
1 |
|
||
|
|
F |
w2r(n 1)+ |
1 |
; n 1 |
ne1 |
|
||||||||
|
|
2 |
|
|
|||||||||||
|
|
0 |
|
|
|
|
7 |
^ |
|
|
|
||||
|
= |
F |
|
w2r(n 1)+ |
1 |
; n 1 |
ne2 |
|
|
|
|||||
2 |
|
|
|
||||||||||||
Yn |
|
|
|
|
|
. |
|
|
|
|
: |
||||
|
|
|
|
|
|
|
. |
|
|
|
|
|
|||
|
|
B |
|
|
|
|
|
. |
|
|
|
|
C |
|
|
|
|
|
|
|
1 1 |
|
|
^ |
|
|
|
|
|||
|
|
F w2rn |
; n 1 |
ner |
|
|
|
||||||||
|
|
2 |
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
@ |
|
|
|
|
|
A |
|
Они о осно ли состоят льность оц нок при опр л нных пр поло ниях о р спр л ниях соот тст ующих случ й- ных личин, с ойст х функции F( ; ) и число ых посл о-т льност й f ng è f ng. È í êë û ìûõ óñëî èé î û÷-
íî ñë ó ò, ÷òî ñð í ì ïî ñ î ìî íûì ð ëè öèÿì wí ÷ íè (Y(n+) Yn )=(2^ n) со п т со н ч ни м р и нт функции f точк n 1; и симптотич ско по ни оц -
нок, получ мых с помощью проц уры Киф р Вольфо иц ,
67
х р кт ри у тся с ойст ми р ш ний сист мы о ыкно нныхифф р нци льных ур н ний (ОДУ):
_ = rf( ):
В ол широком смысл л оритмы т ко о тип принято н ы ть пс о р и нтными [29]. При н шн й простот , ори ин льн я проц ур Киф р Вольфо иц им т ря су- щ ст нных н ост тко . Для ок т льст состоят льности оц нок прихо ится н кл ы ть ост точно о р ничит льны усло ия н н контролиру мы о мущ ния; при и м р - ниях н ч ний функции с почти прои ольными пом х ми состоят льность оц нок н получ тся; и т х случ ях, ко о р нич ниями н н контролиру мы о мущ ния и по- м хи н лю нии мо но пр н р чь, н к ом ш л о- ритм прихо ится л ть 2r н лю ний, что мно ом рном случ при ост точно ольшом r мо т ок ться тру но осущ ст имым.
4.4.Р н оми иро нны л оритмы стох стич ской ппроксим ции
Кл ссич скую проц уру Киф р Вольфо иц (КВ) посл н р мя ч сто н ы ют л оритмом стох стич скойппроксим ции с фиксиро нными н пр л ниями. Ñóù ñò-ííî улучшить х р кт ристики оц нок по оля т ключ - ни о но р м нно к н л н лю ния, ч р ы ир мый п - р м тр, и н пр л ни ктор и м н ния оч р ной оц нки т к н ы мо о ïðî íî î î íî ð ì ííî î î ìóù íèÿ. В отличи от кл ссич ской проц уры Киф р Вольфо иц приы ор оч р ной точки и м р ния функции случ йному о - мущ нию по р ются о но р м нно с коор ин ты.
Пусть f ng посл о т льность н лю мых, о ин ко-о симм трично р спр л нных случ йных кторо с м три- ц ми ко ри ций
covf n Tj g = Ænj 2 I;
68
> 0; и о р нич нным торым ст тистич ским мом н- том. Н прим р, ля ния про но о о но р м нно о о му- щ ния у о но исполь о ть рнулли ски случ йны кторы (коор ин ты ктор n н исят ру от ру и прини- м ют с р ной роятностью н ч ния плюс/минус иниц ). Ок ы тся, что при шумл нных н лю ниях сущ ст-нных пот рь скорости схо имости ля постро ния состоя- т льной посл о т льности оц нок мо но осполь о тьсял оритмом, похо им н шн н кл ссич скую проц уру Ки- ф р Вольфо иц , но исполь ующ м с о шумл нных и м р ния функции F( ; ) í ê îé èò ð öèè:
^ |
^ |
|
|
|
y+ |
|
y |
|
|
|
|
^ |
|
|
|
|
|||
|
|
|
n |
n |
; |
y |
= F (w |
|
) + v |
: |
|||||||||
|
|
= |
|
|
|
|
|
; |
n 1 |
|
|||||||||
|
n |
n 1 |
n |
|
n |
2 n |
|
|
n |
|
n |
|
n n |
n |
|
Бол то о, н ло ичными с ойст ми о л т л оритм с о ним шумл нным н лю ни м н к ой ит р ции:
^n |
^n 1 |
n |
|
n ^n 1 |
|
|
= |
n |
nyn; |
yn = F (w ; |
+ n n) + vn: |
òè ð êóðð íòíû ïðîö óðû ó ì í û òü р н оми иро-нными л оритм ми стох стич ской ппроксим ции, т к к к их структуру н отъ мл мой ч стью хо ит случ йно про но о но р м нно по с м коор ин т м о мущ ни , которо т к о но р м нно исполь у тся и нии н пр - л ния оч р но о и м н ния оц нки и при ы ор но ой точки и м р ния. Ино стр ч ются н ния стох стич ск яппроксим ция со случ йными н пр л ниями, поиско ый л-оритм стох стич ской ппроксим ции èëè стох стич с- к я ппроксим ция с о мущ ни м н хо . В н лоя ычной лит р тур широко исполь у тся н ни о но р м нно о - мущ м я стох стич ск я ппроксим ция (simultaneous perturbation stochastic approximation, SPSA).
В [8, 10, 63, 76] при ны точны усло ия, о сп чи ю- щи состоят льность оц нок р н оми иро нных л оритмо
69
стох стич ской ппроксим ции, и которых н и ол сущ ст-нным я ля тся усло и о сл ой корр лиро нности про но-о о мущ ния f ng и посл о т льност й н опр л ннос-
ò é fwng è fvng. Ест ст нно, что ср н к р тичн я скорость схо имости п р о о р н оми иро нно о л оритм с
умя и м р ниями о ычно ыш , ч м у торо о. Но стоитм тить, что ц лом ря пр ктич ских ч оптими - ции сист м р льно о р м ни, о н ру ния си н ло и п- ти но о упр л ния но им ть о мо ность исполь о тьл оритм только с о ним н лю ни м н к ом ш , т к к к этих ч х тру но с л ть н только 2r н лю ний, к к кл ссич ской проц ур Киф р Вольфо иц , но н оступны н лю ния с н исимыми от n ïîì õ ìè.
В отличи от оц ни ния по кл ссич ской проц ур Ки- ф р Вольфо иц прим н ни р н оми иро нных л оритмо эфф кти но и при почти прои ольных ити ных по-
ì õ õ í ëþ íèè fvng. В по т р ни это о ф кт случ н и стной, но о р нич нной т рминиро нной пос-
л о т льности пом х fvng ост но имся сь только н н - форм льном о ъясн нии, ли ком к и ок т льст
ð îò [6].
Пусть щ ст нн я функция f(X) щ ст нно о р у- м нт X ы н пр ры но ифф р нциру м я, о р ни- ч нн я, сильно ыпукл я, т. . им т инст нный минимум R н которой точк = (f( )):
(X )rf(X) (X )2; 8X 2 R
с н которой постоянной > 0, и ля р и нт функцииыполн но усло и Липшиц :
krf(X) rf( )k AkX k; 8X; 2 R
с н которой постоянной A > . Вы р м про но о но р - м нно о мущ ни n приним ющим с р ной роятностьюн ч ния плюс/минус иниц н исимо от vn.
70