ций естественно строить более эффективные методы :\Ш· ннмизации овражных функционалов на основе расс:о.ют
)10В интегрирования жестких систем уравнений. Имен но такой подход положен в основу создания системных
заключение данного класс квадратичных
параграфа отметим, (квазиньютоновских)
Эти алгоритмы эффективными,
в ряде случаев оказываются довольно
ибо, имея квадратичное окончание, онн
недостатках этих |
методов, отметим то.~ько. |
устранен главный |
недостаток метода Нью |
об.1асть |
их |
эффективного |
применения |
огранпчена |
выпуклыми функционалами. |
относительно вптся малой.
Как уже отс.'!ечалось, 'для
овражного функционала
точной локализацап |
линейные |
методы |
(покоордш1атные, градиентные зываются ма.rюэффективными,
их модификации) ока приходится прибегать
мощным методам квадратичной аппроксимашш.
существующие квадратичные методы обладают
заключается в ограничении .сферы их эффективной пр!! ~1ен11мостп классом выпуклых минимизнруемых функцн
которому каждому минимизируемому функшю (х) ставится в соответствие система обыкновен
дифференциальных уравнений
dx = -J' (х).
стационарная точка которой совпадает с искомой экст
ремальной точкой. Далее необходимо выбрать эффектив
ный метод интегрирования, позволяющий осуществить дискретизацию жесткой системы (19) и тем самым по.ТJу
чить некоторый алгоритм оптимизации.
Подобным образом могут быть получены методы,
от:шчающиеся достаточно высокой универсальностью от носительно характера выпуклости функционала, так как
вдоль траектории х(t), описываемой уравнениям:и ( 19), функционал J (х) монотонно убывает. Действительно, вычисляя производную по времени от J(x(t)) вдоль ре шения системы (19), получим
dJ = (J' (х), |
dx )= -11 J' (х) 11 <О, |
dt |
dt |
ест~ J'(x)=/=O.
В данном параграфе строится так называемый си
сте:\tный алгоритм оптимизации, обобщающий кдассиче
с1шй метод Ньютона на случай невыпуклых функциона лов. Принщшиа.ТJьная схема алгоритма построена на ос
нове снстемных методов интегрирования обыкновенных днфференциальных уравнений, изложенных во второй
г.1аве. Испо.1ьзование системных методов в данном слу чае обусловлено их высокой эффективностью при
интеrрн~ровании жестких с1исте:..1 уравнений, включаю щих и ура·внения спуска ( 19) для овражных функцио
на.~ов.
По сравнению с известными обобщениями метода Ньютона системные алгоритмы оптимизации в ряде слу
чаев о~<азываются бо.ТJее предпочтительными, так как
прп их построенш1 не предполагается искажение малых
спе1пра.1ьных составляющих матрицы Гессе, которые в
значительной степени определяют параметры траекто
рин спуска.
Далее в данном параграфе везде предполагается, что
с-.tатрица Гессе :..шнимизируемого функционала вычисля
ется достаточно точно 11 содержит достаточно полную
информацию о спектральных состав.'lяющпх истинной
матрицы вторых производных. Случай, когда погрешно
стями представления элементов матрицы пренебречь
не.1ьзя, рассмотрен в § 4.4.
Сравним рассматриваемый алгоритм с простым гра
.:щентным методом (9) для случая сильно выпуклого
квадратичного функционала (8). При этом также пола гае:vr hk=h=const. Вводя, как и раньше, вектор ошибки
и=х-х*, получим
Yk+t = (Е-Ф (Dk, h11) D) У11= g (D) Yk·
где |
|
|
|
|
h |
|
|
g (t) = l - t Jехр(-t т) d т= ехр (-ht). |
(22) |
|
о |
|
|
Такиы образом, в отличие от градиентного метода |
1gi1=1 ехр (-Л., (D) h) 1< 1 |
|
при любом h>O, |
и выбирая |
h достаточно |
большим, |
~IОЖНО ПО.'IУЧИТЬ |
сколь угодно |
·бО.'IЬШОе затухание по |
все~r ко•ы1понентам вектора ошибки.
Можно показать, что алгоритм (20) сходится прак
тпчески пр:и тех же ограничениях на :vшни:мизируе:мый
функционал, что 11 метод наискорейшего |
спуска |
[14], |
т. е. имеет существенно более широкую |
об.'lасть |
сходн |
:-.rостп, чем метод Ньютона. |
|
|
С.'Iедующая теорема устанавливает факт сходимости
спстемного а.'lгоритма для достаточно шпрокого класса
невыпук.'lых |
функцпоналов в предположешш |
достижи |
:-.rости точкп минимума |
(условие 2) 11 отсутствия точек |
.1окальных минимумов (условие 3). |
|
Теорем а 4.l. Пусть: |
|
|
1) J(x) - |
дважды |
непрерывно дифференцируемый |
функционал ХЕ Rm; |
|
|
|
|
2) множество |
|
|
|
|
|
Х*= {х* 1 J (х*)= min J (х)} |
|
|
|
|
хе~т |
|
непусто; |
|
|
|
|
|
3) для любого |
в>О |
найдется |
такое 6>0, |
что |
11 |
J' (х) 11 |
:;;,:. б, |
если х $ |
Е (Х*), |
(23) |
где |
|
|
|
|
|
Е (Х*) = {х 1d (х, Х*) ~в}, d (х, Х*) = min 11х-х*11;
156 |
Гл. 4. Оптимизацив |
где р, R - |
соответственно минимальное и максимальное |
собственные чисда по.1ожительно определенной матри цы Ф(D11, h).
Левое неравенство (28) сдедует из представления
минимального собственного числа Л любой симметрич
ной матрицы В в виде
Л= miп (Вх, х)
а пра1вое - из услов·ия согласования
llBxll ~/IB/l llxll
сферической нормы вектора
11х11= { f (x(i))2 = V(x.X)
i=I
и спектральной нормы симметричной матрицы В
11 В 11 = max /Лi (В) 1. i
Для значений р и R ~получим: h
р= mi_n 'Лi (Ф(D, |
h)) = ~in Jехр ( -Лi (D) т) d т, |
i |
|
1 |
о |
|
|
|
h |
|
|
R= max Jехр (-Лi (D) т) d т. |
|
i |
о |
|
|
Согласно предложению 5), |
|
|
h |
h |
|
|
h |
Jехр(-Мт)dт~J ехр(-Лi (D)·т)dт~ J ехр(Мт)dт, |
о |
о |
|
|
о |
поэтому |
|
|
|
|
h |
ехр(-Мт)dт= |
1 |
(1-ехр ( -Mh)), |
р ~ J |
- |
о |
|
|
м |
|
h |
|
|
1 |
|
R ~ j ехр (Мт) dт= |
-(exp(Mh)- 1), |
о |
|
|
м |
|
a=p-+R2 ~ ~ (l-exp(-Mh))-2~(exp(Mh)-l).
|
§ 4.3. Системные методы опти.мизации |
157 |
Полагая |
h= l/M и считая |
без ограничения |
об.щ!Чо |
сти, что M>le(e-1)/2, получим |
|
|
сх.~ (е-1 )2M-le(e-l) >О. |
(29) |
|
7' |
е |
2М2 |
|
|
Из (21), (27), (29) следует |
|
|
J11.-Jн1 |
~ J11.- J (х11.-Ф(D, 1/М) J~) ~ cx.JJ J~ 11 2, (30) |
сх.> о.
Следовательно, последовательность {Jk} является
монотонно невозрастающей и ограниченной снизу ве.'lи
чиной J (х*), 1поэто·~1у она и:v~еет преде.'1 и
Jk+1-J11.-+0 при k-++oo.
Из (30) с.1едует
\1J~112:::;;; Jh ~Jk+l '
поэтому lll'kll-+O при k-++oo. А так как по условию lll'hll~б при xh$E(X*), то найдется такой номер N,
что XkEE(X*) при k~N и, следовательно, справедливо утверждение (25).
Обозначим через x*h проекцию xh на множество Х'!<.
Тогда по теореме о среднем
Jk-J•h = (.f' (xhc), xh-x.h)'
где
Учитывая, что
получим
111.-J.h = ( J~c-J:k' xh-x.11.):::;;;
~JI J~c-J~h IJ JI xk-x.h/I~ ld2 (xh, Х*).
Ив силу (25) получаем (26). Теорема доказана.
Замечание 1. Утверждения теоремы, очевидно,
выполняются, если hh выбирать не из условия (21), а
из условия
J(x11.-Ф(Dk• hk)J~)= min J(x11.-Ф(Dk, h)J~).
158 |
Гл. 4. Опти.низация |
где fi>O - |
произвольное число. Действнтелыю, так как |
М можно взять сколь угодно большим, то сходшюсть со
храняется д.1я любого
|
|
2 |
|
|
|
|
|
|
|
|
ho< le (е - |
1) |
|
|
|
|
|
Теперь остается |
заметить, |
что |
неравенство |
(30) |
только усилится, еслн брать .'!юбое |
другое значение h1 |
(может быть, даже большее, чем 2/ (le (е-1))) |
с |
:.1ень |
шим значением функцнона.ТJа, чем при h0, ибо |
|
|
|
Jk-JHI (h1) :;>. Jk-JHI (ho), |
|
|
если |
|
|
|
|
|
|
|
|
|
Jk+ 1 (hi) ~ Jk+I (ho)• |
|
|
|
3 а меч ан и е 2. |
Утверждения |
(25), |
(26) сохраняют |
ся также при замене условия |
(21) |
на |
следующее: |
J Н! = J (xll-Ф (Dk, |
hh) J~) ~ (1-vk) Jk + |
|
|
+Yi1 min J (хk-Ф (Dk, h) J~ ). |
0< у~ l'k ~ l. |
(31) |
11>0 |
|
|
|
|
|
|
|
|
Действительно, пз (31) будем иметь |
|
|
|
JR.-Jн1 ~Y11[J11-minJ(x11-Ф(Dk, h)J~)] ~ |
|
|
|
11>0 |
|
|
|
|
|
|
н, сог.1асно (27), |
|
|
|
|
|
|
|
JR.- |
1н1~У11а111;1112 =а1! J~ 112• |
а>о. |
|
|
По.ТJучено |
неравенство, аналогичное |
(30), |
п |
далее |
;~.оказательств_о проводится аналогично предыдущему с
заменой CL на а. |
|
|
J(x), |
В случае сильной выпук.rюсти |
функционала |
как обычно, удается получить оценку |
скорости |
сходи |
мости. |
|
|
|
Те о р ем а 4.2. Пусть: l) J ( х) - |
дважды непрерыв· |
но дифференцируемый фу1-~кционал, хе: Rm; |
|
2) для любых х, уе: R111 выполняются условия |
|
ЛllYll2 ~(J"(x)y, Y)~ЛllYll2• |
Л>О, |
|
11 J" (х+Y)-J" (у) 11~L11 х JI, |
L >О. |
|
§ 4.3. Системнь1е методы оптимизации |
159 |
Тогда независимо от выбора начальной |
точки х0 |
справедливы соотношения (25), (26) и оценка скорости сходимости
1 |
( |
Л )112 |
L |
11 |
|
12 |
(32) |
11xk+l-x*\.;:;;; |
|
т |
2Л |
|
X1t-X*I· |
|
До к аз ат ель ст в о. |
|
Справедливы |
неравенства |
|
11 J' (х+Y)-J' (х) 11.;:;;;; |
Л 11У11, |
|
11 J' (х) 11 > Л. IJ х-х* 11·
Из последнего неравенства следует
11 J' (х) 11 > б= Л.е, если 11х"-х*11 ~ е;
следовательно, ·выполняются ус:ювия теоре:-.1ы 4.1, и со
отношения (25), (26) доказаны. Получю1 требуеУiую
оценку скорости сходююсти.
Переходя в неравенстве
J1i-н-Jk.;:;;;; J (x1t-Ф(DR., h) J~ )-Jk,
справедливом д.r~я любого h>O, к преде.11у при h~+ оо,
получим
илп
J11+1.;:;;;; J ( хн1),
где
хн1= xh-[ J~ ]-1 J~.
Из тож.:~.ества
1
J' (x)-J'(y)-J" (у) (х-у) = S[J" (у +1t (х-у))-
о
-J'' (у)] (х-у) d{}
вытекает неравенство
11 J' (x)-J' (y)-J" (у) (х-у) 11.;:;;;..!:... IJ х-у112•
2
Полагая y=X1i, х=х", по.11учим
11 J' (x*)-J' (xk)-J" (xk)(x*-x1i) 11.;:;;; J:..11x1i-x* 112 •