Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Планирование и обработка эксперимента / Rakitskiy - Chislenniye metodi resheniya 1979

.pdf
Скачиваний:
84
Добавлен:
13.05.2017
Размер:
6.71 Mб
Скачать

150

Гл.

4.

Опти,11изация

Следовательно,

2J (

xk+i)

=

т

 

Лi

~ ( zJ:>)

2

 

 

i=I

 

 

(D)

а7.

(18)

Если /..i(D)>O,

Лi(D)<O то ai<l.

11 В

/3k>IЛi(D)j,

то

обоих

случаях

ai>l;

если же

гарантируется

у:\1е11ьшение

1111н

( 18)

и

соответствующпх слагаемых в представле-

выпо:шяется ус.'Iовне релаксационности ме-

то.::tа

J

(

хн1)

<

J

(xh).

С.'Iагаемые, отвечающпе большим положительным ственным числюr Лi (D), i = 1, ... , m-r, практически

соб­ nри

.1юбых ~положительных /3k быстро убывают до как соот.еетствующне ai~ 1), и далее процесс

нуля (так определя­

ется

:-.tалыми

по

неравенству

(17)

но ;1

происходит

мо..:~.улю собственными

числами. Если

 

удов.'Iетворять с «запасом», что обыч­

в

действптельностп, то

сходимость мо­

;кет

оказаться

очень

ме..:~..1енной,

так

как

в

этом

случае

а;~ .1ых щ1я

1

при i=m-r+ 1, ..., т.

С

/3k

k (!'\) =k (!"k+ {31.Е),

11

13,,

 

требует многократного

другой

стороны,

при ма­

более

точная

локализа­

решенпя

плохо

обуслов­

.1енной

линейной

с11стемы

(

J~

+~kE]

(

Xk+

1

-X11)

=

-J;,

пр;1

различных

пробных

значениях

13,,,

и

в

результате

существенно Заметим,

возрастает трудоемкость метода.

что

алгоритм

Левенберга

является

неяв­

ньв1

:\1етодю1

ло~rаных ( 1.5),

~прю1ененньш

.1ш11111

наискорейшего

спуска

для !

( х):

 

 

 

 

dx = -J' (х)

 

 

 

 

 

dt

 

 

1

к

уравнению

с разрешение:\-1

1

каждой

итерации

при

 

 

 

 

 

 

 

шага

птерационного

процесса

Ньютона.

помощи одного

При этом {31i=

=

1/h11, где hk -

шаг численного интегрирования.

 

Таким образом, как 11 в случае градиентных

методов,

основой

для

получения

метода

оптимизации

явилоеь

.J.нфференциальное уравнение спуска, хотя

по.1ьзуется уже неявный метод ломаных. С

здесь

11с­

этпх

пози-

§ 4.3.

Системные

методы

оптимизации

151

ций естественно строить более эффективные методы :\Ш· ннмизации овражных функционалов на основе расс:о.ют­

ренных

выше

более

сложных

и

совершенных

алгорнт­

)10В интегрирования жестких систем уравнений. Имен­ но такой подход положен в основу создания системных

)'!етодов

оптимизации,

рассматриваемых

в

следующе:\1

параграфе.

В шой

заключение данного класс квадратичных

параграфа отметим, (квазиньютоновских)

что бо.1ь­ методов

основан

на

.испо.1ьзовании

сопряженных

направлений.

Эти алгоритмы эффективными,

в ряде случаев оказываются довольно

ибо, имея квадратичное окончание, онн

не

требуют

вычисления

матрицы

вторых

производных.

Теоретически

минимум

выпуклой

квадратичной

функщш

находится

не

более

чем

за

т

шагов.

Не

останавливаясь

подробно что в нпх

на не

недостатках этих

методов, отметим то.~ько.

устранен главный

недостаток метода Нью­

тона, т. е. прежнему

об.1асть

их

эффективного

применения

огранпчена

выпуклыми функционалами.

по­ В

невыпуклом

случае

скорость

их

сходимости

прибш1жа­

ется

к

скоростп

сходимости

градиентных

схем

и

уже

прн

относительно вптся малой.

небо.пьших

степенях

овражности

стано­

§

4.3.

Системные

методы

оптимизации

:\l!шпмума

Как уже отс.'!ечалось, 'для

овражного функционала

точной локализацап

линейные

методы

(покоордш1атные, градиентные зываются ма.rюэффективными,

и и

их модификации) ока­ приходится прибегать

к более О.:~.нако

мощным методам квадратичной аппроксимашш.

существующие квадратичные методы обладают

рядом

существенных

недостатков,

главный

пз

которых

заключается в ограничении .сферы их эффективной пр!!­ ~1ен11мостп классом выпуклых минимизнруемых функцн­

оналов.

Поэтому

естественно

снова

обратиться

к

непре­

рывному

прпнципу

построения

методов

оптимизацип,

со­

r.1асно

на.1у

J

которому каждому минимизируемому функшю­ (х) ставится в соответствие система обыкновен­

ных

дифференциальных уравнений

dx = -J' (х).

(19)

dt

152

Гл. 4. Оптимизация

стационарная точка которой совпадает с искомой экст­

ремальной точкой. Далее необходимо выбрать эффектив­

ный метод интегрирования, позволяющий осуществить дискретизацию жесткой системы (19) и тем самым по.ТJу­

чить некоторый алгоритм оптимизации.

Подобным образом могут быть получены методы,

от:шчающиеся достаточно высокой универсальностью от­ носительно характера выпуклости функционала, так как

вдоль траектории х(t), описываемой уравнениям:и ( 19), функционал J (х) монотонно убывает. Действительно, вычисляя производную по времени от J(x(t)) вдоль ре­ шения системы (19), получим

dJ = (J' (х),

dx )= -11 J' (х) 11 <О,

dt

dt

ест~ J'(x)=/=O.

В данном параграфе строится так называемый си­

сте:\tный алгоритм оптимизации, обобщающий кдассиче­

с1шй метод Ньютона на случай невыпуклых функциона­ лов. Принщшиа.ТJьная схема алгоритма построена на ос­

нове снстемных методов интегрирования обыкновенных днфференциальных уравнений, изложенных во второй

г.1аве. Испо.1ьзование системных методов в данном слу­ чае обусловлено их высокой эффективностью при

интеrрн~ровании жестких с1исте:..1 уравнений, включаю­ щих и ура·внения спуска ( 19) для овражных функцио­

на.~ов.

По сравнению с известными обобщениями метода Ньютона системные алгоритмы оптимизации в ряде слу­

чаев о~<азываются бо.ТJее предпочтительными, так как

прп их построенш1 не предполагается искажение малых

спе1пра.1ьных составляющих матрицы Гессе, которые в

значительной степени определяют параметры траекто­

рин спуска.

Далее в данном параграфе везде предполагается, что

с-.tатрица Гессе :..шнимизируемого функционала вычисля­

ется достаточно точно 11 содержит достаточно полную

информацию о спектральных состав.'lяющпх истинной

матрицы вторых производных. Случай, когда погрешно­

стями представления элементов матрицы пренебречь

не.1ьзя, рассмотрен в § 4.4.

4.3.

Системные

методы

опти.чизации

153

Принципиальная

схема

системного

алгоритма

опти­

мизацпп

задается

следующим

разностным

уравнением:

хн

1

=

xk

(Dk,

hk)

J~

,

(20)

Ф(D,

h h)= Jехр(-Dт)dт,

о

где D=!"(x) -·матрица Гессе.

 

В

качестве hk

выбирается

величина,

щая

соотношению

 

 

удовлетворяю­

l(xk-Ф(Dh,

hh)l~)=minJ(xk-Ф(Dk, h>O

h)J~)·

(21)

Получение

точки

Xk+I

по

Xk

согласно

(20)

эквива­

лентно

однократному применению

первой

степени

к

уравнениям

( 19).

тегрирования»

hk

выбирается

не пз

системного

 

метода

Пр•и этом

«шаг ин­

соображений

точно­

сти

и

устойчивости,

как

в

теории

численного

решения

дифференциальных У'Ра1внений,

(21). Поэтому h1• может быть

а из

условия

назван

шагом

•минимума интегриро­

вания лишь

условно.

 

 

Отметим

связь алгоритма

(20)

Допустим, что в некоторой

области

с методом Ньютона.

G, содержащей точ­

ку .:v~ини:v1у:-.1а

ным и XkEG.

х*, функционал J(x) Тогда, если матрица

является

квадратич­

D в этой

области по­

ложительно

определена

(D>O),

то

метод

Ньютона

прн·

водит

к

:минимуму

за

один

шаг:

х*=

xk-D-;;

1

J~.

 

Согласно системному алгоритму имеем:

 

х (h) = xk +D-;;

1

(ехр (-Dkh)-E) J~ -+-Х*,

 

 

т.

е.

 

Xk+I = Х*' hk = + оо.

 

 

 

h-+-+

оо,

Таким

образом,

в

данной

ситуации

метод

Ньютона

является предельным вариантом алгоритма

же указывает предельный переход

(20).

На

это

Ф(D,

h)=D

-

1

(E

-exp(-

Dh))

-+-D

-

1

,

h-+-+oo,

при

v-::;-o.

154

Гл. 4. Оптимизация

Сравним рассматриваемый алгоритм с простым гра­

.:щентным методом (9) для случая сильно выпуклого

квадратичного функционала (8). При этом также пола­ гае:vr hk=h=const. Вводя, как и раньше, вектор ошибки

и=х-х*, получим

Yk+t = (Е-Ф (Dk, h11) D) У11= g (D) Yk·

где

 

 

 

 

h

 

 

g (t) = l - t Jехр(-t т) d т= ехр (-ht).

(22)

 

о

 

 

Такиы образом, в отличие от градиентного метода

1gi1=1 ехр (-Л., (D) h) 1< 1

 

при любом h>O,

и выбирая

h достаточно

большим,

~IОЖНО ПО.'IУЧИТЬ

сколь угодно

·бО.'IЬШОе затухание по

все~r ко•ы1понентам вектора ошибки.

Можно показать, что алгоритм (20) сходится прак­

тпчески пр:и тех же ограничениях на :vшни:мизируе:мый

функционал, что 11 метод наискорейшего

спуска

[14],

т. е. имеет существенно более широкую

об.'lасть

сходн­

:-.rостп, чем метод Ньютона.

 

 

С.'Iедующая теорема устанавливает факт сходимости

спстемного а.'lгоритма для достаточно шпрокого класса

невыпук.'lых

функцпоналов в предположешш

достижи­

:-.rости точкп минимума

(условие 2) 11 отсутствия точек

.1окальных минимумов (условие 3).

 

Теорем а 4.l. Пусть:

 

 

1) J(x) -

дважды

непрерывно дифференцируемый

функционал ХЕ Rm;

 

 

 

 

2) множество

 

 

 

 

 

Х*= {х* 1 J (х*)= min J (х)}

 

 

 

 

хе~т

 

непусто;

 

 

 

 

 

3) для любого

в>О

найдется

такое 6>0,

что

11

J' (х) 11

:;;,:. б,

если х $

Е (Х*),

(23)

где

 

 

 

 

 

Е (Х*) = 1d (х, Х*) ~в}, d (х, Х*) = min 11х-х*11;

х.ех·

§ 4.3.

Сuсте.wнь1е

.Аtетоды

оптu.11Uзации

155

4)

для

любых

х,

уЕ

Rm

\IJ'(x+y)-J'(x)ll<;lllYll.

Z>O;

(24)

5)

собственные

~tисла

.матрицы

D(x)

=l"(x)

заклю­

чены

в

интерва,1е

[-М,

М],

где

М>О

не

зависит

от

х.

Тогда независимо от

выбора начальной точки х0

последовательности {xh}.

построенной согласно (20),

д.1.'l вы­

полняются

предельные

соотношения

lim d (xk, Х*) =

О,

при

k~+oo.

lim J (xk) =

 

J (х*)

 

Д о к а з а т ел ь ст в о.

Используя

известные

шения

 

 

 

 

1

 

 

J(x+y)=J(x)+ s(J'(x+-tty), y)d-3,

 

о

 

 

1

 

1

 

1J(-6-), У(tt)) d-6- I<;

J11х(~)1111У(б)11 d-6-,

о

 

о

 

(25) (26) соотно­

по.1Jуч11м Jk-J(xk-Ф(Dh,

1

 

h)J~)=,f

(.!'(xk-~Ф(D1t,

о

 

h)J~).

Ф(D1t,

h)J~)dtt=(Ф(D1t,

1

 

 

-s(J~-.!(x1,-ttФ(Dh,

h)J~).

о

 

 

h)J~,

J~)-

Ф(D1t,

h)J~)d-3>

:;э..

(Ф(D11

,h)J~,

J~)-l\\Ф(Dk, h)J~i\

 

1

~d-3=

2

,\'

 

 

 

 

)-+11

 

 

 

 

 

 

 

(Dk. h)

J~, ./~

Ф(Dh,

 

 

о

 

 

 

=

h) J~\1

2

>

 

 

 

 

-+J/

 

 

 

 

 

 

 

 

:;э.. р1\ J~112

J~\\2R2

=а\\ J~[\2.

 

 

 

а=р--1R2.

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

(27)

При

этом испо.'Iьзованы

р 11У11

2

<; (D1t,

 

 

неравенства h) у, У).::;;; R

11У11

2

,

(28)

156

Гл. 4. Оптимизацив

где р, R -

соответственно минимальное и максимальное

собственные чисда по.1ожительно определенной матри­ цы Ф(D11, h).

Левое неравенство (28) сдедует из представления

минимального собственного числа Л любой симметрич­

ной матрицы В в виде

Л= miп (Вх, х)

х=1=0

(х, х)

а пра1вое - из услов·ия согласования

llBxll ~/IB/l llxll

сферической нормы вектора

11х11= { f (x(i))2 = V(x.X)

i=I

и спектральной нормы симметричной матрицы В

11 В 11 = max /Лi (В) 1. i

Для значений р и R ~получим: h

р= mi_n 'Лi (Ф(D,

h)) = ~in Jехр ( -Лi (D) т) d т,

i

 

1

о

 

 

 

h

 

 

R= max Jехр (-Лi (D) т) d т.

 

i

о

 

 

Согласно предложению 5),

 

 

h

h

 

 

h

Jехр(-Мт)dт~J ехр(-Лi (D)·т)dт~ J ехр(Мт)dт,

о

о

 

 

о

поэтому

 

 

 

 

h

ехр(-Мт)dт=

1

(1-ехр ( -Mh)),

р ~ J

-

о

 

 

м

 

h

 

 

1

 

R ~ j ехр (Мт) dт=

-(exp(Mh)- 1),

о

 

 

м

 

a=p-+R2 ~ ~ (l-exp(-Mh))-2~(exp(Mh)-l).

 

§ 4.3. Системные методы опти.мизации

157

Полагая

h= l/M и считая

без ограничения

об.щ!Чо­

сти, что M>le(e-1)/2, получим

 

 

сх.~ (е-1 )2M-le(e-l) >О.

(29)

 

7'

е

2

 

 

Из (21), (27), (29) следует

 

 

J11.-Jн1

~ J11.- J (х11.-Ф(D, 1/М) J~) ~ cx.JJ J~ 11 2, (30)

сх.> о.

Следовательно, последовательность {Jk} является

монотонно невозрастающей и ограниченной снизу ве.'lи­

чиной J (х*), 1поэто·~1у она и:v~еет преде.'1 и

Jk+1-J11.-+0 при k-++oo.

Из (30) с.1едует

\1J~112:::;;; Jh ~Jk+l '

поэтому lll'kll-+O при k-++oo. А так как по условию lll'hll~б при xh$E(X*), то найдется такой номер N,

что XkEE(X*) при k~N и, следовательно, справедливо утверждение (25).

Обозначим через x*h проекцию xh на множество Х'!<.

Тогда по теореме о среднем

Jk-J•h = (.f' (xhc), xh-x.h)'

где

Учитывая, что

получим

111.-J.h = ( J~c-J:k' xh-x.11.):::;;;

~JI J~c-J~h IJ JI xk-x.h/I~ ld2 (xh, Х*).

Ив силу (25) получаем (26). Теорема доказана.

Замечание 1. Утверждения теоремы, очевидно,

выполняются, если hh выбирать не из условия (21), а

из условия

J(x11.-Ф(Dk• hk)J~)= min J(x11.-Ф(Dk, h)J~).

he (о. il)

158

Гл. 4. Опти.низация

где fi>O -

произвольное число. Действнтелыю, так как

М можно взять сколь угодно большим, то сходшюсть со­

храняется д.1я любого

 

 

2

 

 

 

 

 

 

 

 

ho< le -

1)

 

 

 

 

 

Теперь остается

заметить,

что

неравенство

(30)

только усилится, еслн брать .'!юбое

другое значение h1

(может быть, даже большее, чем 2/ (le (е-1)))

с

:.1ень­

шим значением функцнона.ТJа, чем при h0, ибо

 

 

 

Jk-JHI (h1) :;>. Jk-JHI (ho),

 

 

если

 

 

 

 

 

 

 

 

 

Jk+ 1 (hi) ~ Jk+I (ho)•

 

 

 

3 а меч ан и е 2.

Утверждения

(25),

(26) сохраняют­

ся также при замене условия

(21)

на

следующее:

J Н! = J (xll-Ф (Dk,

hh) J~) ~ (1-vk) Jk +

 

 

+Yi1 min J (хk-Ф (Dk, h) J~ ).

0< у~ l'k ~ l.

(31)

11>0

 

 

 

 

 

 

 

 

Действительно, пз (31) будем иметь

 

 

 

JR.-Jн1 ~Y11[J11-minJ(x11-Ф(Dk, h)J~)] ~

 

 

 

11>0

 

 

 

 

 

 

н, сог.1асно (27),

 

 

 

 

 

 

 

JR.-

1н1~У11а111;1112 =а1! J~ 112

а>о.

 

 

По.ТJучено

неравенство, аналогичное

(30),

п

далее

;~.оказательств_о проводится аналогично предыдущему с

заменой CL на а.

 

 

J(x),

В случае сильной выпук.rюсти

функционала

как обычно, удается получить оценку

скорости

сходи­

мости.

 

 

 

Те о р ем а 4.2. Пусть: l) J ( х) -

дважды непрерыв·

но дифференцируемый фу1-~кционал, хе: Rm;

 

2) для любых х, уе: R111 выполняются условия

 

ЛllYll2 ~(J"(x)y, Y)~ЛllYll2

Л>О,

 

11 J" (х+Y)-J" (у) 11~L11 х JI,

L >О.

 

§ 4.3. Системнь1е методы оптимизации

159

Тогда независимо от выбора начальной

точки х0

справедливы соотношения (25), (26) и оценка скорости сходимости

1

(

Л )112

L

11

 

12

(32)

11xk+l-x*\.;:;;;

 

т

 

X1t-X*I·

 

До к аз ат ель ст в о.

 

Справедливы

неравенства

 

11 J' (х+Y)-J' (х) 11.;:;;;;

Л 11У11,

 

11 J' (х) 11 > Л. IJ х-х* 11·

Из последнего неравенства следует

11 J' (х) 11 > б= Л.е, если 11х"-х*11 ~ е;

следовательно, ·выполняются ус:ювия теоре:-.1ы 4.1, и со­

отношения (25), (26) доказаны. Получю1 требуеУiую

оценку скорости сходююсти.

Переходя в неравенстве

J1i-н-Jk.;:;;;; J (x1t-Ф(DR., h) J~ )-Jk,

справедливом д.r~я любого h>O, к преде.11у при h~+ оо,

получим

илп

J11+1.;:;;;; J ( хн1),

где

хн1= xh-[ J~ ]-1 J~.

Из тож.:~.ества

1

J' (x)-J'(y)-J" (у) (х-у) = S[J" +1t (х-у))-

о

-J'' (у)] (х-у) d{}

вытекает неравенство

11 J' (x)-J' (y)-J" (у) (х-у) 11.;:;;;..!:... IJ х-у112

2

Полагая y=X1i, х=х", по.11учим

11 J' (x*)-J' (xk)-J" (xk)(x*-x1i) 11.;:;;; J:..11x1i-x* 112

2