Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Планирование и обработка эксперимента / Rakitskiy - Chislenniye metodi resheniya 1979

.pdf
Скачиваний:
84
Добавлен:
13.05.2017
Размер:
6.71 Mб
Скачать

140

Гл. 4. Оптимизация

Степень овражности будет характеризоваться чпслом

S= Л1

/ min Л1 1 '

J.1+o

совпадающю1 в случае сильной выпуклости J (х) со

спектральны:-.1 числю~ обусловленности k (J") = /..,1/Лm.

Разбиение спектральных составляющих матрицы !"

на две группы в данном случае определяется их чувст­

вительностью к возможным вариациям элементов :мат­

рицы !". К первой группе относятся «большие» собст­

венные числа, сравнительно слабо чувствительные к

этим вариациям, а ко второй группе - «малые» собст­

венные числа, .которые ·могут претер111евать значитель­ ные относительные искажения, вшють до смены знака

и обращения в нуль. Такое разделение представляется

весьма естественным с точки зрения рассматриваемых в

данной главе методов оптимизации второго порядка, ис­ пользующих в своей схеме информацию о вторых про­ изводных от минимизпруемого функционала.

Таким образом, в данной книге явление овражности

тра·ктуется 1ка1к один из аспектов трудностей, связанных с явление-"~ жесткости в системах обыкновенных диффе­ ренциальных уравнений. При этом установление алгеб­ раичесrшх связей между фазовыми переменными жест­ кой системы и сравните.rrьно вя.rrое протекание процесса

вне пограничного слоя моделирует спуск на дно оврага

Q с 1последующим ·.\ЩJ:Ленным прод·вижение.\-1 вдоль об­

разующей дна.

Многие свойства рассматриваемых а.rrгорптмов да:rее

будут иллюстрироваться на примере

строго

квадратпч­

ных

функционалов. Во-первых, квадратичные

функцио­

налы

являются в некотором смысле

простейшими,

и

вполне естественно начинать анализ эффективности ал­

ГО1J.итма с простых случаев. Во-1вторых, более слож•ные

функционалы с помощью разложения в ряд Тейлора и

пренебрежения членам.и выше второго порядка могут

быть лока.тrьно аппроксимированы квадратичными функ­

ционалами. В результате исходная задача минимиза­

ции сводится к последовательности аналогичных задач

§ 4.1. Оптимизация и жесткость

141

для аппроксимирующих квадратичных функциона.1ов.

Именно этот подход лежит в основе работы ньютонов­

ских и квазиньютоновских алгоритмов. В-третьих, ква­ дратичные функционалы сами по себе достаточно часто встречаются в приложениях и, как ниже будет показано,

их минимизация с вычислительной точки зрения подчас

далеко не тривиальна.

В заключение параграфа отметим, что существует

еще один аспект трудностей при решении прикла.:~.ных

оптимизационных задач также связанный с пробле:v~ой жесткости. Дело в том, что структура минимизируемого

функционала часто оказывается довольно сложной, и необходимые аналитические зависимости отсутствуют.

Обычно функционал задан алгоритмически, т. е. по

заданному аргументу мы можем получить значение

функционала в результате работы одного или несколь­ ·ких алгорит:v~ов, олределяе.мых ~Конкретной задачей.

При решении задач с так называемыми дифференци­

а.11ьными ограничениями в качестве таких промежуто 11-

ных алгоритмов выступают методы решения систем

обыкновенных дифференциальных уравнений, описываю­ щих изменение фазовых переменных изучаемого явле­ ния или процесса. Ес.11и эти системы оказываются жест­

кими, то уже однократное вычисление значения функ­

ционала превращается в проблему. В процессе же опти­ мизаци1и прихо·дится много~ратно повторять по.:~.обные вычисления для разных «про-бных» значений аргу~rен­ тов функционала J(x), 1вхо.:~.ящих в ~правую часть 11л1 в

начальные условия решаемых жестких систем уравне­

ний.

В результате наличия такой ситуации, когда сам функционал имеет овражную структуру и алгорпп-1 вы­ числения его значений связан с необходимостью 1штс1·­

рирования жестких систем, мы приходим к задаче, тре­

бующей для своего решения традиционными мето.:~.ами

недопустимо больших вычислительных затрат.

Если учесть, что описанные выше ситуацпп встреча­

ются в приложениях гораздо чаще, чем нам бы этого

хотелось, то становится ясной актуальность разработки

новых методов Исс.11едования, позволяющих строить эф­

фективные вычис.штельные процедуры на основе уче­ та особенностей рассматриваемых задач.

142

Гл. 4. Опти.низацttя

Как с.11едует из вышеизложенного, жесткне процессы

яв.1яются процессами со спецпфическнмн свойствами, и д:1я ах псс.11едования необходим 1шдивидуальный под­

ход, позволяющий вскрыть и использовать эту специ­

фику.

.J"на.1ог11чная картина наблюдается в опп1мпзацио11-

ных за.J.ачах овражного типа.

Впоследующих параграфах из.11агаются некоторые

алгор:пмы оптимизации, построенные с учетом специ­

ф11к11 оптимизационных задач в виде многомерной ов­

ражностп в ус.11овиях как выпуклого, так 11 невыпуклого

характера миш1мизируемого функционала.

§ 4.2. Анализ некоторых известных

методов

В данном параграфе мы рассмотрнм некото­

рые нзвестные алгоритмы оптимизации с точки зрения

11х работоспособности в овражной с11туацип и выясним

11х основные недостатки. Это поможет в дальнейшем по­ стро1:ть алгоритмы, совмещающие в себе достоинства

некоторых из приведенных здесь методов 11 позволяю­

Щ!!е бо.1ее эффективно осуществлять попек миннмума

функщюналов овражного типа.

Бо.1ьшинство известных конечномерных алгоритмов

оптимизации :v~ожно •ра1сс:v~атривать как ;-..rодификацип

или аппрокси:v~ации 'Грех основных алгD'рит:v~ов, ·к •кото­

рым относятся :--fетод :покоординатного спуска, метод

наискорейшего спуска и метод Ньютона. Ана.1изом этих

трех а.1горит·~1ов :viы и займе\1ся 'В первую очередь. Метод покоординатного спуска является простейшнм

нз существующих алгоритмов поиска и основан на пос­

~Гfе.1овате.11ьной настройке аргументов xti) минимизируе­

JVIОrо функционала

J (х), х= (хО>, ..., х<т>). Переход

от

.k-й

итерации

к (k+ 1)-й

в этом

 

случае

осуществляется

-сле.Iующим образом: для i= 1,

"., т х<О1,+1

определяется

из

ус.1овия

 

 

 

 

 

 

 

 

 

 

 

 

 

.! (

х-11) • •

хи-1>

x<i>

 

хи+1>

 

 

 

 

 

 

'h-Т-1'

'

h+I '

 

k+I '

k

 

'

 

 

 

 

 

= min J ( xk<~" .

.

.,

xU-I>

у

'

x<ki+I),

. .

" x<km))·

(6)

 

у

 

.

 

1i+1

 

 

 

 

 

§ 4.2. Анализ некоторых известных ,11етодов

143

Несмотря на свои замечательные качества (простота.

универсальность), в овражной ситуации этот метод при­

меним лишь в редких случаях ориентации оврагов вдоль

координатных осей. В общем случае имеет место «ос­

тановка» алгоритма в некоторой точке х1 на дне о·врага. предста'вленная на рис. 14,

г\Це ·сильно вытянутые эл­

липсы изображают линии

::;1.?.

 

)провня овражного функ­

 

ционала.

 

 

Из рисунка

видно,

 

что уменьшения

J нет ю1

 

водном из координат­

ных направлений. В за­

висимости от расположе­

ния начальной точки эта

.-.,.·)

ситуация может возни­

кать и на весьма значи­

тельных

расстояниях от

 

точки миниму:-.1а.

Рис. 14.

На:и'6олее известньl'ми

 

овражно

- ориентиро'Ван-

 

ными ·модификащиюш указанного алгорип1а нв.1яются ~1етод конфигураций Ху1ка-Дживса и метод вращения

осей ,координат Розен-бро•ка. Первый из этих \1етодов

по~робно описан в литературе, нaniprrмep, C:\i. [37]. Не

остана1Вл.иваясь на схеме ~1е1'ода, от:v1етю.1, что «Ис~.1СJ.О­

вательская» часть алгорИl'\fа по-1прежне:му основана на

!Покоординатно~'i стратегии исследования ~пространства 11, СJ1едовате.11ьно, при больших степенях овражност:1 сп­

туация, изображенная на рис. 14, .все еще ·воз~южна.

Более радикальная модернизация алгоритма (6} проведена Розенброком, предложившим пспользовать 13

процессе минимизации процедуру вращен11я осей коор­

динат. Суть метода заключается в построении на каж­ дой итерации новой ортогональной системы коорJ.ш-1а r,

одна из осей которой направлена вдоль Xk-Xk-I· .]а.1ее алгоритм реализуется в новой системе координат. Та­

кой подход приводит к тому, что одна из осей н\1еет

тенденцию выстраиваться вдоль образующей дна овра­

га, позволяя в ряде случаев весьма успешно провоJ.111ъ

минимизацию функционалов с о.:~.номерным11 оврага;1.ш.

144Гл. 4. Оптшtuзация

Ксожалению, в общем с.'lучае многомерных оврагов ме­

тод непригоден. То же относится и к модификации

Ху1-;а-Дживса, у~по~1янутой выше.

Схе~1а метода наискорейшего спуска задается разно­

стньш уравнением

J~ = J' (x,J,

(7)

где !r1! определяется из условия

J ( 1)=minJ (x11-hJ~ h>O

Рассмотрим сильно выпуклый овражный 1шадратич-

11ыii функционал

J (х) =+(Dx, х)-(Ь,

х),

(8)

где D - симметричная положите.'IЫ!О

определенная

мат­

рнuа размерности тхт, Ь - т-мерный вектор. Ilзвестно, что пос.1Jедовательность {xk}, построенная

алгоритмом (7), сходится к точке минимума х* функци­ она~а (8) по закону геометрической прогрессии [20]

11 x,t -х* !1 :::;;; С q11.,

где

 

С= const

1 - 1/k (D)

q= -----'--'-

,

l+l!k(D)

,].1я овражного функцпонала k(D) ~ 1, и поэтому qc:::=. 1. В результате для подавляющего боJ1ьшинства на­ ча.1ы1ых точек сходимость оказывается очень медленной.

Напболее отчетливо данный факт прос.1Jеживается на

просто~~ nарианте градиентного метода с постоянным

шагоч:

(9)

.lеп\о видеть, что метод (9) по сути есть метод .'10-

маных Эйлера (l .4), примененный к уравнению напско­

реiiшего спуска

~; = - J' (х)= -Dx+b

(10)

д.'1Я функцнонала J(x).

§ 4.2. Анализ некоторь1х известных .методов

145

Представим решение уравнения (10) в виде

x(t) =x*+exp(-Dt) (хо-х*),

где Хо - начальная точка, х. - точка минимума функ­

щюна.1а (8). Отсюда

 

11х(t)-x*11 ~ ехр (-Лт t) 11Х0-х*11,

(11)

где 1.т -

минимальное собственное число матрицы D,

\ly\\ - сферическая норма вектора у.

 

Таю1м

образом, для уменьшения нормы

вектора

ошибки y(t) =x(t)-x. в е раз необходимо пройти про­

межуток Т по параметру t, равный

Т=-1. (12)

Лm

С.1е;~.овательно, общий промежуток интегрирования, задавае:\IЫЙ требуемой точностью решения, весьма ве­

лик 11 определяется малыми спектральными составляю­

щюш :-.1 атр'Ицы D.

В то же время величина допустимого шага интегрп­

рова·н;1я /i мала и согласно ( 1.57) ограничена с•верху ве­

лнч1шо~"! 2//..1, где /..1 - максимальное собственное число ~атрнцы D. В данном случае это приводит к :-.1едленно­ му У'-Iеньшению mo нор'.1е вектора y(t) за счет сла·бого

подав.1ения не:которых составляющих вектора ошибки.

Действительно, имее•м согласно (9)

Ун1 = xk+l-X*= Y11.-hDyн.= g(D)yk,

где g·(т) = 1-hт.

Раз.1ожим вектор Yk по векторам {щ} ортонормаль·

ного

базиса, составленного

из собственных

векторов

матр11цы D

 

 

 

т

 

 

 

Yk = Iа;И;.

 

 

i=I

 

Тогда

 

 

 

т

 

 

 

Ун1= ~a;g(/..;)u;,

(13)

 

i=I

 

 

r.:i.e

/.; - собственное число

:-.татрицы D, соответствую­

щее собственному вектору ui.

 

 

146

Гл. 4. Опти.миэация

Для подав.11ен11я всех компонент вектора ошибки не­

обходимо, чтобы

lg1l<l, i=l, ... ,m,

откуда

h<2/'A1,

11 множители gi, соответствующие малым собственным

числам, будут близки к единице.

В результате подавление составляющих вектора

ошибки, соответствующих малым собственным чис.11ам,

практически отсутствует, что и определяет непригод­

ность подобных методов для случая овражных функци­

оналов.

Существующие методы ускорения сходшюсти гради­ ентной схемы [18] по сутп основаны на использовании

результатов предыдущих итераций для уточнения поло­

жения дна оврага.

В ':\1етО'де Люстерника [ 18, 36] испо.1ьзуется гра­

диентный метод с постоянным шагом h. При этю1 на

каж1дой итерации вычисляется отношение lll'kll/lll'1нll.

К:огда оно устанавливается около некоторого постоян­ ного значения q ~ 1, делается бо.'lьшой ускоряющий шаг

согласно выражению

х1-'-1=

h

J'

xk ---

k.

''1 - q

Далее пз точки хн1 продолжается спуск градиент­

ным методом до следующего ускоряющего шага.

Различные версш1 метода параллельных касатеаъных [18, 37] основаны на выполнении ускоряющего шага

вдоль направления X1,+2-X1t, задаваемого точка:-.ш X1i.,

Х11+? в методе наис1шрейшего спуска.

В методе «тяжелого шарика» {18, 27] очередной

шаг выполняется вдоль направления, яв:1яющегося ли­

нейной комбинацией антиградпента в текущей точке и

предыдущего направ.11ен11я попска, т. е.

xk+1= xk- а J~ + ~ (xk-xk_ 1).

В методе оврагов [10] предлагается провести ло­

кальные спуски град11ентны~1 методом из двух случайно

выбранных исходных точек, а затем выпо.11нить ускоря·

§ 4.2. Анализ некоторых известных ,11етодов

147

ющ111! шаг по направлению, задаваемому двумя полу­

ченньвш на дне оврага точкамн.

С.1е.Jуя работе [ 18], отметим, что все этн мето;:~.ы

ю1еют :\Шого близких черт. Они немноги~ с:южнее гра­

;:1.11е11таого метода и построены на его основе. По..~учае­ мое ускорение сходн:vюсти тем больше, чем меньше

раз:.1ерность оврага. Однако 11 они сходятся слишком

ме.J..1енно, так что для точного отыскання м1шиму"1а

прнход1пся обращаться к бо.'lее мощным метода:v~ ква..:~.­

ратнчаой аппро1<симац11и.

К.1ассическ11м квадратичным методом является метод

Ньютона

J~ = J" (xk),

(14)

требующий включения в вычислительную схему пе

то.1ько первых, но и вторых производных от м11ю1миз11-

руе:.юго функционала.

Точка минимума функщюна.'lа (8) удовлетворяет

спсте:.~е линейных уравнений

Dx =Ь,

(15)

н прн условнп абсолютной точности всех вычислений :.1ето.:r Ньютона независимо от степени овражности прн­

во.11П к минимуму за один шаг:

Х1= Xo-D-1 (Dxo-b)= v-1 Ь= х*.

Ila самом .J,еле при больших k(D) задача поJiученпя

решения системы (15) некорректна, и небоJiьшие де­

фор\iации эле•чентов матрицы D и 1ве•ктора Ь могут прп­ во;~нть к -бо.1ьшим вариа'Ц'ию1 х*.

Другим известным недостатком метода Ньютона яв1яется ограничение сферы его применимости к.'!ассом

"ыпук.1ых функцпонаJiов. В cJiyчae нарушения условия

выпу1~.1ости :.1етод может ;щвать расхо.J,ящуюся по­

с.1е.:rозательность. При больших k(D) такой эффект воз­

никает н при минимизации выпуклых функцнонаJiов, так

как потеря выпуклости может происходить за счет пс­

каження ма.r~ых составJiяющих спектра матрицы !" прп

неточных вычпслениях ее элементов.

Прп умеренных степенях овражности в выпук"1ой си­

тvаu11н метод Ньютона часто оказывается значитеJiьно

60.1ее предпочтительным по скорости сходпмости, чем

148 Гл. 4. Оптимизация

другие, скажем, градиентные, схемы. По этой причине

предпринимаются многочисленные попытки обобщения

метода на случай функционалов более общего вида, чем

выпуклые.

Гринштадт

[38]

предложил

алгоритм

на

основе

анализа собственных чисел 'Лi (!")

и собственных век.

торов щ, i=.l,

..., т, :"11атрицы Гессе!", полагая

 

 

 

 

_"

-1

,

 

 

 

Xн1=X11-h1t{J11}

 

Jk,

 

 

где

 

 

 

 

 

 

 

 

 

 

т

 

 

 

 

 

 

-" -~-

т

 

 

 

 

 

Jk -

~ 'Л1UjU i•

 

 

 

 

 

 

j=l

 

 

 

 

°f1=max{c5, IЛ1(J")I}, cS=const>O.

 

Так построенная

матрица l"k

положительно опреде­

лена, и направление

 

 

 

 

 

 

 

 

Р11= ("J; ]-t J~

 

 

 

яв.r1яется направлением спуска,

даже если исходная

матрица !"k не является

положитедьно

опреде.'Iенной.

Постоянная 6

выбирается

таким

образом,

чтобы

k(l"1J.

быдо не слишком ве.'Iико.

Очевидным недостатком этого алгоритма яв.1яется необходимость решения по.'lной проблемы собственных

значений.

 

 

В методе Левенберга [38]

 

 

XHI =

Х11.- { J~ +~kEJ-1 J~ ,

(16)

где Е -

единичная

:"11атрица. Скаляр ~k на ·каждо:-.1

шаге

подбирается так, чтобы матрица

 

 

 

]~ = J~ +~11Е

 

была положительно определена:

 

 

 

~11. >-m~n Лi ( J~ ).

(17)

 

 

l

 

и чтобы

 

 

 

 

 

11 [ 7~]-1 J~ \\ ~ hk,

 

где hk,

ка·к и ~k.

:'lюжет :v1енять·ся от итерации к

ите·

рации.

§

4.2.

Анализ

некоторых

известных

.методов

149

на

Существует

ряд аналогичных подходов, основанных

различных

коррекциях матрицы /"н с целью получе­

ния существенно

мации l"н· При

положительно

определенной аппрокси­

минимизации

овражных функционалов

такие алгоритмы

оказываются малоэффективными

за трудностей в

подборе параметров (б, ~. hн и т.

из­ д.),

определяющих

схему

метода.

Выбор

этих

параметров,

как правило,

основан

на информации о

мальных по

модулю

собственных чисел

величине матрицы

мини­

/",

а

при

реальных

вычислениях

в

случае

значительной

ве­

личины

S

получить

такую

информацию

бывает

доволь­

но

затруднительно.

 

В качестве

иллюстрации остановимся несколько

дее

подробно

на наиболее известном методе (16).

бо­

Рассмотрим

невыпуклый

r-овражный

квадратичный

функщюнал

J

(х)

=

-

1

 

2

(Dx,

х),

det

D

=#=О.

 

Пусть {хн}

ная

согласно

-

последовательность итераций, получен­

( 16), а {ин} -

ортонормальный базис соб­

ственных

векторов

•:vrатрицы

D.

Тогда

можно

записать

 

 

т

 

 

 

хя= ~ z~> и1,

 

 

i=I

 

 

2J

т

( zki>)

 

Л1

(D),

(хя) = ~

2

 

 

 

 

 

 

i=I

 

 

 

 

А так как

 

 

 

 

2J

(

хн

1

)

=

т

 

~

(

1=1

 

z~i

1

)

2

Л

1

(D).

и

собственные

числа

матрицы

Е-Р

Л

1

(Е-Р)= а.

1

=

 

 

 

то

+л;

(D)

,

хн+~

=

-Р)

т I

z~>

и

1

=

т !

zki>

и~

а.1

i=I

i=I