Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Методы оптимизации в статистических задачах управления

..pdf
Скачиваний:
19
Добавлен:
20.10.2023
Размер:
8.04 Mб
Скачать

ная оптимизация осуществляется до стабилизации значений мно­ жителей yk.

Метод JI. А. Люстерника. Вначале оптимизация производится простым градиентным методом. В процессе его осуществления вы­ числяется значение коэффициента

3F (хк)

дх

dF (хк~ 1)

дх

После замедления скорости убывания функции и при стабили­ зации значения параметра 8k вблизи некоторого значения б < 1 предлагается совершить большой шаг по градиенту

кН'1

k

б dF (xk)

 

 

дх

не обращая внимания на возможное возрастание функции. Затем

из точки хк+1 снова производится спуск простым градиентным ме­ тодом до стабилизации параметра б. Далее этот процесс повто­ ряется.

Метод «тяжелого шарика» [80, 25]. В этом методе каждый следующий шаг делается по направлению, являющемуся линей­ ной комбинацией антиградиента в очередной точке и предыдущего направления движения:

x*+' = xl - a + (233)

Этот метод получил название «метода тяжелого шарика», так как уравнение (233) можно рассматривать как дискретную интер­ претацию непрерывного движения шарика в вязкой жидкости,

dF (х)

если на него действует поле с силой------§7 ^ -

Действительно, непрерывное уравнение движения имеет вид

тх + гх -I---- 0.

Соответствующее дискретное уравнение можно записать сле­ дующим образом

* г+1 _ 2х1+

я1'“ 1 +

т

(х‘+' - х‘) +

- 1

дру .) =

0

1

1

4

' 1

т

дх

 

или

 

 

 

 

 

 

 

хі+\ = X

1

df

(x‘)

 

, x l _

x i - ly

(234)

 

r + ш

 

дх

1 г т х

7

 

Уравнение (234) совпадает с уравнением (233), если положить

 

г -\- т = а;

г -(т- т = ß-

 

 

7 А. М. Батков

97

Заметим, что если в выражении (234) положить т = О, то будет получено -уравнение простого градиентного метода. Таким образом, разница между методом «тяжелого шарика» и простым градиентным методом состоит в наличии инерционности движения итерационной точки х1 в первом методе.

Предлагается [80] в методе «тяжелого шарика» выбирать кон­ станты а и р следующим образом. Сначала принимается ß = 0 и выбирается а, как это делается в градиентном методе, когда ско­ рость сходимости метода уменьшится, ß следует увеличить до зна­ чения 0,8—0,99. Одновременно целесообразно увеличить а.

Метод «тяжелого шарика» является двухшаговым и немоно­ тонным. Он дает возможность не останавливаться итерационной точке X1 в локальных неглубоких минимумах.

В процессе реализации метода нужно переходить к уменьшению значений а и ß только при устойчивом росте функции. Отдельные случаи роста функции закономерны, и их можно игнорировать.

Как показывает аналитическое исследование, метод «тяжелого шарика» обладает повышенной скоростью сходимости по отноше­ нию к градиентному методу. Так, хорошо организованный метод «тяжелого шарика», примененный к функциям овражного типа с большим значением коэффициента обусловленности р матрицы

вторых производных, сокращает приблизительно в ]/р раз число итераций по сравнению простым градиентным методом при оптимальном выборе размера шага.

Ускорение сходимости метода наискорейшего спуска. Из основ­ ных соотношений, определяющих метод наискорейшего спуска, следует, что при точной реализации метода всегда будет выпол­ няться условие

(xt+l хіУ (х1X(_1) = 0, і = 1 , 2 , 3, . . .

Это означает ортогональность смещения итерационной точки х■' на двух соседних шагах. Данное обстоятельство приводит к тому,

что траектория движения точки х1 имеет «зигзагообразный»,

ха­

рактер, что в конечном счете замедляет сходимость.

спуска

Бут

 

Для ускорения сходимости

метода

наискрейшего

[122, 8 6 ] предложил следующую модификацию метода:

 

 

 

Д +1 X1— ба/ dF (К)

 

 

 

 

 

дх

 

 

где параметр а (- определяется,

как и обычно, из соотношения

 

 

F ix 1а ,• dF (Д )

min F (X1

■а dF (Д)

 

 

 

 

дх

а > 0

 

дх

 

 

 

 

 

 

 

 

 

а

параметр б

выбирается постоянным

в

интервале

0 < б << 1 .

В

частности,

рекомендуется выбирать

б = 0,9.

 

 

98

3. Специальные методы поиска экстремума

Рассмотрим некоторые другие методы поиска экстремума, которые связаны с линейными методами. Начнем с метода симплекспланирования, предложенного в 1962 г. [151].

В основе этого метода лежит построение и последовательное перемещение симплекса в п-мерном пространстве переменной х. Под симплексом п-мерного пространства понимается выпуклая правильная фигура, задаваемая системой п + 1 точек.

Алгоритм метода симплекс-планирования состоит в следующем. Задаемся системой п + 1 точек х°, х1, . . ., хп, образующих исход­ ный симплекс 5°, и вычисляем в этих точках значения функции F (X). Выбираем вершину симплекса, соответствующую максималь­ ному значению функции. Обозначим эту вершину хг. Строится

новая точка хг, которая получается зеркальным отражением точки хг от грани симплекса, лежащей против нее (рис. 35):

~ Г

1_

£ * 4

2

- /

2^

п

X

П

п

і—О

 

і=0

(=0

 

 

 

ІфГ

 

 

ІфГ

 

 

 

ІфГ

 

 

Точки X0, X1, . . . , хг~ , хг, хг+ , . . . , хп образуют новый симплекс. Вычисляем значение функции в хг. Возможны следую­ щие варианты:

1. Среди вершин нового симплекса максимум функции дости­

гается в некоторой точке, отличной от точки х . Тогда на этом за­ канчивается первая итерация и производится следующая итерация

сновым симплексом.

2.В новом симплексе максимум достигается в хг. Тогда воз­ вращаемся к исходному симплексу и очередной симплекс получаем отображением вершины, в которой значение функции максимально

среди оставшихся вершин. Если в п + 1 последовательном сим­ плексе какая-либо точка сохраняется, то вокруг этой точки строит­ ся новый симплекс с вдвое меньшим ребром.

Известны некоторые модификации метода, в которых симплекс может быть правильным или неправильным и в которых исполь­ зуются другие правила дробления симплекса.

Одним из правильных п-мерных симплексов с ребром, равным единице, и вершиной в начале координат является симплекс, за­ даваемый следующей матрицей:

0,

0, . . ,

Р,

я, . . .

5 = Я,

р , . . .

Л г

0

я

я

Я, я, • •

> р

Рис. 35. Схема метода с

плекс-планирования

 

 

7 *

99

 

каждая

строка которой

 

соответствует координатам

 

вершин. Параметры р и q

 

определяются

размерно­

 

стью пространства п:

 

Р

21^ 2” ^

 

 

Овражный метод мини­

 

мизации. В п. 1 гл. Ill бы­

 

ло показано, что линейные

Рис. 36. Овражный метод минимизации

методы

оптимизации ха­

 

рактеризуются

медленной

сходимостью при большом значении коэффициента обусловлен­ ности р для матрицы вторых производных минимизируемой функ­ ции. Такие функции часто называются «овражными», так как для случая двух переменных (п = 2) поверхность, изображающая по­ добные функции, имеет вид вытянутого оврага. Одним из методов ускорения линейных методов является овражный метод миними­ зации [20, 22], который сводится к следующему. Задаемся началь­ ным приближением х° (рис. 36) и градиентным или каким-либо другим линейным методом производим оптимизацию. Обычно через несколько итераций применение линейного метода становится мало­ эффективным, так как итерационная точка достигает «дна оврага». Тогда предлагается прекратить применение линейного метода. Конечную точку обозначим Л 0. Далее в окрестности точки х° на расстоянии, превышающем шаг линейного метода, выбирается точка X 1 и аналогичным образом производится оптимизация линей­ ным методом. Результирующую точку обозначим А г. Для овраж­ ных функций точки Л 0 и Л х обычно находятся на дне оврага. За­ тем по дну оврага по прямой, соединяющей А 0 и Л х, в сторону точки с меньшим значением функции делается шаг в точку х2. Размер шага обычно больше размера шага градиентного метода и выбирается экспериментально. Затем из точки х2 осуществляется спуск в точку А а путем очередного применения линейного градиент­ ного метода, и по линии, соединяющей точки Л х и Л 2, делается новый шаг по дну оврага в точку Xs.

При разумном выборе размера овражного шага применение описанного метода значительно снижает затраты машинного вре­ мени по сравнению с использованием чисто градиентных методов для минимизации овражных функций.

4.Квадратичные методы минимизации

Основная идея квадратичных методов минимизации состоит

вквадратичной аппроксимации минимизируемой функции F (х)

вокрестности итерационной точки х1 и выбор следующего при-

100

ближения xt+1 в качестве точки минимума квадратичного при­ ближения. По-видимому, исторически первым квадратичным ме­ тодом является метод Ньютона, в котором аппроксимация функции строится на основе разложения в ряд Тейлора:

/=1

 

+

4 - £

£

 

 

 

 

(*, - * ,') (*< -

 

■*9=F м

+

 

 

 

 

/=1

 

 

 

 

 

 

 

 

 

 

 

 

I

І Ѵ

ѵ і \ *

Ö F

( j c O

. 1

x

/

 

Y i \ * d2F (xl)

/

i \

=

(

i \

+ {x — x )

d'x

- f (

 

_ x ) —

 

(x —x)

g U

x),

где

rW (л:)

 

обозначает матрицу вторых производных функций

 

дх2

 

 

 

d2F(x)

I!

 

d2F(x)

 

 

 

 

 

 

F (x) с элементами

 

В

соответствии

с выше-

 

 

 

 

 

дх2

||г,

дх{ дх/

 

 

 

 

 

 

сказанным определим следующее приближение х‘+г как точку минимума квадратичной аппроксимации q (х1, х). Предполагая

 

 

 

d2F (х)

> получим

положительную определенность матрицы

х£+1 = X1

d^Fjx1)

\ ~ l

dF (xl)

(235)

дх2

)

дх

 

 

Сравнивая выражения (235) и (223), можно увидеть связь рас­ четных формул градиентных методов и метода Ньютона. Различие методов, с одной стороны, состоит в том, что в методе Ньютона отпадает проблема выбора шага, но, с другой стороны, требуется вычислять, а затем обращать матрицу вторых производных, что связано с значительной затратой труда. Заметим, что обратную матрицу для матрицы вторых производных рационально вычис­ лять по методу квадратного корня [14, 78], так как в процессе обращения матрицы таким способом одновременно производится

d2F (х)

проверка матрицы — на положительную определенность.

Осуществление этой проверки очень важно, так как соотношение (235) имеет смысл только для положительно определенных матриц.

В противном случае точка хг+1 может оказаться или точкой мак­ симума, или седловой точкой квадратичной аппроксимации q (х, X1).

В отличие от градиентных методов итерационная последова­ тельность, полученная при использовании метода Ньютона, не зависит от линейных (в частности, масштабных) преобразований

переменных. Так, если последовательность \х1) найдена при ми­ нимизации F (х), а последовательность {У1} — при минимизации

101

Ф (у) — F {Ах), где А — невырожденное преобразование, то из условия х° = Ау° следует равенство

X1 = Ау1.

(236)

Однако практически, если преобразование А близко к особен­ ному (I А I я« 0), то за счет ошибок округления вычисление

/ 32Ф (у) \ - i J й

\ ду^~)

будет сопровождаться погрешностями и равенство

(236) может нарушиться.

Естественно, что скорость сходимости метода Ньютона значи­ тельно выше скорости линейных методов. Так, если функция F (х) дважды непрерывно дифференцируема, выпукла и имеет точку минимума х+, то при выполнении некоторых других естественных условий метод Ньютона дает квадратичную скорость сходимости

[44], т. е.

X 1 у+ |2

F+1. У+I

где коэффициент у зависит от вида минимизируемой функции F (х). Очевидно, что для чисто квадратичных функций метод Ньютона дает точное решение за одну итерацию.

В то же время метод Ньютона, как правило, обладает более узкой областью сходимости, чем градиентные методы. Поэтому часто вначале минимизируют функцию одним из линейных методов, в процессе реализации которых время от времени производится

32F (X)

проверка матрицы вторых производных — на положитель­

ную определенность. При достижении положительной определен-

d2F (X)

ности матрицы —д^2— следующие итерации производятся по ме­

тоду Ньютона.

Существуют модификации метода Ньютона, направленные или на упрощение его реализации, или на расширение области сходи­

мости. Например,

в модифицированном методе Ньютона предла-

гается вычислять

( d2F (x)

1

 

 

 

точки л: =

0

1

 

 

только Для одной

г \

Таким образом, алгоритм метода имеет вид

 

 

 

 

,-+W

 

-

d2F(x»)

\- l

dF{xО

і = 1

2.

(237)

 

( ^

)

 

дх

 

 

 

 

 

 

 

 

 

 

 

В некоторых

 

случаях

производится

вычисление

( д*F (X)

\ -1

 

V дх2

)

один раз на несколько итераций.

 

 

 

 

 

 

Для расширения области сходимости метода Ньютона в работе

Л. В. Канторовича [43] предложен алгоритм

 

 

 

 

хі+і _ хі _ а

d2F (Д )

Г 1

dF (х‘)

1

0

( 238)

 

 

 

дх2

/

дх

• 1 ~

 

 

 

где параметр а

выбирается

в интервале 0 << а

 

1.

 

 

102

Наряду с этим был предложен алгоритм

[143]

 

= JT

сСіЕ +

d2F( x

0 \ - х

dF(x

О

t = 1. 2,

( 239)

öx2

5л:

где Е — единичная

матрица.

 

 

 

 

 

Доказано, что алгоритмы (237)—(239) сходятся со скоростью геометрической прогрессии, т. е. аналогично градиентному методу.

Перечисленные в настоящем параграфе методы являются ме­ тодами минимизации второго порядка, так как они предполагают

d2F (х)

использование матрицы — . Применение этих методов ока­

зывается рациональной только в случае, когда вычисление ма-

трицы d2F (х) не связано с большими трудностями, например,

когда известно аналитическое выражение функции F (х). Рассмотрим квадратичный метод минимизации, предложенный

Ф. Вольфом [152], в котором предполагается возможность вы­ числения значения функции и ее градиента в любой точке. Алго­ ритм метода состоит в следующем. Выбирается п + 1 базисная точка х°, X1, . . ., хп и в этих точках вычисляется градиент

dF (х°)

dF (лЛ)

 

dF (хп)

 

дх

дх

‘ ' ’

дх

 

Далее определяются параметры к 0,

. . ., кп

из условия

 

 

;=о

 

 

 

 

 

 

S

X, = 1.

 

(240)

 

 

і=0

 

 

 

 

По полученным значениям параметров определяется точка

 

 

хп+1 =

% кЛ .

 

(241)

 

 

 

/=о

 

 

После этого х"+1

вводится

в систему базисных

точек, а одна

из старых базисных точек (обычно в этой точке F (х) максимальна) выводится. Далее расчеты повторяются для полученной вновь системы базисных точек.

Нетрудно показать, что приведенный алгоритм за один шаг

решает задачу минимизации квадратичной формы вида

 

F(x) = ± ( x - a ) * Q ( x - a ) ,

(242)

где Q — симметричная положительно определенная матрица.

Действительно, система уравнений (240) для указанного случая имеет вид

£ ktQ(х{ — а) = 0;

£ к, = 1.

(243)

£=0

£=0

 

103

Используя уравнения (243) и (241), получим

iS= o hQ (** - a) = 0 = Q/ =èо

Kx‘ -

 

1=1

 

4

 

 

Qaé*4 = Q(хП+1 -

 

Следовательно, xn+1 — а, так как

матрица

Q положительно

определенная и поэтому неособенная. Таким образом, показано, что точка хп+1 совпадает с точкой минимума квадратичной формы

(242).

Как следует из алгоритма метода Вольфа, перед началом его применения требуется провести п + 1 вычисление градиента функции. Если предварительно использовался градиентный метод, то за систему базисных точек можно взять последние итерационные точки этого метода. При совершении каждого нового шага тре­ буется вычислить градиент и значение функции всего в одной точке, т. е. существенно меньше, чем в конечно-разностном ва­ рианте метода Ньютона.

Для расширения области сходимости метода Вольфа рекомен­ дуется применять следующие меры:

1. Предотвращать слишком большие шаги. Если параметры Ягвелики (I Кі 1 20), то делается неполный шаг по направлению

хп+1. Результирующая точка * п+1 определяется соотношением

1= 1Д т £** + С1 I

)

( Д т + С1- Ч:Ч) •

1=0

 

£=0

Параметр Я выбирается как наименьшее значение, при котором удовлетворяется система неравенств:

0 < Я <

1 ,

¥ 4 т + (1 -Я )Я 1. | < 20,

і 0, I, 2, . . ., п.2

2. Во вновь полученной точке хп+х всегда проверять усло­

вие F (хп+1) s=^ max F (xl). Если это условие не выполнено, то из

І

точки хп+1 производится спуск градиентным методом до выпол­ нения этого условия. Конечная точка и вводится в систему базисных точек.

Теоретически при использовании метода Вольфа может воз­ никнуть затруднение, связанное с отсутствием решения системы уравнений (240). Такое положение, например, может возникнуть при минимизации квадратичной функции (242), когда базовые точки х°, X1, . . ., хп находятся в подпространстве размерности, меньшей п. Практический опыт применения метода Вольфа не оправдывает этого опасения, однако при появлении трудностей

104

такого типа естественно определять

параметры Х0, A,lt

. . ., Хп

не из условия (240), а из условия минимума выражения

 

2

 

V R dF(X1)

 

=

min

 

Zj Рг' dx

 

1=0

è ß,=i

t=o

 

Изложенный метод является квадратичным методом первого

порядка. В работе Лаврова

[54] предлагается сходный

по идее

метод барицентрических координат, который не требует вычисления производных функции F (X) и ограничивается только вычисле­ нием функции F (х) в некоторых точках. Разумеется, метод Вольфа легко свести к методу нулевого порядка, используя замену частных производных функции F (X) отношением конечных разностей, од­ нако метод Лаврова требует примерно в 2 раза меньшее количе­ ство вычислений значения функции для осуществления первой итерации, чем метод Вольфа.

Аналогично предыдущему при использовании метода Лаврова

выбирается система п + 1 базисных точек х°,

х1,

. . .,

 

хп и вы-

 

 

 

^

 

= 0

 

1

 

2

 

 

 

 

^— >(*\ у

,

,

, . . .

числяются значения функции в точках —.J

 

 

 

 

. . ., п). Обозначим

 

 

 

 

 

 

 

 

 

 

F4 = F { ^ T ^ \

^

/ = °.

1, 2, •

• -

«)•

 

 

 

 

 

Далее на основании решения системы (п +

2) уравнений отно­

сительно параметров X, Х0, Xlf Х2, . . .,

Х„ вида]

 

 

 

 

 

 

4 2 F^-Xj'-j-X =

Fа,

і = 0,

1, 2, . . ., п\

 

 

 

 

 

/=о

 

 

 

 

 

 

 

 

 

 

/=0

 

 

 

 

 

 

 

 

 

п

 

 

 

 

 

 

 

 

 

 

строится точка хп+1 = 2 Хсх \

которая затем

вводится в систему

1=0

 

 

 

 

 

 

 

 

 

 

базисных точек аналогично методу Вольфа. Легко показать, что для случая чисто квадратичных функций метод Лаврова дает точ­ ное решение за один шаг.

Все рекомендации по практическому осуществлению метода Вольфа непосредственно переносятся на метод барицентрических координат.

5. Метод сопряженных градиентов

Метод сопряженных градиентов, предложенный Хестеном и Штифелем в 1952 г. [132], является одним из эффективнейших со­ временных методов безусловной минимизации функций. Как бу­

105

дет показано ниже, этот метод можно рассматривать как оптималь­ ную реализацию градиентного метода применительно к квадратич­ ной функции. Метод сопряженных градиентов дает точное решение задачи минимизации произвольной квадратичной функции за п или меньшее число шагов, где п — число переменных. При этом метод сводит исходную задачу к последовательности задач мини­ мизации функций одной переменной и в процессе его применения необходимо вычислять только значение градиента исходной функ­ ции. Реализация этого метода практически не сложнее реализации метода наискорейшего спуска.

Выведем основные расчетные соотношения метода сопряженных градиентов. Пусть требуется найти точку минимума х+ для квад­ ратичной формы q (х), определяемой выражением

д(х) = ~ х*Ах + Ь*х + с,

(244)

где А — положительно определенная симметричная матрица. Зададимся точкой начального приближения х° и построим первое приближение вида

X1 = х° — а 0

dq (х0)

= х° — a 0s\

 

д х

 

где а 0 — выбирается из равенства

q (х° — ocqS1) = min q (х° ts-1). t

Обозначим через sl вектор, определяющий направление дви­

жения на t-м шаге.

В общем

случае,

если dq (х1)/дх Ф 0, то

(/ + 1)-е приближение будем строить следующим образом:

*'+■ =

-

а, ( Д Й -

+ S

w

)

=

*“ -

<м‘+\

(245)

где параметры а.

и ßj. (/ = 1, 2,

. . .,

i\

і

=

0, 1,

2 ,

.) опреде-

ляются из условия минимума:

 

(246)

до fjcO

о

Если —^ - =

0, то в соответствии с положительной опре-

деленностью матрицы А точка х1 есть точка минимума функции х‘ = х+ и итерационная процедура считается законченной.

106

Соседние файлы в папке книги из ГПНТБ