
книги / Системы экстремального управления
..pdfфункции качества. В этом случае поиск приобретает ха рактер глобального поиска.
Рассмотрим такой глобальный поиск, полученный за счет исключения немедленной реакции па неудачный шаг
[20.8].
Пусть направление случайных шагов поиска в прост ранстве оптимизируемых параметров определяется задан ным многомерным распределением р (S, W), которое за висит от некоторого re-мерного единичного вектора W = = (шх, ., wn) как от параметра.
Распределение р (S, W) должно обладать следующим свойством: направление математического ожидания слу чайного вектора S по всем возможным реализациям должно совпадать с направлением вектора W, т. е.
dir ^S/?(S, PF) dS = W. |
(20.6.1) |
Следовательно, W определяет среднее направление поис ка. С другой стороны, это направление должно зависеть от предыстории процесса поиска, т. е. быть наилучшим с точки зрения предыдущей работы. Поэтому естественно назвать вектор W вектором предыдущего опыта. Как лег ко заметить, этот вектор очень похож на вектор памяти в процессе непрерывного самообучения (см. § 17.4). Разни ца заключается лишь в том, что в данном случае вектор W указывает лишь на направление, а его модуль не несет ни какой информации, в противоположность вектору памяти, модуль которого определял дисперсные свойства слу чайного выбора.
Процесс поиска разбиваем на следующие этапы.
Во время первого этапа (анализа) из исходной точки Xi, определяющей состояние оптимизируемой системы в пространстве параметров в данный i-й момент, делается
т независимых |
случайных |
проб |
gS;- (/ = |
1, |
. . ., т) |
в соответствии с |
имеющимся |
распределением р |
(S, Wt). |
||
Длина пробных шагов постоянна и равна g. |
При этом |
||||
каждый раз определяется функция качества: |
|
|
|||
Qi = Q (Хг + gEj) |
(/ = 1, |
т). |
|
(20.6.2) |
На втором этапе (решении) определяется направление рабочего шага ДХ1+1, который зависит от результатов анализа, произведенного на первом этапе, и решающего
правила F, связывающего предыдущий опыт и получен ную информацию:
ДХт = aF (Sj, |
Em, Qu |
Qm, Wt), (20.6.3) |
где F — некоторая |
векторная единичная функция, а — |
длина рабочего шага в пространстве параметров. Функ ция F, таким образом, определяет в некотором смысле наилучшее направление рабочего шага в свете только что полученной информации. Поэтому дальнейший поиск следует направить именно в этом направлении. А так как направление поиска определяется вектором W, то на тре тьем этапе (обучении) естественно изменить направление W в соответствии с новыми результатами:
Wl+1 = Ф (Wi, AXf+1). |
(20.6.4) |
Например, |
|
= |
(20.6.5) |
т. е. новое направление вектора W определяется направ лением предыдущего рабочего шага.
Вслучае, если система работает в обстановке помех
инет уверенности, что направление W действительно наилучшее, то необходимо введение накопления, которое, например, реализуется такой формулой:
Wm = dir (Wi + 6AXi+1), |
(20.6.6) |
где dir — знак направления, a ô > 0 - параметр скоро сти накопления.
Это выражение устанавливает преемственность между новым и старым направлениями вектора памяти. При ма лых значениях Ôэта преемственность большая, а при боль ших — малая, и формула (20.6.6) вырождается в преды дущую (20.6.5).
Как нетрудно заметить, этот алгоритм имеет глобаль
ный |
характер. |
Действительно, случайные |
пробы S 1}... |
., |
Ето здесь |
производятся не в любом, |
а лишь в оп |
ределенном предпочтительном секторе направлений, оп ределяемом вектором W. Этот вектор, а точнее, распреде ление р (S, W), как бы устанавливает своеобразные «шоры», ограничивающие свободу случайных проб лишь в определенном секторе пространства оптимизируемых
где в свою очередь wt — i-я составляющая вектора W = = (и>!, wn), с — некоторая постоянная (0 < с <; 1). Эти выражения полностью определяют направление случайной пробы.
Направление рабочего шага для этого алгоритма ес
тественно определить следующим |
образом: |
|
F = Е*, |
|
(20.6.9) |
где S* — направление наилучшей |
пробы, которая удов |
|
летворяет условию |
|
|
Ç(X + gS*)= min Q(X + &j). |
(20.6.10) |
7=1,....m
Это означает, что рабочий шаг делается в направлении иаилучшей пробы:
ДX = a S*. |
(20.6.11) |
Опыт, накопленный за один цикл анализа, запоминает ся в данном случае в виде вектора W, который совпадает с наилучшей пробой анализа:
W = В*. |
(20.6.12) |
Таким образом, целенаправленность поиска осуществ ляется за счет того, что вероятности (20.6.8) принимают одно из двух значений: с или 1 — с, в зависимости от пре дыстории.
На рис. 20.6.2 в качестве примера показано поведение приращения функции качества при оптимизации этим алгоритмом линейного объекта вида
Q = ~ T |
3** |
(20.6.13) |
|
г= 1
J
для п = 10, т = 5 и W0 = у —-(1 ,..., 1) т. е. вектор па
мяти в исходный -момент был направлен вдоль градиента функции качества. Это означает, что сначала поиск был на правлен в сторону, противоположную требуемой. Хорошо видно, что за семь рабочих шагов вектор W практически развернулся^в направлении наиболее интенсивного умень шения функции качества, причем разворот произошел не
сразу, а постепенно. Именно таким образом система «сва ливается» в овраг и движется вдоль него, совершая рыска ющие движения, т. е. слегка случайно отклоняясь из сто роны в сторону. Подобное случайное рысканье системы в процессе поиска позволяет ей отслеживать направление оврага ценой весьма незначительных потерь на поиск.
Рис. 20.6.2. Поведение приращения показателя качества при пере стройке вектора памяти по дискретному алгоритму.
А л г о р и т м с н а п р а в л я ю щ е й с ф е р о й . Как нетрудно заметить, предыдущий алгоритм был по строен на базе дискретного алгоритма самообучения, рас смотренного подобно в § 17.4. Очевидно, что непрерывный алгоритм самообучения также может быть использован для построения глобального алгоритма.
Пусть случайные пробы Е* определяются точками на поверхности «-мерной гиперсферы, а сама эта ги персфера несколько выдвинута в направлении вектора памяти W. Тогда образованные таким образом случайные направления имеют тенденцию в сторону W , причем эта тенденция тем сильнее выражена, чем на большую величи ну выдвинута гиперсфера вдоль вектора памяти W. Опи санная схема образует алгоритм с направляющей сферой. Направление подобного шага в данном алгоритме опре деляется следующей формулой:
Е = dir (W + с Е°), |
(20.6.14) |
распределенный по всем направлениям пространства па раметров, с — некоторая постоянная (радиус гиперсферы). На рис. 20.6.3 показано взаимодействие векторов Е° и W в процессе образования S, а пунктиром обозначена гиперсфера возможных реализаций случайного вектора с Е°. Как видно, при с^> 1 все пробные шаги производят ся внутри гиперконуса с осью W и углом полураскрытая
arcsin c/\W\. Чем меньше с, тем уже |
|
|
||
конус и тем ближе друг к другу слу |
|
|
||
чайные пробы. |
этого |
алгоритма |
|
|
Модификацией |
|
|
||
может служить алгоритм с направ |
|
|
||
ляющим конусом. |
|
|
|
|
А л г о р и т м с н а п р а в л я ю |
|
|
||
щ и м к о н у с о м . |
Пусть в про |
|
|
|
странстве параметров определен ги |
Рис. 20.6.3. К опре |
|||
перконус с вершиной в точке X, ось |
делению направления |
|||
которого совпадает |
с направлением |
пробы |
в алгорит |
|
вектора памяти W, а угол |
при вер |
ме с |
направляющей |
|
шине равен 2ф. Вокруг |
вершины |
|
сферой. |
|
|
|
конуса, как относительно центра, про
ведем гиперсферу радиуса g. Конус отсечет от этой сферы часть поверхности, на которой случайно выберем т проб
ных точек Si, |
Sm. ' По |
значениям функции ка |
чества в этих точках |
Q (X + |
Ег) определяется точка, |
соответствующая минимальному значению функции ка чества (20.6.10). В этом направлении и производится ра бочий шаг. Направление поиска, таким образом, целиком и полностью определяется указанным конусом, т. е. слу чайные пробы выбираются внутри него. Поэтому естест венно назвать этот конус направляющим. Направление вектора памяти при этом следует определять наилучшей пробой предыдущего этапа (20.6.12).
На рис. 20.6.4 показано несколько шагов поиска для ^ < 1 < а и т = п = 2из состояния Х 0 с произвольным начальным направлением вектора памяти W0, который в процессе поиска изменяется по наилучшей пробе. Хоро шо видно, что по мере накопления информации о поведе нии функции качества этот вектор стремится развернуть ся в направлении, обратном градиентному.
Очевидно, что с уменьшением угла раскрытия конуса возможности поворота вектора W на один рабочий шаг
уменьшаются, что является следствием инерционности такого рода поиска, отмеченной выше. Это означает, что при резком изменении направления градиента система не которое время будет двигаться в старом направлении, а за тем вектор W постепенно перестроится в новое состояние.
Рис. 20.6.4. Движение системы в пространстве параметров при ее оптимизации алгоритмом с направляющим копусом.
Однако, с другой стороны, потери на поиск для такого алгоритма при правильном расположении вектора памяти (в направлении оврага или обратном градиентному) умень шаются с уменьшением угла раскрытия конуса. При уве личении же угла Ф система становится более мобильной, более «верткой», но за счет увеличения потерь на поиск.
По-видимому, в каждом конкретном случае существует оптимальное значение угла раскрытия направляющего ко нуса, при котором система имеет достаточно малые потери на поиск и при этом сохраняет необходимую инерцион ность, которая нужна для преодоления «перевалов» функ ции качества.
Для иллюстрации рассмотрим серию эксперименталь ных расчетов на ЦВМ по отысканию глобального миниму-
ма многоэкстремальной функции двух переменных Q (%,
х2) — |
+ |
х\ — cos 18% — cos 18% с зоной поиска |
|
— 1 ^ |
Xi |
1 (i = 1,2). Эта функция в указанной зоне име |
|
ет 10 оврагов, на дне которых располагается 25 |
минимумов. |
||
Глобальный минимум расположен в центре |
допустимой |
||
области при % = х2 = 0. |
|
Рис. 20.6.5. Траектория движения системы при а = Vise, "ф= 1 рад.
На рис. 20.6.5—20.6.8 показаны результаты моделиро вания поиска при т = 2 в виде траекторий поиска. Здесь пунктиром обозначено направление дна оврагов, кружка ми показаны промежуточные минимумы функции качест ва, а крестиками изображены ее максимумы. Система на чинала движение из начальных условий х10 — %0' = V2. При достижении ограничений система «отскакивала», т. е. направление вектора W изменялось на обратное. Длина пробного шага всюду совпадала с рабочим, т. е. g = а. Было рассмотрено четыре случая.
1. я = -j9g- , ф = 1 рад. Результаты моделирования по
казаны на рис. 20.6.5. Хорошо видно, что система излиш не вертка, она слишком быстро «выворачивается» и поэто му ее траектория «наматывается» сначала на один, а потом
на другой промежуточные близлежащие экстремумы. Малая инерционность не позволяет системе легко выби раться из промежуточных экстремумов. На 408-м шаге поиска процесс был остановлен, так как система так и не нашла глобального экстремума.
Рис. 20.6.6. Траектория движения системы при а — Vi2s. 'Р = V2рад.
В качестве одной из мер по повышению инерционности поиска можно предложить увеличение величины шага поиска а либо уменьшение углач]; раскрытия направляюще го конуса. В следующем эксперименте инерционность по иска была увеличена за счет последней меры — уменьше ния угла ч|).
11
2.а = - щ - , ф = ~2 ~ рйд (рис. 20.6.6). Как видно, систе
ма с увеличением инерционности получила возможность сравнительно легко переходить от одного экстремума к другому. Однако и этой инерционности недостаточно, так как система все же успевает развернуться в районе экстремума. Это приводит к тому, что она иногда совер шает бессмысленные витки вокруг некоторых экстрему мов и излишне «виляет», двигаясь вдоль оврагов.
Глобальный минимум в этом случае система нашла лишь на 851-м шаге поиска.
В следующем эксперименте инерционность поика бы ла повышена за счет другой меры — путем увеличения ша га поиска.
11
3.а = -jrj-, ф = - у рад (рис. 20.6.7). Как видно, эффек
тивность поиска в этом случае значительно возросла.
Рис. 20.6.7. Траектория движения системы при а = Vo*, ф = V2 рад.
Глобальный экстремум был найден за 173 шага поиска. Система уверенно движется вдоль оврагов, т. е. обладает хорошей инерционностью и быстро разворачивается, что говорит о достаточной мобильности системы.
Дальнейшее увеличение инерционности поиска уже снижает его эффективность.
11
4.а = -gjj-, ф = — рад (рис. 20.6.8). Как видно, система
стала излишне инерционной и поэтому плохо отслеживает направление оврагов. Она слишком «мечется» от одно го ограничения к другому. Однако «овражная тенден ция» поиска просматривается и система все-таки нахо дит глобальный экстремум, хотя и на 514-м шаге поиска.
Подводя итог, можно сказать, что рассмотренный ал горитм обладает необходимыми овражными и глобальными