Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Системы экстремального управления

..pdf
Скачиваний:
10
Добавлен:
19.11.2023
Размер:
33.28 Mб
Скачать

<т0 при удачных. Уменьшение дисперсии в данном слу­ чае связано с необходимостью уточнения найденного локального экстремума, а увеличение — с необходимостью изучения новой ситуации для отыскания наилучшей точки.

Этот алгоритм также может не найти глобальный экст­ ремум иа конечном числе шагов. Однако он более «осторо­ жен», и ввиду того, что нормальный закон имеет бесконеч­ ные «хвосты», метод не исключает принципиально оты­ скание глобального экстремума при N-+- оо и соответствую­ щем выборе функции / (а). Так, например, при / (ст) = О рассмотренный поиск вырождается в случайный перебор с нормальным распределением проб, сходимость которого к глобальному экстремуму интуитивно очевидна и доказа­ на строго [20.4].

Рассмотренные выше методы глобального поиска име­ ют асимптотический характер, т. е. предполагают, что (.хотя бы в принципе) возможно делать сколь угодно много

испытаний, т. е. можно предполагать N

оо. Однако в

практических расчетах, когда каждая проба Q (X ) требует

затрат,

число экспериментов N всегда

ограничено N <

< N'.

Поэтому естественно при определении стратегии

поиска учитывать значение N', которое существенно влия­ ет на процесс поиска. Таким образом, нужно получить наи­ больший эффект за N' пробных шагов. Такой подход к процессу отыскания глобального экстремума требует не­ которых дополнительных сведений об объекте.

Для широкого класса достаточно сложных многоэкст­ ремальных объектов оптимизации удается построить за­ кон распределения значения Q {X) в предположении, что состояния X выбираются по равномерному закону распре­ деления во всей области поиска. Так, если функцию ка­ чества можно представить в виде

т

 

Ç(X) = S /.(X ),

(20.4.9)

i=1

 

где функции fi(X) слабо связаны, то при большом числе переменных в соответствии с предельными теоремами тео­ рии вероятностей величина Q распределена по нормаль­ ному закону.

Так или иначе, но предполагается, что закон распреде­ ления P(Q, А) известен с точностью до ряда параметров

А = (ах, а2, ., ak) этого распределения. Это обстоя­ тельство позволяет построить следующую процедуру гло­ бального поиска [20 4 ] (одномерный вариант этого поиска описан в § 10.3).

Разобьем всю область поиска на S подобластей и вы­ ясним, в которой из них выгоднее всего размещать имею­ щееся в распоряжении число испытаний N для определения состояния, где показатель качества принимает наименьшее значение. В качестве критерия выбора подобласти естест­ венно принять математическое ожидание М нижнего вы­ борочного значения Q (X), соответствующего заданному числу испытаний N в этой подобласти.

Оценка неизвестного значения М для каждой подобла­ сти требует некоторого числа пробных испытаний L , ко­

торые нужны для оценки параметров

= 1,

.,5 )

распределения р (Q, А г) в каждой подобласти. Располагая этими оценками, можно определить математическое ожи­ дание Mi наименьшего значения Q при распределении в каждой области заданного числа испытаний N. Необходи­ мо, израсходовав минимальное число пробных испытаний L , найти подобласть, для которой с вероятностью не мень­ ше заданной значение М минимально. В выбранной та­ ким образом подобласти распределяются# —L эксперимен­ тов или она становится исходной для последующего анало­ гичного дробления.

Процесс поиска, таким образом, сводится к определению наиболее перспективной подобласти, которая либо раз­ бивается далее на последующие подобласти, либо в ней распределяются все оставшиеся испытания. Как видно, оптимальный поиск требует оптимального разбиения всего запаса экспериментов на «разведку» L, позволяющую оп­ ределить наиболее выгодную подобласть и оставшуюся часть испытаний N L, которая распределяется равно­ мерно в выбранной подобласти.

§ 20.5. «Блуждающий» глобальный поиск

Блуждающий случайный глобальный поиск является статистическим расширением регулярного метода градиен­ та и заключается в следующем [20.5, 20.6, 20.7]. С целью придания поиску глобального характера на градиентное движение системы накладывается случайное возмущение S (<), которое создает режим случайного блуждания.

В непрерывном случае градиентный метод минимиза­ ции функции качества Q (X) сводится к движению точки X в га-мерном пространстве оптимизируемых параметров под действием «силы», направленной в сторону антигра­ диента. Движение точки X в этом случае описывается урав­ нением

= —■a grad Q (X).

(20.5.1)

Траектория движения X (t) оптимизируемой системы, определяемая этим уравнением, приводит объект к экст­ ремальной точке. Если исходная точка X (0) находилась в области притяжения глобального экстремума, то соот­ ветствующая траектория уравнения (20.5.1) приведет систему к глобальному минимуму функции Q (X). Если же точка X ( 0) не принадлежала к области притяжения глобального экстремума, то движение в направлении наибольшего убывания Q( X) приведет систему в локальный минимум этой функции, из которого невозможно выбрать­ ся под воздействием сил, направленных в сторону, проти­ воположную градиенту функции Q (X ). Именно в таких случаях оказывается полезным включение в систему по­ иска некоторого случайного механизма. Случайные толчки могут помочь точке X преодолеть барьер, отделяющий локальный минимум, в который попала система, от обла­ сти, в которой Q (X ) может еще убывать. Такое движение точки под воздействием детерминированного сноса в сто­ рону антиградиента и случайных толчков определяется сле­ дующим очевидным дифференциальным уравнением:

4 £ -= -ag rad < ?(X ) +

S(f),

(20.5.2)

где S U) — n-мерпый нормальный

случайный

процесс

с нулевым математическим ожиданием, дельтаобразной автокорреляционной функцией (нормальный белый шум)

и дисперсией составляющих а\, а\, ., о£.

Процесс, определяемый этим уравнением, является слу­ чайным марковским процессом диффузионного типа.

Плотность распределения вероятностей р {X,

t) перехода

из начального

состояния

X (0) в точку X

за время t

удовлетворяет

уравнению

Колмогорова — Фокера —

Планка [20.5]:

 

др (X, 0

*) 9

dt

 

с естественным условием

(20.5.3)

 

[ р{Х, t) dX — 1,

(20.5.4)

где S — область определения функции качества Q (X). Уравнение (20.5.3) имеет следующее стационарное ре­

шение:

Р ( х ) = “г ехр

[ “

~

g'aZ )] »

(20.5.5)

где предполагается, что о* =

a(i

=

1, . .,

п), т. е. мно­

гомерный случайный процесс S (t) имеет одинаковую дисперсию по всем координатам; с — нормирующий мно­ житель:

с = ^ exp [ - 2aQJ Z)-] dX.

(20.5.6)

В справедливости (20.5.5) нетрудно убедиться непосред­ ственной подстановкой этого выражения в уравнение (20.5.3).

Решение этого уравнения при произвольной начальной плотности распределения вероятностей р (X, 0) стремится при N —>■оо к стационарному решению (20.5.5).

Из этого выражения видно, что максимальное значение

р(X) соответствует наименьшему значению функции Q(X),

т.е. точке глобального экстремума этой функции. Следо­ вательно, наиболее вероятным положением точки X по прошествии достаточно большого времени процесса поис­ ка является положение глобального экстремума X**, при­ чем, как видно из (20.5.5), в пределе получается

Urn р (X) = ô (X - X"),

(20.5.7)

а-Ч)

 

где Ô— векторная дельта-функция, X** — положение глобального минимума функции Q (X). Это оаначает, что с уменьшением дисперсии шума вероятность -пребывания

системы в сколь угодно малой окрестности точки глобаль­ ного минимума X** стремится к единице.

Воспользуемся этим для определения математического ожидания стационарного положения системы при о —>- 0:

М(Х) == [ Хр (X) dX X **.

(20.5.8)

Это означает, что и в среднем оптимизируемая система стремится к глобальному экстремуму. Однако следует от­ метить, что при о —*• 0 время Т выхода системы к стацио­ нарному решению X = X** возрастает и, вообще говоря, Т -> оо. Это препятствует широкому и безоговорочному применению указанного соотношения. Однако ряд интерес­ ных свойств полученного решения (20.5.5) можно исполь­ зовать, например, для оценки времени сходимости процес­ са подобного глобального поиска.

Как нетрудно заметить, такой блуждающий поиск, по сути дела, является непрерывным аналогом рассмотрен­ ного в предыдущем параграфе адаптирующегося поиска с нормальным распределением случайных проб.

Разумно подбирая дисперсию о2 шума в процессе по­ иска, т. е. адаптируясь, можно значительно убыстрить отыскание глобального экстремума. Адаптацию в процес­ се такого непрерывного поиска можно ввести двояким образом.

Так, вводя инерционность в движение системы, по­ лучим поиск, аналогичный поиску по методу тяжелого шарика (см. § 16.4). Движение системы при оптимизации таким методом описывается следующим векторным урав­ нением:

■Ж- + 5 ТГ = - « *rad о w + s W. (20.5.9)

где I — коэффициент демпфирования; чем больше этот ко­ эффициент, тем меньше сказывается введенная инерцион­ ность.

Адаптация в процессе поиска может быть введена также путем соответствующего управления случайным процессом S в выражении (20.5.2), например, следующим образом:

где а >

0 — параметр

корреляции

случайного

процесса

S (2),

Ô— параметр

скорости самообучения,

о2 — ве­

личина,

определяющая дисперсию

случайного

процесса

S (t),

H (t) — многомерный белый шум. Можно пока­

зать,

что

вектор математического

ожидания случайного

процесса S (t), удовлетворяющего уравнению (20.5.10), направлен обратно градиенту функции качества, т. е. среднее поведение 5 (£) определяется накопленным опы­ том работы систем и имеет глубокую аналогию с вектором W при дискретном или непрерывном самообучении шаго­ вых систем (см. § 17.4).

Как видно из уравнения (20.5.10), оптимизация про­ цесса поиска может производиться за счет соответствующе­ го выбора параметров a, ô и а. Каждый из них воздейству­

ет на

определенную характеристику

процесса

поиска.

Так,

параметр

автокорреляционных

свойств

процесса

S (t)

определяет

скорость затухания

этого процесса (и,

следовательно, степень его связи с прошлым). Варьируя величину а, можно воздействовать на характер случайно­ го поиска, т. е. в зависимости от необходимости сделать его более или менее зависимым от предыстории, для чего нужно соответственно уменьшать или увеличивать значе­ ние а.

Интересно взаимодействие параметров а и ô. Если па­ раметр Ô определяет интенсивность процесса накопления опыта работы системы (скорость самообучения), то а ха­ рактеризует уровень забывания этого опыта во время поиска. В этом смысле эти параметры являются антаго­ нистичными. Если а = 0, то забывания нет вообще и в ста­ ционарной обстановке (grad Q (X ) = const) вектор S неограниченно возрастает в направлении антиградиента.

Дисперсия процесса Е (t) характеризуется величиной ст и интенсивностью возмущающего белого шума H (t). Значение ст, как легко заметить, существенно определяет свойства случайного поиска. При большом ст нарушаются

условия для отыскания

глобального экстремума, т. е.

не имеет

места равенство М (X ) = X **, которое необхо­

димо для

осуществления

рассматриваемого глобального

поиска. При слишком малом ст процесс установления длит­ ся очень долго, что также ухудшает свойства поиска. Как видно, значение ст должно быть оптимальным, зависящим от свойств функции качества объекта.

Определение оптимальных значений этих параметров представляет серьезные трудности. Строго говоря, для это­ го следует знать функцию Q (X). Но, располагая такой информацией, не нужно производить поиска! Преодоление этого противоречия возможно путем самонастройки указан­ ных параметров в процессе поиска. Такая адаптация'поиска позволит определить значения параметров поиска, опти­ мальных для данной ситуации X, что значительно эффек­ тивнее, чем выбор параметров, оптимальных в среднем для любой из возможных ситуаций. Таким образом, параметры а, б и о должны зависеть от поведения системы в процессе поиска.

Другой алгоритм глобального поиска [20.27, 20.28] связан со случайными «скачками» в процессе градиентного поиска. Оказывается, если специальным образом органи­ зовать момент появления случайных скачков, то при оп­ ределенных условиях можно гарантировать отыскание глобального экстремума. Смысл такого поиска сводится к следующему.

Пусть процесс градиентной оптимизации (20.5.1) в’оп­ ределенные моменты времени начинается из новых началь­ ных условий, определяемых заданной плотностью распре­ деления р (X0), которая не равна нулю на всей области поиска. Это означает, что время от времени градиентный поиск начинается заново из какой-то случайной точки Х0. Момент такого «скачка» определяется значением не­ которой случайной скалярной функции т] (t), которая дискретна во времени и по уровню и задается следующим образом:

П(< + 1) =

если

ц (t) = 1

[с вер. д{],

 

i (i =

2,..., М),

 

т) (t) — 1,

если

1 <

Л (t)

М [с вер. P (Ç)],

т](*) +

1,

если 1 <

т) (£) <

Л/,|

 

М ,

 

если v\(t) = М

) С Ве^'

^ ’

 

 

 

 

 

 

(20.5.11)

Здесь М —заданное целое число; вероятности qt — произ-

м

вольные вероятности с естественным ограничением ^ ?i =

i=a функция Р { ' ) строго монотонно возрастающ ая в пре-

делах 0 < JP ( * ) < Ô <

4

 

 

Ô — некоторое малое число, оп­

ределяемое из соображений

сходимости процесса [20.27].

Момент скачка наступает при

 

 

П (i)

= 1.

(20.5.12)

Доказано, что при £->- оои М-> оо имеет место сходимость к глобальному экстремуму функции Q (X ):

X (г) X**.

(20.5.13)

Поясним это. Как видно из (20.5.11), случайный

процесс

т] (t) в среднем имеет тенденцию стремиться к М. Если число М не велико, то на каждом шаге с вероятностью

P (Q) < - у возможно уменьшение rj, и следовательно,

время от времени создаются условия (20.5.12) для введе­ ния случайного скачка.

Вероятность появления скачка зависит от М и Q. При малом М скачки будут происходить чаще, чем при большом.

При большом Q скачки бывают чаще, чем при малом. Следовательно, из глубоких экстремумов система «выпры­ гивает» реже, чем из мелких. Если теперь увеличивать М, то различие между глубоким и мелким экстремумом, куда систему заводит градиентный поиск, окажется еще больше. Частота «выпрыгивания» системы из глубокого экстремума уменьшается (так же как и из мелкого). Одна­ ко из глубокого она будет «выпрыгивать» относительно

мелкого еще реже. Если, например,

при М = Mi эти ча­

стоты соотносились как

1 2, то

при

М = Мг

Мг

это соотношение станет,

например,

1:5 .

Очевидно,

что

при очень большом М это отношение станет очень малым и система практически «застрянет» в самом глубоком (гло­ бальном) экстремуме. Это и доказано строго.

В рассмотренном поиске имеются большие возможности по его оптимизации. Действительно, функции р (Х0) и P (Q), числа Çi ограничиваются не сильно. Следовательно, варьируя их в заданных пределах, всегда можно улучшить процесс поиска или адаптировать его, если это улучше­ ние производить в процессе поиска.

В заключение отметим, что изложенный метод непре­ рывного глобального поиска связан с непрерывным

определением градиента функции качества, что практически является очень сложной операцией, связанной с большими затратами времени, особенно в обстановке помех. Именно поэтому рассмотренный алгоритм глобального поиска представляет скорее теоретический, нежели практический интерес. Действительно, для организации поиска нужно использовать аналоговую технику, применение которой для решения большинства практических задач весьма проблематично или связано с большими трудностями.

Теоретические возможности рассмотренных методов несомненны. Они связывают глобальный поиск с мощным математическим аппаратом теории случайных процессов. Этот аппарат дает возможность получать оценки оптималь­ ных параметров поиска и характеристик его поведения, что необходимо при оптимальной организации поисковых процессов. Поэтому целесообразно шаговые процессы ап­ проксимировать некоторыми их непрерывными анало­ гами, которые укладываются в изложенную выше схему и для которых соответственно может быть применен ма­ тематический аппарат теории непрерывных случайных процессов.

§ 20.6. Случайный поиск с самообучением в роли глобального

Как известно (см. главу 17), оператор реакции при слу­ чайном поиске может иметь двоякий характер. С одной стороны, это — немедленная реакция (алгоритм локаль­ ного поиска), направленная на устранение результатов неудачного шага, которая заключается в возврате, пере­ счете или экстраполяции. С другой стороны, при помощи механизма самообучения устраняется возможность по­ добной неудачи в будущем, т. е. соответствующим образом перестраиваются характеристики случайного шага S. Если же шаг был удачный, то при соответствующем зако­ не самообучения происходит учет этого опыта в виде оп­ ределенной перестройки вероятностных свойств случай­ ного шага.

Таким образом, часть результата оптимизации прихо­ дится на один, а другая часть полученного эффекта — на другой вид реакции. Исключение одной из этих реакций не лишит систему поиска способности к оптимизации. На

рис. 20.6.1 для сравнения показаны три блок-схемы опти­ мизации при различных комбинациях немедленной реак­ ции и самообучения.

На первой схеме (а) показан случайный поиск без са­ мообучения, который работает только за счет алгоритма поиска, т. е. за счет немедленной реации. В этом случае вероятностные характеристики случайного шага 2 не­ изменны.

а)

б)

6)

Рис. 20.6.1. Три схемы оптимизации методом случайного поиска: а) без самообучения, б) с самообучением и алгоритмом поиска, в) с самообучением, но без алгоритма поиска.

На следующей схеме (б) показано применение самообу­ чения совместно с алгоритмом поиска. Здесь вероятност­ ные характеристики генератора случайных шагов пере­ страиваются соответствующим образом по каналу обрат­ ной связи при одновременной работе алгоритма поиска.

На последней схеме (в) показана оптимизация только с применением алгоритма самообучения (алгоритм немед­ ленной реакции исключен). В этом случае оптимизация осуществляется только за счет перестройки вероятностных характеристик поиска. Как нетрудно заметить, подобного рода система оптимизации, прежде чем перестроиться на новое направление, может делать несколько шагов в ста­ ром направлении, независимо от получаемых результатов. Таким образом, система может некоторое время «подни­ маться по склону» и тем самым «преодолевать хребты»