Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Системы экстремального управления

..pdf
Скачиваний:
10
Добавлен:
19.11.2023
Размер:
33.28 Mб
Скачать

удачных направлений, двигаясь вдоль которых система уменьшает показатель качества.

Характерной чертой и недостатком этого алгоритма является необходимость довольно громоздкой памяти для хранения неудачных вариантов случайных смещений, которые исключаются из дальнейшего поиска.

Рис. 17.4.1. Вероятность выбора удачного направления для слу­ чая без запоминания (Р{) и с запоминанием и исключением неудач­

ных проб (Pi).

Показателем эффективности такого самообучения может служить повышение вероятности случайного опре­ деления удачного направления. Определим эту харак­ теристику.

Пусть имеется всего N направлений и из них N 0 удачных. Вероятность отыскания удачного направления за i шагов поиска без самообучения равна

=

(17.4.1)

При введении самообучения указанным методом исклю­ чения неудачных направлений вероятность удачного шага равна

п

(I - - F = 7 + T )-

(17А2>

На рис. 17.4.1 показано поведение этих вероятностей для

N

разных значений N при NQ = -щ-. Хорошо видно, что при

больших N эффект самообучения мал, он сказывается лишь для малых значений N , когда исключение одного направления значительно увеличивает вероятность удачи.

2.

П о к о о р д и н а т н о е э к с п о н е н ц и а л ь ­

н о е

с а м о о б у ч е н и е . Р. Буш и Ф. Мостеллер в

своих работах 117.6] рассмотрели и проанализировали ал­

горитмы обучения для некоторых неэкстремальных много­ параметрических систем. Эти алгоритмы моделировали биологическое поведение в процессе обучения. Однако предложенные ими алгоритмы могут быть применены для целей самообучения экстремальных систем.

Для применения этого алгоритма к оптимизации много­ параметрических систем следует определить движение сис­

темы только вдоль направлений пространства

парамет­

ров, определяемых следующей системой уравнений:

|*i| = |ж8| = ... = |а?я |.

(17.4.3)

Это означает, что параметры оптимизируемого объекта изменяются на строго определенную величину, одинако­ вую для всех параметров. Разницу составляет лишь нап­ равление, в котором изменяются параметры объекта.

Число таких направлений равно 2П, т. е. для доста­ точно сложных систем, для которых п велико, эти направ­ ления распределены довольно плотно по поверхности п- мерной гиперсферы. Равновероятный выбор одного из этих направлений является дискретным аналогом непрерыв­ ного выбора вектора S. При больших п, как можно пока­ зать, такой дискретный выбор направления эквивалентен выбору вектора S.

Пусть состояние обученности системы на N-м шаге

поиска описывается re-мерным вектором:

 

 

 

Р„ = {

Р

?

\

Р

? \

(17.4.4)

где

— вероятность

выбора

положительного направ­

ления шага по i-й координате на N -м шаге обучения.

Очевидно, что в первоначальный момент, когда нет ни­

какой

информации об

объекте,

все

компоненты

вектора

обученности должны быть равны 1/2, т. е. система делает шаг равновероятно по всем допустимым направлениям (17.4.3).

Алгоритм покоординатного самообучения Буша и Мостеллера определяет выражение для г-й компоненты этого вектора в виде следующей рекуррентной зависи­ мости:

P\N+1) = A f W + (1 - А,,) Xi7

(17.4.5)

где Ai и Ai — параметры, зависящие от результата пре­ дыдущего шага. Прежде чем установить связь этих пара­ метров с опытом работы, проанализируем динамику обу­ чения по формуле (17.4.5)

при неизменных в процес­ се обучения значениях па­

раметров Ai и Я*.

 

 

на

На

рис. 17.4.2 показа­

зависимость (17.4.5) в

виде жирной

прямой, на­

клон которой равен

A t.

Точка

пересечения

этой

прямой

с

биссектрисой

p(.N+i) _

p{N) имеет коорди­

наты (Xi, Xi). Результат

последовательного

приме­

нения рассматриваемой ре­

куррентной формулы при­

водит к

этой точке, т. е.

процессе экспоненциального само­

lim P\N) =

Xi7

(17.4.6)

обучения.

N-+оо

 

 

 

 

независимо от исходного значения для Р^К На рис. 17.4.2 этот процесс показан стрелками. Точка (Xi7 Xt) является, таким образом, точкой «притяжения» для рассмотренного процесса обучения. «Скорость» продвижения системы к этой точке в процессе обучения пропорциональна парамет­ ру At и расстоянию до точки. Следовательно, скорость обучения вдоль i-й координаты зависит от параметра Ai и от близости к стационарной точке, т. е. от модуля раз­ ности Pi Xi. А это, как известно, приводит к экспонен­ циальному характеру изменения вероятности P t.

Теперь определим зависимость величины Xt от приоб­ ретенного опыта. Очевидно, что значение À* должно быть таким, чтобы вероятность шага в благоприятном направ­ лении увеличивалась, а вероятность шага в неблагоприят­

ном — уменьшалась. Следовательно, нужно установить два значения параметра А,{, соответствующих двум точкам притяжения, и предлагать системе двигаться к одной или к другой в зависимости от того, нужно уменьшать или увеличивать вероятность шага в положительном направ­ лении.

Так как координаты в процессе поиска считаются равно­ правными, то естественно положить

= А;

Яи =

Xiî

Xj2 =

Я2 (i = 1, .., п). (17.4.7)

Значения же

и

определим следующим образом:

[%1 — с

при sign [AxiiV)• AQN 1 >

О,

 

 

 

 

(17.4.8)

Здесь

= 1 с при sign [Ax|W)- A(?lV] <

0.

 

 

 

 

 

 

A4NW

i W)- 4 iV-1)f

 

 

à Q N = Q (X N) -

Q (.X *_*),

(17.4.9)

 

 

0 < c <

4 - .

 

Подобное выражение для %реализует обучение систе­ мы, т. е. перестройку вероятностных характеристик поис­ ка в целесообразном направлении.

Как видно, величина Pt в процессе обучения колеблет­ ся между двумя значениями:

с < Pi < 1 — с,

(17.4.10)

что препятствует детерминированию системы, так как в лю­ бом случае значение P t стремится либо к с, либо к 1 — с.

Существенной особенностью описанного алгоритма яв­ ляется экспоненциальный характер его действия, что удов­ летворительно описывает биологические системы обу­ чения, для которых этот алгоритм и был предложен.

Экспоненциальность поведения P\N) хорошо видна из фор­ мулы (17.4.5). Однако для технических приложений по­ добный экспоненциальный характер самообучения не всегда удовлетворяет поставленным целям. Поэтому целесообразно обратиться к алгоритму покоординатного самообучения с произвольным законом изменения веро­ ятностей.

3.

А л г о р и т м п о к о о р д и н а т н о г о

с а ­

м о о б у ч е н и я

с п р о и з в о л ь н ы м

з а к о ­

н о м

и з м е н е н и я

в е р о я т н о с т и .

Пусть

вероятность выбора положительного шага вдоль

i-й пере­

менной является определенной функцией некоторого пара­

метра w\N\ который назовем параметром памяти или просто «памятью» по i-й координате на iV-м шаге поиска:

P[N) = P(wfN)).

(17.4.11)

Вид функции Р (•) может быть различным, но всегда дол­ жен быть неубывающим. Примеры зависимостей:

а) экспоненциальная

 

Р(го) =

 

при

 

 

 

при

 

 

 

 

 

 

 

б) линейная

 

0

 

при w <^ — 1 ,

 

P(w)

 

J

 

при — 1

w< 4 ,

 

 

-^-(1 го)

 

гауссова

 

1

 

при 1 <1 щ

 

в)

 

 

 

 

 

 

 

Р И = 4 - ( Ц - ф И );

 

Г) синусная

 

0

 

при w <

1 ,

 

 

 

 

 

 

1

1

 

 

^ и ;< ^ 1 ,

 

Р (го) =

-я--)------arcsinwnpn — 1

 

Z

ЗТ

 

 

 

 

 

 

1

 

при

1 ;

д)

ступенчатая

О при го 1 ,

 

 

 

 

 

 

P(w) =

1/2

при — 1<1и><4,

 

 

 

О

при

1 .

 

Обратим внимание, что п!ри w = 0 поиск имеет рав­ новероятный характер, т. е. Р (0) = у .

Все эти выражения легко реализуются в специальных устройствах, называемых управляемыми генераторами

случайности. Выбор того или иного выражения произво­ дится в зависимости от предъявляемых требований, а также схемных и физических принципов, положенных в основу конструкции этих генераторов случайности.

Алгоритм обучения реализуется путем соответствую­ щего изменения параметра памяти, например при помощи следующей рекуррентной зависимости:

д4*+1) = z4N) -

ô sign (A*iW).ДQn),

(17.4.12)

где ô — «шаг памяти»,

(ô > 0) — величина,

определяю­

щая скорость обучения. Чем больше ô, тем быстрее обу­ чается система поиска. При Ô =0, как видно, обучения нет. Смысл выражения (17.4.12) заключается в следующем. Если произведенный шаг привел к увеличению функции качества, т. е. был сделан в неблагоприятном направле­ нии, То вероятность выбора этого направления при после­ дующем шаге уменьшается. И наоборот, в случае умень­ шения функции качества вероятность выбора этого нап­ равления увеличивается.

Таким образом, описываемый алгоритм самообучения работает, по сути дела, в двух довольно противоречи­ вых режимах: режиме поощрения (при AQ <. 0) и режиме наказания (при AQ > 0 ) . В первом случае реализуется положительная обратная связь, когда сделанный шаг при­ водит к увеличению вероятности такого же шага, а другие возможные шаги при этом исключаются по вероятности. Во втором случае обратная связь по самообучению имеет отрицательный характер, когда сделанный шаг приводит к уменьшению вероятности этого шага за счет увеличения вероятности противоположного шага, т. е. шага в противо­ положном направлении. Если имеется надежда, что шаг, противоположный неудачному, будет удачен (а это,впрочем, далеко не всегда так, например, на дне «оврага» функ­ ции качества), то отрицательная обратная связь по само­ обучению создает перспективу для благоприятного шага.

Для довольно широкого класса достаточно гладких функций качества это условие удовлетворяется. Это озна­ чает, что неблагоприятные шаги при инвертировании ока­ зываются благоприятными, т. е. уменьшающими функцию качества.

Алгоритм работает следующим образом. Вероятности Pi (i = 1, ., п) системы оптимизации все время лерестра-

иваются так, чтобы создать наилучыше условия для умень­ шения функции качества, т. е. увеличить вероятность благоприятных шагов поиска. На рис. 17.4.3 показано двумерное пространство параметров с нанесенной на нем траекторией поиска с самообучением (алгоритм поиска не работал, т. е. никаких обратных шагов система не де­ лала и оптимизация происходила только за счет само­ обучения). Хорошо видно, что первый этап поиска харак­ теризуется накоплением опыта, т. е. определением необ­ ходимых значений параметров На рис. 17.4.3 этот этап

Рис. 17.4.3. Пример поиска с самообучением.

обозначен буквой А и очерчен пунктиром; в течение этого периода отыскиваются условия наиболее благоприятной оптимизации.

Наконец такие условия находятся, и система детер­ минирует поиск в полученном благоприятном направле­ нии, т. е. P t = 0, либо 1 (г = 1, . .,1).

Начиная с этого момента (который на рис. 17.4.3 обозначен точкой В), система движется вполне регуляр­ но, и ее движение напоминает спуск, как при работе по алгоритму Гаусса — Зайделя, наискорейшего спуска и и др. (этап С на рисунке). Однако при этом значения пара­

метров памяти Wi продолжают изменяться,

все дальше

и дальше уходя от равновероятной зоны (wi

= 0). Систе­

ма, таким образом, как бы «передетерминируется». Это приводит к тому, что, достигнув экстремума функции ка­ чества вдоль выбранного направления, система продол­

жает двигаться дальше, несмотря на то, что функция качества увеличивается. В это время происходит обратная перестройка параметров (этап D на рис. 17.4.3), которая обходится в несколько «бестолковых» шагов, снижающих общее быстродействие системы оптимизации. Число этих шагов примерно совпадает с числом шагов, проходимых системой после детерминирования (момент, обозначен­ ный буквой Е на рисунке).

Чтобы избежать подобного передетерминирования по­ иска, часто оказывается целесообразным накладывать ог­ раничения на зону изменения параметра памяти w. Это

можно сделать, например,

следующим образом:

 

т. е.

q <1

<; с2,

(17.4.13)

при wi

 

 

Iq

q,

 

Wi

при

 

с2,

 

с2

при

wt >

с2.

 

В этом случае параметр памяти w уже не выходит за пределы отрезка (q, с2) и, следовательно, в процессе работы алгоритма не понадобится перестройки.

В рассмотренном алгоритме обучения параметр памяти по любой коордипате в результате одного шага поиска изменяется на постоянную величину, равную шагу по памяти Ô, если, разумеется, не нарушаются ограничения (17.4.13). Однако необходимость обучения по определен­ ной координате зависит, прежде всего, от полученного ре­ зультата AQ и степени участия данной координаты в этом результате. Поэтому иногда оказывается более целе­ сообразным применять пропорциональный алгоритм обучения.

Этот алгоритм можно представить в виде следующей рекуррентной формулы:

w\N+1) = w\N) - ÔA4 W)AQn .

(17.4.14)

Пропорциональный алгоритм уже реагирует как на результат шага поиска, так и на степень участия опре­ деленного параметра в этом результате. Так, при AQ = О в соответствии с алгоритмом обучения нет, так как учить­ ся было «нечему». А при A:q = 0 параметр памяти вдоль

i-й координаты также не изменяется, так как учиться «не от чего».

Введение такой пропорциональности делает этот ал­ горитм весьма чувствительным к определению наилучшего направления поиска. Действительно, направления, вдоль которых функция памяти изменяется незначительно, воз­ действуют на параметры памяти также незначительно. Если же система случайно наткнется на более эффектив-. ное направление, то параметры памяти перестроятся в этом направлении быстрее.

Рассмотренный алгоритм самообучения запоминает и хранит в интегральной форме весь предыдущий опыт ра­ боты поиска. Очевидно, что в этом нет необходимости. Бо­ лее того, изменение условий работы системы требует дос­ таточно быстрого забывания сведений, полученных ранее, так как они были получены в иной обстановке и «устаре­ ли». Именно поэтому в определенных условиях целесооб­ разно работать по алгоритму обучения с забыванием.

Для этого алгоритма существенным является числен­ ное значение вероятности шага в положительном направ­ лении при w = 0. Оно должно быть равно 1/2, т. е. опре­ делять равновероятный поиск. Алгоритм с забыванием ре­ ализуется в этом случае следующей формулой:

и4*+1) = kw\N) - àAx\N)AQNt

 

(17.4.15)

где к — параметр запоминания (0 ^

к

1 ).

При к = 0

Если к = 1, то забывания нет

вообще.

система помнит только результат последнего шага. Нетрудно показать, что при отсутствии опыта (AQ — 0)

система поиска с забыванием вырождается в равновероят­

ный поиск, т. е. lim ^iW) = 0.

N-*оо

Рассмотренные выше алгоритмы самообучения не спо­ собны все время искать наилучшее направление изменения функции качества: однажды, обнаружив хорошее направ­ ление, они будут стараться фиксировать движение систе­ мы в этом направлении, не заботясь о возможности пере­ стройки на другое, более удачное направление изменения регулируемых параметров оптимизируемой системы. При­ чиной этому является в основном положительная обрат­ ная связь, которая характерна для обучающихся систем и проявляется в том, что вероятность благоприятного

шага всегда увеличивается независимо от того, найдется или не найдется более благоприятное направление.

Этот недостаток можно преодолеть двояким способом. С одной стороны, можно пользоваться только отрицатель­ ным опытом работы, т. е. изменять память w лишь при увеличении функции качества, когда AQ 0 (обучение только на ошибках). Такая мера приведет к тому, что сис­

тема не будет иметь положительной обратной связи.

 

Можно

сделать

различной интенсивность обучения,

т. е.

ô =

(1 — sign

AQn) Ôx/2 + (1 +

sign

AÇN)ô2/2,

где

и

ô2 — интенсивности обучения

для

неудачных

и

удачных шагов соответственно.

Но возможен и другой путь: построить алгоритм обу­ чения так, чтобы система вообще не имела положительного опыта работы, а любой результат шага поиска восприни­ мался бы как отрицательный, но в разной мере. Это легко

сделать введением одного

параметра.

 

Рекуррентная формула этого алгоритма записывается

в виде

 

 

 

w[N+1) =

-

ô (Д<? + d) A4N\

(17.4.16)

где d — некоторая положительная постоянная — «пара­ метр скептицизма», который выбирается таким образом, чтобы всегда обеспечивалось неравенство AQ d ]> 0.

Как нетрудно заметить, такой алгоритм «наказывает» уменьшением вероятности любой вариант изменения пара­ метров, но в разной степени. Так, благоприятные вариан­ ты «наказываются» в меньшей мере, чем неблагоприятные; за счет этого и происходит обучение. Этот алгоритм уже не фиксирует ни одного направления, но в среднем обеспе­ чивает преимущества только наилучшему в данной обста­ новке направлению. Однако такое свойство этот алгоритм приобрел за счет намеренного отказа от усиления вероят­ ности выбора благоприятных направлений, т. е. ценой излишней «подозрительности», что безусловно повысило потери на поиск при работе по этому алгоритму и пони­ зило его эффективность в более простой ситуации.

Рассмотренные выше алгоритмы самообучения имели дискретный характер в том смысле, что ими определялась вероятность шага в положительном направлении вдоль оптимизируемого параметра. Абсолютная величина шага поиска вдоль каждой координаты при этом оставалась