книги / Системы экстремального управления
..pdfудачных направлений, двигаясь вдоль которых система уменьшает показатель качества.
Характерной чертой и недостатком этого алгоритма является необходимость довольно громоздкой памяти для хранения неудачных вариантов случайных смещений, которые исключаются из дальнейшего поиска.
Рис. 17.4.1. Вероятность выбора удачного направления для слу чая без запоминания (Р{) и с запоминанием и исключением неудач
ных проб (Pi).
Показателем эффективности такого самообучения может служить повышение вероятности случайного опре деления удачного направления. Определим эту харак теристику.
Пусть имеется всего N направлений и из них N 0 удачных. Вероятность отыскания удачного направления за i шагов поиска без самообучения равна
= |
(17.4.1) |
При введении самообучения указанным методом исклю чения неудачных направлений вероятность удачного шага равна
п |
(I - - F = 7 + T )- |
(17А2> |
На рис. 17.4.1 показано поведение этих вероятностей для
N
разных значений N при NQ = -щ-. Хорошо видно, что при
больших N эффект самообучения мал, он сказывается лишь для малых значений N , когда исключение одного направления значительно увеличивает вероятность удачи.
2. |
П о к о о р д и н а т н о е э к с п о н е н ц и а л ь |
н о е |
с а м о о б у ч е н и е . Р. Буш и Ф. Мостеллер в |
своих работах 117.6] рассмотрели и проанализировали ал |
горитмы обучения для некоторых неэкстремальных много параметрических систем. Эти алгоритмы моделировали биологическое поведение в процессе обучения. Однако предложенные ими алгоритмы могут быть применены для целей самообучения экстремальных систем.
Для применения этого алгоритма к оптимизации много параметрических систем следует определить движение сис
темы только вдоль направлений пространства |
парамет |
ров, определяемых следующей системой уравнений: |
|
|*i| = |ж8| = ... = |а?я |. |
(17.4.3) |
Это означает, что параметры оптимизируемого объекта изменяются на строго определенную величину, одинако вую для всех параметров. Разницу составляет лишь нап равление, в котором изменяются параметры объекта.
Число таких направлений равно 2П, т. е. для доста точно сложных систем, для которых п велико, эти направ ления распределены довольно плотно по поверхности п- мерной гиперсферы. Равновероятный выбор одного из этих направлений является дискретным аналогом непрерыв ного выбора вектора S. При больших п, как можно пока зать, такой дискретный выбор направления эквивалентен выбору вектора S.
Пусть состояние обученности системы на N-м шаге
поиска описывается re-мерным вектором: |
|
|
|||||
|
Р„ = { |
Р |
? |
\ |
Р |
? \ |
(17.4.4) |
где |
— вероятность |
выбора |
положительного направ |
||||
ления шага по i-й координате на N -м шаге обучения. |
|||||||
Очевидно, что в первоначальный момент, когда нет ни |
|||||||
какой |
информации об |
объекте, |
все |
компоненты |
вектора |
обученности должны быть равны 1/2, т. е. система делает шаг равновероятно по всем допустимым направлениям (17.4.3).
Алгоритм покоординатного самообучения Буша и Мостеллера определяет выражение для г-й компоненты этого вектора в виде следующей рекуррентной зависи мости:
P\N+1) = A f W + (1 - А,,) Xi7 |
(17.4.5) |
где Ai и Ai — параметры, зависящие от результата пре дыдущего шага. Прежде чем установить связь этих пара метров с опытом работы, проанализируем динамику обу чения по формуле (17.4.5)
при неизменных в процес се обучения значениях па
раметров Ai и Я*. |
|
|
|||
на |
На |
рис. 17.4.2 показа |
|||
зависимость (17.4.5) в |
|||||
виде жирной |
прямой, на |
||||
клон которой равен |
A t. |
||||
Точка |
пересечения |
этой |
|||
прямой |
с |
биссектрисой |
|||
p(.N+i) _ |
p{N) имеет коорди |
||||
наты (Xi, Xi). Результат |
|||||
последовательного |
приме |
||||
нения рассматриваемой ре |
|||||
куррентной формулы при |
|||||
водит к |
этой точке, т. е. |
||||
процессе экспоненциального само |
lim P\N) = |
Xi7 |
(17.4.6) |
||
обучения. |
N-+оо |
|
|
|
|
независимо от исходного значения для Р^К На рис. 17.4.2 этот процесс показан стрелками. Точка (Xi7 Xt) является, таким образом, точкой «притяжения» для рассмотренного процесса обучения. «Скорость» продвижения системы к этой точке в процессе обучения пропорциональна парамет ру At и расстоянию до точки. Следовательно, скорость обучения вдоль i-й координаты зависит от параметра Ai и от близости к стационарной точке, т. е. от модуля раз ности Pi — Xi. А это, как известно, приводит к экспонен циальному характеру изменения вероятности P t.
Теперь определим зависимость величины Xt от приоб ретенного опыта. Очевидно, что значение À* должно быть таким, чтобы вероятность шага в благоприятном направ лении увеличивалась, а вероятность шага в неблагоприят
ном — уменьшалась. Следовательно, нужно установить два значения параметра А,{, соответствующих двум точкам притяжения, и предлагать системе двигаться к одной или к другой в зависимости от того, нужно уменьшать или увеличивать вероятность шага в положительном направ лении.
Так как координаты в процессе поиска считаются равно правными, то естественно положить
= А; |
Яи = |
Xiî |
Xj2 = |
Я2 (i = 1, .., п). (17.4.7) |
|
Значения же |
и |
определим следующим образом: |
|||
[%1 — с |
при sign [AxiiV)• AQN 1 > |
О, |
|||
|
|
|
|
,т |
(17.4.8) |
Здесь |
= 1 — с при sign [Ax|W)- A(?lV] < |
0. |
|||
|
|
|
|
|
|
|
A4NW |
i W)- 4 iV-1)f |
|
||
|
à Q N = Q (X N) - |
Q (.X *_*), |
(17.4.9) |
||
|
|
0 < c < |
4 - . |
|
Подобное выражение для %реализует обучение систе мы, т. е. перестройку вероятностных характеристик поис ка в целесообразном направлении.
Как видно, величина Pt в процессе обучения колеблет ся между двумя значениями:
с < Pi < 1 — с, |
(17.4.10) |
что препятствует детерминированию системы, так как в лю бом случае значение P t стремится либо к с, либо к 1 — с.
Существенной особенностью описанного алгоритма яв ляется экспоненциальный характер его действия, что удов летворительно описывает биологические системы обу чения, для которых этот алгоритм и был предложен.
Экспоненциальность поведения P\N) хорошо видна из фор мулы (17.4.5). Однако для технических приложений по добный экспоненциальный характер самообучения не всегда удовлетворяет поставленным целям. Поэтому целесообразно обратиться к алгоритму покоординатного самообучения с произвольным законом изменения веро ятностей.
3. |
А л г о р и т м п о к о о р д и н а т н о г о |
с а |
|||
м о о б у ч е н и я |
с п р о и з в о л ь н ы м |
з а к о |
|||
н о м |
и з м е н е н и я |
в е р о я т н о с т и . |
Пусть |
||
вероятность выбора положительного шага вдоль |
i-й пере |
менной является определенной функцией некоторого пара
метра w\N\ который назовем параметром памяти или просто «памятью» по i-й координате на iV-м шаге поиска:
P[N) = P(wfN)). |
(17.4.11) |
Вид функции Р (•) может быть различным, но всегда дол жен быть неубывающим. Примеры зависимостей:
а) экспоненциальная
|
Р(го) = |
|
при |
|
||
|
|
при |
|
|||
|
|
|
|
|
|
|
б) линейная |
|
0 |
|
при w <^ — 1 , |
||
|
P(w) |
|
J |
|
при — 1 |
w< 4 , |
|
|
-^-(1 — го) |
||||
|
гауссова |
|
1 |
|
при 1 <1 щ |
|
в) |
|
|
|
|
|
|
|
|
Р И = 4 - ( Ц - ф И ); |
|
|||
Г) синусная |
|
0 |
|
при w < |
— 1 , |
|
|
|
|
|
|||
|
|
1 |
1 |
|
|
^ и ;< ^ 1 , |
|
Р (го) = |
-я--)------arcsinwnpn — 1 |
||||
|
Z |
ЗТ |
|
|
|
|
|
|
|
1 |
|
при |
1 ; |
д) |
ступенчатая |
О при го — 1 , |
|
|||
|
|
|
|
|||
|
P(w) = |
1/2 |
при — 1<1и><4, |
|||
|
|
|
О |
при |
1 . |
|
Обратим внимание, что п!ри w = 0 поиск имеет рав новероятный характер, т. е. Р (0) = у .
Все эти выражения легко реализуются в специальных устройствах, называемых управляемыми генераторами
случайности. Выбор того или иного выражения произво дится в зависимости от предъявляемых требований, а также схемных и физических принципов, положенных в основу конструкции этих генераторов случайности.
Алгоритм обучения реализуется путем соответствую щего изменения параметра памяти, например при помощи следующей рекуррентной зависимости:
д4*+1) = z4N) - |
ô sign (A*iW).ДQn), |
(17.4.12) |
где ô — «шаг памяти», |
(ô > 0) — величина, |
определяю |
щая скорость обучения. Чем больше ô, тем быстрее обу чается система поиска. При Ô =0, как видно, обучения нет. Смысл выражения (17.4.12) заключается в следующем. Если произведенный шаг привел к увеличению функции качества, т. е. был сделан в неблагоприятном направле нии, То вероятность выбора этого направления при после дующем шаге уменьшается. И наоборот, в случае умень шения функции качества вероятность выбора этого нап равления увеличивается.
Таким образом, описываемый алгоритм самообучения работает, по сути дела, в двух довольно противоречи вых режимах: режиме поощрения (при AQ <. 0) и режиме наказания (при AQ > 0 ) . В первом случае реализуется положительная обратная связь, когда сделанный шаг при водит к увеличению вероятности такого же шага, а другие возможные шаги при этом исключаются по вероятности. Во втором случае обратная связь по самообучению имеет отрицательный характер, когда сделанный шаг приводит к уменьшению вероятности этого шага за счет увеличения вероятности противоположного шага, т. е. шага в противо положном направлении. Если имеется надежда, что шаг, противоположный неудачному, будет удачен (а это,впрочем, далеко не всегда так, например, на дне «оврага» функ ции качества), то отрицательная обратная связь по само обучению создает перспективу для благоприятного шага.
Для довольно широкого класса достаточно гладких функций качества это условие удовлетворяется. Это озна чает, что неблагоприятные шаги при инвертировании ока зываются благоприятными, т. е. уменьшающими функцию качества.
Алгоритм работает следующим образом. Вероятности Pi (i = 1, ., п) системы оптимизации все время лерестра-
иваются так, чтобы создать наилучыше условия для умень шения функции качества, т. е. увеличить вероятность благоприятных шагов поиска. На рис. 17.4.3 показано двумерное пространство параметров с нанесенной на нем траекторией поиска с самообучением (алгоритм поиска не работал, т. е. никаких обратных шагов система не де лала и оптимизация происходила только за счет само обучения). Хорошо видно, что первый этап поиска харак теризуется накоплением опыта, т. е. определением необ ходимых значений параметров На рис. 17.4.3 этот этап
Рис. 17.4.3. Пример поиска с самообучением.
обозначен буквой А и очерчен пунктиром; в течение этого периода отыскиваются условия наиболее благоприятной оптимизации.
Наконец такие условия находятся, и система детер минирует поиск в полученном благоприятном направле нии, т. е. P t = 0, либо 1 (г = 1, . .,1).
Начиная с этого момента (который на рис. 17.4.3 обозначен точкой В), система движется вполне регуляр но, и ее движение напоминает спуск, как при работе по алгоритму Гаусса — Зайделя, наискорейшего спуска и и др. (этап С на рисунке). Однако при этом значения пара
метров памяти Wi продолжают изменяться, |
все дальше |
и дальше уходя от равновероятной зоны (wi |
= 0). Систе |
ма, таким образом, как бы «передетерминируется». Это приводит к тому, что, достигнув экстремума функции ка чества вдоль выбранного направления, система продол
жает двигаться дальше, несмотря на то, что функция качества увеличивается. В это время происходит обратная перестройка параметров (этап D на рис. 17.4.3), которая обходится в несколько «бестолковых» шагов, снижающих общее быстродействие системы оптимизации. Число этих шагов примерно совпадает с числом шагов, проходимых системой после детерминирования (момент, обозначен ный буквой Е на рисунке).
Чтобы избежать подобного передетерминирования по иска, часто оказывается целесообразным накладывать ог раничения на зону изменения параметра памяти w. Это
можно сделать, например, |
следующим образом: |
|
||
т. е. |
q <1 |
<; с2, |
(17.4.13) |
|
при wi |
|
|
||
Iq |
q, |
|
||
Wi |
при |
|
с2, |
|
с2 |
при |
wt > |
с2. |
|
В этом случае параметр памяти w уже не выходит за пределы отрезка (q, с2) и, следовательно, в процессе работы алгоритма не понадобится перестройки.
В рассмотренном алгоритме обучения параметр памяти по любой коордипате в результате одного шага поиска изменяется на постоянную величину, равную шагу по памяти Ô, если, разумеется, не нарушаются ограничения (17.4.13). Однако необходимость обучения по определен ной координате зависит, прежде всего, от полученного ре зультата AQ и степени участия данной координаты в этом результате. Поэтому иногда оказывается более целе сообразным применять пропорциональный алгоритм обучения.
Этот алгоритм можно представить в виде следующей рекуррентной формулы:
w\N+1) = w\N) - ÔA4 W)AQn . |
(17.4.14) |
Пропорциональный алгоритм уже реагирует как на результат шага поиска, так и на степень участия опре деленного параметра в этом результате. Так, при AQ = О в соответствии с алгоритмом обучения нет, так как учить ся было «нечему». А при A:q = 0 параметр памяти вдоль
i-й координаты также не изменяется, так как учиться «не от чего».
Введение такой пропорциональности делает этот ал горитм весьма чувствительным к определению наилучшего направления поиска. Действительно, направления, вдоль которых функция памяти изменяется незначительно, воз действуют на параметры памяти также незначительно. Если же система случайно наткнется на более эффектив-. ное направление, то параметры памяти перестроятся в этом направлении быстрее.
Рассмотренный алгоритм самообучения запоминает и хранит в интегральной форме весь предыдущий опыт ра боты поиска. Очевидно, что в этом нет необходимости. Бо лее того, изменение условий работы системы требует дос таточно быстрого забывания сведений, полученных ранее, так как они были получены в иной обстановке и «устаре ли». Именно поэтому в определенных условиях целесооб разно работать по алгоритму обучения с забыванием.
Для этого алгоритма существенным является числен ное значение вероятности шага в положительном направ лении при w = 0. Оно должно быть равно 1/2, т. е. опре делять равновероятный поиск. Алгоритм с забыванием ре ализуется в этом случае следующей формулой:
и4*+1) = kw\N) - àAx\N)AQNt |
|
(17.4.15) |
|
где к — параметр запоминания (0 ^ |
к |
1 ). |
При к = 0 |
Если к = 1, то забывания нет |
вообще. |
система помнит только результат последнего шага. Нетрудно показать, что при отсутствии опыта (AQ — 0)
система поиска с забыванием вырождается в равновероят
ный поиск, т. е. lim ^iW) = 0.
N-*оо
Рассмотренные выше алгоритмы самообучения не спо собны все время искать наилучшее направление изменения функции качества: однажды, обнаружив хорошее направ ление, они будут стараться фиксировать движение систе мы в этом направлении, не заботясь о возможности пере стройки на другое, более удачное направление изменения регулируемых параметров оптимизируемой системы. При чиной этому является в основном положительная обрат ная связь, которая характерна для обучающихся систем и проявляется в том, что вероятность благоприятного
шага всегда увеличивается независимо от того, найдется или не найдется более благоприятное направление.
Этот недостаток можно преодолеть двояким способом. С одной стороны, можно пользоваться только отрицатель ным опытом работы, т. е. изменять память w лишь при увеличении функции качества, когда AQ 0 (обучение только на ошибках). Такая мера приведет к тому, что сис
тема не будет иметь положительной обратной связи. |
|
|||||
Можно |
сделать |
различной интенсивность обучения, |
||||
т. е. |
ô = |
(1 — sign |
AQn) Ôx/2 + (1 + |
sign |
AÇN)ô2/2, |
где |
и |
ô2 — интенсивности обучения |
для |
неудачных |
и |
удачных шагов соответственно.
Но возможен и другой путь: построить алгоритм обу чения так, чтобы система вообще не имела положительного опыта работы, а любой результат шага поиска восприни мался бы как отрицательный, но в разной мере. Это легко
сделать введением одного |
параметра. |
|
|
Рекуррентная формула этого алгоритма записывается |
|||
в виде |
|
|
|
w[N+1) = |
- |
ô (Д<? + d) A4N\ |
(17.4.16) |
где d — некоторая положительная постоянная — «пара метр скептицизма», который выбирается таким образом, чтобы всегда обеспечивалось неравенство AQ d ]> 0.
Как нетрудно заметить, такой алгоритм «наказывает» уменьшением вероятности любой вариант изменения пара метров, но в разной степени. Так, благоприятные вариан ты «наказываются» в меньшей мере, чем неблагоприятные; за счет этого и происходит обучение. Этот алгоритм уже не фиксирует ни одного направления, но в среднем обеспе чивает преимущества только наилучшему в данной обста новке направлению. Однако такое свойство этот алгоритм приобрел за счет намеренного отказа от усиления вероят ности выбора благоприятных направлений, т. е. ценой излишней «подозрительности», что безусловно повысило потери на поиск при работе по этому алгоритму и пони зило его эффективность в более простой ситуации.
Рассмотренные выше алгоритмы самообучения имели дискретный характер в том смысле, что ими определялась вероятность шага в положительном направлении вдоль оптимизируемого параметра. Абсолютная величина шага поиска вдоль каждой координаты при этом оставалась