книги из ГПНТБ / Растригин Л.А. Автоматная теория случайного поиска
.pdfВВЕДЕНИЕ
31
Некоторые основные сведения о цепях Маркова. Из изложенного видно, что функционирование автоматов в случайной среде описывается цепью Маркова. Поэтому исследование автомата в случайной среде сводится к ис следованию соответствующей цепи Маркова. Приводим основные положения о цепях Маркова [29, 30].
Под |
цепью |
Маркова |
будем понимать некоторую сис |
||||
тему U, которая в каждый момент времени может нахо |
|||||||
диться в одном из m |
состояний ии |
и2,...,ит |
и |
меняет |
|||
свое состояние только |
в дискретные моменты |
времени |
|||||
t\, h , - - - , tN- |
Вероятностный переход |
системы |
U из од |
||||
ного состояния в другое задается некоторой |
переходной |
||||||
вероятностью |
pij(N). Это вероятность перехода |
из t-ro |
|||||
состояния в /-е в момент времени t = N. В общем |
случае, |
||||||
когда |
вероятности переходов Pij(N) |
зависят |
от |
времени |
|||
t = N, |
цепи называются |
неоднородными цепями Маркова. |
|||||
Если pij |
не зависят от времени tN, т. е. |
|
|
|
|||
P i i |
W |
= P |
|
|
|
|
(0.4.30) |
то цепь Маркова называется однородной. Такая цепь за дается матрицей переходных вероятностей
Рп |
|
Plm |
я — |
|
(0.4.31) |
Рт\ |
|
|
где рц (i, |
/ = 1 |
т) — вероятность перехода из t-ro |
состояния |
в /-е. При этом должно выполняться условие |
|
стохастичности |
матрицы я, т. е. |
|
2 |
1 |
(0.4.32) |
3 = 1
( i = l , . . . , т).
Для полного задания цепи Маркова необходимо иметь также вектор начальных вероятностей
Р<°>=(р, <»>,..., рт <°>), |
(0.4.33) |
||
где Pi(0> ( i = l , . . . , m ) |
— вероятность |
того, что |
система |
U в момент времени |
t = 0 находится в состоянии |
щ. |
ВВЕДЕНИЕ
|
32 |
|
|
|
|
|
|
|
|
|
|
Вероятности |
переходов |
системы |
из одного |
состояния |
|||||||
в другое за N шагов определяются |
формулой |
|
|
||||||||
р<л-)=(я ')(л-)р«». |
|
|
|
|
|
(0.4.34) |
|||||
Здесь (я') <*> |
|
JV-Я степень транспонированной мат- |
|||||||||
Р<0) |
|
рицы я'; |
|
|
|
|
|
|
|
||
|
вектор |
|
начальных |
вероятностей |
|||||||
|
|
|
|
(0.4.33); |
|
|
|
|
|
|
|
P W = ( / 7 1 W , . . . , ^ m W ) , |
|
|
|
|
|
|
(0.4.35) |
||||
где р :(-V) |
_ |
вероятность |
того, |
что система |
находится |
||||||
|
|
в г-м состоянии после iV шагов. |
|
|
|||||||
Элементы |
pa(N) |
матрицы |
я ( Л Г ) |
называются |
переход |
||||||
ными вероятностями за N шагов. Их можно определить |
|||||||||||
по формуле Перрона [37] |
|
|
|
|
|
|
|
||||
AN) = 2 |
|
|
|
1 |
т., |
—1 |
|
|
|
|
|
|
|
( m v - l ) ! |
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
( v = l , , . . , r ) . |
(0.4.36) |
||
Обозначим |
через |
>w характеристические числа |
матрицы |
||||||||
я, т. е. корни характеристического |
полинома матрицы я, |
||||||||||
который задается |
определителем |
|
|
|
|
|
|||||
|
Х-ри |
|
— Р\2 |
|
|
— Рт |
|
|
|
||
|
-Рп |
|
Х — р22 |
|
|
— |
Р2т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(0.4.37) |
|
— |
рт\ |
-Рт.2 |
|
|
|
|
|
|
|
|
В формуле |
(0.4.36) |
|
|
|
|
|
|
|
|||
nji(%) |
— |
алгебраическое |
дополнение |
элемента |
|||||||
|
|
|
определителя я ( ^ ) , стоящего |
на |
пересе |
||||||
mv |
|
чении его /-й строки и г-го столбца; |
|||||||||
— кратность |
|
v-ro |
|
характеристического |
|||||||
|
|
|
числа К; |
|
|
|
|
|
|
|
|
£ ) A m v - i [ o / 0 ] — производная |
по |
переменной |
К порядка |
||||||||
|
|
|
mv— 1; подстановка lk = Xv |
производится |
|||||||
|
|
|
после дифференцирования; |
|
|
|
ВВЕДЕНИЕ
зз
Особенно простой вид формула Перрона (0.4.36) при обретает в случае, когда все характеристические числа матрицы я (0.4.37) имеют кратность, равную единице, т. е. когда
mi = m 2 = . . . =mr= |
1. |
|
|
|
|
|
(0.4.39) |
|||||||
В этом случае г — п и формула |
Перрона |
имеет вид |
|
|||||||||||
|
|
|
m |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
,0.4.40) |
||
|
|
|
|
|
|
( г , / = 1 , 2 , . . . , п ) . |
|
|
|
|
||||
Если существует предел |
|
|
|
|
|
|
|
|
||||||
1\трцт=рц^, |
|
|
|
|
|
|
|
|
(0.4.41) |
|||||
то |
вероятности |
ptj ( o o ) |
|
называются |
предельными |
переход |
||||||||
ными вероятностями. Имея вектор начальных вероят |
||||||||||||||
ностей |
Р<°)= ( p i < 0 ) , . . . , p m ( 0 ) |
) , |
можно получить предель- |
|||||||||||
ные вероятности p i ( o o |
) |
( t = l , . . . , m ) |
различных |
состояний |
||||||||||
цепи Маркова по формулам |
|
|
|
|
|
|
|
|
||||||
Pi(°°)= 2 Р)тРц(*°г- |
|
|
|
|
|
|
|
(0.4.42) |
||||||
Если |
предельные |
|
вероятности |
цепи Маркова Рг( о о ) |
||||||||||
(1—1,..., |
т) не зависят от |
ее |
начальных |
вероятностей |
||||||||||
рг( 0 ) (i~ |
1, • • •, tn), то |
такая цепь Маркова |
называется |
|||||||||||
эргодической. Легко видеть, что цепь Маркова |
является |
|||||||||||||
эргодической, |
если |
вероятности |
рц{<х,) |
для |
любого ин |
|||||||||
декса / не зависят от индекса i, |
т. е. если все строки |
мат |
||||||||||||
рицы |
я ( о о ) = ||Pij( o o ) II |
предельных |
переходных |
вероятнос |
||||||||||
тей одинаковы. Для того чтобы |
цепь |
Маркова |
была |
|||||||||||
эргодической, необходимо и достаточно, чтобы одним из |
||||||||||||||
значений |
простого корня характеристического |
полинома |
||||||||||||
ее |
матрицы |
переходных |
вероятностей |
|
была |
единица, |
||||||||
а модули всех других корней |
этого |
полинома |
были |
|||||||||||
строго меньше единицы. |
|
|
|
|
|
|
|
|
Для случая эргодической конечной цепи Маркова пре дельные переходные вероятности определяются форму лами
3 — 2014
ВВЕДЕНИЕ
34 |
|
Pa <<*>) = Kji (Я) |
(0.4.43) |
( t ' , / = l , . . . , m ) .
Приведем еще другой признак, по которому определя ется эргодичность цепи Маркова. Этот признак следую
щий. Если начиная с некоторого N^1 |
все элементы |
N-й |
|
степени |
матрицы переходных вероятностей я положи |
||
тельны, то цепь Маркова является |
эргодической |
и ее |
|
предельные вероятности равны |
I |
|
|
р/°°>= |
lim Pij ( J V ) . |
(0.4.44) |
На практике использование формул Перрона или воз ведение переходных матриц в N-ю степень для цепей Маркова со многими состояниями является сложной задачей. Поэтому более целесообразно предельные ве роятности рг( о о ) находить как решение следующей сис темы алгебраических уравнений [38]:
Р = Ря, |
(0.4.45) |
||
где я |
— |
матрица (0.4.31); |
|
Р |
— |
вектор предельных вероятностей; Р=(ри |
рт). |
Формула (0.4.45) имеет место для эргодических цепей Маркова.
Г Л А В А I
ПОИСК БЕЗ САМООБУЧЕНИЯ
|
§ 1.1. С Л У Ч А Й Н Ы Й |
п о и с к |
|
К А К В Е Р О Я Т Н О С Т Н Ы Й А В Т О М А Т |
|
|
Рассмотрим задачу |
минимизации скаляр |
ной функции многих переменных |
|
|
Q=Q(xux2,... |
,хп) |
(1.1.1) |
методами случайного поиска как |
задачу функциониро |
вания вероятностного автомата в некоторой среде [39]. Автоматом в данном случае является алгоритм случай ного поиска, а среда, в которой действует этот автомат, представляет собой объект оптимизации. Среда в общем с.лучае предполагается стохастической, т. е. на одно и то же воздействие X она каждый раз отзывается некото рым случайным образом.
Одним из примеров такого взаимодействия автомата и
среды |
может |
служить |
г о м е о с т а т |
Э ш б и |
[40], пред |
||||||
ставляющий собой динамическую |
систему |
|
|
||||||||
d\J |
F(V,X, |
Е ) , |
|
|
|
|
|
(1.1.2) |
|||
dt |
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
Состояние |
системы (1.1.2) |
описывается |
вектором |
U = |
|||||||
= ( и ь |
U2,..., |
ит) |
и определяется как вектором |
управляе |
|||||||
мых |
параметров |
гомеостата Х = (хи |
х 2 , . . . , хп), так и |
||||||||
вектором неуправляемых |
параметров |
Е = (si, е2,..., |
е п ) , |
||||||||
характеризующим |
стохастические |
свойства среды. |
|
||||||||
Управление |
состоянием |
U гомеостата |
осуществляется |
||||||||
путем воздействия на его параметры хих2,... |
,хп, |
при |
|||||||||
чем целью |
управления |
является |
выведение |
гомеостата |
|||||||
в заданное |
состояние U*, т. е. минимизация |
показателя |
|||||||||
Q = | U - U * | . |
|
|
|
|
|
|
|
(1.1.3) |
|||
з* |
|
|
|
|
|
|
|
|
|
|
|
ГЛАВА I
36
Управление параметрами гомеостата производится методом проб и ошибок, который сводится, по сути дела, к случайному перебору элементов некоторого допусти мого множества управлений {X} с последующей провер кой их эффективности и реакции на каждое случайное управление. При этом четко разграничиваются два вида реакций. Отрицательная реакция R~ возникает в ответ на управление, которое не приводит к выполнению по ставленных целей. Эта реакция в соответствии с алго
ритмом гомеостата |
вызывает очередную |
случайную |
пробу управления. |
Положительная реакция |
R+ следует |
за достижением цели управления. Она сохраняет в объ екте то управление, которое привело к положительному результату. Алгоритм такого поведения гомеостата можно записать в виде
|
|
|
(1.1.4) |
где Xt- — управление |
на i-м шаге работы |
гомеостата; |
|
Е •— оператор |
случайного управления |
из |
класса |
допустимых управлений, т. е. оператор |
случай |
ного определения параметров гомеостата. Легко заметить, что такой алгоритм имеет целесообраз ное поведение, направленное на поиск и сохранение в системе состояния, которое обеспечивает положитель ную реакцию R+.
Итак, смысл случайного поиска по рассмотренному алгоритму (в данном случае —• слепого поиска) заклю чается в том, чтобы случайно перебирать значения пара метров системы до тех пор, пока не будут найдены такие их варианты, которые обеспечивают выполнение определенных заданных условий. В случае гомеостата — это наличие устойчивого состояния системы в заданных границах.
Такое поведение' гомеостата, по-видимому, наиболее целесообразно в том случае, когда управляющее устройство не имеет никаких сведений о структуре объ екта, т. е. последний представляет собой «черный ящик».
Естественно задать вопрос: всегда ли можно найти ус ловия, при которых объект удовлетворяет целям управ ления, т. е. можно ли случайным перебором допустимых
ПОИСК БЕЗ САМООБУЧЕНИЯ
|
37 |
|
|
|
|
|
|
управлении |
всегда |
наверняка |
достигать |
цели: |
|||
Разобьем множество возможных |
реализаций |
парамет |
|||||
ров |
объекта |
на два подмножества |
{ Х ( 0 |
) } и {X*}, в |
первое |
||
из |
которых |
объединены |
значения |
параметров, |
приводя- |
' щие к отрицательной реакции, во второе — вызывающие положительную реакцию. Тогда решение задачи управ
ления будет |
заключаться в случайном отыскании хотя |
|||
бы одного элемента второго множества |
за |
конечное |
||
число |
шагов |
поиска (под шагом поиска |
здесь |
понима |
ется |
однократный случайный выбор параметров объек |
|||
та) . |
Для этого необходимо, чтобы оба |
подмножества |
имели одинаковую мощность, т. е. чтобы при случайном переборе элементов множества всех возможных управ
лений |
(под управлением |
здесь и далее подразумевается |
||
определение параметров |
объекта хи х%,... |
,хп) |
предста |
|
вители |
подмножества |
{X*} встречались |
не |
слишком |
редко. Тогда вероятность выбора одного из элементов этого подмножества будет конечна. Следовательно, про цесс завершится в конечное время и система обяза тельно придет в состояние, удовлетворяющее целям управления.
Представим работу гомеостата как функционирование некоторого вероятностного автомата, действующего в случайной среде [41]. Тогда гомеостат следует «рас слоить» на среду и управляющее устройство УУ (см. рис. 1.1.1). Под средой подразумевается объект управле ния, реализующий зависимость (1.1.2), а управляющее устройство работает в соответствии с алгоритмом слу
чайного |
поиска |
(1.1.4). В этом |
случае отрицательная ре |
||||||||||
акция |
|
R~, |
эквивалентная |
Q>q |
= const, |
соответствует |
|||||||
штрафу, |
а |
положительная |
реакция |
R+(Q^.q) |
не- |
||||||||
штрафу [39]. |
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
У |
|
||||
Алгоритм |
случайно- |
|
. |
^ |
Среда |
|
|
||||||
|
|
|
|
||||||||||
го поиска (1.1.4), pea- |
|
(f~J\ |
(объект) |
|
|
||||||||
лизуемый |
управляю |
|
|
|
|
|
|
|
|||||
щим |
устройством, |
яв |
|
|
|
|
|
|
|
||||
ляется |
вероятностным |
|
|
|
|
|
|
|
|||||
автоматом, выход |
кото |
|
|
|
Поиск |
|
|
|
|||||
рого X изменяется в со |
|
|
|
|
|
|
|||||||
|
|
|
(УУ) |
|
|
|
|||||||
ответствии со входом Q. |
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|||||||
Стохастическая |
матри |
Рис. |
1.1.1. Блок-схема |
гомеостатиче- |
|||||||||
ца, |
характеризующая |
||||||||||||
ского |
управления. |
|
|
|
ГЛАВА I
38 |
; |
• |
функционирование этого автомата в случайной среде, имеет вид
|
1-р |
р |
(1.1.5) |
|
R+ |
О |
1 |
||
|
где р — вероятность отыскания решения, удовлетворяю щего поставленным целям управления ( Q ^ q ) . Эффек тивность функционирования гомеостата существенно зависит от величины р . Чем больше р , тем быстрее нахо дится решение и, следовательно, тем эффективнее работа гомеостата.
Стохастический характер данного автомата определя ется двумя факторами — оператором случайного шага Е и неопределенностью среды (стохастичность среды за висит от неизвестного вектора ситуации Е ) .
Применение описанной схемы слепого поиска к опти мизации многопараметрических систем не приводит к успеху. Это связано с тем, что для более или менее сложных объектов управления вероятность р отыскания цели «сразу» очень мала, и процесс слепого поиска не обходимого управления связан, как правило, с огром ными затратами времени.
Рассмотренный алгоритм случайного поиска (1.1.3) пригоден для отыскания решения в принципе, т. е. гаран тирует конечность времени отыскания условий, удовлет воряющих целям управления. Однако вопросы быстро действия не решаются этим алгоритмом, поскольку он предназначен для управления объектами самого широ кого класса с единственным ограничением, связанным с конечностью вероятности отыскания решения.
В задачах экстремального управления часто содер жатся дополнительные сведения об объекте, например о характере поведения показателя качества объекта при различных управлениях. Эта информация дает возмож ность применить новые алгоритмы управления, которые построены на базе случайного гомеостатического поиска, но решают вопросы быстродействия уже с учетом имею щихся дополнительных сведений об объекте.
Дополнительные сведения об объекте оптимизации не сет функция качества Q(X), которую нужно минимизи ровать. Значение Q(X) очень часто может служить ме рой близости к цели, т. е. мерой успеха поиска.
ПОИСК БЕЗ САМООБУЧЕНИЯ
39 |
|
|
|
|
|
|
Сформулируем |
один |
из а л г о р и т м о в |
|
с л у ч а й |
||
н о г о п о и с к а , |
который |
основывается на |
высказанных |
|||
соображениях: |
|
|
|
|
|
|
|
при |
Ri~, т.е. если |
A Q i ^ O ; |
(1.1.6) |
||
|
при |
Ri+, |
т. е. если |
A Q t < 0 , |
||
|
|
где ДХг — рабочее смещение на £-м шаге, а случайные пробы 3 предполагаются достаточно малыми по мо дулю, чтобы обеспечить достаточно большую вероят ность достижения подцели. Нетрудно заметить, что этот алгоритм является дифференциальным аналогом гомеостатического алгоритма и обычно называется алгорит мом случайного спуска или случайным поиском с линей ной тактикой. Смысл его прост и естествен. Система де лает случайные шаги в пространстве управляемых пара метров, пока не будет найден такой шаг, который при ведет к уменьшению функции качества. Положительная реакция алгоритма заключается в движении по выбран ному направлению, т. е. в повторении этого шага до тех пор, пока показатель качества не начнет увеличи ваться, что вызовет отрицательную реакцию — случай ные пробы новых направлений и т. д.
Эффективность такого алгоритма поиска гарантиру ется условием небыстрого изменения функции Q(X), со гласно которому успех в X] может повториться в Х2 , если расстояние между Х[ и Х2 не очень велико. На этом ос новании в алгоритме (1.1.6) предусмотрены повторные шаги в выбранном направлении.
Рассмотрим работу этого алгоритма как стохастиче ского автомата в случайной среде, которая в данном слу чае представлена объектом оптимизации. Направленный
граф работы такого автомата показан |
на рис. 1.1.2, где |
S — оператор случайного смещения, |
a R+ — оператор |
положительной реакции. Стрелками на рисунке пред-
А0>0 ( |
(^Х^^^^ГоЛ |
\ A O i 0 |
|
fa) \ |
\tJL^ja±^XzJ |
J & |
|
|
1 |
(t-p2) |
2 ^ |
Рис. 1.1.2. Граф гомеостатического алгоритма оптимизации (линейная тактика).
ГЛАВА I
40
ставлены переходы от одного оператора к другому, при чем рядом указаны события, вызывающие эти переходы, а в скобках — вероятности этих событий. Автомат мо жет пребывать в двух состояниях и задается матрицей переходов
|
P i |
l ~ P l |
" |
|
(1.1.7) |
|
1-р2 |
Р2 |
|
|
|
где |
вероятности р{ |
и р2 зависят |
от свойств среды, т. е. |
||
от |
оптимизируемого |
объекта, |
и изменяются вместе |
||
с этим объектом. |
|
|
|
||
Нетрудно |
заметить, |
что эффективность рассматривае |
|||
мого алгоритма зависит от того, |
как часто применяется |
||||
оператор R+. |
|
|
|
Именно в этом цикле показатель качества уменьша ется и происходит настройка системы. Поэтому значе ние вероятности р2 в значительной мере определяет эффективность применения данного алгоритма. Алгоритм эффективен, если объект таков, что значение р2 доста точно близко к единице.
Однако эффективность алгоритма зависит и от вероят ности выхода автомата на указанный цикл, т. е. от ве личины 1— ри которая соответствует вероятности слу чайного определения удачного направления (AQ<0) . Достаточно большое значение этой величины обеспечи вает работоспособность алгоритма.
Таким образом, для эффективной работы алгоритма
случайного |
поиска (1.1.6) |
необходимо, |
чтобы объект оп |
||||
тимизации |
удовлетворял |
следующим |
требованиям: |
||||
1) значение рх не должно быть очень малым, 2) |
значе |
||||||
ние р2 должно быть велико. |
с л у ч а й н о г о |
по |
|||||
Рассмотренный |
а л г о р и т м |
||||||
и с к а построен |
н а п р и н ц и п е |
« н а к а з а н и я » |
с л у |
||||
ч а й н о с т ь ю , в |
соответствии с которым оператор слу |
||||||
чайного шага S вводится как отрицательная реакция на |
|||||||
неудачу при отыскании подцели. В случае удачи |
поиск |
||||||
осуществляется |
тем же |
способом, |
который |
привел |
к удаче. Такая форма поведения, безусловно, разумна и целесообразна для линейных и близких к ним объектов, свойства которых с переходом из одного состояния в дру гое изменяются незначительно.
.Именно поэтому автомат, реализующий подобный ал-