Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Растригин Л.А. Автоматная теория случайного поиска

.pdf
Скачиваний:
9
Добавлен:
23.10.2023
Размер:
8.71 Mб
Скачать

ВВЕДЕНИЕ

31

Некоторые основные сведения о цепях Маркова. Из изложенного видно, что функционирование автоматов в случайной среде описывается цепью Маркова. Поэтому исследование автомата в случайной среде сводится к ис­ следованию соответствующей цепи Маркова. Приводим основные положения о цепях Маркова [29, 30].

Под

цепью

Маркова

будем понимать некоторую сис­

тему U, которая в каждый момент времени может нахо­

диться в одном из m

состояний ии

и2,...,ит

и

меняет

свое состояние только

в дискретные моменты

времени

t\, h , - - - , tN-

Вероятностный переход

системы

U из од­

ного состояния в другое задается некоторой

переходной

вероятностью

pij(N). Это вероятность перехода

из t-ro

состояния в /-е в момент времени t = N. В общем

случае,

когда

вероятности переходов Pij(N)

зависят

от

времени

t = N,

цепи называются

неоднородными цепями Маркова.

Если pij

не зависят от времени tN, т. е.

 

 

 

P i i

W

= P

 

 

 

 

(0.4.30)

то цепь Маркова называется однородной. Такая цепь за­ дается матрицей переходных вероятностей

Рп

 

Plm

я —

 

(0.4.31)

Рт\

 

 

где рц (i,

/ = 1

т) — вероятность перехода из t-ro

состояния

в /-е. При этом должно выполняться условие

стохастичности

матрицы я, т. е.

2

1

(0.4.32)

3 = 1

( i = l , . . . , т).

Для полного задания цепи Маркова необходимо иметь также вектор начальных вероятностей

Р<°>=(р, <»>,..., рт <°>),

(0.4.33)

где Pi(0> ( i = l , . . . , m )

вероятность

того, что

система

U в момент времени

t = 0 находится в состоянии

щ.

ВВЕДЕНИЕ

 

32

 

 

 

 

 

 

 

 

 

 

Вероятности

переходов

системы

из одного

состояния

в другое за N шагов определяются

формулой

 

 

р<л-)=(я ')(л-)р«».

 

 

 

 

 

(0.4.34)

Здесь (я') <*>

 

JV-Я степень транспонированной мат-

Р<0)

 

рицы я';

 

 

 

 

 

 

 

 

вектор

 

начальных

вероятностей

 

 

 

 

(0.4.33);

 

 

 

 

 

 

 

P W = ( / 7 1 W , . . . , ^ m W ) ,

 

 

 

 

 

 

(0.4.35)

где р :(-V)

_

вероятность

того,

что система

находится

 

 

в г-м состоянии после iV шагов.

 

 

Элементы

pa(N)

матрицы

я ( Л Г )

называются

переход­

ными вероятностями за N шагов. Их можно определить

по формуле Перрона [37]

 

 

 

 

 

 

 

AN) = 2

 

 

 

1

т.,

—1

 

 

 

 

 

 

 

( m v - l ) !

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( v = l , , . . , r ) .

(0.4.36)

Обозначим

через

>w характеристические числа

матрицы

я, т. е. корни характеристического

полинома матрицы я,

который задается

определителем

 

 

 

 

 

 

Х-ри

 

Р\2

 

 

— Рт

 

 

 

 

-Рп

 

Х — р22

 

 

Р2т

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(0.4.37)

 

рт\

-Рт.2

 

 

 

 

 

 

 

В формуле

(0.4.36)

 

 

 

 

 

 

 

nji(%)

алгебраическое

дополнение

элемента

 

 

 

определителя я ( ^ ) , стоящего

на

пересе­

mv

 

чении его /-й строки и г-го столбца;

— кратность

 

v-ro

 

характеристического

 

 

 

числа К;

 

 

 

 

 

 

 

£ ) A m v - i [ o / 0 ] производная

по

переменной

К порядка

 

 

 

mv1; подстановка lk = Xv

производится

 

 

 

после дифференцирования;

 

 

 

ВВЕДЕНИЕ

зз

Особенно простой вид формула Перрона (0.4.36) при­ обретает в случае, когда все характеристические числа матрицы я (0.4.37) имеют кратность, равную единице, т. е. когда

mi = m 2 = . . . =mr=

1.

 

 

 

 

 

(0.4.39)

В этом случае г п и формула

Перрона

имеет вид

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

,0.4.40)

 

 

 

 

 

 

( г , / = 1 , 2 , . . . , п ) .

 

 

 

 

Если существует предел

 

 

 

 

 

 

 

 

1\трцт=рц^,

 

 

 

 

 

 

 

 

(0.4.41)

то

вероятности

ptj ( o o )

 

называются

предельными

переход­

ными вероятностями. Имея вектор начальных вероят­

ностей

Р<°)= ( p i < 0 ) , . . . , p m ( 0 )

) ,

можно получить предель-

ные вероятности p i ( o o

)

( t = l , . . . , m )

различных

состояний

цепи Маркова по формулам

 

 

 

 

 

 

 

 

Pi(°°)= 2 Р)тРц(г-

 

 

 

 

 

 

 

(0.4.42)

Если

предельные

 

вероятности

цепи Маркова Рг( о о )

(1—1,...,

т) не зависят от

ее

начальных

вероятностей

рг( 0 ) (i~

1, • • •, tn), то

такая цепь Маркова

называется

эргодической. Легко видеть, что цепь Маркова

является

эргодической,

если

вероятности

рц{<х,)

для

любого ин­

декса / не зависят от индекса i,

т. е. если все строки

мат­

рицы

я ( о о ) = ||Pij( o o ) II

предельных

переходных

вероятнос­

тей одинаковы. Для того чтобы

цепь

Маркова

была

эргодической, необходимо и достаточно, чтобы одним из

значений

простого корня характеристического

полинома

ее

матрицы

переходных

вероятностей

 

была

единица,

а модули всех других корней

этого

полинома

были

строго меньше единицы.

 

 

 

 

 

 

 

 

Для случая эргодической конечной цепи Маркова пре­ дельные переходные вероятности определяются форму­ лами

3 — 2014

ВВЕДЕНИЕ

34

 

Pa <<*>) = Kji (Я)

(0.4.43)

( t ' , / = l , . . . , m ) .

Приведем еще другой признак, по которому определя­ ется эргодичность цепи Маркова. Этот признак следую­

щий. Если начиная с некоторого N^1

все элементы

N-й

степени

матрицы переходных вероятностей я положи­

тельны, то цепь Маркова является

эргодической

и ее

предельные вероятности равны

I

 

р/°°>=

lim Pij ( J V ) .

(0.4.44)

На практике использование формул Перрона или воз­ ведение переходных матриц в N-ю степень для цепей Маркова со многими состояниями является сложной задачей. Поэтому более целесообразно предельные ве­ роятности рг( о о ) находить как решение следующей сис­ темы алгебраических уравнений [38]:

Р = Ря,

(0.4.45)

где я

матрица (0.4.31);

 

Р

вектор предельных вероятностей; Р=(ри

рт).

Формула (0.4.45) имеет место для эргодических цепей Маркова.

Г Л А В А I

ПОИСК БЕЗ САМООБУЧЕНИЯ

 

§ 1.1. С Л У Ч А Й Н Ы Й

п о и с к

 

К А К В Е Р О Я Т Н О С Т Н Ы Й А В Т О М А Т

 

Рассмотрим задачу

минимизации скаляр­

ной функции многих переменных

 

Q=Q(xux2,...

п)

(1.1.1)

методами случайного поиска как

задачу функциониро­

вания вероятностного автомата в некоторой среде [39]. Автоматом в данном случае является алгоритм случай­ ного поиска, а среда, в которой действует этот автомат, представляет собой объект оптимизации. Среда в общем с.лучае предполагается стохастической, т. е. на одно и то же воздействие X она каждый раз отзывается некото­ рым случайным образом.

Одним из примеров такого взаимодействия автомата и

среды

может

служить

г о м е о с т а т

Э ш б и

[40], пред­

ставляющий собой динамическую

систему

 

 

d\J

F(V,X,

Е ) ,

 

 

 

 

 

(1.1.2)

dt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Состояние

системы (1.1.2)

описывается

вектором

U =

= ( и ь

U2,...,

ит)

и определяется как вектором

управляе­

мых

параметров

гомеостата Х = и

х 2 , . . . , хп), так и

вектором неуправляемых

параметров

Е = (si, е2,...,

е п ) ,

характеризующим

стохастические

свойства среды.

 

Управление

состоянием

U гомеостата

осуществляется

путем воздействия на его параметры хих2,...

п,

при­

чем целью

управления

является

выведение

гомеостата

в заданное

состояние U*, т. е. минимизация

показателя

Q = | U - U * | .

 

 

 

 

 

 

 

(1.1.3)

з*

 

 

 

 

 

 

 

 

 

 

 

ГЛАВА I

36

Управление параметрами гомеостата производится методом проб и ошибок, который сводится, по сути дела, к случайному перебору элементов некоторого допусти­ мого множества управлений {X} с последующей провер­ кой их эффективности и реакции на каждое случайное управление. При этом четко разграничиваются два вида реакций. Отрицательная реакция R~ возникает в ответ на управление, которое не приводит к выполнению по­ ставленных целей. Эта реакция в соответствии с алго­

ритмом гомеостата

вызывает очередную

случайную

пробу управления.

Положительная реакция

R+ следует

за достижением цели управления. Она сохраняет в объ­ екте то управление, которое привело к положительному результату. Алгоритм такого поведения гомеостата можно записать в виде

 

 

 

(1.1.4)

где Xt- управление

на i-м шаге работы

гомеостата;

Е •— оператор

случайного управления

из

класса

допустимых управлений, т. е. оператор

случай­

ного определения параметров гомеостата. Легко заметить, что такой алгоритм имеет целесообраз­ ное поведение, направленное на поиск и сохранение в системе состояния, которое обеспечивает положитель­ ную реакцию R+.

Итак, смысл случайного поиска по рассмотренному алгоритму (в данном случае —• слепого поиска) заклю­ чается в том, чтобы случайно перебирать значения пара­ метров системы до тех пор, пока не будут найдены такие их варианты, которые обеспечивают выполнение определенных заданных условий. В случае гомеостата — это наличие устойчивого состояния системы в заданных границах.

Такое поведение' гомеостата, по-видимому, наиболее целесообразно в том случае, когда управляющее устройство не имеет никаких сведений о структуре объ­ екта, т. е. последний представляет собой «черный ящик».

Естественно задать вопрос: всегда ли можно найти ус­ ловия, при которых объект удовлетворяет целям управ­ ления, т. е. можно ли случайным перебором допустимых

ПОИСК БЕЗ САМООБУЧЕНИЯ

 

37

 

 

 

 

 

 

управлении

всегда

наверняка

достигать

цели:

Разобьем множество возможных

реализаций

парамет­

ров

объекта

на два подмножества

{ Х ( 0

) } и {X*}, в

первое

из

которых

объединены

значения

параметров,

приводя-

' щие к отрицательной реакции, во второе — вызывающие положительную реакцию. Тогда решение задачи управ­

ления будет

заключаться в случайном отыскании хотя

бы одного элемента второго множества

за

конечное

число

шагов

поиска (под шагом поиска

здесь

понима­

ется

однократный случайный выбор параметров объек­

та) .

Для этого необходимо, чтобы оба

подмножества

имели одинаковую мощность, т. е. чтобы при случайном переборе элементов множества всех возможных управ­

лений

(под управлением

здесь и далее подразумевается

определение параметров

объекта хи х%,...

п)

предста­

вители

подмножества

{X*} встречались

не

слишком

редко. Тогда вероятность выбора одного из элементов этого подмножества будет конечна. Следовательно, про­ цесс завершится в конечное время и система обяза­ тельно придет в состояние, удовлетворяющее целям управления.

Представим работу гомеостата как функционирование некоторого вероятностного автомата, действующего в случайной среде [41]. Тогда гомеостат следует «рас­ слоить» на среду и управляющее устройство УУ (см. рис. 1.1.1). Под средой подразумевается объект управле­ ния, реализующий зависимость (1.1.2), а управляющее устройство работает в соответствии с алгоритмом слу­

чайного

поиска

(1.1.4). В этом

случае отрицательная ре­

акция

 

R~,

эквивалентная

Q>q

= const,

соответствует

штрафу,

а

положительная

реакция

R+(Q^.q)

не-

штрафу [39].

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

У

 

Алгоритм

случайно-

 

.

^

Среда

 

 

 

 

 

 

го поиска (1.1.4), pea-

 

(f~J\

(объект)

 

 

лизуемый

управляю­

 

 

 

 

 

 

 

щим

устройством,

яв­

 

 

 

 

 

 

 

ляется

вероятностным

 

 

 

 

 

 

 

автоматом, выход

кото­

 

 

 

Поиск

 

 

 

рого X изменяется в со­

 

 

 

 

 

 

 

 

 

(УУ)

 

 

 

ответствии со входом Q.

 

 

 

 

 

 

 

 

 

 

 

 

 

Стохастическая

матри­

Рис.

1.1.1. Блок-схема

гомеостатиче-

ца,

характеризующая

ского

управления.

 

 

 

ГЛАВА I

38

;

функционирование этого автомата в случайной среде, имеет вид

 

1-р

р

(1.1.5)

R+

О

1

 

где р — вероятность отыскания решения, удовлетворяю­ щего поставленным целям управления ( Q ^ q ) . Эффек­ тивность функционирования гомеостата существенно зависит от величины р . Чем больше р , тем быстрее нахо­ дится решение и, следовательно, тем эффективнее работа гомеостата.

Стохастический характер данного автомата определя­ ется двумя факторами — оператором случайного шага Е и неопределенностью среды (стохастичность среды за­ висит от неизвестного вектора ситуации Е ) .

Применение описанной схемы слепого поиска к опти­ мизации многопараметрических систем не приводит к успеху. Это связано с тем, что для более или менее сложных объектов управления вероятность р отыскания цели «сразу» очень мала, и процесс слепого поиска не­ обходимого управления связан, как правило, с огром­ ными затратами времени.

Рассмотренный алгоритм случайного поиска (1.1.3) пригоден для отыскания решения в принципе, т. е. гаран­ тирует конечность времени отыскания условий, удовлет­ воряющих целям управления. Однако вопросы быстро­ действия не решаются этим алгоритмом, поскольку он предназначен для управления объектами самого широ­ кого класса с единственным ограничением, связанным с конечностью вероятности отыскания решения.

В задачах экстремального управления часто содер­ жатся дополнительные сведения об объекте, например о характере поведения показателя качества объекта при различных управлениях. Эта информация дает возмож­ ность применить новые алгоритмы управления, которые построены на базе случайного гомеостатического поиска, но решают вопросы быстродействия уже с учетом имею­ щихся дополнительных сведений об объекте.

Дополнительные сведения об объекте оптимизации не­ сет функция качества Q(X), которую нужно минимизи­ ровать. Значение Q(X) очень часто может служить ме­ рой близости к цели, т. е. мерой успеха поиска.

ПОИСК БЕЗ САМООБУЧЕНИЯ

39

 

 

 

 

 

 

Сформулируем

один

из а л г о р и т м о в

 

с л у ч а й ­

н о г о п о и с к а ,

который

основывается на

высказанных

соображениях:

 

 

 

 

 

 

 

при

Ri~, т.е. если

A Q i ^ O ;

(1.1.6)

 

при

Ri+,

т. е. если

A Q t < 0 ,

 

 

где ДХг рабочее смещение на £-м шаге, а случайные пробы 3 предполагаются достаточно малыми по мо­ дулю, чтобы обеспечить достаточно большую вероят­ ность достижения подцели. Нетрудно заметить, что этот алгоритм является дифференциальным аналогом гомеостатического алгоритма и обычно называется алгорит­ мом случайного спуска или случайным поиском с линей­ ной тактикой. Смысл его прост и естествен. Система де­ лает случайные шаги в пространстве управляемых пара­ метров, пока не будет найден такой шаг, который при­ ведет к уменьшению функции качества. Положительная реакция алгоритма заключается в движении по выбран­ ному направлению, т. е. в повторении этого шага до тех пор, пока показатель качества не начнет увеличи­ ваться, что вызовет отрицательную реакцию — случай­ ные пробы новых направлений и т. д.

Эффективность такого алгоритма поиска гарантиру­ ется условием небыстрого изменения функции Q(X), со­ гласно которому успех в X] может повториться в Х2 , если расстояние между Х[ и Х2 не очень велико. На этом ос­ новании в алгоритме (1.1.6) предусмотрены повторные шаги в выбранном направлении.

Рассмотрим работу этого алгоритма как стохастиче­ ского автомата в случайной среде, которая в данном слу­ чае представлена объектом оптимизации. Направленный

граф работы такого автомата показан

на рис. 1.1.2, где

S — оператор случайного смещения,

a R+ — оператор

положительной реакции. Стрелками на рисунке пред-

А0>0 (

(^Х^^^^ГоЛ

\ A O i 0

fa) \

\tJL^ja±^XzJ

J &

 

1

(t-p2)

2 ^

Рис. 1.1.2. Граф гомеостатического алгоритма оптимизации (линейная тактика).

ГЛАВА I

40

ставлены переходы от одного оператора к другому, при­ чем рядом указаны события, вызывающие эти переходы, а в скобках — вероятности этих событий. Автомат мо­ жет пребывать в двух состояниях и задается матрицей переходов

 

P i

l ~ P l

"

 

(1.1.7)

 

1-р2

Р2

 

 

 

где

вероятности р{

и р2 зависят

от свойств среды, т. е.

от

оптимизируемого

объекта,

и изменяются вместе

с этим объектом.

 

 

 

Нетрудно

заметить,

что эффективность рассматривае­

мого алгоритма зависит от того,

как часто применяется

оператор R+.

 

 

 

Именно в этом цикле показатель качества уменьша­ ется и происходит настройка системы. Поэтому значе­ ние вероятности р2 в значительной мере определяет эффективность применения данного алгоритма. Алгоритм эффективен, если объект таков, что значение р2 доста­ точно близко к единице.

Однако эффективность алгоритма зависит и от вероят­ ности выхода автомата на указанный цикл, т. е. от ве­ личины 1— ри которая соответствует вероятности слу­ чайного определения удачного направления (AQ<0) . Достаточно большое значение этой величины обеспечи­ вает работоспособность алгоритма.

Таким образом, для эффективной работы алгоритма

случайного

поиска (1.1.6)

необходимо,

чтобы объект оп­

тимизации

удовлетворял

следующим

требованиям:

1) значение рх не должно быть очень малым, 2)

значе­

ние р2 должно быть велико.

с л у ч а й н о г о

по­

Рассмотренный

а л г о р и т м

и с к а построен

н а п р и н ц и п е

« н а к а з а н и я »

с л у ­

ч а й н о с т ь ю , в

соответствии с которым оператор слу­

чайного шага S вводится как отрицательная реакция на

неудачу при отыскании подцели. В случае удачи

поиск

осуществляется

тем же

способом,

который

привел

к удаче. Такая форма поведения, безусловно, разумна и целесообразна для линейных и близких к ним объектов, свойства которых с переходом из одного состояния в дру­ гое изменяются незначительно.

.Именно поэтому автомат, реализующий подобный ал-

Соседние файлы в папке книги из ГПНТБ