Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Растригин Л.А. Автоматная теория случайного поиска

.pdf
Скачиваний:
7
Добавлен:
23.10.2023
Размер:
8.71 Mб
Скачать

ПОИСК С САМООБУЧЕНИЕМ

 

235

 

 

 

 

В случае вероятностных

автоматов

коллектива

(0 <

< / А < 1 ;

1=1,... , п )

множество состояний вектора

W об­

разует

эргодический

класс,

состоящий

из одного

под­

класса.

 

 

 

 

 

Отсюда следует, что существуют предельные вероят­ ности pi того, что система будет находиться в состояниях

W«>

( i = l , . . . , 2 " ) .

 

 

 

вероятности pi и

pi+s

 

Согласно

[16] предельные

со­

стояний

W<*> вектора

W

( f = l , . . . , s ) ,

где s = 2™_ 1 , опре­

деляются следующими

формулами:

 

 

 

 

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(2.7.2)

где

вероятность

перехода

рц для

вероятностных

ав­

томатов,

глубина

памяти

которых

равна

единице,

имеет вид

 

 

 

 

 

 

 

 

 

 

 

П

 

 

П

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(2.7.3)

причем xi = ri

(1=1,...,п),

если 1-я

координата

вектора

W<i'= (wu

...,

wn),

имеющего

номер

/

(/= 1, ... ,2"), сов­

падает с 1-й координатой вектора состояний W ( i ) , имею­

щего номер

i (i= 1 , . . . , 2п).

В противном

случае Xi =

= 1—^. Для

состояний W = (w\,...,

wn), принадлежа­

щих {W}+, т. е. имеющих

номер j = s+ 1 , . . . , 2s,

наобо­

рот, в случае совпадения указанных

координат

Xi=\—ri,

в случае несовпадения Xi = rt

(1=1,...

, п ) .

 

 

Вероятности перехода рц удовлетворяют следующим

свойствам.

 

 

С в о й с т в о

1:

 

Pii — Pi+s,i

 

(2.7.4)

( / = 1 ,

, s; i=l, . . . , 2s).

С в о й с т в о

2:

 

PiA+s — Pii

 

(2.7.5)

( / = 1 ,

,2s; 1=1,...,

s).

ГЛАВА II

235

 

С в о й с т в о

3:

 

Pij,

если

i, / e { W } - или i, / e { W } + ;

Pih

если

t'e={W}- и /<={W} + или t'e{W} +

 

 

и / e { W } - .

(2.7.6)

Для доказательства равенств (2.7.2) необходимо пред­ варительно доказать, что [16] сумма предельных вероят­ ностей pi и рг+s состояний W<*> и W<i + S ) постоянна для

всех i (i = 1, 2, ... , s) и равна ^ п " » т - е -

1

(2.7.7)

2n-i

( t = 1, 2,

s).

Для этого запишем систему уравнений, которой удов­ летворяют предельные вероятности состояний системы

 

2s

П= ^

PaPi

3=1

( t = l , . . . , s ) ;

(2.7.8)

2s

Phi+sPi-

3=1

Используя 1-е и 2-е свойства вероятностей Pij, систему уравнений (2.7.8) запишем в виде

3=1

(2.7.9)

p i + s = ^

Pii{Pj + Pj+s)

3=1

( t = l , . . . , S) .

ПОИСК С САМООБУЧЕНИЕМ

237

Сложив уравнения системы (2.7.9), соответствующие со­ стояниям W<»' и W ( ' + s ) , получим

P i + P i + S = ^

(Ри+Ра)

(Pi+Pj+s)

(2.7.10)

 

3=1

 

( i = l , . . . , s ) .

 

 

 

Смысл формулы (2.7.7) состоит в том, что система (2.7.10) имеет следующее решение:

1

Pi+s

(2.7.11)

 

 

2""1

(i=l,...,s).

Действительно, подставив (2.7.11) в систему (2.7.10), по­ лучим

^(PH + Pn) = l

(2-7.12)

3=1

( i = l , . . . , s ) .

Из 1—3-го свойств вероятностей р ц следует

s

2s

^(Pii

+ Pn)=

2!PU=1

(2-7.13)

3=1

 

 

3=1

 

что и завершает

доказательство

формулы (2.7.7).

Выражения

(2.7.2) получаем,

подставляя соотноше­

ния (2.7.11) в уравнения системы (2.7.9).

Рассмотрим

с л у ч а й с п о м е х о й [16]. Предполага­

ется, что на вычисленное значение функции Q(X) накла­ дывается помеха е(а), представляющая нормально рас­ пределенную случайную величину с математическим ожи­ данием, равным нулю, и дисперсией о2 . Тогда поощрение или штрафование автоматов коллектива производится од­

новременно в зависимости от знака

суммы

AQ' = AQ + Ae,

(2.7.14)

где Ае — нормально распределенная случайная величина

ГЛАВА II

238

с математическим ожиданием, равным нулю, и диспер­ сией 2а2 .

Обозначим

S i = Bep (AQ'«>>0/AQ«><0);

S i = l - s , = Bep (AQ'<*><0/AQW<0).

В силу линейности функции Q(X) и симметричности рас­ пределения помехи е(б) относительно ее нулевого мате­ матического ожидания для состояний ie{W}+ (i = = s + 1 , . . . , 2s) вероятности штрафа и нештрафа соответ­ ственно равны

Вер ( A Q ' W > 0 / A QW > 0) = 5 4 ;

 

 

(2.7.1о)

Вер

(AQ , (')<0/AQ<«)>0)=s i l

 

т. е.

 

(2.7.17)

St =

S j + s ; Sj = Sj+s.

Докажем, что предельные вероятности Рг и pj+s со­

стояний

W<i> вектора W

( i = l , . . . , s ) при наличии помех

определяются по формулам [16]

 

s

 

 

Р г =

2^7,

(SjPit + SjPjt);

 

 

 

(2.7.18)

Р'-+»= "^ГГЛ ^

(SjPn +

SjPji)

 

3=1

 

(t = l , . . . , s ) .

 

 

 

Предварительно покажем, что в случае действия по­ мех справедливо то же утверждение, что и для случая, когда нет помехи, т. е.

Pi+Pi+s=2^1

(2.7Л9)

 

(i=l,...,s).

Запишем систему уравнений, которой удовлетворяют стационарные вероятности pt и pi+s состояний W ( i ) и W«+«> (i = l , . . . , s ) :

ПОИСК С САМООБУЧЕНИЕМ

239

2s

Pi= J5j (SjPa + SjPji)pj;

3=12 s (2.7.20)

pi+s= J? (SjPii + SiPji)Pj

3=1

( t = l , . . . , s ) .

Используя свойства вероятностей pji (2.7.6) и Si (2.7.15), (2.7.17), запишем систему (2.7.20) в виде

Pi=

(SjPn + Sjpji) {Pj +

Pi+s);

 

 

'"Х

 

 

 

 

(2.7.21)

Pi+s=

(Sjpji + Sjpji)

(Pj +

Pj+s).

 

Складывая уравнения

системы (2.7.21),

соответствую­

щие

состояниям

W ( i ) и W ( i + s )

( i = l , . . . , s ) ,

получим

 

 

s

 

 

 

 

P i

+ pi+s=

Jj?

(pji + рц)

(pi + pi+s)

(2.7.22)

 

 

3=1

 

 

( i = l , . . . , s ) .

 

 

 

 

 

Подставив (2.7.19) в (2.7.22), докажем высказанное ут­ верждение:

s

2s

(2-7-23)

2

(рп+рп)=2jpi>=i-

3=1

3=1

 

Формулы (2.7.18) для предельных вероятностей состоя­

ний получим, подставив (2.7.19) в

(2.7.21).

....

 

§ 2.8. С Р А В Н Е Н И Е

А Л Г О Р И Т М О В

СА М О О Б У Ч Е Н И Я

Впараграфе 2.6 было показано, что при оп­

тимизации в двумерном пространстве алгоритм оптими­ зации коллективом независимых автоматов в отношении

гллвл II

240

среднего приращения функции Q(X) на одном шаге эк­

вивалентен алгоритму покоординатного самообучения

при случайном

поиске.

Это означает,

что к определенным параметрам одного

алгоритма можно подобрать такие параметры второго алгоритма, при которых результаты действия обоих будут одинаковыми. В этом параграфе рассмотрим другие ас­ пекты эквивалентности алгоритмов самообучения.

ЭКВИВАЛЕНТНОСТЬ А В Т О М А Т О В П О РАСПРЕДЕЛЕНИЮ

ИХ Н А Ч А Л Ь Н Ы Х СОСТОЯНИЙ [21]

Вработах [21, 26] показано, как определить

вероятность выходного сигнала ДХ'-»', если на вход авто­ мата был подан входной сигнал с, для случая автомата, вероятности переходов и выходов которого зависят только от его состояния и от его входного сигнала, но не зависят от выходного сигнала на предыдущем такте. Ве­ роятности переходов, описывающих алгоритм самообу­ чения при случайном поиске, в общем случае зависят также от выходного сигнала автомата на предыдущем

шаге.

Распространим

на этот случай методику и фор­

мулы, изложенные в работах [21, 26].

По формулам (2.1.8)

и (2.1.9) имеем

Вер

(Wjv+i^'/WivW),

ДХ.уО), с) •Bep(AX,Y (i)/WI V (i i)) =

 

= <7ыРг2<с>.

(2.8.1)

Просуммировав это выражение по всем / (/' = 1 , . . . , v), находим вероятность перехода автомата из состояния W<*i) на iV-м шаге в состояние W( ") на (М+1)-м шаге при подаче на его вход сигнала с:

•и

 

Вер ( \ W = V W W < * > , с) = 2 <7vPv2<c>,

(2.8.2)

где v — количество выходных сигналов автомата. Переписывая это выражение в матричной форме,

имеем следующие матрицы перехода Л 0 и А\ для авто­ мата, переходы которого зависят от его выходов:

ПОИСК С САМООБУЧЕНИЕМ

241

Л0=

2

Qi(i)A0(j);

 

 

j = 1

 

 

(2.8.3)

М=

^Q<(/M,(/).

 

Далее,

аналогично

тому, как это сделано

в работах

[21, 26], введем матрицу

 

7(ЛХ<;>/с)=Лс (2;(/),

(2.8.4)

где Л с

матрица

(2.8.3);

 

Qi(j)

матрица

(2.1.21).

 

Элемент матрицы (2.8.4) обозначает вероятность пере­

хода

автомата из состояния W<»'> в состояние W'i 2 )

и по­

явления на его выходе сигнала AX<J>, если

на вход

авто­

мата

был подан сигнал с, т. е.

 

 

/<„,-,(АХ<я/с)=р(ЛХО->,

W<*->/W«->, с) =

 

 

 

(2V

<i,,jphi2

(/) ) '//.;•

(2.8.5)

31=1

Тогда, согласно формуле (0.3.20), переходная матрица

автомата

при

входной

последовательности

(CjC2 ...cN )

и

выходной

(AXiAX 2 . .. AXJV)

определяется

формулой

Т (АХ]АХ2 . . . AXWciCa . . . cN) = Т (ДХ,/с,) Т (АХ22) . . .

 

...T(AXN/cN).

 

 

 

(2.8.6)

Введем

обозначение

 

 

 

Ppi( 0 ) (AX,AX2 . . . AXl V /c,c2 . . .CN)

= Pi^Ti(AXlAX2

. . .

 

. . . AXN/CiC2.

.. cN)eit

 

(2.8.7)

где

e,i вектор, элементы которого равны единице;

Рг( 0 )

начальное

распределение внутренних состоя­

 

 

ний автомата

Ai\

 

 

r,(AXiAX 2 . . . AXN/c{c2

. . . cj V ) —

 

переходная матрица входной-выходной последователь­ ности автомата А*.

16 — 2014

ГЛАВА II

 

242

 

 

 

 

 

 

 

 

Если для

автомата А\

с

начальным

распределением

P i ( 0 )

и для автомата А2

с

начальным

распределением

Р 2 ( 0 )

имеем

 

 

 

 

 

 

 

 

 

 

(АХ,ДХ2 . .. AXN/Clc2

...cN)

= Р £ ( 0 )

( A X , A X 2 . . .

 

. .. AXN/CiC2

...ся)

 

 

 

 

 

(2.8.8)

при

всех входных

последовательностях

С\С2... cN

и

всех

выходных

последовательностях

A X [ A X 2 . . . ДХ^,

имею­

щих длину N, то системы

(Pi< 0 ) , Тг) и 2{0),

Т2)

называ­

ются

Л^-эквивалентными.

Системы

(Pi ( 0 ) ,

Т\)

и ( Р г ' 0 ' , ^ )

называются эквивалентными, если они ^-эквивалентны для всех N.

Достаточным условием эквивалентности двух систем

является

их

х

+ т2 1)-эквивалентность,

где

тх и

т2 — количество

внутренних состояний

соответственно

автомата Ах

и автомата А2.

 

 

 

 

 

 

ВЕРОЯТНОСТИ

СООТНОШЕНИЙ

в х о д / ? —

 

 

 

В Ы Х О Д А АЛГОРИТМОВ САМООБУЧЕНИЯ

 

 

 

Рассмотрим

о д н о м е р н ы й

с л у ч а й

(я =

= 1). Построим матрицы

T(AXW/c)

для

алгоритма

слу­

чайного

поиска с самообучением.

Нумерация

состояний

автомата и переходы из одного состояния в другое для

этого алгоритма при различных значениях

с и АХ(^' по­

казаны

на рис. 2.8.1.

Ах^

= — 1, так

 

 

Пусть

Дх( 1 ) = 1 и

как в

одномерном

случае

выходы AXW и

состояния

W<»' автомата явля­

ются не векторами,

а числами. Тогда составленные по

рис. 2.8.1 и формуле

(2.8.2) матрицы переходов при фик­

сированном входном

сигнале с и при учете

вероятностей

выходного сигнала АХ( ^ на yV-м шаге имеют вид (2.8.9) —

(2.8.12).

 

 

 

 

 

 

 

Яп

0

0 .

0

0

 

Qt(lMo(l)

Я21

0

0 .

0

0

 

0

031

0 . . .

0

0

(2.8.9)

 

0

0

0 .-

Я2т1,\

0

 

ПОИСК С САМООБУЧЕНИЕМ

о

-о—

 

 

 

с-о

п*2

m,tl

т.

йХ-1

2т,

 

 

2т,

2т, -1

Щ*2

- о

т.

 

 

 

 

 

2т,

2щ-1

М,*2

- О -

Щ

 

 

Щ+t

 

 

о

- о —

 

 

 

АХ-1

2т,

2т,-I

т,*2

т,*1

 

 

 

Рис. 2.8.1. Графы переходов автомата с переходной функцией, зависящей от выхода автомата для п=\.

 

 

0

<7l2

 

0

0

 

0

 

 

 

0

0

Я22

0

 

0

 

Qi(2)A0(2)

=

 

 

 

 

 

 

 

 

(2.8.10)

 

 

0

0

 

 

0

0

• • •

Qim-\,2

 

 

0

0

 

0

0

• • •

Ц2тл,2

 

 

0

Ч\\

 

0

0

 

0

 

 

1

0

0

 

Я21

0

 

 

0

Q i ( i ) A ( i ) = J

 

 

 

 

 

 

 

 

(2.8.11)

 

 

0

0

0

0

• •

a2m-\,\

 

 

0

0

 

0

0

• •

<72m,-l,l

 

 

a i2

0

 

0

 

0

0

 

 

 

022

0

 

0

 

 

0

0

Qi(2)Al(2)

=

0

 

qz2

0

 

0

0

(2.8.12)

 

 

0

 

0

0

 

a2mv2

0

16*

7,(ЛХ«)/0) =

 

 

о

о

 

 

 

 

quqи

q^qii

о

 

о

о

о

<?21<7и

о

q^qzi

о

о

 

о

о

о

 

 

 

 

 

 

о

о

о

О

О

О

0

0 . . .

q%m—\,\q%m—1,i 0

72т,—1,272т,,.?

О

0

0

0

0 . . .

 

О

72m,,l72m, - l,j

q2m[,2q2ml,j

 

 

 

 

 

 

 

 

(/=1.2)

 

 

 

 

 

 

 

 

(2.8.13)

Т\ (АХО)/1) =

 

 

 

 

 

 

 

 

7 l 2 7 l j

^п^г з

0

0

о

 

 

0

0

722713

о

7217зз

0

о

 

 

0

0

0

7з27гз

0

g3 i743

0

 

 

0

0

0

0

0

0

0 . .

• 7 2 г п , - 1 , 2 7 2 т - 2 , з

0

7 2 т - 1 , 1 7 2 т , , j

О

0

0

0

0 . . .

О

<72 т„272т,-1„?

72m,,l72m,,j

 

 

 

 

 

 

 

 

(/=1.2)

 

 

 

 

 

 

 

 

(2.8.14)

Соседние файлы в папке книги из ГПНТБ