![](/user_photo/_userpic.png)
книги из ГПНТБ / Растригин Л.А. Автоматная теория случайного поиска
.pdfПОИСК С САМООБУЧЕНИЕМ
|
235 |
|
|
|
|
В случае вероятностных |
автоматов |
коллектива |
(0 < |
||
< / А < 1 ; |
1=1,... , п ) |
множество состояний вектора |
W об |
||
разует |
эргодический |
класс, |
состоящий |
из одного |
под |
класса. |
|
|
|
|
|
Отсюда следует, что существуют предельные вероят ности pi того, что система будет находиться в состояниях
W«> |
( i = l , . . . , 2 " ) . |
|
|
|
вероятности pi и |
pi+s |
|
||||
Согласно |
[16] предельные |
со |
|||||||||
стояний |
W<*> вектора |
W |
( f = l , . . . , s ) , |
где s = 2™_ 1 , опре |
|||||||
деляются следующими |
формулами: |
|
|
|
|
||||||
|
|
|
s |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(2.7.2) |
|
где |
вероятность |
перехода |
рц для |
вероятностных |
ав |
||||||
томатов, |
глубина |
памяти |
которых |
равна |
единице, |
||||||
имеет вид |
|
|
|
|
|
|
|
|
|
||
|
|
П |
|
|
П |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(2.7.3) |
|
причем xi = ri |
(1=1,...,п), |
если 1-я |
координата |
вектора |
|||||||
W<i'= (wu |
..., |
wn), |
имеющего |
номер |
/ |
(/= 1, ... ,2"), сов |
падает с 1-й координатой вектора состояний W ( i ) , имею
щего номер |
i (i= 1 , . . . , 2п). |
В противном |
случае Xi = |
||
= 1—^. Для |
состояний W = (w\,..., |
wn), принадлежа |
|||
щих {W}+, т. е. имеющих |
номер j = s+ 1 , . . . , 2s, |
наобо |
|||
рот, в случае совпадения указанных |
координат |
Xi=\—ri, |
|||
в случае несовпадения Xi = rt |
(1=1,... |
, п ) . |
|
|
Вероятности перехода рц удовлетворяют следующим
свойствам. |
|
|
С в о й с т в о |
1: |
|
Pii — Pi+s,i |
|
(2.7.4) |
( / = 1 , |
, s; i=l, . . . , 2s). |
|
С в о й с т в о |
2: |
|
PiA+s — Pii |
|
(2.7.5) |
( / = 1 , |
,2s; 1=1,..., |
s). |
ГЛАВА II
235 |
|
|
С в о й с т в о |
3: |
|
Pij, |
если |
i, / e { W } - или i, / e { W } + ; |
Pih |
если |
t'e={W}- и /<={W} + или t'e{W} + |
|
|
и / e { W } - . |
(2.7.6)
Для доказательства равенств (2.7.2) необходимо пред варительно доказать, что [16] сумма предельных вероят ностей pi и рг+s состояний W<*> и W<i + S ) постоянна для
всех i (i = 1, 2, ... , s) и равна ^ п " » т - е -
1
(2.7.7)
2n-i
( t = 1, 2, |
s). |
Для этого запишем систему уравнений, которой удов летворяют предельные вероятности состояний системы
|
2s |
П= ^ |
PaPi |
3=1
( t = l , . . . , s ) ;
(2.7.8)
2s
Phi+sPi-
3=1
Используя 1-е и 2-е свойства вероятностей Pij, систему уравнений (2.7.8) запишем в виде
3=1
(2.7.9)
p i + s = ^ |
Pii{Pj + Pj+s) |
3=1
( t = l , . . . , S) .
ПОИСК С САМООБУЧЕНИЕМ
237
Сложив уравнения системы (2.7.9), соответствующие со стояниям W<»' и W ( ' + s ) , получим
P i + P i + S = ^ |
(Ри+Ра) |
(Pi+Pj+s) |
(2.7.10) |
|
3=1 |
|
( i = l , . . . , s ) . |
|
|
|
Смысл формулы (2.7.7) состоит в том, что система (2.7.10) имеет следующее решение:
1 |
Pi+s |
(2.7.11) |
|
|
2""1
(i=l,...,s).
Действительно, подставив (2.7.11) в систему (2.7.10), по лучим
^(PH + Pn) = l |
(2-7.12) |
3=1
( i = l , . . . , s ) .
Из 1—3-го свойств вероятностей р ц следует
s |
2s |
^(Pii |
+ Pn)= |
2!PU=1 |
(2-7.13) |
|
3=1 |
|
|
3=1 |
|
что и завершает |
доказательство |
формулы (2.7.7). |
||
Выражения |
(2.7.2) получаем, |
подставляя соотноше |
||
ния (2.7.11) в уравнения системы (2.7.9). |
||||
Рассмотрим |
с л у ч а й с п о м е х о й [16]. Предполага |
ется, что на вычисленное значение функции Q(X) накла дывается помеха е(а), представляющая нормально рас пределенную случайную величину с математическим ожи данием, равным нулю, и дисперсией о2 . Тогда поощрение или штрафование автоматов коллектива производится од
новременно в зависимости от знака |
суммы |
AQ' = AQ + Ae, |
(2.7.14) |
где Ае — нормально распределенная случайная величина
ГЛАВА II
238
с математическим ожиданием, равным нулю, и диспер сией 2а2 .
Обозначим
S i = Bep (AQ'«>>0/AQ«><0);
S i = l - s , = Bep (AQ'<*><0/AQW<0).
В силу линейности функции Q(X) и симметричности рас пределения помехи е(б) относительно ее нулевого мате матического ожидания для состояний ie{W}+ (i = = s + 1 , . . . , 2s) вероятности штрафа и нештрафа соответ ственно равны
Вер ( A Q ' W > 0 / A QW > 0) = 5 4 ;
|
|
(2.7.1о) |
Вер |
(AQ , (')<0/AQ<«)>0)=s i l |
|
т. е. |
|
(2.7.17) |
St = |
S j + s ; Sj = Sj+s. |
Докажем, что предельные вероятности Рг и pj+s со
стояний |
W<i> вектора W |
( i = l , . . . , s ) при наличии помех |
|
определяются по формулам [16] |
|||
|
s |
|
|
Р г = |
2^7, |
(SjPit + SjPjt); |
|
|
|
|
(2.7.18) |
Р'-+»= "^ГГЛ ^ |
(SjPn + |
SjPji) |
|
|
3=1 |
|
(t = l , . . . , s ) . |
|
|
|
Предварительно покажем, что в случае действия по мех справедливо то же утверждение, что и для случая, когда нет помехи, т. е.
Pi+Pi+s=2^1 |
(2.7Л9) |
|
(i=l,...,s). |
Запишем систему уравнений, которой удовлетворяют стационарные вероятности pt и pi+s состояний W ( i ) и W«+«> (i = l , . . . , s ) :
ПОИСК С САМООБУЧЕНИЕМ
239
2s
Pi= J5j (SjPa + SjPji)pj;
3=12 s (2.7.20)
pi+s= J? (SjPii + SiPji)Pj
3=1
( t = l , . . . , s ) .
Используя свойства вероятностей pji (2.7.6) и Si (2.7.15), (2.7.17), запишем систему (2.7.20) в виде
Pi= |
(SjPn + Sjpji) {Pj + |
Pi+s); |
|
|||
|
'"Х |
|
|
|
|
(2.7.21) |
Pi+s= |
(Sjpji + Sjpji) |
(Pj + |
Pj+s). |
|
||
Складывая уравнения |
системы (2.7.21), |
соответствую |
||||
щие |
состояниям |
W ( i ) и W ( i + s ) |
( i = l , . . . , s ) , |
получим |
||
|
|
s |
|
|
|
|
P i |
+ pi+s= |
Jj? |
(pji + рц) |
(pi + pi+s) |
(2.7.22) |
|
|
|
3=1 |
|
|
( i = l , . . . , s ) . |
|
|
|
|
|
|
Подставив (2.7.19) в (2.7.22), докажем высказанное ут верждение:
s |
2s |
(2-7-23) |
2 |
(рп+рп)=2jpi>=i- |
|
3=1 |
3=1 |
|
Формулы (2.7.18) для предельных вероятностей состоя
ний получим, подставив (2.7.19) в |
(2.7.21). |
.... |
|
§ 2.8. С Р А В Н Е Н И Е |
А Л Г О Р И Т М О В |
СА М О О Б У Ч Е Н И Я
Впараграфе 2.6 было показано, что при оп
тимизации в двумерном пространстве алгоритм оптими зации коллективом независимых автоматов в отношении
гллвл II
240
среднего приращения функции Q(X) на одном шаге эк
вивалентен алгоритму покоординатного самообучения |
|
при случайном |
поиске. |
Это означает, |
что к определенным параметрам одного |
алгоритма можно подобрать такие параметры второго алгоритма, при которых результаты действия обоих будут одинаковыми. В этом параграфе рассмотрим другие ас пекты эквивалентности алгоритмов самообучения.
ЭКВИВАЛЕНТНОСТЬ А В Т О М А Т О В П О РАСПРЕДЕЛЕНИЮ
ИХ Н А Ч А Л Ь Н Ы Х СОСТОЯНИЙ [21]
Вработах [21, 26] показано, как определить
вероятность выходного сигнала ДХ'-»', если на вход авто мата был подан входной сигнал с, для случая автомата, вероятности переходов и выходов которого зависят только от его состояния и от его входного сигнала, но не зависят от выходного сигнала на предыдущем такте. Ве роятности переходов, описывающих алгоритм самообу чения при случайном поиске, в общем случае зависят также от выходного сигнала автомата на предыдущем
шаге. |
Распространим |
на этот случай методику и фор |
мулы, изложенные в работах [21, 26]. |
||
По формулам (2.1.8) |
и (2.1.9) имеем |
|
Вер |
(Wjv+i^'/WivW), |
ДХ.уО), с) •Bep(AX,Y (i)/WI V (i i)) = |
|
= <7ыРг,г2<с>. |
(2.8.1) |
Просуммировав это выражение по всем / (/' = 1 , . . . , v), находим вероятность перехода автомата из состояния W<*i) на iV-м шаге в состояние W( ") на (М+1)-м шаге при подаче на его вход сигнала с:
•и |
|
Вер ( \ W = V W W < * > , с) = 2 <7vPv2<c>, |
(2.8.2) |
где v — количество выходных сигналов автомата. Переписывая это выражение в матричной форме,
имеем следующие матрицы перехода Л 0 и А\ для авто мата, переходы которого зависят от его выходов:
ПОИСК С САМООБУЧЕНИЕМ
241
Л0= |
2 |
Qi(i)A0(j); |
|
|
|
j = 1 |
|
|
(2.8.3) |
М= |
^Q<(/M,(/). |
|
||
Далее, |
аналогично |
тому, как это сделано |
в работах |
|
[21, 26], введем матрицу |
|
|||
7(ЛХ<;>/с)=Лс (2;(/), |
(2.8.4) |
|||
где Л с |
— матрица |
(2.8.3); |
|
|
Qi(j) |
— |
матрица |
(2.1.21). |
|
Элемент матрицы (2.8.4) обозначает вероятность пере
хода |
автомата из состояния W<»'> в состояние W'i 2 ) |
и по |
|||
явления на его выходе сигнала AX<J>, если |
на вход |
авто |
|||
мата |
был подан сигнал с, т. е. |
|
|
||
/<„,-,(АХ<я/с)=р(ЛХО->, |
W<*->/W«->, с) = |
|
|
||
|
(2V |
<i,,jphi2 |
(/) ) '//.;• |
(2.8.5) |
31=1
Тогда, согласно формуле (0.3.20), переходная матрица
автомата |
при |
входной |
последовательности |
(CjC2 ...cN ) |
|||
и |
выходной |
(AXiAX 2 . .. AXJV) |
определяется |
формулой |
|||
Т (АХ]АХ2 . . . AXWciCa . . . cN) = Т (ДХ,/с,) Т (АХ2/с2) . . . |
|||||||
|
...T(AXN/cN). |
|
|
|
(2.8.6) |
||
Введем |
обозначение |
|
|
|
|||
Ppi( 0 ) (AX,AX2 . . . AXl V /c,c2 . . .CN) |
= Pi^Ti(AXlAX2 |
. . . |
|||||
|
. . . AXN/CiC2. |
.. cN)eit |
|
(2.8.7) |
|||
где |
e,i — вектор, элементы которого равны единице; |
||||||
Рг( 0 ) —• |
начальное |
распределение внутренних состоя |
|||||
|
|
ний автомата |
Ai\ |
|
|
||
r,(AXiAX 2 . . . AXN/c{c2 |
. . . cj V ) — |
|
переходная матрица входной-выходной последователь ности автомата А*.
16 — 2014
ГЛАВА II
|
242 |
|
|
|
|
|
|
|
|
|
Если для |
автомата А\ |
с |
начальным |
распределением |
||||||
P i ( 0 ) |
и для автомата А2 |
с |
начальным |
распределением |
||||||
Р 2 ( 0 ) |
имеем |
|
|
|
|
|
|
|
|
|
|
(АХ,ДХ2 . .. AXN/Clc2 |
...cN) |
= Р £ ( 0 ) |
( A X , A X 2 . . . |
||||||
|
. .. AXN/CiC2 |
...ся) |
|
|
|
|
|
(2.8.8) |
||
при |
всех входных |
последовательностях |
С\С2... cN |
и |
всех |
|||||
выходных |
последовательностях |
A X [ A X 2 . . . ДХ^, |
имею |
|||||||
щих длину N, то системы |
(Pi< 0 ) , Тг) и (Р2{0), |
Т2) |
называ |
|||||||
ются |
Л^-эквивалентными. |
Системы |
(Pi ( 0 ) , |
Т\) |
и ( Р г ' 0 ' , ^ ) |
называются эквивалентными, если они ^-эквивалентны для всех N.
Достаточным условием эквивалентности двух систем
является |
их |
(тх |
+ т2 — 1)-эквивалентность, |
где |
тх и |
|||
т2 — количество |
внутренних состояний |
соответственно |
||||||
автомата Ах |
и автомата А2. |
|
|
|
|
|||
|
|
ВЕРОЯТНОСТИ |
СООТНОШЕНИЙ |
в х о д / ? — |
|
|||
|
|
В Ы Х О Д А АЛГОРИТМОВ САМООБУЧЕНИЯ |
|
|||||
|
|
Рассмотрим |
о д н о м е р н ы й |
с л у ч а й |
(я = |
|||
= 1). Построим матрицы |
T(AXW/c) |
для |
алгоритма |
слу |
||||
чайного |
поиска с самообучением. |
Нумерация |
состояний |
автомата и переходы из одного состояния в другое для
этого алгоритма при различных значениях |
с и АХ(^' по |
||||
казаны |
на рис. 2.8.1. |
Ах^ |
= — 1, так |
|
|
Пусть |
Дх( 1 ) = 1 и |
как в |
одномерном |
||
случае |
выходы AXW и |
состояния |
W<»' автомата явля |
||
ются не векторами, |
а числами. Тогда составленные по |
||||
рис. 2.8.1 и формуле |
(2.8.2) матрицы переходов при фик |
||||
сированном входном |
сигнале с и при учете |
вероятностей |
выходного сигнала АХ( ^ на yV-м шаге имеют вид (2.8.9) —
(2.8.12). |
|
|
|
|
|
|
|
Яп |
0 |
0 . |
0 |
0 |
|
Qt(lMo(l) |
Я21 |
0 |
0 . |
0 |
0 |
|
0 |
031 |
0 . . . |
0 |
0 |
(2.8.9) |
|
|
0 |
0 |
0 .-• • |
Я2т1,\ |
0 |
|
ПОИСК С САМООБУЧЕНИЕМ
о |
-о— |
|
|
|
-О |
с-о |
|
п*2 |
m,tl |
т. |
йХ-1 |
||||
2т, |
|
|
|||||
2т, |
2т, -1 |
Щ*2 |
- о |
т. |
|
|
|
|
|
|
|||||
2т, |
2щ-1 |
М,*2 |
- О - |
Щ |
|
|
|
Щ+t |
|
|
|||||
о |
- о — |
|
-О |
|
|
АХ-1 |
|
2т, |
2т,-I |
т,*2 |
т,*1 |
|
|
|
Рис. 2.8.1. Графы переходов автомата с переходной функцией, зависящей от выхода автомата для п=\.
|
|
0 |
<7l2 |
|
0 |
0 |
|
0 |
|
|
|
|
0 |
0 |
Я22 |
0 |
|
0 |
|
||
Qi(2)A0(2) |
= |
|
|
|
|
|
|
|
|
(2.8.10) |
|
|
0 |
0 |
|
|
0 |
0 |
• • • |
Qim-\,2 |
|
|
|
0 |
0 |
|
0 |
0 |
• • • |
Ц2тл,2 |
||
|
|
0 |
Ч\\ |
|
0 |
0 |
|
0 |
|
|
|
1 |
0 |
0 |
|
Я21 |
0 |
|
|
0 |
|
Q i ( i ) A ( i ) = J |
|
|
|
|
|
|
|
|
(2.8.11) |
|
|
|
0 |
0 |
0 |
0 |
• • |
a2m-\,\ |
|||
|
|
0 |
0 |
|
0 |
0 |
• • |
<72m,-l,l |
||
|
|
a i2 |
0 |
|
0 |
|
0 |
0 |
|
|
|
|
022 |
0 |
|
0 |
|
|
0 |
0 |
|
Qi(2)Al(2) |
= |
0 |
|
qz2 |
0 |
|
0 |
0 |
(2.8.12) |
|
|
|
0 |
|
0 |
0 |
|
a2mv2 |
0 |
16*
7,(ЛХ«)/0) = |
|
|
о |
о |
|
|
|
|
quqи |
q^qii |
о |
|
о |
о |
о |
||
<?21<7и |
о |
q^qzi |
о |
о |
|
о |
о |
о |
|
|
|
|
|
|
о |
о |
о |
О |
О |
О |
0 |
0 . . . |
q%m—\,\q%m—1,i 0 |
72т,—1,272т,,.? |
||
О |
0 |
0 |
0 |
0 . . . |
|
О |
72m,,l72m, - l,j |
q2m[,2q2ml,j |
|
|
|
|
|
|
|
|
(/=1.2) |
|
|
|
|
|
|
|
|
(2.8.13) |
Т\ (АХО)/1) = |
|
|
|
|
|
|
|
|
7 l 2 7 l j |
^п^г з |
0 |
0 |
о |
|
|
0 |
0 |
722713 |
о |
7217зз |
0 |
о |
|
|
0 |
0 |
0 |
7з27гз |
0 |
g3 i743 |
0 |
|
|
0 |
0 |
0 |
0 |
0 |
0 |
0 . . |
• 7 2 г п , - 1 , 2 7 2 т - 2 , з |
0 |
7 2 т - 1 , 1 7 2 т , , j |
|
О |
0 |
0 |
0 |
0 . . . |
О |
<72 т„272т,-1„? |
72m,,l72m,,j |
|
|
|
|
|
|
|
|
|
(/=1.2) |
|
|
|
|
|
|
|
|
(2.8.14) |