Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Автоматы и разумное поведение. Опыт моделирования

.pdf
Скачиваний:
61
Добавлен:
25.10.2023
Размер:
17.04 Mб
Скачать

 

 

 

 

Т а б л и ц а

36

 

 

 

 

 

 

 

 

 

 

 

СУТ-

0

 

0

 

 

 

 

 

 

О О Q

 

 

 

О О

 

 

 

 

таблица

 

о

 

 

 

 

 

 

о

 

 

 

 

 

©

 

 

 

реакций

 

 

 

 

 

 

 

 

0

 

 

 

О

 

 

 

 

 

 

 

 

 

 

 

Q

 

 

 

 

 

 

 

А3 в Si

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Блоки

 

 

 

 

4

5

 

 

 

 

10

11

 

13

14

15

16

17

18

СУТ-2

ПО ПО ПО по э по ш

ПО ПО ПО ПО

ПО

Ш

ПО

ПО

ПО

ПО

ш

ПО

зВ

зв

зв

пп пп др

др

зв

зв

пп

пп

др

др

зв

зв

пп

пп

зв

Э

сх

нв

нт

нт

сх

сх

сх

сх

сх

ну

сх

сх

сх

нт

сх

сх

сх

Ж

бс

дт

дт

дт

дт

ид

нд

нд

дт

дт

дт

дт

нд

нд

дт

дт

дт

дт

 

 

 

 

Т а б л и ц а

37

 

 

 

 

 

СУТ-

 

Щ

 

 

 

©

О

 

 

 

 

т а б л и ц а

 

 

 

 

 

 

О

 

 

 

 

р е а к ц и й

 

l a

 

 

J

 

 

 

 

 

\

A3bS2

 

 

 

 

1

 

 

 

 

 

БЛОКИ

1

2

3

4

5

6

7

8

9

10

11

СУТ-2 ПО ПО ПО ПО ш

ПО ПО ПО ПО ПО Ш

ПО

дА шц цщ шц шц

шц ШЦ ШЦ ш ц

ш ц

ш ц

Э

— i

ИВ ИТ н т г н

н т ИТ

нт г н ИТ н т

Ж

бс

д т

дт

д т

бс

дт

д т

Дт

ДТ

н д

д т

Т а б л и ц а 38

 

©

О

 

 

 

 

 

 

О

 

 

/

 

 

 

 

 

 

 

12

13

14

15

16

17

18

ПО ПО ПО ПО ПО Ш

ПО

ш ц ш ц ш ц ш ц ш ц ш ц ш ц

нт

г н г н н т ИТ н т

г н

дт

д т д т бс д т ДТ

д т

СУТ-

О

Q о

 

 

 

Q

О

Q

О

таблица

О

 

 

 

О q

реакций

 

О

 

 

 

О

о

О О

Аъ в S3

 

 

 

И

 

 

 

 

 

\

 

 

 

 

 

 

 

 

 

Т

Блоки

1

2

3

4

5

6

7

8

9

СУТ-2 ПО ПО ПО ПО НП

ПО

ш

РЦ

ш

ПО

дБ

дВ

др

др

пп

пп

пп

ДР

ДР

Э

—1

нв

нв

нт

нт

нт

нт

нт

уд

Ж

дт

бс

дт

дт

дт

нд

нд

нд

дт

Q р Q

 

 

Q

Q О

 

 

 

Q

О

 

 

 

 

 

 

 

 

 

О

 

 

 

[10

11

12

13

14

15

16

17

18

РЦ Ш

ПО ПО ПО ПО

ж

ш

ПО

ПП

ЦП

пп

др

др

пп

пп

пл

ГШ

гн

уд

нт

бц

бц

гн

бц

бц

бц

Дт

нд

дт

дт

дт

бс

дт

дт

дт

автомата As, реализующего режим обучения с «памятью со­ стояний» по сокращенной разрешающей матрице, значения

коэффициентов забывания связей 6 = 6 =

0,8.

Из графика на рис. 115 следует, что как слишком боль­

шая, так и слишком малая

подвижность обучения не явля­

ется оптимальной. На рис.

116 приведены

в качестве при-

 

©

 

©

 

 

©

 

 

о

о

 

©

 

О

о

 

 

о Q

© © а

 

©

©

 

 

© Л о - •I Q

Р

 

© © Q

/ © © ©

о т О

 

 

* N

 

©

 

 

 

 

 

 

 

 

 

©

 

* ©

 

 

©

 

 

©

 

©

а

 

©

 

о

а

а о

 

©

 

о о

о © ©

 

Q © © а

 

© © Q

 

а

 

©

©

о

А о -

»- •

Q

 

 

 

 

 

а

о О ч

f

а а

 

©

о

а

 

о

 

 

О

 

 

 

о

 

а

оQ ©

 

о

о ч

Q О Q о

©

 

 

/ а

а

Q Q

4

**- €А d

о Q

(S Л

6

О а

Q

а

Q I

а

 

Q

 

о

Q а О

о

 

 

 

 

а

 

 

о Q Q о о Q Q Q о а

Q а

щ © о

\_

Q© Q © ч

оQ

оQ

 

Q

 

 

а

 

 

А

 

q

a

(2)

 

 

 

 

 

 

В

а

а

9 a

a

a

а

т

a

 

а

a

a

a

>

 

а

a

a

 

t1

а

d[ a

 

a

о

О

\ а

> a

a

а

 

ft

a

a

a

a

Рис. 117.

Внешние

реакции Л>

в средах

Si (a), S3

(6),S3 (в).

Т а б л и ц а

39

 

 

 

 

 

 

Оценки

реакций

автомата

 

Среда

e

Л

Л

 

 

 

 

 

В

V

Si

-10,8

0,83

0,85

0,68

0,77

s:

41

0,92

0,82

0,74

0,93

18,6

0,85

0,93

0,78

0,53

мера кривые изменения некоторых реакций автомата в ходе эксперимента. Видно, что предположения рис. 114 оправды­ ваются.

Кривые V на рисунке изображают изменения времени нахождения автомата в каждой из ситуаций (в единицах дискретного времени). Таким образом, V — это время «обду­ мывания» автоматом шага или время «принятия решения». Видно, что V резко возрастает при изменении характера воспринимаемых ситуаций. Одновременно возрастает и Шшр (автомат «встревожен» изменением среды, к которой успел уже «привыкнуть»). Реакции такого рода в явном виде автомату не задавались.

Исследуем реакции автомата Аз в описанных ранее сре­ дах. Эксперименты проводились по тем же правилам, что и для автоматов Ао, At и Аг. Внешние реакции Аз в разных средах приведены на рис. 117, внутренние — в табл. 36—38. В табл. 39 представлены оценки реакций автомата. Ясно, что оценки адекватности удалось существенно улучшить, не ухудшив оценки е.

§ 7. Обсуждение результатов

Чтобы упростить в дальнейшем использование оценочных коэффициентов, преобразуем оценку е в более удобную фор­ му. Пусть оценка качества функционирования выражается

некоторым коэффициентом а. Потребуем, чтобы а, как и все остальные коэффициенты, изменялся в пределах 0 — 1 и наи­ худшей оценке соответствовало бы его значение 0, а наи­

лучшей — 1. Примем

в качестве вероятной оценки верхней

границы

е среднюю

величину возбуждения (см. табл. 7)

i-модели

Пр : ПС р =

100. Аналогично оценим и нижнюю

границу. Таким образом, изменение значения е будет про­

исходить в границах

—100

Н100. Отобразим этот диапа­

зон на отрезок —1

h i . Тогда

 

а = 0,5 (1 + 0,01е).

 

(10.7)

Оценоч­ ные коэф­ фициенты

а

Р

У

 

Т а б л и ц а

40

 

 

 

 

 

 

 

 

 

 

 

Значения оценок реакций в средах

 

 

 

 

 

Si

 

|

S,

 

|

 

s„

 

 

 

 

 

 

 

автоматов

 

 

 

 

 

Ао

 

А»

А,

А,

А,

А,

А,

А,

А,

А*

 

0,26

0,45

0,52

0,45

0,67

0,56

0,51

0,70

0,15

0,27

0,41

0,60

0,72

0,52

0,13

0,68

0,60

0,48

0,42

0,74

0,94

0,60

0,33

0,78

 

0,44

0,75

0,77

0,82

0,67

0,74

0,93

 

0,75

0,75

0,53

Значения а > 0,5 соответствуют оценкам е с положитель-

ным знаком, а < 0,5 — с отрицательным.

Все оценочные коэффициенты, полученные в ходе экспе­ риментов, сведены в табл. 40. На рис. 118 показаны отдель­ но характеристики адекватности реакций. Видно, что все представляющие точки расположены внутри допустимой об­ ласти. Точки, соответствующие каждому из автоматов, рас­ положены компактными группами, внутри которых наблю­ даются разбросы, обусловленные различиями сред.

Из табл. 40 видно, что различные оценки изменяются по-разному в зависимости от характера среды. Было бы по­ лезно представить эту зависимость в наглядной форме. Для этого необходимо ввести в рассмотрение некоторый числовой параметр s, характеризующий среду. Потребуем, чтобы s был отрицательным в случае «плохих» для автоматов сред и положительным — для «хороших», а также чтобы |s| имел тем большее числовое значение, чем полнее выражен тип среды.

Выше мы упоминали уже о двойственном характере оцен­ ки качества функционирования автомата в среде (е). В слу-

Ь

\ Л

0,2

356

0

Рис. 118. Оценки адекватности реак­ ций М-автоматов А0, А\, А2, Аъ в

средах Si, Sb S3.

 

чае, если автомат с неизменяющейся структурой находится

 

в разных средах, то вырабатываемый им коэффициент е за­

 

висит только от типа среды и может рассматриваться как

 

ее оценка. Из всех рассмотренных нами автоматов только

 

опорный вариант Ао не менял своей структуры в различных

 

экспериментах. Естественно поэтому рассматривать выраба­

 

тываемую им в разных средах

оценку е (будем обозначать

 

ее ео) в качестве оценки этих сред. Таким образом, опорный

 

вариант

Ао может

служить

своеобразным

«измерителем»

 

сред. Поскольку его реакции определяются заданной предор-

 

ганизацией, то, используя вырабатываемую им оценку среды

 

во в качестве параметра s, будем оценивать среды «с точки

 

зрения» заданных нами основных свойств автомата.

357

Для

того чтобы

выполнить

требования,

предъявленные

выше к значению и знаку s, отобразим диапазон изменений е0 (—100—t-100) на отрезок —1—1-1. Тогда, с учетом (Ю.7),

* = ^ Г = 2 а - 1 .

(10.8)

На рис. 119 приведено графическое изображение зависи­ мости оценочных коэффициентов от s. Видно, что на всем исследованном диапазоне сред всегда имееется хотя бы один обучающийся автомат, функционирующий лучше опорного необучающегося варианта не менее чем по двум оценкам. Для разных сред наилучшими являются разные автоматы.

Так, на участках 1 я 4 наибольшую оценку а дает

автомат

А3, на участке 2 — А г, на участке 3 — А\. Наиболее

близкие

значения а (0,5—0,55) автоматы вырабатывают в «нейтраль­ ных» средах (s « 0). Наиболее адекватные реакции (рис. 119, б) вырабатывают автоматы Ао и Аз. При этом в самых «плохих» средах «разумнее» ведет себя иеобучающийся ва­ риант. Он же обеспечивает наилучшие траектории в «очень хороших» средах (участок 3 на рис. 119, в). В «очень пло­ хих» средах (участок 1) лучшими являются траектории А и

хотя его оценки

а и ^

здесь невелики. В средах, близких

к нейтральным,

быстро

достигает цели Аз (участок 3 на

рис. 119, е).

 

 

Итак, нами исследовано поведение четырех различных вариантов М-автомата в средах трех типов. Число вариантов можно легко увеличить за счет различных сочетаний значе­ ний параметров обучения. Поведение каждого из таких ва­ риантов можно рассматривать в более представительном мно­ жестве сред, конструируемых путем изменения плотности воспринимаемых автоматами раздражителей. Методика ис­ следования во всех этих случаях ничем не будет отличаться от описанной выше. Проведенные исследования могут служить примером, иллюстрирующим способы изучения сложных самообучающихся М-автоматов. Опираясь на этот пример, рассмотрим ряд задач, решение которых оказывает­ ся возможным на основе полученных при использовании этой методики результатов.

Предварительно сделаем следующее замечание. Вообще говоря, могут существовать отличающиеся друг от друга среды, обладающие тем свойством, что оценки s, вырабаты­ ваемые для этих сред опорным вариантом, близки друг к другу, а оценки, вырабатываемые для этих же сред любым из обучающихся вариантов, различны. Это означает, что за­ висимости, изображенные на рис. 119, в общем случае имеют вероятностный характер. Статистические характеристики этих зависимостей могут быть получены путем исследования по-

ведения различных вариантов модели на достаточно пред­ ставительном множестве сред. Работы в этом направлении пе связаны с принципиальными затруднениями, однако тре­ буют больших затрат времени и имеют смысл в тех случаях, когда вероятностные свойства рассматриваемых зависимос­ тей оказываются важными при решении конкретных задач. В рамках проведенного исследования нами изучались прин­ ципиальные возможности использования автоматов описан­ ного типа. Поэтому представляется целесообразным провес­ ти дальнейшее изложение исходя из допущения о том, что среднеквадратичные отклонения рассматриваемых зависимос­ тей достаточно малы по сравнению с расстояниями между кривыми, описывающими свойства различных вариантов обучающихся автоматов. Отказ от этого допущения не изме­ няет общей структуры излагаемых ниже рассуждений, а лишь требует использования при их проведении специаль­ ного формального аппарата.

Пусть Ао, А\,..., Ап — множество различных автоматов, реакции каждого из которых исследованы во множестве сред Si, S2,...,Sm, принадлежащих некоторому диапазону сред. Автомат Ао соответствует опорному варианту. Пусть резуль­ таты исследования представлены в виде кривых, аналогич­ ных кривым на рис. 119. Иначе говоря, определены функции

Ctj =

Ctj (s),

 

 

?« =

Pi (s),

 

(10.9)

Vi = Yi (s )-

1 = °-

• • • ' n<

где индекс г указывает

на то, что функция описывает реак­

ции автомата

Ai.

 

В зависимости от цели моделирования различным оцен­ кам может приписываться разный вес. Так, можно потребо­ вать от автомата как можно большей адекватности реакций, не придавая особого значения оценке качества функциони­ рования и совсем пренебрегая видом траектории. Требования такого рода могут быть учтены заданием функции цели, ста-

Л Л А

вящей в соответствие любому сочетанию значений а, р, у некоторое значение обобщенного критерия и. В общем виде, следовательно,

и = и (а, р, у).

 

(10.10)

Ясно, что по заданным функциям

(10.9) и

конкрет­

ному виду целевой функции для любого

автомата

Ai (i =

= 0, 1 , . . . , п) может быть построена зависимость обобщен­ ного критерия качества и от оценки среды, т. е.

" i

= />(s),

i = 0,

1, ... , п.

 

(10.11)

В

качестве

примера

рассмотрим

функцию цели, заданную

в виде

 

 

 

 

 

 

 

и =

Аа + Bp -f- Су,

 

 

 

(10.12)

где

А,

В, С — весовые

коэффициенты

оценок. Пусть

А =

=

 

В =

С =

1. В этом

случае

для

исследованных

выше

автоматов зависимости (10.11) принимают вид, графически изображенный на рис. 119, г. Используем функции (10.11) для решения следующих задач оптимизации.

Задача

выбора

оптимального варианта обучения

для фик­

сированной

среды.

Пусть имеется некоторая среда Sc; иссле­

дуя поведение в

ней автомата Ао, получим его

оценку Sc

и, следовательно,

числовые значения щ, ич,..., ип

(посколь­

ку функции (10.11) считаются заданными). Оптимальным

вариантом А* явится такой автомат, для которого

значение

обобщенного критерия

 

ц* =

т а х | ц { | .

(10.13)

Так,

на

рис. 119,г для среды SA пмеет место А* =

Ai, для

среды SB

А* -- Аз.

 

Задача выбора оптимального «в среднем» варианта. Пусть

автомат функционирует в средах Si, S2, ..., Sj, .. ., для кото­

рых оценка S изменяется в диапазоне

(kI). Вычислим

для каждой из функций (10.11) значение ис

 

 

а)

в случае, если функции (10.11) выражены аналитиче­

ски в виде непрерывных функций,

 

 

 

 

 

 

i

 

 

 

 

 

 

щ = j

— -

\fi(S)ds,

i = 0,

1, . . . ,

п;

 

 

(10.14)

б)

в случае, если

функции

(10.11)

заданы

дискретно,

1

m

 

 

 

 

 

 

 

Щ = — 2 /1 (Sj),

i = 0, 1,

. . . , п,

] =

1,

2,

... , пг,

m

i=l

 

 

 

 

 

 

(10.15)

где / соответствует индексу среды.

 

 

 

 

 

 

 

Оптимальным вариантом будет автомат, для которого

и*=шах\и{\.

Для

случая, изображенного

на

рис. 119, г,

А* =

А3.

локальной

оптимизации обучения.

Рассмотрим об­

Задача

щий случай неоднородной среды, оценка различных областей которой меняется в определенном диапазоне. Ясно, что вы­ бранный предыдущим способом оптимальный «в среднем» ва-

Рис. 120. Движение в неоднородной среде.

а

6

риант в некоторых из областей такой среды не будет являть­ ся наилучшим.

Автоматы Ai, А г , А п отличаются друг от друга раз­ личными значениями параметров обучения или, в общем случае, различными совокупностями исходных данных для программы, реализующей М-автомат. Пусть автоматам Ai, Аг,. .., А„ соответствуют совокупности исходных данных at, аг,. .., ап. Для каждого из участков среды, внутри которого оценка примерно постоянна, предпочтительной оказывается группа исходных данных at, такая, что при ее использо­ вании на данном участке А,- = А*.

Допустим, некоторый автомат передвигается в неоднород­ ной среде так, как показано на рис. 120, а, где отграничены области с разной оценкой s. Пусть за время Т автомат пере­ сек г областей. В каждой из них обобщенный критерий и принимает конкретное значение. Эффективность работы авто­ мата за время Т охарактеризуем значением q:

<7 = - f 14-

(10-16)

Р=1

 

Максимальное значение q будет получено в том случае, если в каждой из областей критерий и будет принимать макси­ мально возможное значение, для чего необходимо использо7 вать в каждой из них совокупность исходных данных Щ • Локальная оптимизация обучения может быть построена, таким образом, как процедура максимизации q, осуществляе­ мая путем переключения режимов обучения автомата при перемещении его в различные области среды.

Рассмотрим алгоритм оптимизации О, который выполня­ ет следующие операции. В начальный момент времени осу­ ществляется случайный выбор совокупности исходных дан­ ных aj из множества ai, аг,..., ап и автомат Ai помещается в среду, где функционирует в течение некоторого времени Z \Z < Т\, называемого временем зондирования. По истечении

времени Z

осуществляется

(в соответствии

с

функцией це­

ли) расчет значения критерия и. Пусть и =

и'.

1, 2,..., п)

Примем,

что функции

{si = <p»(")}

(i =

являются обратными относительно функций (10.11) и алго­ ритм Q может обращаться как к тем, так и к другим.

I Случайный

Функциони­

Вычисление

Вычисление

рование Ai

выбор А;

(время зон­

и'

s'=lp(W)

I из

дирования)

 

 

 

 

 

 

 

 

Вычисление U;

Рпс. 121. Струк­ тура алгоритма локальной оп­ тимизации.

По значению и' с учетом функций, обратных функциям (10.11), вычисляется оценка s среды, в которой функциони­ рует Ai. Допустим, s = sr. Используя s' и (10.11), получаем решение задачи выбора оптимального варианта обучения для фиксированной среды. При этом применяется критерий max|u,-| в соответствии с зависимостями (10.12). Пусть ока­ залось, что А* = Aj. Автомат А,- продолжает функциониро­ вать в течение времени Z, после чего повторяется расчет и, нахождение s' и т. д. Структура алгоритма Q приведена на рис. 121.

В случае, если в неоднородной среде области с различны­ ми оценками 5 выражены нечетко, при выборе А* по s' п (10.11) может оказаться целесообразным критерий (10.13).

Обратимся к рис. 120. В ходе движения автомат пересе­ кает различные области среды. Время его нахождения в каж­ дой из них tB определяется размерами области и видом тра­ ектории движения. В общем случае, т. е. для множества возможных траекторий в данной фиксированной среде, tB можно рассматривать как случайную величину, имеющую некоторое распределение. Вид этого распределения зависит от топологических характеристик среды. Будем рассматри­ вать в качестве характеристики данной среды значения ма­ тематического ожидания M(tB). На рис. 120, б показан слу­ чай «перекрытия» этих периодов. Время зондирования Zi частично совпадает со временем нахождения автомата в об­ ласти 1 и частично — в области 2. Выработанные при этом величины и' и соответственно s' не будут отражать правиль­ но свойств области '2. Поэтому во все время Z% в области 2 будет функционировать неоптимальный вариант обучения и положение будет исправлено только в момент to. Ясно, что вероятность погрешностей такого рода будет уменьшена при выполнении условия

M(tn)=nZ,

п= 1, 2, ...

 

(10.17)

В целом оказывается, что значение

q'

параметра (10.16),

которое может

обеспечить алгоритм

Q в

данной среде, за-

Соседние файлы в папке книги из ГПНТБ