Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Автоматы и разумное поведение. Опыт моделирования

.pdf
Скачиваний:
61
Добавлен:
25.10.2023
Размер:
17.04 Mб
Скачать

Автомат

А

А*

падал» на «пищу», но действия «есть» не выполнил, так как его «внимание» (СУТ-2) было привлечено в это время к со­ стоянию сферы эмоций.

Конкретные различия в вариантах обучения автоматов видны из рис. 107, где представлены «разрешающие матри­ цы» вариантов. Строки и столбцы этих матриц соответствуют блокам М-сети. Использована нумерация блоков, приведен­ ная на рис. 93. Единица на пересечении i-й строки и /-го столбца означает, что обучение и установление связей, на­ правленных от i-моделей блока i к i-моделям блока / раз­ решено. Отсутствие единицы означает запрет соответствую­ щих операций. В экспериментах использовались значения параметров обучения, определенные ранее в тестах гл. 9.

(Для связей блока ПС в Аг было принято |3 = Р = 0,95.) Значения оценочных коэффициентов, полученные в описан­ ных экспериментах, приведены в табл. 27. Отметим, что оценка е подсчптывалась по времени, которое автоматы на­ ходились на одном или сходных участках среды. При под­ счете у в качестве ячейки gB принималась ячейка А, & g$ — ячейка F.

Из таблицы следует, что выработанная опорным вариан­ том А0 оценка е существепио улучшена всеми обучающими­ ся вариантами и'более всего — автоматом Аг- Обратная кар­ тина наблюдается для оценки адекватности 6. Здесь она ми­ нимальна для Ач и максимальна для Ао. Обучающиеся варианты «чувствуют себя» в среде лучше, чем Ао, но «пла­ тят» за это уменьшением адекватности реакций. Однако все

значения (3 находятся в допустимой области. Таким образом, можно сделать предварительный вывод: если для каких-либо целей необходим автомат, обеспечивающий высокую оценку качества функционирования, а адекватность его внутренних реакций не важна, то следует выбрать автомат типа Аг. Если же, напротив, важна только адекватность внутренних реакций, наилучшим явится вариант Ао. Этот вывод, впро­ чем, применим только к среде Si. Необходимо проверить,

Т а б л и ц а

27

 

 

 

 

 

Оценки реакций в среде

 

 

 

 

л

л

е

3

V

—48

0,95

0,77

0,72

_

- 9,4

0,88

0,64

0,52

0,44

2,8

0,66

0,53

0,13

0,75

—10,8

0,83

0,78

0,61

0,75

не изменится ли характер поведения автоматов в средах других типов. Для ответа на этот вопрос были проведены эксперименты в разных средах.

Данные табл. 27 показывают, что оценки автомата As занимают промежуточное положение по отношению к оцен-

кам Ai и Аг (е и 6 близки к Ai, у — к Аг). Это легко объяс­ няется тем обстоятельством, что основные преимущества «памяти ситуаций» могут проявиться, когда среда содержит часто повторяющиеся ситуации или такова, что для органи­ зации удовлетворительного поведения необходимо помнить последовательности реакций и их результатов. Среда Si не обладает указанными свойствами. Очевидно, автомат As име­ ет смысл использовать только в средах (например, в регу­ лярных), где такие свойства хорошо выражены. Поэтому в дальнейшем мы не будем исследовать As в «невыгодных» для него условиях.

§ 5. Эксперименты

с

М-автоматами

в различных

средах

 

 

Из рис. 104 видно, что среда Si содержит значительное ко­ личество раздражителей класса «зверь». Представляет инте­ рес рассмотреть реакции автомата в более «приятной» для

 

 

 

о

 

О

©

D щ

 

 

 

 

т

© т1 о

Q

Q

t ©

Q

 

Кфо

О

О

г

 

О

Ш

О Г т

 

4

 

is

 

 

Ш

О

 

 

 

а

f

t

О

 

©

Q

О

 

*г

О

©

 

 

 

 

 

а /

О

 

Ш

Рис. 108. Внешние реакции А 0 в среде Яг-

 

Q

 

Q

Рис.

109. Внеш­

О

о

ние

реакции

•u- £;

•ш

и Аг

в среде

1S2.

 

 

 

 

М-автоматов

Ах

 

1.

о

 

$

 

 

 

 

© T

 

 

 

 

 

 

Q

T Q

 

 

 

Q

 

n

tA

Q

 

 

 

 

 

 

 

©

 

Q

 

 

 

 

 

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p.

Q

о

О

 

 

 

Щ

 

О

 

Q

 

 

 

 

 

Q

-u—

 

Ш

 

 

 

 

 

Q

 

 

 

 

 

 

 

 

Щ

о

 

 

 

Q

 

о

Ш

©

 

 

 

 

 

 

 

 

©

 

 

 

 

 

 

 

 

 

 

 

©

 

-

 

Q

 

 

©

s±

 

Q

 

 

 

 

 

 

 

 

 

 

 

 

 

/

m

 

 

 

 

 

 

Ц

Q

о

о

 

 

 

Ц

Q /

о

О

 

 

 

 

 

 

 

Q

 

 

 

 

\

Q В

 

 

 

 

 

 

 

T

О Q

©

 

 

 

 

 

О Q

 

 

 

 

 

 

 

 

Ф

 

О

 

 

 

4

©

 

О

 

 

 

 

 

 

 

 

 

 

 

 

 

(±1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

него среде. Такая среда S2, содержащая

большее

количество

 

 

 

раздражителей класса «пища», представлена на рис. 108.

 

 

 

Здесь

А — исходная

ячейка,

Ft,

Fz, F3 — ориентиры

первого,

 

 

 

второго и третьего этапов плана. Прежде всего в ячейку А

 

 

 

был помещен автомат Aq. ЕГО внешние реакции представлены

 

 

 

на

рис. 108,

внутренние — в табл.

28.

Затем

аналогичные

 

 

 

Т а б л и ц а

28

 

 

 

 

 

 

 

 

 

 

 

 

СУТ-

 

 

 

 

 

 

(2

 

 

 

о

о

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

таблица

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

реакций

 

 

 

 

 

 

 

\

 

 

 

 

 

 

 

 

 

4) в s 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

«Ест»

 

 

 

 

 

«Нести»

 

 

 

 

 

 

 

 

 

Блоки

19

20

21

22

23

24

25

28

27

28

29

30

31

32

33

34

ЗД

36

СУТ-2

НП

АД

РЦ

ПО

Ш

э

ш

АД

ш

АД

Ш

АД

Ш

ПО

Э

э

д

э

ПО

пл

пл

пп

пп

др

ДР

др

пи

пп

ДР

ДР

пл

пл

ал ДРДР пл

Э

гн

УД

УД

ув

ув

уд

уд

УД

ув

уд

уд

РД

РД

уд

УД УДрд рд

Ж

ДТ

нд

нд

дт

Дт

дт

нд

нд

дт

дт

ДТ

нд

нд

нд

дт

дт. дт

СП

345

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12 3—1176

Т а б л и ц а 29

СУТтаблпца | р е а к ц и й

А, в S2

Блоки

СУТ-2 ПО

Э

Ж

СУТ-

та б л и ц а

ре а к ц и й

*4<, В S%

Блоки

СУТ-2 ПО

Э

Ж

©

 

т

 

 

 

 

 

0

 

т

 

 

 

о

 

 

 

 

©

 

 

 

 

 

 

о

 

О

 

 

 

 

 

 

 

 

 

щ

 

 

 

 

 

 

о

 

о

\

 

 

 

 

 

 

 

 

 

«Спит»

 

 

 

 

 

 

«Ест»

 

 

 

«Ест»

 

 

 

 

 

 

 

 

 

 

 

 

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

РЦ ш ип а щ бк у д дт ст

АД РЦ Ш

РЦ Ш

у б

пп

пп п щ

н д

бп

нд

сх

у д

нд

ст

нд

ст

нд

Т а б л и ц а 30

РЦ Ш

РЦ НП

пл

пл

ДР

ип

гн

бп

лб

ну

от

дт

дт

ст

АД АД Ш

РЦ

ш

АД ПО

пп

у б

ЗВ

п ш

пщ

пп

пп

бк

сх

ув

РД

УД

у д

б п

от

дт

дт

бс

нд

О

 

о

 

 

О

 

а

 

 

 

©

 

 

2122

\

\

 

 

 

 

19

20

23

24

25

26

Э

АД Ш

Э

Ш

РЦ

ПО ш

у б

у б у б

ЗВ

пп

дА

у б

пл

РД

Пр гр

б ц

у в

Пр

у в

у д

ДТ

дт

ДТ

нд

дт

нд

 

Si

 

 

Q

 

 

 

 

 

 

 

 

 

 

Q

 

«ЕС!г»

t

«Ест»

 

 

 

 

 

 

 

 

 

 

 

27

28

29

30

31

32

33

34

35

36

АД АД Ш

АД

Э

Э Ш

РЦ

э

э

уб

пп

у б

пп

у б

зв у б

пщ

у б у б

гл

нт

гл

нт

гн

нт гл

нт

у в нт

дт

нд

ст

ид

дт

ст

пд —

 

Т а б л и ц а

31

 

 

 

 

 

 

Оценки реакций в среде

 

 

Автомат

в

л

л

 

S

V

 

 

 

 

А,

33,6

1,0

0,6

0,6

0,82

 

10,7

0,83

0,65

0,48

0,67

 

3,1

0,79

0,63

0,42

0,74

347

12*

о О Q Q Q 0 Q Q Q Q Q Q Q

о Q

 

Q

а

 

О

Q О Q Q

О

Q ©

 

^

О о

(1

Nр .

йQ

Q о ©

Q Q

Q О

Я

Q

Q

Q О

Q Q

Q I

Q

о

е>

Q Q

вQ о о Q Q Q

о

Q

Q

Q

Q

о

О

Q а О

Q о Q о Q Q о Q Q Q Q Q Q

Рис. 110. Внешние

реакции

Л'о в сре­

де 5з.

!

исследования

были

проведены

с

обучающимися

варианта­

ми Ai

и Az

(рис. 109, табл. 29

и

30). Оценочные

коэффи-

циенты

приведены

в табл. 31. При

подсчете у ячейке gn со­

ответствует ячейка

А, ячейке g$ F3. Из таблицы следует,

что в случае

«приятной» среды

все обучающиеся

варианты

автомата оказываются хуже необучающегося. Более, того, имеющий в среде Si максимальную оценку е автомат Аг в среде 1S2 имеет минимальную оценку. Адекватность же его внутренних реакций в Si по сравнению с S\ существенно повысилась. Предварительный вывод: исследуемые алгорит­ мы обучения не являются универсальными •' относительно свойств среды, их эффективность существенно зависит от этих свойств. Чтобы полнее рассмотреть характер! предпо­ лагаемой зависимости, продолжим исследование автоматов в другой среде — S3.

Среда S3, представленная на рис. 110, содержит преиму­ щественно раздражители класса «препятствие», не являю­ щиеся для автомата ни «опасными», ни «съедобными». Выше было показано, что эти раздражители также оцениваются автоматом как «неприятные», вызывая, однако, другие по сравнению с «опасностью» внутренние реакции; Автоматы стартовали из ячейки А, ячейки Fi, Fz, F3 — ориентиры по­ следовательных этапов плана. На рис. 110 показаны бнешние реакции автомата Ац. Видно, что автомат выполнил только первый этап плана (напомним, что этап считается выполнен­ ным, если автомат занимает любую ячейку в окрестности ориентира). Его внутренние реакции представлены в табл. 32.

Поведение

автоматов А\

и А2 показано на рис. 111 и в

табл.

33

и 34. Оценочные коэффициенты приведены в

табл.

35. Значение е вычислялось для всех автоматов по сов­

падающим

или близким

участкам траектории. При вычис-

СУТ-

та б л п ц а '

ре а к ц и й

А0 в S3

Блоки

СУТ-2 ПО

Э

Ж

Т а б л и ц а 32

 

 

QIQ

 

 

 

О

 

 

 

 

О

Р

 

 

 

О О

о

Q

 

 

Р

 

 

1

о

 

Q Q

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

1

2

3

4

5

 

6

7

 

8

9

ПО ПО ПО по нп

ПО

ш

РЦ

ш

дВ

дВ

д р

д р

пи

пп

д р

ДР

пп

— н в н в н т н т

н т

нт

н у н т

д с

бс

д т

дт

дт

н д

н д

дт

дт

DIJD

Q о

О р

Р

Q

Q

10

11

12

13

РЦ

Э АД Ш

п п

п п д р

пп

нт

и т

нт

н у

дт

д т

н д

н д

14 15 16 17 18

ПО ПО по э ш

пп

пп

п п

д р ЦП

н у

н т

н т

нт

нт

п д

дт

дт

дт

дт

Т а б л и ц а 33

СУТ-

та б л п ц а

ре а к ц и й

Аг в S3

ОО

Q

О О

О

 

 

 

о О О

о р

 

Q

О Q Q

о Q

О Q

 

О О

О

О

О

Q Q

 

О

/

О О О

 

 

 

 

ft

т

\

 

 

 

Блоки

 

1 2

3

4

5

6

7

S

9

10

11

12

 

13 l i

15

16

17

18

СУТ-2

по по по нп

э ш

по

ш

РЦ

ш

РЦ

ш

ПО ПС ПС ш

ПС

ПС

ПО

дВ

дВ

пп

дВ

д р

пп

дВ

з в

пп

з в

дВ

пп

пп

п п

п л

пп

п п

пп

э

— н в г н н у

н т н т РД н т

УД н т

г л

н т

у в Пр Пр г л

г л

н т

ж

д т

бс

дт

бс

нд

-

д т

от

нд

от

н д

от

бс

с п

ст

ст

ст

ст

 

 

 

 

Т а б л и ц а

34

 

 

 

 

 

 

 

 

 

 

 

СУТ-

 

О

 

 

 

 

О О О

С Ю

а О

 

О О О

D О О

 

 

т а б л и ц а

О

 

 

О О

 

О

 

о О

О О

 

 

О

 

 

р е а к ц и й

 

О

 

 

 

СЮ Q О

Q

 

 

О О

О Q О

 

 

А2 В iSg

 

 

 

If

 

t

 

 

 

\

 

/

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Блоки

1

2

3

4 |

5

6

7

8

9

10

11

12

13

14

15

16

17

18

СУТ-2

ПО ПО ПО НП

э

ш

ПО ш

РЦ

ш

РЦ ш

ПО ш

ПС ПС по ш

ПО

дВ дВ пп

дВ

дВ

д р

iB

з в

нп

зв

зВ

шц

пп

зв

зВ

дВ

ав

Э

—•

н в

гн

ну

н т

у в

РД Пр

РД

у в

нт

г л

н т

ИТ

ит

бц

рд

Пр

Ж

д т

бс

дт

б с

пд

ст

ДТ

СП

и д

ст

д т

сп

д т

бс

дт

дт

ст

о

О О о

Q Q QJ Q Q|Q|Q

 

P_

Q о ~*

Л

ш

 

 

__ . . . .

 

О

\ О о

О О

1

Q

 

§

 

 

Q : t-

Q Рр!IDО

 

 

 

 

©

О

 

/

 

Q О

Q о

О О

 

 

Q Q

 

с

 

Л

 

 

 

О

 

О АТ Q

 

 

 

 

 

 

 

 

 

 

 

 

Q

Q

 

Q QjQ Л

D

IS

-

Q

 

 

Q

>

\

 

О

 

О

Q

 

о

О О О О Q Q Q Q О

Й

О О

 

 

 

 

Рис. 111.

Внешние

 

 

 

 

Т а б л и ц а

35

 

О Q о О Q О о О о О Q О

0

Q

 

л

- -*т

 

 

 

А

О О о

 

 

о Ч

 

 

Чл

 

 

 

Q И

ч

О о

Q

у

 

 

 

 

Q

т О о

о

^/ о

 

 

О о

 

it О Q / Q О

 

 

\ Q О

 

 

О

До О

Q\

ш

 

о

О

 

 

 

 

Q о

о

о

О \

 

о

 

 

 

 

Q

' \ Q г'

 

 

Q

 

О

>ь/

 

о

о о О Q о О О

 

Q Q о

 

 

М-автоматов

At

а А2

в

среде S3.

Оценки реакций в среде

Автомат

\

Аг

А*

349

е

Л

Л

 

 

 

Р

V

—70,4

1,0

0,94

0,94

 

—46,3

0,9

0,7

0,6

0,75

—18,7

0,62

0,71

0,33

0,75

лении у отождествлялись

ячейки gB и А, а также

g$ и Fz.

Из таблицы видно, что в

среде S3 обучающиеся

автоматы

опять имеют преимущество и максимальная оценка е выра­ ботана А%. Обсуждение полученных результатов удобно при­ вести ниже.

Мы видели, что зависимость оценочных коэффициентов от характера среды более четко проявляется для автомата А%. Интересно поэтому рассмотреть режим обучения с «памятью состояний» более подробно.

§ 6.

Влияние

памяти М-автомата на

адекватность

его

внутренних

реакций

 

Из данных предыдущего параграфа следует, что в поведении автомата А2, реализующего режим обучения с «памятью состояний», наблюдается следующая закономерность: чем «хуже» среда, в которой он действует, тем относительно выше оценка качества его функционирования и тем ниже оценка адекватности его внутренних реакций. Представляет

2

3

4

5

6

7

5

1

1

 

 

1

 

1

1

 

1

1

1

1

 

1

1

 

1

1

 

 

1

1

1

1

1

 

1

1

1

1

1

 

1

1

1

1

1

 

1

1

1

Рис. 112. Измененная ма­ трица обучения (я) и блок-схема автомата (б).

^ I пп I

^ I пп »Т"*^ ^

I nn

да/

/70//

да

///

J

4 ~ г т

г

 

У

н

,

ля

 

па

/7С //

интерес попытка улучшить значения В, не ухудшая сущест­ венно е.

Очевидно, в процессе формирования оценок немаловаж­ ную роль играют особенности памяти автомата. В нашем случае память реализуется совокупностью связей М-сети. Наиболее общей характеристикой сетп является количество имеющихся в ней связей и их конфигурация. Разрешающая матрица обучения (см. рис. 107) для Аг допускает установ­ ление весьма большого количества разнообразных связей. Можно предположить, что среди них существуют как связи, мало влияющие на поведение автомата, так и связи, приво­ дящие к нежелательным процессам в сети. Поэтому может оказаться целесообразным уменьшить объем памяти авто­ мата.

В настоящее время не существует строгих методов ана­ лиза оптимальности разрешающих матриц, и при их изме­ нении приходится опираться на интуитивные рассуждения. Последние сводятся в нашем случае опять к представлениям о «логическом» и «эмоциональном» каналах переработки информации. Ограничим разрешающую матрицу таким об­ разом, чтобы связи устанавливались в центральных блоках этих каналов — ПО, ПС и 9,— а также между ними. Лока­ лизуя таким образом процессы обучения, мы уменьшаем общее количество связей, устанавливающихся в сети в ходе обучения, уменьшаем влияние на характер поведения второ­ степенных совпадений и увеличиваем удельный вес пред-

© © © © © © Щ jl© ©

 

Ш Г-

 

О

 

 

© © © © © ©

i ...г-

©

 

• •

• 1 — ID

 

Тестовая

А

 

 

 

 

 

• • •

в

 

©j

j©]

 

о

 

 

 

 

Рис. 113.

 

 

 

 

 

 

 

ситуация.

 

1

|

 

 

 

 

 

 

 

 

Рис. 114. Ожидаемые реакции М-ав­ томата в тестовой ситуации.

-^8

организации в формировании поведения. Все это должно при­ вести к улучшению характеристик последнего. Измененная соответствующим образом разрешающая матрица обучения представлена на рис. 112, а. Ее иллюстрирует блок-схема на рис. 112, б, на которой соединительные линии указывают области, где установление разрешено. Связи предорганиза­ ции на рисунке не показаны. Автомат, реализующий эту разрешающую матрицу, обозначим символом Аз.

Адекватность поведения автомата во многом определяет­ ся «подвижностью» процессов обучения, т. е. способностью автомата быстро изменять оценки при изменении среды. В нашем случае такие способности автомата определяются соотношением активностей процессов проторения и забыва­ ния связей, которые, в свою очередь, зависят от значения

коэффициентов кг, kz и В, В в выражениях (8.9) и (8.10). Изменять это соотношение можно, очевидно, путем измене­ ния одной какой-либо пары коэффициентов.

Будем исследовать характер изменения реакций автома­ та, варьируя значения В и р . Для этого поместим автомат Аз в тестовую ситуацию, изображенную на рис. 113. В ходе

эксперимента автомат

перемещается

из ячейки А в

ячей­

ку В. На первой половине пути автомат

воспринимает

толь­

ко «отрицательные»

раздражители,

на

второй — «положи-

—|

1

 

 

Рис. 115.

Зависимость оценки

качества

1

I J

функционирования М-автомата

от под-

0,2

OA

0,6

0,8 p,J3

важности

обучения.

 

Рис. 116. Реакции М-автомата в те­ стовой ситуации.

7

9

II

15 .15 17 19 21 25

25 27 Т

3

5

7

9

II

13 15

17 19 21 23 25 27 Т

 

тельные». Адекватными

значениями

Д(Д =

Ппр— Пнпр)

 

будут, следовательно, отрицательное значение на первом

 

участке

и положительное — на втором. Поскольку

автомат

 

вначале воспринимает отрицательные раздражители, можно

 

ожидать, что выработанное им за это время значение А (от­

 

рицательное)

будет сохранять свой знак и в течение

некото­

 

рого времени

б после

перехода

в

область

положительных

 

раздражителей (рис. 114). Время

переходного периода б

 

является

в этих условиях характеристикой

памяти.

Варьи-

 

 

 

 

 

 

 

 

 

 

 

руя Р и

Р, будем подбирать такие

их значения,

при

которых

 

б минимально и, следовательно, значения е максимальны.

 

При всех экспериментах сохраняется равенство

Р =

р, зна­

 

чения остальных параметров обучения соответствуют основ­

 

ному варианту.

 

 

 

 

 

 

 

 

Результаты эксперимента приведены на рис. 115. Видно,

 

что оптимальные значения коэффициентов принадлежат об­

 

ласти 0,6 -т- 0,7. Однако но условию (9.19) нижняя

граница

352

их значений

составляет

примерно

 

0,8.

Поэтому

примем для

Соседние файлы в папке книги из ГПНТБ