Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Автоматы и разумное поведение. Опыт моделирования

.pdf
Скачиваний:
61
Добавлен:
25.10.2023
Размер:
17.04 Mб
Скачать

Ситуации

А

с

£

<3

Ситуации

А

с

Рис. 71.

Поиск решения

 

 

 

 

 

 

 

 

Разрешен­

 

X

\

Разрешен­

 

X

автоматом

ные шаги

 

ные шаги

 

и человеком.

Проба 1

 

 

 

 

Проба 16

 

 

 

2

 

 

 

 

17

е

 

 

3

 

 

 

 

18

 

 

4

 

 

 

 

19

 

 

 

5

 

 

 

 

20

 

 

 

6

 

 

ел

 

21

 

 

 

8

 

 

 

23

 

 

 

7

 

 

 

 

22

 

t

 

9

 

 

 

t

?4

 

<=

 

Ю

 

 

 

 

25

 

 

 

11

 

V

 

 

26

 

— < -

 

12

 

 

 

27

 

 

 

13

ЕЕ

 

 

 

28

 

t

 

М

 

 

t

29

 

X

 

15

 

 

 

 

30

 

 

 

 

 

решенное действие, автомат возвращался в подобную ситуа­

 

 

 

цию I класса. Таким образом, чтобы выполнить разрешен­

 

 

 

ные действия во всех ситуациях зоны Т, автомат должен

 

 

 

решить задачу параллельного обучения в четырех ситуациях.

 

 

 

Эксперименты проводились с автоматом, структура кото­

 

 

 

рого изображена на рис. 67. Результаты эксперимента при­

 

 

 

ведены на схеме рис. 71, где одинарные стрелки соответст­

 

 

 

вуют шагам, выполненным автоматом в последовательные

 

 

 

моменты времени, а двойные — человеком

(первые правиль­

 

 

 

ные решения для каждой ситуации обведены). Видно, что

 

 

 

задача решена автоматом за 30 проб.

 

 

 

 

Представляет интерес сравнение поведения автомата с

 

 

 

поведением людей при решении аналогичной задачи. Усло­

 

 

 

вия проведенного нами психологического эксперимента пол­

 

 

 

ностью моделировали условия эксперимента с автоматом.

 

 

 

Испытуемым предъявлялись карты, соответствующие ситуа­

 

 

 

циям А, В, С и Е. Требовалось для каждой ситуации найти

 

 

 

единственную допустимую реакцию, состоящую в «нажима­

 

 

 

нии» одной из восьми условных кнопок, изображение кото­

 

 

 

рых находилось в поле зрения испытуемых. Результаты

 

 

 

проб сообщались испытуемым словами «правильно» и «не­

 

 

 

правильно». Порядок предъявления карт-ситуацпй соответ­

 

 

 

ствовал схеме перемещения автомата в среде рис. 70. Экс-

273

 

 

перимент

проводился с группой из 10 взрослых испытуемых.

!

 

г—

 

 

 

 

 

 

 

 

 

 

Рис.

72. Обучающая

 

А x i

X

 

 

 

 

 

X

 

 

X

 

среда.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7 i

2

: i

 

 

 

 

/

 

F

2

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Задача была решена веемп испытуемыми. Среднее по группе

 

 

количество

проб составило

49,2,

минимальное количество —

 

 

28,

максимальное — 96. В качестве

примера

на рис. 71 двой­

 

 

ными стрелками изображены реакции испытуемого Т. Из

 

 

эксперимента видно, что поведение автомата при решении

 

 

задачи параллельного обучения входит в класс поведений

 

 

людей-испытуемых при решении ими аналогичной задачи.

 

 

Следует отметить, что в тех случаях, когда испытуемые за­

 

 

трачивали для решения задачи большое число проб, наблю­

 

 

дались либо нарушения инструкции (например, попытки об­

 

 

наружить

закономерную

связь между

номерами

ситуаций

 

 

и правильных реакций), либо феномен забывания уже пай-

 

 

денных правильных реакций. Эффект затягивания обучения

 

 

легко достигается в автомате как увеличением

амплитуды

 

 

помех

(случайных

возбуждений)

 

так

и

введением операто­

 

 

ров затухания

связей.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

«Пороговая логика» в М-сетп. Рассмотрение возможностей

 

 

предпрограммирования М-автоматов путем заданпя парамет­

 

 

ра

9 (см. функцию

(8.5))

целесообразно провести в данном

 

 

разделе, поскольку оно связано в основном с проведением

 

 

специального демонстрационного

теста.

 

 

 

 

 

 

 

 

 

Придавая

определенные

значенпя

 

параметрам

М-сетп

 

 

частности,

для

всех

 

i

а,- =

0,

KBi ^

40,

Пщах =

1,

 

 

Пш щ =

0,

обучение

связей

отсутствует),

можно привести

ее

 

 

к виду, аналогичному сетям из формальных нейронов. Пока­

 

 

зано, что при соответствующем подборе порогов и конфигу­

 

 

рации связей сеть из формальных нейронов в состоянии

 

 

реализовать любую систему логических высказываний. По

 

 

аналогии можно предположить, что подобное утверждение

 

 

приложимо и к М-сетям. Спецификой последних является то,

 

 

что требования к их организации могут быть сформулиро­

 

 

ваны на содержательном

уровне,

 

т. е. в конкретном

языке

 

 

решаемой

задачи. Продемонстрируем это па примере.

 

 

 

 

 

Пусть автомат расположен в ячейке А среды, изображен­

 

 

ной на рис. 72. Участок F среды

 

содержит

раздражители

1

 

 

п 2 группы «пища». Участок N не содержит никаких раз­

 

 

дражителей. Пусть среда продолжена от места обрыва на

 

 

рисунке сколь угодно далеко, причем участки F и N чере­

 

 

дуются. Автомат передвигается из ячейки А, постоянно вы­

 

 

полняя действие-шаг (—>-). Участок F может быть пройден

274

 

им за 3 шага, участок N — за п шагов. Пусть автомат

«ощу-

щает» голод, т. е. существует одноименная i-модель, возбуж­ дение которой после каждого шага увеличивается на по­ стоянную величину d. Кроме действий-шагов автомат может выполнять действия «есть» и «нести». Предполагается, что «переживание» голода вызывает чувство «неприятно», т. е. возбуждается i-модель НПр. Необходимо построить автомат так, чтобы его поведение было оптимальным, т. е. сумма возбуждений НПр за время прохождения каждой пары уча­ стков F и N была минимальной. Из интуитивных соображе­ ний ясно, что автомат должен полностью использовать «ре­ сурсы среды», т. е. «съедать» обе «пищи», находящиеся в каждом из участков F. Следовательно, «пища 1» должна быть «съедена» в той ячейке, где она расположена, а «пи­ ща 2» перенесена в участок N и «съедена» после выполне­ ния t шагов от места расположения «пищи 1». Учитывая линейный характер зависимости возбужденности i-модели «голод» от числа шагов, запишем выражение для суммы возбуждений НПр (ЕНПр):

4-i2 d-4-(rc + 2 - i ) 2

d

= 2 H n P ,

(9.6)

или после преооразовании

 

 

 

^ - ( n + 2 ) i = - ^

™ ^ - ^

(

9 J

)

d

 

2 •

 

Правая часть равенства минимальна при значении t, об­ ращающем в нуль первую производную левой части, отсю­ да оптимальное значение £ 0 пт числа шагов между последо­

вательными

 

выполнениями

действия «есть» определяется

как 'опт =

п

+ 2

 

— ^ — "

 

Таким образом, оптимальность любого варианта поведе­

ния

автомата

может быть

оценена по значению критерия

Y =

| i _ i

o n

T

| .

(9.8)

При у =

0 поведение оптимально.

i-Модели „пища"

 

 

 

 

о о о о о о о о ,

 

 

„Waeu"

 

 

 

 

 

i о о о о

„Голод"

 

 

 

i-Модели действий

 

 

 

 

 

 

 

 

 

О „Нести"

Рис. 73. М-сеть

 

 

 

 

 

автомата.

Т а б л и ц а 9

 

 

 

Название

 

Параметры /-моделей

 

 

 

 

/-моделей

"п

а

в

 

«Голод»

30

0

1

«Жадность»

20

0,9

25

«Есть»

50

0

90

«Нести»

60

0

70

Шаги

30

0

1

d — var, «опт = 13

Исследовался автомат, структура

которого

изображена

на рис. 73. Формула автомата: Р9

р — вспомога­

тельная, постоянно возбужденная

i-модель. В сферу жела­

ний введена i-модель «жадность»,

возбуждение

которой яв­

ляется интегральной по времени оценкой «переживания»

голода. Проходимости всех связей: Гц = 1, щ = 0. Обуче­ ние отсутствует. Параметры i-моделей приведены в табл. 9. Автомат помещался в среду с п — 23 п вел себя следующим образом. Первый участок F автомат прошел, не выполнив

действий «есть»

или «нести», поскольку i-модель «голод»

была возбуждена

слабо. Во втором участке F была «съеде­

на» «пища 1». В

третьем участке F также была «съедена»

«пища 1» и перенесена в участок N «пища 2», однако зна­ чение у превысило 12, что указывало на неудачный выбор параметров. Оптимизация автомата проводилась путем под­ бора значения параметра d, что эквивалентно изменению порога i-моделей «есть» и «нести». Полученная эксперимен­ тальная зависимость приведена на рис. 74. Настройку авто­ мата можно провести также путем изменения порога i-моде­ ли «жадность». В последнем случае изменяется и длина на-

Рис. 74. Влияние величины порогов на поведение М-автомата.

чального периода обучения. Таким образом, задание порогов является удобным способом предварительной организации «внутренней логики» переработки информации М-автоматов.

§ 3. Выбор значений

параметров проторения

связей.

Задача избегания

наказаний

 

Определим область допустимых значений параметров

kz и кг

в выражении (8.10) при условии отсутствия затухания свя­

зей, т. е. если

В ~ В = 1 и, следовательно,

t+i

t

 

,ч«

= r\h

(9.9)

Рассмотренный выше процесс установления связей обес­ печивает обучение автомата в тех случаях, когда оказыва­ ется достаточным сравнительно небольшое (в пределах 0,7— 1,3 начального значения) изменение возбужденности t'-моде- лей. Характерным здесь является также обучение «с первого предъявления» — результат каждой пробы фиксируется связью и дальнейшей коррекции не подвергается. На прак­ тике, однако, обучение живых организмов «с первой пробы» встречается весьма редко. Более того, оно весьма редко яв­ ляется целесообразным, поскольку естественная среда, как правило, предъявляет организму случайные последователь­ ности воздействий. Обучение должно, таким образом, обес­ печивать выделение статистических закономерностей в среде. Для этого необходимо, чтобы за каждым отдельно взятым актом обучения следовало лишь малое изменение в связях (коэффициентах, параметрах) системы. В М-автоматах такой процесс обеспечивается функцией проторения.

При исследовании процессов обучения животных и чело­ века часто используют эксперименты, связанные с обучени­ ем уклонению от боли или избеганию наказаний [13]. Усло­ вия экспериментов такого рода обладают рядом важных для нас свойств. Прежде всего, такие эксперименты предпола­ гают многократные предъявления обучающего воздействия, в ходе которых испытуемый улучшает свое поведение по­ степенно. Далее, однородность применяемых раздражителей и их характер (обычно используются биологически важные раздражители) облегчают испытуемому запоминание ситуа­ ций, так что в экспериментах такого рода забыванием обыч­ но пренебрегают. Имея в виду указанные свойства, выберем задачу обучения избеганию наказаний в качестве тестовой для настройки М-автомата.

Выбор параметров проторения проведем следующим обра­ зом. Построим вычислительную модель соответствующего экс­ перимента, используя в качестве «испытуемого» М-автомат

 

с

неопределенными

параметрами

и /сг. Далее,

применяя

 

данные относительно параметров процесса обучения, извест­

 

ные в психологии, а также учитывая вводимые естествен­

 

ным образом ограничения, определим такую область значе­

 

ний &2 и

&2,

в которой поведение

автомата

является удовле­

 

творительным. В дальнейшем будем считать эту область

 

областью допустимых

значений параметров.

 

 

 

 

 

 

Методики экспериментов по обучению избеганию наказа­

 

ний хорошо разработаны. Мы выбрали

следующую

их

мо­

 

дификацию.

Автомат

 

помещался в среду

(10X10

 

ячеек),

 

которая случайным образом заполнялась раздражителями из

 

группы «опасность». Всего в среде располагалось 66 раздра­

 

жителей

так,

 

что

вероятность

попадания

каяедого

из

них

 

в любую

пз ячеек

среды составляла 0,66. В этой среде авто­

 

мат выполнял случайные шаги. Автомат включал в себя

 

девять i-моделей раздражителя «опасность», девять

i-моде­

 

лей действий-шагов и i-модели Пр и НПр (формула

Р9Э2Д91).

 

Связи в исходном состоянии не задавались. Перед каждым

 

пересчетом i-моделям действий-шагов приписывались слу­

 

чайные значения

 

и

Ei (см.

8.5)

так,

что

математическое

 

ожидание

величины П'

для всех i-моделей шагов ПС р =

100.

 

Таким образом, вероятность выполнения любого действия-

 

шага в конце

такта,

т. с. после работы алгоритма

 

ЛСУТ, со­

 

ставляла 7э. Если в процессе случайных блужданий

автомат

 

занимал ячейку, в которой находился раздражитель, то i-мо­

 

дели НПр приписывалось возбуждение

(50 усл. ед.), и

меж­

 

ду i-моделью шага, приведшего в занятую ячейку, и соот­

 

ветствующей i-моделью раздражителя устанавливалась связь

 

с преимущественной тормозной компонентой. При повторе­

 

ниях описанной ситуации связь проторялась. После ряда

 

проторений тормозные компоненты связей обеспечивали та­

 

кие воздействия на i-модели шагов, что, несмотря на случай­

 

ные возбуждения последних, М-автомат не выполнял шагов,

 

переводящих его в занятые ячейки. Таким образом, автомат

 

оказывался обученным

избеганию

объекта

«опасность».

 

 

Для того чтобы получить числовые характеристики ис­

 

следуемого процесса, наложим ограничения на время обуче­

 

ния автомата. Потребуем, чтобы обучение правильной реак­

 

ции на один раздражитель, например «опасность справа»,

 

требовало

3—5

повторений ошибочного

шага — это

пример­

 

но соответствует количеству необходимых предъявлений

 

(проб) для обучения высших животных. Установим, сколько

 

всего случайных шагов должен делать автомат в среде, что­

 

бы каждое из возможных действий было неправильно вы­

 

брано 3—5 раз. Обозначим это

число шагов через

/V. Тогда

 

нас не будут интересовать автоматы, обучающиеся более чем

278

за

N шагов,— они

будут являться

«неудачными»

варианта-

ми. Дальнейшее рассуждение проведем, исходя из требова­

ния, чтобы каждый из шагов быв выбран ^ ' "оде"= ^ ^ а з '

Представим задачу в теоретико-вероятностных терминах. Один такт работы автомата есть испытание. За одно испы­ тание выбирается один из девяти возможных шагов. Коэф­ фициенты затухания в выражениях (8.5) и (8.9) для данного автомата приняты равными нулю, следовательно, испыта­ ния можно считать независимыми. Выбор одного i-ro дейст­ вия есть событие Аь Поскольку выбор каждого действия за одно испытание равновероятен, проведем рассуждение отно­ сительно одного какого-либо действия. Тогда событие А — выбор этого действия, событие А — выбор любого другого. Очевидно, вероятность наступления события А

р ( А ) = р =

4 - ,

(9.10)

а события А —

 

<7(Л) = д =

1 - р = - | - .

(9.11)

Сформулируем задачу следующим образом. Требуется оп­ ределить такое число испытаний п, чтобы с заданной вероят­ ностью г произошло не менее т событий А, вероятность на­ ступления каждого из которых в одном испытании равна р. Потребуем, чтобы г = 0,9. Требование получить не менее б выборов одного и того же шага равносильно неравенству

6 < т < о о .

(9.12)

Для решения задачи применим интегральную теорему Муавра — Лапласа. Используя известные методики (например [20, стр. 219—222]), получим п = 88.

Поскольку с увеличением п вероятность получения не менее 6 выборов одного шага может лишь возрасти, окон­ чательно получим п ^ 88. Примем N = 90.

При исследовании автомата будем в качестве показателя степени его обученности L рассматривать количество нака­ заний, полученных им за 30 последовательных шагов в сре­ де. С целью получения статистически достоверного описания

динамики обучения будем вычислять L как

среднее по

20 различным случайным средам. При случайном

блуждании

автомата без обучения математическое ожидание значения L М (L) = 30 • 0,66 ^ 20.

Будем считать обучение автомата удовлетворительным,, если за время, не превышающее N = 90 тактов, величина М(Ь) будет уменьшена не менее чем на порядок, т. е.

Мфинальное {L) •< 2.

0,2

OA 0,6 0,8 Hf!0's

Рпс. 75. Кривые обучения М-автомата.

Рис. 76. Область допустимых значений параметров проторения связей (.4 — рабочие значения параметров).

Наложим ограничения на величины kz и kz. Ограничение kz сверху можно получить, потребовав, чтобы за 6 повторе­ ний шага величина г осталась меньшей или равной 1 (см. табл. 7). Поскольку значение коэффициента установления

выбрано

ранее

и

ко = 2,5 • 10_ 3 , то

значение г после

уста­

новления

(по 8.8)

составляет гН ач =

0,625. Далее, в течение

пяти проб эта связь проторяется, так что, подставляя

чис­

ленные значения,

получаем

 

 

?=6

= гиач

(1 +

Ю 4 2 ) 5 .

(9.14)

Из условия r i = e

^

1 находим

 

 

к2 <

 

,—5

 

 

 

(9.15)

1 • 10"

 

 

 

Легко видеть, что существует задача, в определенном смысле обратная рассмотренной,— задача «обучения овла­ дению»; в ней рассматривается поведение автомата в среде, содержащей раздражители группы «пища», так что в слу­ чае, если автомат переходит в ячейку, занятую этим раздра­ жителем, осуществляется его поощрение, т. е. возбуждается i-модель Пр. Проведенные выше рассуждения с очевидными изменениями справедливы и для такой обратной задачи. Аналогичным способом получим ограничение сверху и для г.

 

Поскольку ко уже

выбрано: ко =

1,5 • 10_ 3 , то

гИ ач =

0,375.

 

В ходе проторения

получаем г 1

= в = гИ ач(1 +

1042)

и из

 

условия г(=8

1 находим

 

 

 

280

к2 < 2,3 • 10"

 

 

 

 

(9.16)

В качестве иллюстрации на рис. 75 приведены усреднен­ ные по 20 средам кривые обучения автомата при разных

значениях к2 и кг. Начальные участки кривых обучения хорошо описываются выражением L = па — коэффици­ ент), так что в логарифмических масштабах кривая обуче­

ния изображается

прямой. Характеристика

обучения

N —

число шагов, сделанных автоматом

до момента выполнения

условия (9.13),— вычисляется как

абсцисса

точки пересече­

ния прямых In L =

a In п и In L =

In 2.

 

 

Перейдем к выбору области допустимых

значений

пара­

метров к2 и кг. На рис. 76 представлено фазовое простран­

ство

параметров.

Цифры

возле

точек

указывают

зна­

чения

характеристики

обучения

N при

соответствующих

значениях параметров. Видно, что условие N ^ 90

выполняется

не

для

всех

точек. Исключив

из

облас­

ти значений,

удовлетворяющих

условиям

(9.15)

и

(9.16),

область, содержащую

точки,

для

которых

N > 90, получим

область допустимых значений параметров кг и кг. На рис. 76 эта область обведена жирной линией. В качестве рабочей вы­ берем точку А, соответствующую значениям Й2 = 1,5-10- 5

жк2 = 0,5-Ю-5 .

§

4.

Выбор

значений

параметров

затухания

связей.

Задача повторения

последовательностей

 

Определим

область

допустимых

значений параметров р

и В в выражении

(8.9).

 

 

 

В исследуемом варианте М-сеть реализует следующие

виды

удержания

следов внешних

воздействий

(памяти):

а)

память

возбуждений — задается

коэффициентом затуха­

ния

возбуждений

а

(см. 8.2); б) память связей — задается

коэффициентами В и В в (8.9). Память возбуждений соот­ ветствует простейшей форме памяти, связанной со временем переходных процессов, и может быть реализована в неадап­ тивных системах [56]. В таких системах прп подаче на вход сигналов, следующих с интервалом, меньшим времени пере­ ходного процесса, реакции системы изменяются в связи с суперпозицией ответов на каждый сигнал. Процессы такого рода в М-сети уже исследованы. Память вида «б» со­ ответствует памяти адаптивных систем, изменяющих свою структуру под действием входных сигналов на время, превы­ шающее время переходных процессов, и, следовательно, спо­ собных к воспроизведению входных сигналов. Здесь мы имеем дело с более сложными формами памяти, соответст­ вующими мнемоническим процессам в высших организмах.

Принято [42, 56] различать кратковременную оперативную и долговременную память человека. Оперативной памяти человека, характеризующейся ограниченным объемом н сравнительно небольшим временем удержания следа, поста­

вим в соответствие память

связей в М-сети. Ее параметры

п исследуются в настоящем

параграфе.

При изучении оперативной памяти часто используется эксперимент по воспроизведению последовательностей сиг­ налов, предъявляемых испытуемому [37]. (Сигналами в раз­ личных методиках служат одно- и двусложные слова, бес­ смысленные слоги и т. п.) В этой области получен важный результат, состоящий в установленпи того факта, что людииспытуемые, как правило, в состоянии безошибочно воспро­ извести предъявленную им последовательность в том слу­ чае, если она содержит не более 7 ± 2 сигналов. Этот резуль­ тат проверен многими исследователями, что позволяет нам выбрать задачу воспроизведения последовательностей в ка­ честве тестовой для настройки М-автомата. Параметры зату­ хания связей выберем следующим образом. Построим вы­ числительную модель упомянутого эксперимента, используя в качестве «испытуемого» М-автомат с неопределенными па­ раметрами В п 6. Далее, определим такую область значений параметров, в которой поведение автомата является удовле­ творительным. В дальнейшем будем считать эту область об­ ластью допустимых значений параметров.

 

 

Известная методика проведения экспериментов по вос­

 

 

произведению последовательностей модифицирована следую­

 

 

щим образом. М-автомат помещался в среду (рис. 77), со­

 

 

держащую «нейтральные» для автомата раздражители. В ка­

 

 

честве исходных выбирались ячейки, отмеченные на рисунке

 

 

символами Ak,...,

Аю.

Автомат

выполнял

10

действий-ша­

 

 

гов

(-*-). В описываемом эксперименте алгоритм Ац

был

 

 

для удобства изменен так, что шаг (-«-) выполнялся «через

 

 

ячейку», так что, двигаясь из ячейки Ац>, автомат последо­

 

 

вательно занимал ячейки, отмеченные на рисунке точками.

 

 

При этом последовательно воспринимались 10 различных

 

 

ситуаций. Если движение начиналось из ячейки

А^(Аг,...,

 

 

Ak),

количество воспринятых за 10 шагов ситуаций состав­

 

 

ляло

соответственно 9 ( 8 , 4 ) .

После

каждого шага

алго­

 

 

ритм Bsit ставил в соответствие воспринятой ситуации един­

 

 

ственную i-модель из сферы «памяти ситуаций» и эта i-мо-

 

 

Рис.

77. Обучающая

среда.

 

 

 

 

 

X

X

X

 

X

Аю А,

 

 

 

 

 

X

 

 

X

As

А,

As

As

 

 

 

 

X

 

 

 

 

 

Соседние файлы в папке книги из ГПНТБ