Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Автоматы и разумное поведение. Опыт моделирования

.pdf
Скачиваний:
14
Добавлен:
25.10.2023
Размер:
17.04 Mб
Скачать

Пс

> П е

. СУТ выделяет i-модель с, и последователь­

ность

(а,

Ъ, с) оказывается воспроизведенной правильно.

Подробный анализ процессов воспроизведения последо­ вательностей М-автоматом является темой отдельного иссле­ дования [61]. Операции (8.11) реализуются специальным алгоритмом Bas.

Bud алгоритм ускорения действий — задает М-автомату «установку» па выполнение действий, повышает его «двига­ тельную активность». Из описания работы автомата, приве­ денного в § 2 настоящей главы, можно заключить, что воз­ можны такие режимы его функционирования (определяемые совокупностью воспринятых ситуаций, состоянием сферы оценок и т. п.), при которых в течение длительного времени не выполняются условия действия. В свободной интерпрета­ ции это означает, что автомат «слишком долго думает» перед выбором шага. Такие режимы представляют определенный интерес, так как дают материал для изучения и оценки ра­ циональности «хода мышления» автомата. В связи с этим, однако, существенно возрастают затраты машинного време­ ни, что затрудняет исследование собственно двигательного поведения. Следовательно, целесообразно ввести алгоритм, ускоряющий выбор действия в необходимых случаях.

Алгоритм выполняет следующие операции: 1) сравнива­ ет ситуацию, существующую в блоке восприятия в момент t, с ситуацией, существовавшей в момент t — 1; 2) определяет меру совпадения тп3 обеих ситуаций так, что 0 ^ ms ^ 9. При полном совпадении ситуаций т3 = 9, при полном не­ совпадении — пг3 = 0; 3) увеличивает возбужденность i-мо­ дели «желание действовать» (Tljd) на величину Д;-<г:

П)„ : = U]d + Ajd = n j d + mjla,

 

(8.12)

где

Пи — максимально

возможная добавка

(П<г =

const);

4)

запоминает ситуацию, существующую в блоке восприятия

в момент t. Действие

алгоритма сводится,

таким

образом,

к следующему. Если в течение нескольких тактов М-автомат не совершает действий и, следовательно, воспринимаемая им ситуация не меняется, то возрастает величина возбуждения Ujd. Это приводит к увеличению возбуждения i-модели дей­ ствий, что, в свою очередь, приближает момент выполнения условий действия. Аналогичный процесс происходит и в тех случаях, когда выполнение действия не ведет к изменению

ситуации, что возможно в средах с регулярным

расположе­

нием раздражителей.

 

Вш алгоритм формирования i-моделей

ситуаций —

обеспечивает установление адекватных связей между i-моде- лямп раздражителей, составляющих воспринимаемую в мо­ мент t ситуацию, и одной из «резервных» i-моделей.

В момент (такт) восприятия ситуации описываемый алго­ ритм определяет свободную (не связанную с другими) i-мо­ дель первого уровня блока памяти ситуаций и приписывает ей определенную, задаваемую заранее возбужденность ГЬ». Далее, при работе блока установления связей A r между этой i-моделью и i-моделями раздражителей устанавливаются необходимые связи. В случае, если резерв свободных i-моде­ лей исчерпан, алгоритм определяет среди i-моделей первого уровня блока памяти ситуаций такую i-модель, которая наи­ более слабо связана с остальными, уничтожает все направ­ ленные к ней н от нее связи (устанавливая нулевое значе­ ние их проходимости) и приписывает ей возбужденность Usit. Через каждые к (к > 1 и заранее задано) тактов ана­ логичные операции выполняются для i-моделей второго уров­ ня блока памяти ситуаций.

В0 — алгоритм задержанного обучения — обеспечивает установление адекватных связей между i-моделямп ситуаций и действий. Пусть в момент t М-автомат находится в пекоторой ситуации St и выполняет шаг, переводящий его в дру­ гую ситуацию. В этот момент в М-сети автомата имеется i-модель, соответствующая ситуации St. Обозначим помер этой i-модели nsit. Номер i-модели шага, выполненного в мо­ мент t, обозначим ngou. В момент t + 1 описываемый алго­ ритм, используя запомненные значения nsit и ngou, увели­ чит возбужденность соответствующих i-моделей на некото­ рую постоянную заранее заданную величину. В результате по формулам (8.8) будет установлена связь Rngo\i, паи. При этом, если воспринятая в момент t + 1 новая ситуация со­ держит фактор наказания (поощрения), то тормозный (уси­ ливающий) компонент связи Rngou, nsit будет преобладаю­ щим. Таким образом, в М-сети окажется зафиксированной информация о том, что «в ситуации типа nsit не следует (следует) выполнять шаг ngdu».

В ряде случаев, однако, новая ситуация может не содер­ жать факторов реакции, тогда ее «эмоциональная оценка» вырабатывается с задержкой в ходе пересчетов сети. Пусть в момент t выполнен шаг ngou, а следующий шаг выполня­ ется в момент t + п, причем п > 1. В этом случае в момент t + 1 будет установлена связь Rngou, nsit, проходимости ко­ торой отражают текущее состояние центров Пр и НПр. По­ следнее запоминается, и в течение последующих тактов про­

изводится сравнение

значений параметра А' + А при к = 2,

3,..., п со значением

Д ( + 1 . Если

абсолютное

значение раз­

ности

A ' + h — A ' + 1 превосходит в

некоторый

момент t + к

(1 <

к < п) заранее

задаваемый

порог, то, в зависимости

от знака разности, изменяется значение тормозного или уси­ ливающего компонента связи Rngou, nsit. После выполнения

в момент t + п следующего шага описанные процессы по­ вторяются.

B V P алгоритм ограничения количества связей — введен

сцелью уменьшения машинного времени счета программы.

Всвязи с ограниченной емкостью ОЗУ существует огра­ ничение и на количество связей между i-моделями сети, так

что М-сеть не может содержать более чем sm

связей.

В то же время очевидно, что чем меньше

проходимости

Гц и Tij связи Rn, тем меньшее влияние оказывает Rij на функционирование М-сети. Поэтому представляется целесо­ образным введение числовой переменной gvs с тем, чтобы

при выполнении условий

r\-7

< gvs и r/3- < gvs

описываемый

алгоритм исключал связь

Ду

из рассмотрения, т. е. выпол­

нял операцию

В!ц :~ 0.

 

 

 

 

Алгоритм

построен так, что количество связей

М-сети

в любой момент

времени

(«m) не превышает

максимально

допустимого (sm).

Для этого

в начале каждого

такта

вели­

чина gvs вычисляется следующим образом:

 

 

gvs1:— gvs1'1 + kv

, 1 .1-1 ,

 

(8.13)

 

 

sm sm

 

 

 

 

где kv — масштабный коэффициент.

 

 

Таким образом, при увеличении числа связей в

М-сети

в первую очередь будут исключаться из рассмотрения связи с наименьшей проходимостью.

B r алгоритм рандомизации возбуждений — вводит слу­ чайный компонент в распределение возбуждений М-сети. Содержательно такой компонент отражает влияние на функ­ ционирование модели факторов, не учтенных при моделиро­ вании. На каждом такте работы М-автомата алгоритм формирует последовательность (длиной меньше пли много меньше числа i-моделей сети) случайных чисел, с помощью которых вычисляется количество случайно возбуждаемых i-моделей, их номера (Ri) и величина добавочного возбуж­

дения

(ЯП). Далее для каждой из возбуждаемых

i-моделей

выполняется

операция

 

П ! и : = П'ж +

ЛП.

(8.14)

В алгоритме использован стандартный датчик случайных

чисел

g(0 < | < 1) с равномерным законом распределения.

Вг

— алгоритм формирования реакций среды в

«особых»

ситуациях — введен с целью создания условий, удобных для исследования некоторых процессов обучения М-автомата. Используется при работе автомата в простых средах. Особой является такая ситуация, в которой одно (произвольно вы­ бираемое экспериментатором) действие из множества воз-

Подпрограмма 5

 

Подпрограмма

Определить

рас­

 

Восприятие

стояние Id до

chgou:=chgou+1

ситуаций Av

ближайшего ори­

 

 

ентира

 

 

 

Определить до­

Нет

"sit

пустимое число

 

шагов-norm

до

 

 

ориентира

 

 

 

изменить

возбуждение [-мо­

 

дели чувства „близости цели" 8 зави­

 

симости

от Id и

(ld-rast)

 

Нет

/

Есть ли

\

рядом целевая

 

 

V

ячейка ?

/

Да

•^chgou <погт

Да

Нет

Подпрограмма 3

rast:= Id

Возбудить i-модель сле­ дующего этапа плана

Возбудить I-модель отрицательных эмоций

i-модели этапа плана

Передать управление программе перестрой­ ки плана

chgou:=0,

avch:=0

avch:~a¥ch+l

- 'avch>pravr

Возбуждение i-моделей отрицательных эмоций выше допустимого предела ?

\Нет

Рис. 56. Обобщепиая блок-схема подпро­ граммы 2 (восприя­ тие и взаимодействие с планом).

Вг

Рис. 57. Обобщенная блок-схема подпрограм­ мы 3 (пересчет возбу­ ждений, установление и проторение связей).

Подпрограмма 3

можных действий автомата считается запрещенным (разре­ шенным). При выполнении в особой ситуации запрещенного (разрешенного) действия производится «наказание» («поощ­ рение») автомата путем добавочного возбуждения i-модели НПр (Пр). Имеется возможность одновременно с наказа­ нием или поощрением изменить местоположение автомата в среде.

 

Информация, содержащая описание особых ситуаций, пе­

 

речисление

разрешенных

и запрещенных в них

действий,

 

а также указания о виде и степени наказаний и поощрений,

 

составляется экспериментатором и является исходной для

 

описываемого алгоритма. При работе автомата

алгоритм

 

сравнивает воспринимаемые ситуации с описаниями особых

 

ситуаций,

выполняемые

в особых

ситуациях

действия —

 

с разрешенными и запрещенными, а также реализует по за­

 

данным правилам операции поощрения и наказания. Под­

 

черкнем еще раз, что информация об особых ситуациях и их

 

свойствах ни в каком виде в М-автомат заранее не вводится..

 

Содержательно она описывает присущие среде свойства, свя­

 

занные не с отдельными объектами, а с их определенными

 

совокупностями.

 

 

 

 

 

 

 

Программная реализация М-автомата. М-автомат реализо­

 

ван в виде программы, содержащей пять основных подпро­

 

грамм.

 

 

 

 

 

 

 

 

Подпрограмма

1 содержит команды

ввода

информации,

 

и ряд подготовительных операций.

 

 

 

 

 

Продпрограмма

2 состоит из алгоритмов восприятия, вы­

 

числения функции цели и некоторых вспомогательных. Кроме-

 

того, сюда включены алгоритмы, представляющие план дей­

 

ствий и реализующие работу систем, следящих за выполне­

 

нием плана. Обобщенная блок-схема этой подпрограммы при­

 

ведена на рис. 56, где использованы условные

обозначения

 

алгоритмов,

введенные

ранее.

Значения

переменных:

 

chgou — счетчик

шагов;

avch — счетчик

шагов,

выполнен­

 

ных после отказа

от построенного плана; prav — максималь­

 

но допустимое значение avch. Смысл остальных

переменных.

257

ясен из схемы.

 

 

 

 

 

 

9 3—1176

 

Подпрограмма 3

 

 

 

 

|

Подпрограмма 5

J

 

Рис.

 

58.

Обобщенная

 

 

 

 

 

 

 

 

 

 

 

 

 

 

блок-схема

подпрограм­

Определить коэффи­

 

 

 

 

 

 

 

 

 

 

 

 

мы 4

(СУТ).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

циенты ос,,..., осп

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

изменения возбумден-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ностей и

характе­

 

 

 

 

Нет

 

 

 

 

 

 

 

 

 

 

 

ристик

i-моделей

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

подсистемой СУТ-2

 

йа

 

Ьт?

 

 

 

 

 

 

 

 

 

 

 

 

X

 

к

 

 

i-M+l

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Определить номера

 

 

 

 

 

йа

<м?>

 

 

 

 

 

 

блокоб, Выбираемых

 

 

 

 

 

 

 

 

 

 

 

 

СУТ-2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i:=I

 

 

 

 

 

 

 

JL

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Определить коэффи­

 

 

 

 

 

Вычислить значения

 

 

 

 

 

циенты Р„...,рт

 

 

 

 

 

Возбужденностей и

 

 

 

 

 

изменения возбуж-

 

 

 

 

 

характеристик

 

 

 

 

 

 

денностей и харак­

 

 

 

 

 

L - модели j с уче­

 

 

 

 

 

 

теристик I-моделей

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

том

a,,...,anufilr..,pm\

 

 

 

 

 

i-го блока

подсис­

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

темой CUTi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

Скорректировать

 

 

 

 

Определить номера

 

 

 

 

 

 

коэффициенты Р„...,ра

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

делей ,выбираемых CUTL

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

/

Блок I

f

Скорректировать

 

 

 

Скорректировать

 

 

 

\выбран

сут-гу~*^

коэффициенты tt„...,oc„

 

коэффициентыР„...,рт

 

 

 

 

 

Да

 

 

 

 

 

 

<

 

 

 

 

 

 

 

 

Был ли выбран блок i N.

Нет

 

 

 

 

 

1-Модель j

 

\

 

 

 

в

предыдущий такт ?

/

 

 

 

 

 

Выбрана СУТ^/

 

 

 

<

 

Да

 

 

 

 

 

 

 

 

 

 

Нет

 

 

•Скорректировать коэф-

 

 

 

 

 

Была ли Выбрана

 

 

 

 

фициенты

ос,,..., осп

 

 

 

 

 

 

i-модель j в предыдущие

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

такт ?

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I Да

 

 

 

 

 

 

 

 

 

Подпрограмма

3 включает

в себя все основные

операции

 

 

над М-сетыо п содержит алгоритмы пересчета

возбуждений,

 

 

установления и проторения связей и ряд вспомогательных.

 

 

Ее обобщенная блок-схема приведена на рис. 57.

 

 

 

 

Подпрограмма

4 содержит

алгоритм А:ут,

реализующий

 

 

функции

системы

усиления — торможения.

Обобщенная

 

 

блок-схема

 

подпрограммы

приведена

на рис. 58.

В схеме

 

 

использованы переменные,

 

обозначающие:

h — количество

i-моделей в i-м

блоке М-сети; Ът — количество блоков

М-сети.

 

Подпрограмма

5 содержит алгоритм выбора действия и

эффекторные алгоритмы. Ее блок-схема приведена на рис. 59. Между подпрограммами установлены отношения, показан­ ные на блок-схеме рис. 60.

Подпрограммы были написаны на входном языке транс­ лятора АЛГОЛ-БЭСМ. Рабочая программа содержит около 110008 команд ЦВМ БЭСМ-6.

Машинное время, необходимое для просчета одного так­ та работы модели, зависит в основном от количества связей между i-моделями сети и в меньшей степени — от количе­ ства i-моделей. Для основного варианта модели оно состав­ ляет 30—50 сек. Количество i-моделей и связей М-сети ав­ томата, а также размеры всех остальных массивов числовых данных, с которыми оперирует программа, ограничены (в сумме) объемом оперативной памяти машины БЭСМ-6.

Программа позволяет произвольно разбивать М-сеть на сферы или блоки. Поэтому с помощью программы может быть реализовано множество М-автоматов, отличающихся друг от друга количеством i-моделей в различных сферах (блоках). Для обозначения разных вариантов М-автомата введем специальную символику. Перечислим еще раз блоки М-сети автомата: блок приема информации (Р); блок поня­ тийных обобщений (П); блок памяти ситуаций (С), блок эмоций (Э), блок желаний (Ж) и блок действий (Д). Пусть правый нижний символ при букве, соответствующей назва­ нию блока, обозначает количество i-моделей в блоке, а пра­ вый верхний — количество уровней его организацпи. Зафик­ сируем порядок написания буквч Р, П, С, Э, Ж, Д. Если автомат является вырожденным, т. е. не включает в себя алгоритм ^сут, после буквы Д будем ставить 0. Если в ав­ томате реализована одноуровневая СУТ, вместо 0 будем ста­

вить 1, а если двухуровневая,— 2. Таким образом,

конкрет­

ный вариант М-автомата

описывается выражением

типа

Р & п а д э ^ Н Й Д Й Х .

 

 

 

 

(8.15)

Подпрограмма 4

 

 

 

 

 

 

Да

 

Усподия

Нет

 

 

 

 

 

 

 

действия

рамма5

 

 

 

 

 

 

дыполнены?

 

 

 

 

 

An

 

А,

t

Подпрог­ Рис.

59.

Обобщенная

блок-

 

 

схема подпрограммы 5 (вы­

D

 

4,

рамма 2

 

бор

и

реализация

дейст­

Подпрограмма 5

 

 

вий).

 

 

 

 

9*

 

 

 

 

 

 

 

 

 

Рис. 60. Обобщенная блоксхема программы (1—5 — номера подпрограмм).

Глава 9

ИССЛЕДОВАНИЕ

ЭЛЕМЕНТАРНЫХ

ПРОЦЕССОВ

ОБУЧЕНИЯ

260

Например, выражение Рй^боСзоЭ^ЖшДзг^ описывает М-ав­ томат, блок приема информации которого содержит 45 г-мо- делей раздражителей, блок понятийных обобщений 160 i-моделей, организованных в четыре уровня, и т. д., с двух­ уровневой системой усиления — торможения.

Выражение типа (8.15) будем называть формулой М-ав­ томата.

Перейдем теперь к описанию экспериментов, проведен­ ных с моделью двигательного поведения.

Экспериментальное исследование модели проводилось в два этапа. Первый связан с изучением поведения модели в ряде простых ситуаций — тестов. Основная задача этого этапа состояла в псследованпи элементарных процессов обучения.

Элементарными (на уровне

описания,

введенном

в предыду­

щей главе) будем

называть

процессы

обучения,

связанные

с

установлением

в М-сети

новых связей

(функции (8.8))

и

изменением проходимостей имеющихся

связей

(функции

(8.9), (8.10)). Содержание работ сводилось к подбору зна­ чений существенных переменных в выражениях, задающих систему функций (9.33). Набор значений этих переменных определяет рабочий режим модели. Специфичным для этого этапа было то, что тестовые эксперименты проводились с простыми автоматами. Их упрощали так, что в каждом из тестов на работу автомата оказывали влияние по возможнос­ ти лишь те из переменных, значения которых подбирались в данном тесте. Дополнительной задачей первого этапа ис­ следований являлась демонстрация некоторых, интересных в практическом плане, возможностей, реализуемых простыми автоматами предложенного типа. Второй этап исследова­ ния связан с рассмотрением поведения модели в сложных средах.

Остановимся более подробно на структуре работ первого этапа. Выбор значений параметров в выражениях, задаю­ щих систему (9.33), проводился здесь различными способа­ ми. Так, оказалось возможным заимствовать некоторые зна-

kJkQ

чения из результатов проведенных ранее работ по исследо­ ванию М-автомата РЭМ. Для ряда параметров были опре­ делены допустимые области их значений на основе анализа ограничений, вводимых естественным образом при рассмот­ рении свойств соответствующих процессов. Наконец, для оп­ ределения допустимых значений некоторых параметров были проведены тестовые эксперименты. Адекватность выбранных значений проверялась также путем проведения тестов, боль­ шая часть которых имела демонстрационный характер.

§

1. Выбор значений параметров

пересчета

и

установления

связей

 

В результате исследования М-автомата РЭМ установлены оптимальные значения ряда параметров М-сети и обслужи­ вающих ее алгоритмов. Некоторые из этих значений мы бу­ дем использовать в дальнейшем (табл. 7).

Следует отметить, что выбор значений порогов возбуж­ дения G, для i-моделей должен осуществляться отдельно в каждом конкретном случае. Задание 9* определяет общую логику переработки информации сетью и является одним из способов ее предорганизации. Возможности этого способа, глубоко исследованные для сетей из простых формальных нейронов, для случая рассматриваемых нами М-сетей будут продемонстрированы на конкретном примере несколько ниже.

Для того чтобы приступить к выбору параметров установ­ ления связей, рассмотрим на примере выражения (8.8а) их содержательное значение. Как указывалось ранее, установ­

ление связи между i-моделями i н

j возможно в

случае,

когда

П ' > О, П'-> 0 и

выполнено

условие (8.7).

Имея

в виду

это условие, сумму

Пг + Ц;

можно назвать

«разре­

шающим» фактором установления, поскольку выполнение неравенства

(IU + П1) > 2Па

(9.1)

указывает на то, что установление связи в момент t разре­ шено. Соответственно, параметр кй определяет «базовое» зна­ чение проходимости устанавливающейся связи, т. е. значе­ ние, зависящее только от «разрешающего» фактора и не скорректированное «эмоциональным» фактором происходя­ щего акта обучения. Упомянутая коррекция задается значе­ нием параметра ki. Очевидно, отношение определяет значимость «эмоционального» фактора в обучении. Так, при постоянных значениях возбужденностей i-моделей увеличе­ ние ki повышает «чувствительность» системы к поощрениям. Аналогичные рассуждения могут быть проведены относитель­ но выражения (8.86).

Пусть

 

к0 = Akv к0 = Bkv

(9.2)

Выбирая различные значения А и В, будем задавать кон­ струируемой системе различные «характерологические» свой­

ства. С целью упрощения дальнейших

расчетов примем

А = В=1.

 

 

(9.3)

Тогда с учетом (9.3) функция (8.8)

может быть записа­

на в виде

 

 

 

г\} =

к0

(П{ +

П] +

А( ),

(9.4а)

rh =

к0

(П{ +

П) -

А').

(9.46)

Потребуем, чтобы процесс установления удовлетворял следующему условию. Если в момент t возбужденности П,- = П с р , П) = П с р и А' — О и если в момент t + 1 возбуж­ денность n j + 1 = П о р , то после пересчета по установившейся

вмомент t связи В.1ц должно выполняться условие

Интуитивным обоснованием этого условия являются та­ кие соображения. В процессе устаиовленпя в М-сетп возни­ кают связи, содержащие усиливающие и тормозные компо­ ненты. Дальнейшее обучение сетп связано с изменением этих компонентов в ходе их проторения и затухаппя. Поэто­ му вновь установившаяся связь Rtj должна допускать в бу­ дущем как увеличение, так и уменьшение своих компонентов. Иными словами, только что установившаяся связь должна быть «средней» в том смысле, что при среднем возбуждении i-модели / она должна обеспечивать близкое к среднему возбуждение i-модели i . Близкими к среднему будем счи­ тать значения П,-, лежащие в интервале 0 , 7 П С р ^ П 1 ^ 1 , З П С р .

Т а б л и ц а 7

Название параметра

Коэффициент возбуждения Коэффициент торможения Коэффициент затухания Порог

Минимальное возбуждение i-мо­ дели

Проходимости связей Средняя по времени возбужденность i-моделей

Обозначение

Ооласть

допустимых

 

значении

Кн

30-50

m

0,2

а

0,4—1

9

0—100

 

5

ГЦ, ГЦ

0—1

Пср

100

Соседние файлы в папке книги из ГПНТБ