Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Автоматы и разумное поведение. Опыт моделирования

.pdf
Скачиваний:
61
Добавлен:
25.10.2023
Размер:
17.04 Mб
Скачать

Определим теперь значения ко и к0, обеспечивающие вы­ полнение введенного условия. Используя данные табл. 7,

примем: кя

=

40; т = 0,2; в = 0;

а =

0;

П с р

=

100. Под­

ставляя эти значения в выражение

(8.5)

и имея

в виду за­

пись (9.4), получим выражения для верхней и

нижней гра­

ниц области

допустимых значений

параметров

А:0

и к0: для

верхней границы

 

 

 

 

 

130

 

1

 

 

 

 

 

16-10* " ~

 

 

 

 

 

к0 = е

 

—9,9,

 

 

 

 

(9.5а)

для пижней

границы

 

 

 

 

 

70

 

1

 

 

 

 

 

16 • 10'

'

-

 

 

 

 

 

к0 = е

 

"° - 9 , 9 .

 

 

 

 

(9.56)

Найденная область схематически изображена на рис. 61,о.

Введем

теперь в рассмотрение

влияние

«эмоционально­

го» фактора обучения, которому в функции установления

соответствует переменная А1. Легко видеть, что при Д' >

0

возбужденность

П/ + 1 ,

равная, например, 70, может быть по­

лучена

при меньшем

значении

ка и большем значении

kQ,

чем это имело бы место при

Д' =

0.

Это соответствует

сдвигу

области

допустимых

значений

параметров

на

рис. 61,о вправо. Аналогично, при Д* <

0 область сдвигается

влево. На основании опытов с необучаемой моделью можно

полагать, что

значение Д

в ходе работы М-сети изменяется

в диапазоне

—50 ^ Д ^

50. Не составляет труда получить

выражение типа (9.5) для границ области допустимых пара­ метров в крайних точках этого диапазона. Схема располо­ жения областей в этом случае представлена на рис. 61, б, где подобласть с двойной штриховкой и определяет совокуп­ ность таких значений параметров, которые при любом А (внутри заданного интервала) обеспечивают установление

Рис. 62. Область допустимых зпаченпй параметров установле­ ния связен — рабочие значе­ ния параметров).

„I

I I

„I

I

I

I I

0

1

2

3

4 к,-Ю~3

средней (в указанном выше смысле) связи. Упомяпутая под­ область и составляет теперь область допустимых значений

параметров ко и ко. Еще одно ограничение на эту область накладывается требованиями, предъявляемыми к величине

проходимостей связей г,-j, r,j (см. табл. 7). Потребуем, чтобы прп Д = 0 выполнялось неравенство 0,1 ^ г ^ 0,9. Тогда из (9.4) можно определить минимально и максимально до­ пустимые значения к0 п ко и соответственно ограничить об­ ласть пх значений (пунктир на рис. 61, б). Окончательный

вид области допустимых значений параметров ко и ко при­ веден на рис. 62. В качестве рабочей точки для дальнейших экспериментов выбрана точка А, т. е. к0 = ki — 1,5 • Ю - 3 ;

ко = A, «= 2,5-10-3.

Реализация функции установления связей в виде под­ блока An алгоритма А обеспечивает определенные возмож­ ности обучения М-автомата. Некоторые из них будут проде­ монстрированы в следующем параграфе.

§ 2. Демонстрационные тесты

Необходимо убедиться в том, что выбранные значения пара­ метров установления могут обеспечить решение автоматом определенных задач. Поскольку установление связей явля­ ется лишь одним из возможных механизмов обучения, рас­ смотрим лишь такие задачи, для решения которых живые организмы используют (предположительно) способность к установлению временных связей между раздражителями различного рода. Психология и зоопсихология могут предло­ жить большое количество таких задач. Мы рассмотрим толь­ ко некоторые.

Классическое обусловливание. В настоящее время извест­ но большое количество моделей условного рефлекса (см., на­ пример, работы [9, 13, 52, 56 и др.]). Наши интересы в этой области ограничены принятой ранее постановкой задачи: из всего множества процессов и явлений обусловливания мы можем рассматривать лишь те, которые непосредственно свя­ заны с проявлением двигательного поведения в средах задан­ ного типа. (Мы не претендуем на модельное описание фи­ зиологических и других процессов, изученных в лаборатор­ ных условиях.) Сопоставление отдельных важных процессов и экспериментальных процедур обусловливания с процесса­ ми, реализуемыми в М-автомате, показывает, что по край­ ней мере некоторые из основных процессов обусловливания естественно интерпретируются в терминах, описывающих структуру и функционирование М-автоматов. Можно пола­ гать, что язык М-сетей послужит хорошей основой для по­ строения более полных моделей обусловливания. Работы в этом направлении могут составить самостоятельную область исследований.

Рассмотрим теперь конкретный М-автомат, способный формировать условные реакции, и его работу при решении задачи «идентификации восприятий».

Задача «идентификации восприятия» возникает в тех случаях, когда организм воспринимает некоторое раздраже­ ние, но не обладает информацией относительно его биологи­ ческой важности (раздражитель «незнаком»). При этом ока­ зывается невозможным и выбор реакции на раздражение. Определение «значения» такого раздражителя и составляет содержание задачи идентификации. Человек может ставить и решать эту задачу на сознательном уровне. Животных побуяодает к ее решению ориентировочный рефлекс. Реше­ ние может достигаться как путем формирования новых по­ нятий и представлений (у человека^, так и путем прямого связывания образа нового раздражителя с образами других, известных ранее. В последнем случае новый раздражитель может приобретать сигнальное значение. Классический ус­ ловный рефлекс представляет пример решения задачи иден­ тификации путем связывания ранее индифферентного раз­ дражителя с другим, имеющим безусловное значение. Здесь мы ограничимся рассмотрением весьма простого варианта задачи.

Пусть в простой среде имеются объекты из класса «пи­ ща» и пусть в соответствующих этим объектам ячейках сре­ ды задана отличная от нуля интенсивность параметра «за­ пах». В среде находится М-автомат, способный к осуществ­ лению действий-шагов. Предположим, что объект «пища» известен автомату в том смысле, что восприятие такого объ­ екта вызывает реакцию приближения к нему. Это означает,

Рис. 63. М-сеть автомата.

что между i-моделями объекта и действий-шагов есть соот­ ветствующие связи. Предположим также, что автомат может воспринять «запах», но «не знает» зиачеиия этого парамет­ ра, т. е. i-модели запаха не имеют связей с другими i-моде- лямп сети. Пусть в течение некоторого времени Т автомат перемещается в среде и воспринимает как объекты «пища», так и связанный с нпмп «запах». Будем полагать, что авто­ мат решает задачу идентификации параметра «запах», если по прошествпп времени Т этот параметр приобретает для него сигнальное значение, т. е. восприятие «запаха» вызы­ вает выполнение автоматом реакции приближения (соответ­ ствующих шагов).

 

Был проведен эксперимент с М-автоматом, который опи­

 

сывался

формулой Р^Дэ!- В

дополнение

к установленным

 

ранее значениям параметров было принято: 9 =

1, а = 0.

 

Структура автомата приведена на рис. 63. В исходном со­

 

стоянии связи, изображенные на рисунке штриховыми ли­

 

ниями, отсутствовали. Здесь и в дальнейшем прп изображе­

 

нии структуры автоматов используется следующий упро­

 

щающий прием. Существующие в рассматриваемой среде

 

объекты

и параметры

могут

быть

восприняты

автоматом

 

в девяти различных (отпосительно него) положениях. Каж­

 

дый объект и параметр

среды в рецепторной сфере автома­

 

та будем представлять девятью i-моделями, каждая из

 

которых соответствует объекту, воспринимаемому из опреде­

 

ленной ячейки окрестности. Пусть автомат находится в ячей­

 

ке с координатами (0, 0). Зафиксируем порядок

перечисле­

 

ния ячеек окрестности: (0,—1), (—1,—1), (—1,0), (—1,1),

 

(0. 1),

(1, 1), (1, 0),

(1, - 1 ) ,

(0,

0).

При графическом

266

изображении структуры

автомата

i-модели

объекта, воспри-

нимаемого из различных ячеек окрестности, будем распола­ гать по горизонтали или вертикали так, чтобы их следование слева направо или сверху вниз соответствовало порядку пе­ речисления ячеек окрестности. Так, на рис. 63 i-модель к

соответствует

объекту

«пища»,

воспринимаемому из ячейки

с координатами ( — 1,1).

 

Автомат,

структура

которого

изображена на рис. 63, по­

мещался в ячейку А среды, изображенной на рис. 64. Вспо­ могательной i-модели р задавалось некоторое постоянное возбуждение, что обеспечивало передвижение автомата в на­ правлении, указанном стрелками, до ячейки В. На рисунке отмечены крестиками ячейки, в которых интенсивность па­ раметра «запах» отличалась от нуля. Видно, что в ряде ячеек среды осуществлялось одновременное восприятие как «пи­ щи», так п «запаха», условие установления (8.7) оказыва­ лось выполненным и в соответствии с правилами (8.8) меж­ ду i-моделями устанавливались связи, изображенные на рис. 63 пунктиром. Если теперь в какой-либо ячейке окрест­ ности автомата, например (—1, 1), будет воспринят «запах», то возбуждение соответствующей i-модели I по установив­ шейся связи вызовет возбуждение i-модели «пища» к, а последнее, в свою очередь, обеспечит выполнение шага, реа­ лизующего реакцию приближения к ячейке, содержащей «запах». Таким образом, задача идентификации параметра оказывается решенной.

Адекватность реакций обученного М-автомата иллюстри­ руется его поведением в среде, изображенной на рис. 65, где сплошные линии соединяют ячейки с одинаковой интен­ сивностью параметра «запах», указанной в разрывах линий. Стрелки обозначают шаги автомата, помещенного первона­ чально в ячейку А. Видно, что автомат быстро достигает области с максимальным значением параметра и далее вы­ полняет в ней случайные блуждания. Вспомогательная i-мо­ дель р в этом эксперименте не возбуждалась.

Задача случайного поиска. Задача случайного поиска ме­ тодом «проб и ошибок» возникает в ситуациях, где возмож­ но некоторое множество априорно равноценных реакций, и состоит в нахождении реакций, наилучших в некотором заранее определенном смысле.

Раздражитель „пища

 

X

X

 

X А

X в

X

 

Рпс. 64. Обучающая среда.

f

-60-

 

 

 

 

W J —

 

 

 

\~

/

- 80

 

 

 

 

(

90

\

\

 

 

 

•ЮС

 

 

 

 

\

 

/

I

/

 

 

 

 

/

 

 

 

 

у

 

О л л< A

A О

Рис. 65. Контрольный экспе­ римент. Поиск экстремалъпого значения параметра.

Рис. 66. Обучающая среда.

 

Экспериментальная ситуация строилась следующим обра­

 

зом. М-автомат помещался в ячейку А среды, изображенной

 

на рпс. 66, где знаками

О и Л отмечены различные объек­

 

ты пз класса «пища». Окрестность А представляла собой

 

«особую» (см. § 3, гл. 8)

ситуацию, единственным

разрешен­

 

ным действием которой являлось выполнение шага, отме­

 

ченного на рисунке двойной стрелкой. После

выполнения

 

любого шага автомат возвращался в исходную ячейку. Объ­

 

екты, имеющиеся в среде, были «знакомы»

автомату — меж­

 

ду их i-моделямп и i-моделямп действий-шагов

задавались

 

связи. Информация о том, какой шаг является разрешенным,

 

в автомат не вводилась. Предполагалось, что после выпол­

 

нения ряда пробных шагов автомат «обучится» и будет мно­

 

гократно выполнять только разрешенное действие.

 

 

 

Эксперимент проводился с М-автоматом, структура кото­

 

рого изображена на рис. 67. Автомат описывается формулой

 

Р ^ ^ Э г Д р . В дополнение к установленным

ранее

значениям

 

параметров было принято: 6 =

1; а =

0,5.

В

исходном

со­

 

стоянии связи, изображенные на рисунке пунктиром, отсут­

 

ствовали. После

первого

восприятия

ситуации

«резервный»

 

элемент а сферы ПС становился i-моделью этой ситуации

 

(алгоритм В8и).

Далее

автомат

выполнял

некоторый

шаг.

 

В случае, если шаг не был разрешенным, возбуждалась i-мо­

 

дель НПр (алгоритм Bz)

и между i-моделями ситуации и вы­

 

полненного шага устанавливалась связь

(алгоритм Во) с пре­

 

обладающим

значением

тормозной

компоненты

(функция

 

(8.8)). При

повторном

восприятии

ситуации

возбуждалась

 

ее i-модель и, благодаря установившейся связи,

возбужде­

 

ние i-модели неразрешенного шага тормозилось. СУТ, сле­

 

довательно, выбирала другой шаг, и весь процесс повторялся.

 

В случае, если

выполнялся разрешенный

шаг,

между

его

 

i-моделыо и i-моделыо ситуации устанавливалась связь с

 

преобладающим значением усиливающей компоненты. Это

 

обеспечивало при повторных восприятиях ситуации допол-

268

нительное возбуждение

i-модели

разрешенного

шага и,

еле-

довательно, постоянное его выполнение. Результаты экспе­ римента графически изображены на рис. 68, где показано изменение во времени возбужденностей i-моделей автомата. Графики иллюстрируют приведенное выше качественное опи­ сание процесса обучения.

Следует остановиться на рассмотрении двух особенностей поведения автомата, обнаруженных в ходе эксперимента. Пер­ вая из них состоит в том, что последовательность пробных действий в ходе поиска, вообще говоря, не является случай­ ной. Анализ работы автомата показывает, что вид этой по­ следовательности определяется (при заданной системе свя­ зей в М-сети) структурой ситуации, в которой находится автомат. Это соответствует и интуитивному представлению о разумности поведения: в незнакомой ситуации человек или животное испытывает прежде всего то действие, которое по­ чему-либо представляется «естественным», «напрашивается» и т. п. Смысл такого рода терминов может быть несколько уточнен при установлении аналогий между поведением жи­ вых организмов и автоматов описываемого типа.

Вторая особенность поведения М-автомата состоит в сле­ дующем. Из рис. 68 видно, что графики возбуждения i-мо­ делей Пр и НПр представляют собой гладкие кривые, в то время как возбуждение этих i-моделей увеличивалось алго­ ритмом Вг дискретно, в каждый момент времени на постоян­ ную величину. На содержательном уровне это означает, что автомат «субъективно искажает» значения предъявляемых ему поощрений и наказаний или, точнее, формирует внутреннее представление поощрения и наказания, которое

Пр НПр

ОО

i-Модели ситуаций

О О О

шагоЗ

ю о о о о о о о ^

О О О О О О 9 О О

Рис. 67.

М-сеть

i-Шдели „А"

l-Модели „о"

 

 

автомата.

 

Рпс. 68. Внутренние

ре­

акции

М-автомата

в

ходе

обучения.

 

не всегда совпадает с реальным значением этих факторов. Анализ работы алгоритма показал, что степень и вид «субъ­ ективного искажения» поощрений и наказаний определяются значением коэффициента затухания а в функции пересчета (8.5). Рассмотрим это явление в общем виде. Пусть авто­ мату в течение п тактов предъявляется фактор наказания. Это означает, что в каждый момент дискретного времени реализуется операция П И п р : = = ^нпр + V, где V — величина наказания. Тогда возбужденность i-моделей НПр будет из­ меняться во времени (с учетом работы алгоритма А) следую­ щим образом (табл. 8):

Т а б л и ц а 8

Такт

 

Значение П Н П

р

1

aV

 

 

 

 

2

a (aV +

V) = a2V

- f

aV

 

3

a [a (aV

-f- V) +

V] =

a3V

+ a2V + aV

п

а*у + a n + x V + •••

+ a V

Пусть

п достаточно

велико. Обозначим

ПН пр = Рэф •

Тогда

 

 

 

Уэф = V(an

+ a n _ 1 - f •••

+ a ) .

 

Выражение в скобках правой части есть степенной ряд, сле­ довательно,

Таким образом, при непрерывном предъявлении автома­ ту наказания V эффективная («субъективная») величина наказания стремится к УЭф. Динамика изменения эффектив­ ной величины наказания при различных а иллюстрируется графиками на рис. 69. С помощью выражения для Р3ф мож­ но описать также изменения «эмоционального» фактора об­ учения Дг при смене характера подкрепления (появление поощрения после наказания и наоборот). В качестве приме­ ра на рис. 69 приведены кривые (штриховые линии) изме­ нения величин П пр , П нпр и А в случае, когда после ряда наказаний автомат начинает получать поощрения. Момент изменения характера подкреплений отмечен на оси времени стрелкой. Видно, что поощрение «воспринимается» автома­ том не сразу: в первый момент А мало и лишь со временем достигает значения, соответствующего реальной величине поощрения. Длительность этого процесса определяется «предысторией» автомата: чем меньше наказаний получил автомат до момента смены характера подкреплений, тем большим оказывается начальное значение Д (точки А, А', А" на штрихпунктирной кривой). Описанные процессы соот­ ветствуют некоторым интуитивным представлениям о дина­ мике эмоциональных состояний.

 

 

о о

 

 

Рис. 70. Обучающая среда.

 

 

X X X

 

X о

 

 

 

о

X

о X*•X

 

 

X о

 

X о

 

о X X

 

 

 

 

X о

о

X

о

X

 

 

 

 

 

 

X X о

X X о

 

 

 

о X

о X

 

 

X о о

 

 

 

 

 

X X X

 

 

 

 

 

о

0

 

о

о

 

 

 

 

 

X

X

 

X о о

X

 

о X

 

 

 

 

о X X X X о =

X о о

 

X о

 

о X

 

 

X о о

X

X--X X

 

о

X X X о

о

о

 

X

 

о X

 

 

 

 

Задача

параллельного

обучения. Эта задача

возникает

в случаях,

когда

попек правильных решений ведется для

п(п

>

1)

ситуаций и ситуации предъявляются

неупорядо­

ченно во времени. В этих условиях процесс обучения может быть затруднен или нарушен, поскольку на выбор реакцип в любой из ситуаций могут влиять результаты проб, выпол­ ненных в остальных п 1 ситуациях. Эксперимент строил­ ся следующим образом. Автомат помещался в ячейку А сре­ ды, изображенной на рис. 70. Среда содержала четыре «осо­

бых» ситуации — А, В, С и Е

(изображены на рисунке от­

дельно). После выполнения пробы в одной из этих

ситуаций

с помощью алгоритма Вг автомат перемещался

в другую

ситуацию. Перемещения осуществлялись по схеме

А -*- С

->- Е -*- В А. Разрешенные

шаги в каждой из

ситуаций

указаны на рис. 70 стрелками. При выполнении разрешен­ ного шага возбуждалась i-модель Пр, неразрешенного — НПр. Основное обучение автомата проводилось на участке среды L , разделенном на одинаковые «классы» I и П. Начи­ ная поиск в ячейке Л, лежащей в области I класса, автомат перемещался во I I класс после выполнения первой удачной пробы. Перемещение осуществлялось в соответствии с при­

веденной

схемой. После выполнения удачной пробы во

I I

классе

автомат

помещался

последовательно в

ситуации

Е,

В, А,

С зоны

Т среды

(«экзамен»). Если

все

действия

выполнялись правильно,

обучение считалось

оконченным.

Если же в какой-либо ситуации

зоны Т выполнялось нераз-

Соседние файлы в папке книги из ГПНТБ