книги из ГПНТБ / Автоматы и разумное поведение. Опыт моделирования
.pdfОпределим теперь значения ко и к0, обеспечивающие вы полнение введенного условия. Используя данные табл. 7,
примем: кя |
= |
40; т = 0,2; в = 0; |
а = |
0; |
П с р |
= |
100. Под |
ставляя эти значения в выражение |
(8.5) |
и имея |
в виду за |
||||
пись (9.4), получим выражения для верхней и |
нижней гра |
||||||
ниц области |
допустимых значений |
параметров |
А:0 |
и к0: для |
|||
верхней границы |
|
|
|
|
|
||
130 |
|
1 |
|
|
|
|
|
16-10* " ~ |
|
|
|
|
|
||
к0 = е |
|
"° —9,9, |
|
|
|
|
(9.5а) |
для пижней |
границы |
|
|
|
|
|
|
70 |
|
1 |
|
|
|
|
|
16 • 10' |
' |
- |
|
|
|
|
|
к0 = е |
|
"° - 9 , 9 . |
|
|
|
|
(9.56) |
Найденная область схематически изображена на рис. 61,о. |
|||||||
Введем |
теперь в рассмотрение |
влияние |
«эмоционально |
||||
го» фактора обучения, которому в функции установления
соответствует переменная А1. Легко видеть, что при Д' > |
0 |
||||||
возбужденность |
П/ + 1 , |
равная, например, 70, может быть по |
|||||
лучена |
при меньшем |
значении |
ка и большем значении |
kQ, |
|||
чем это имело бы место при |
Д' = |
0. |
Это соответствует |
||||
сдвигу |
области |
допустимых |
значений |
параметров |
на |
||
рис. 61,о вправо. Аналогично, при Д* < |
0 область сдвигается |
||||||
влево. На основании опытов с необучаемой моделью можно
полагать, что |
значение Д |
в ходе работы М-сети изменяется |
в диапазоне |
—50 ^ Д ^ |
50. Не составляет труда получить |
выражение типа (9.5) для границ области допустимых пара метров в крайних точках этого диапазона. Схема располо жения областей в этом случае представлена на рис. 61, б, где подобласть с двойной штриховкой и определяет совокуп ность таких значений параметров, которые при любом А (внутри заданного интервала) обеспечивают установление
Рис. 62. Область допустимых зпаченпй параметров установле ния связен (А — рабочие значе ния параметров).
„I |
I I |
„I |
I |
I |
I I |
0 |
1 |
2 |
3 |
4 к,-Ю~3 |
|
средней (в указанном выше смысле) связи. Упомяпутая под область и составляет теперь область допустимых значений
параметров ко и ко. Еще одно ограничение на эту область накладывается требованиями, предъявляемыми к величине
проходимостей связей г,-j, r,j (см. табл. 7). Потребуем, чтобы прп Д = 0 выполнялось неравенство 0,1 ^ г ^ 0,9. Тогда из (9.4) можно определить минимально и максимально до пустимые значения к0 п ко и соответственно ограничить об ласть пх значений (пунктир на рис. 61, б). Окончательный
вид области допустимых значений параметров ко и ко при веден на рис. 62. В качестве рабочей точки для дальнейших экспериментов выбрана точка А, т. е. к0 = ki — 1,5 • Ю - 3 ;
ко = A, «= 2,5-10-3.
Реализация функции установления связей в виде под блока An алгоритма А обеспечивает определенные возмож ности обучения М-автомата. Некоторые из них будут проде монстрированы в следующем параграфе.
§ 2. Демонстрационные тесты
Необходимо убедиться в том, что выбранные значения пара метров установления могут обеспечить решение автоматом определенных задач. Поскольку установление связей явля ется лишь одним из возможных механизмов обучения, рас смотрим лишь такие задачи, для решения которых живые организмы используют (предположительно) способность к установлению временных связей между раздражителями различного рода. Психология и зоопсихология могут предло жить большое количество таких задач. Мы рассмотрим толь ко некоторые.
Классическое обусловливание. В настоящее время извест но большое количество моделей условного рефлекса (см., на пример, работы [9, 13, 52, 56 и др.]). Наши интересы в этой области ограничены принятой ранее постановкой задачи: из всего множества процессов и явлений обусловливания мы можем рассматривать лишь те, которые непосредственно свя заны с проявлением двигательного поведения в средах задан ного типа. (Мы не претендуем на модельное описание фи зиологических и других процессов, изученных в лаборатор ных условиях.) Сопоставление отдельных важных процессов и экспериментальных процедур обусловливания с процесса ми, реализуемыми в М-автомате, показывает, что по край ней мере некоторые из основных процессов обусловливания естественно интерпретируются в терминах, описывающих структуру и функционирование М-автоматов. Можно пола гать, что язык М-сетей послужит хорошей основой для по строения более полных моделей обусловливания. Работы в этом направлении могут составить самостоятельную область исследований.
Рассмотрим теперь конкретный М-автомат, способный формировать условные реакции, и его работу при решении задачи «идентификации восприятий».
Задача «идентификации восприятия» возникает в тех случаях, когда организм воспринимает некоторое раздраже ние, но не обладает информацией относительно его биологи ческой важности (раздражитель «незнаком»). При этом ока зывается невозможным и выбор реакции на раздражение. Определение «значения» такого раздражителя и составляет содержание задачи идентификации. Человек может ставить и решать эту задачу на сознательном уровне. Животных побуяодает к ее решению ориентировочный рефлекс. Реше ние может достигаться как путем формирования новых по нятий и представлений (у человека^, так и путем прямого связывания образа нового раздражителя с образами других, известных ранее. В последнем случае новый раздражитель может приобретать сигнальное значение. Классический ус ловный рефлекс представляет пример решения задачи иден тификации путем связывания ранее индифферентного раз дражителя с другим, имеющим безусловное значение. Здесь мы ограничимся рассмотрением весьма простого варианта задачи.
Пусть в простой среде имеются объекты из класса «пи ща» и пусть в соответствующих этим объектам ячейках сре ды задана отличная от нуля интенсивность параметра «за пах». В среде находится М-автомат, способный к осуществ лению действий-шагов. Предположим, что объект «пища» известен автомату в том смысле, что восприятие такого объ екта вызывает реакцию приближения к нему. Это означает,
Рис. 63. М-сеть автомата.
что между i-моделями объекта и действий-шагов есть соот ветствующие связи. Предположим также, что автомат может воспринять «запах», но «не знает» зиачеиия этого парамет ра, т. е. i-модели запаха не имеют связей с другими i-моде- лямп сети. Пусть в течение некоторого времени Т автомат перемещается в среде и воспринимает как объекты «пища», так и связанный с нпмп «запах». Будем полагать, что авто мат решает задачу идентификации параметра «запах», если по прошествпп времени Т этот параметр приобретает для него сигнальное значение, т. е. восприятие «запаха» вызы вает выполнение автоматом реакции приближения (соответ ствующих шагов).
|
Был проведен эксперимент с М-автоматом, который опи |
|||||||
|
сывался |
формулой Р^Дэ!- В |
дополнение |
к установленным |
||||
|
ранее значениям параметров было принято: 9 = |
1, а = 0. |
||||||
|
Структура автомата приведена на рис. 63. В исходном со |
|||||||
|
стоянии связи, изображенные на рисунке штриховыми ли |
|||||||
|
ниями, отсутствовали. Здесь и в дальнейшем прп изображе |
|||||||
|
нии структуры автоматов используется следующий упро |
|||||||
|
щающий прием. Существующие в рассматриваемой среде |
|||||||
|
объекты |
и параметры |
могут |
быть |
восприняты |
автоматом |
||
|
в девяти различных (отпосительно него) положениях. Каж |
|||||||
|
дый объект и параметр |
среды в рецепторной сфере автома |
||||||
|
та будем представлять девятью i-моделями, каждая из |
|||||||
|
которых соответствует объекту, воспринимаемому из опреде |
|||||||
|
ленной ячейки окрестности. Пусть автомат находится в ячей |
|||||||
|
ке с координатами (0, 0). Зафиксируем порядок |
перечисле |
||||||
|
ния ячеек окрестности: (0,—1), (—1,—1), (—1,0), (—1,1), |
|||||||
|
(0. 1), |
(1, 1), (1, 0), |
(1, - 1 ) , |
(0, |
0). |
При графическом |
||
266 |
изображении структуры |
автомата |
i-модели |
объекта, воспри- |
||||
нимаемого из различных ячеек окрестности, будем распола гать по горизонтали или вертикали так, чтобы их следование слева направо или сверху вниз соответствовало порядку пе речисления ячеек окрестности. Так, на рис. 63 i-модель к
соответствует |
объекту |
«пища», |
воспринимаемому из ячейки |
с координатами ( — 1,1). |
|
||
Автомат, |
структура |
которого |
изображена на рис. 63, по |
мещался в ячейку А среды, изображенной на рис. 64. Вспо могательной i-модели р задавалось некоторое постоянное возбуждение, что обеспечивало передвижение автомата в на правлении, указанном стрелками, до ячейки В. На рисунке отмечены крестиками ячейки, в которых интенсивность па раметра «запах» отличалась от нуля. Видно, что в ряде ячеек среды осуществлялось одновременное восприятие как «пи щи», так п «запаха», условие установления (8.7) оказыва лось выполненным и в соответствии с правилами (8.8) меж ду i-моделями устанавливались связи, изображенные на рис. 63 пунктиром. Если теперь в какой-либо ячейке окрест ности автомата, например (—1, 1), будет воспринят «запах», то возбуждение соответствующей i-модели I по установив шейся связи вызовет возбуждение i-модели «пища» к, а последнее, в свою очередь, обеспечит выполнение шага, реа лизующего реакцию приближения к ячейке, содержащей «запах». Таким образом, задача идентификации параметра оказывается решенной.
Адекватность реакций обученного М-автомата иллюстри руется его поведением в среде, изображенной на рис. 65, где сплошные линии соединяют ячейки с одинаковой интен сивностью параметра «запах», указанной в разрывах линий. Стрелки обозначают шаги автомата, помещенного первона чально в ячейку А. Видно, что автомат быстро достигает области с максимальным значением параметра и далее вы полняет в ней случайные блуждания. Вспомогательная i-мо дель р в этом эксперименте не возбуждалась.
Задача случайного поиска. Задача случайного поиска ме тодом «проб и ошибок» возникает в ситуациях, где возмож но некоторое множество априорно равноценных реакций, и состоит в нахождении реакций, наилучших в некотором заранее определенном смысле.
Раздражитель „пища |
|
X |
X |
|
|
X А |
X в |
X |
|
Рпс. 64. Обучающая среда.
f |
-60- |
|
|
|
|
W J — |
|
|
|
\~ |
|
/ |
- 80 |
|
|
|
|
( |
90 |
\ |
\ |
|
|
|
|
•ЮС |
|
|
|
|
\ |
|
/ |
I |
/ |
|
|
|
|
/ |
|
|
|
|
|
у |
|
О л л< A
A О
Рис. 65. Контрольный экспе римент. Поиск экстремалъпого значения параметра.
Рис. 66. Обучающая среда.
|
Экспериментальная ситуация строилась следующим обра |
||||||||||
|
зом. М-автомат помещался в ячейку А среды, изображенной |
||||||||||
|
на рпс. 66, где знаками |
О и Л отмечены различные объек |
|||||||||
|
ты пз класса «пища». Окрестность А представляла собой |
||||||||||
|
«особую» (см. § 3, гл. 8) |
ситуацию, единственным |
разрешен |
||||||||
|
ным действием которой являлось выполнение шага, отме |
||||||||||
|
ченного на рисунке двойной стрелкой. После |
выполнения |
|||||||||
|
любого шага автомат возвращался в исходную ячейку. Объ |
||||||||||
|
екты, имеющиеся в среде, были «знакомы» |
автомату — меж |
|||||||||
|
ду их i-моделямп и i-моделямп действий-шагов |
задавались |
|||||||||
|
связи. Информация о том, какой шаг является разрешенным, |
||||||||||
|
в автомат не вводилась. Предполагалось, что после выпол |
||||||||||
|
нения ряда пробных шагов автомат «обучится» и будет мно |
||||||||||
|
гократно выполнять только разрешенное действие. |
|
|
||||||||
|
Эксперимент проводился с М-автоматом, структура кото |
||||||||||
|
рого изображена на рис. 67. Автомат описывается формулой |
||||||||||
|
Р ^ ^ Э г Д р . В дополнение к установленным |
ранее |
значениям |
||||||||
|
параметров было принято: 6 = |
1; а = |
0,5. |
В |
исходном |
со |
|||||
|
стоянии связи, изображенные на рисунке пунктиром, отсут |
||||||||||
|
ствовали. После |
первого |
восприятия |
ситуации |
«резервный» |
||||||
|
элемент а сферы ПС становился i-моделью этой ситуации |
||||||||||
|
(алгоритм В8и). |
Далее |
автомат |
выполнял |
некоторый |
шаг. |
|||||
|
В случае, если шаг не был разрешенным, возбуждалась i-мо |
||||||||||
|
дель НПр (алгоритм Bz) |
и между i-моделями ситуации и вы |
|||||||||
|
полненного шага устанавливалась связь |
(алгоритм Во) с пре |
|||||||||
|
обладающим |
значением |
тормозной |
компоненты |
(функция |
||||||
|
(8.8)). При |
повторном |
восприятии |
ситуации |
возбуждалась |
||||||
|
ее i-модель и, благодаря установившейся связи, |
возбужде |
|||||||||
|
ние i-модели неразрешенного шага тормозилось. СУТ, сле |
||||||||||
|
довательно, выбирала другой шаг, и весь процесс повторялся. |
||||||||||
|
В случае, если |
выполнялся разрешенный |
шаг, |
между |
его |
||||||
|
i-моделыо и i-моделыо ситуации устанавливалась связь с |
||||||||||
|
преобладающим значением усиливающей компоненты. Это |
||||||||||
|
обеспечивало при повторных восприятиях ситуации допол- |
||||||||||
268 |
нительное возбуждение |
i-модели |
разрешенного |
шага и, |
еле- |
||||||
довательно, постоянное его выполнение. Результаты экспе римента графически изображены на рис. 68, где показано изменение во времени возбужденностей i-моделей автомата. Графики иллюстрируют приведенное выше качественное опи сание процесса обучения.
Следует остановиться на рассмотрении двух особенностей поведения автомата, обнаруженных в ходе эксперимента. Пер вая из них состоит в том, что последовательность пробных действий в ходе поиска, вообще говоря, не является случай ной. Анализ работы автомата показывает, что вид этой по следовательности определяется (при заданной системе свя зей в М-сети) структурой ситуации, в которой находится автомат. Это соответствует и интуитивному представлению о разумности поведения: в незнакомой ситуации человек или животное испытывает прежде всего то действие, которое по чему-либо представляется «естественным», «напрашивается» и т. п. Смысл такого рода терминов может быть несколько уточнен при установлении аналогий между поведением жи вых организмов и автоматов описываемого типа.
Вторая особенность поведения М-автомата состоит в сле дующем. Из рис. 68 видно, что графики возбуждения i-мо делей Пр и НПр представляют собой гладкие кривые, в то время как возбуждение этих i-моделей увеличивалось алго ритмом Вг дискретно, в каждый момент времени на постоян ную величину. На содержательном уровне это означает, что автомат «субъективно искажает» значения предъявляемых ему поощрений и наказаний или, точнее, формирует внутреннее представление поощрения и наказания, которое
Пр НПр
ОО
i-Модели ситуаций
О О О
шагоЗ
ю о о о о о о о ^ |
О О О О О О 9 О О |
Рис. 67. |
М-сеть |
i-Шдели „А" |
l-Модели „о" |
||
|
|
автомата. |
|
Рпс. 68. Внутренние |
ре |
|
акции |
М-автомата |
в |
ходе |
обучения. |
|
не всегда совпадает с реальным значением этих факторов. Анализ работы алгоритма показал, что степень и вид «субъ ективного искажения» поощрений и наказаний определяются значением коэффициента затухания а в функции пересчета (8.5). Рассмотрим это явление в общем виде. Пусть авто мату в течение п тактов предъявляется фактор наказания. Это означает, что в каждый момент дискретного времени реализуется операция П И п р : = = ^нпр + V, где V — величина наказания. Тогда возбужденность i-моделей НПр будет из меняться во времени (с учетом работы алгоритма А) следую щим образом (табл. 8):
Т а б л и ц а 8
Такт |
|
Значение П Н П |
р |
||
1 |
aV |
|
|
|
|
2 |
a (aV + |
V) = a2V |
- f |
aV |
|
3 |
a [a (aV |
-f- V) + |
V] = |
a3V |
+ a2V + aV |
п |
а*у + a n + x V + ••• |
+ a V |
Пусть |
п достаточно |
велико. Обозначим |
ПН пр = Рэф • |
Тогда |
|
|
|
Уэф = V(an |
+ a n _ 1 - f ••• |
+ a ) . |
|
Выражение в скобках правой части есть степенной ряд, сле довательно,
Таким образом, при непрерывном предъявлении автома ту наказания V эффективная («субъективная») величина наказания стремится к УЭф. Динамика изменения эффектив ной величины наказания при различных а иллюстрируется графиками на рис. 69. С помощью выражения для Р3ф мож но описать также изменения «эмоционального» фактора об учения Дг при смене характера подкрепления (появление поощрения после наказания и наоборот). В качестве приме ра на рис. 69 приведены кривые (штриховые линии) изме нения величин П пр , П нпр и А в случае, когда после ряда наказаний автомат начинает получать поощрения. Момент изменения характера подкреплений отмечен на оси времени стрелкой. Видно, что поощрение «воспринимается» автома том не сразу: в первый момент А мало и лишь со временем достигает значения, соответствующего реальной величине поощрения. Длительность этого процесса определяется «предысторией» автомата: чем меньше наказаний получил автомат до момента смены характера подкреплений, тем большим оказывается начальное значение Д (точки А, А', А" на штрихпунктирной кривой). Описанные процессы соот ветствуют некоторым интуитивным представлениям о дина мике эмоциональных состояний.
|
|
о о |
|
|
Рис. 70. Обучающая среда. |
|
|
|
X X X |
|
X о |
|
|
|
|
о |
X |
о X*•X |
|
|
|
X о |
|
X о |
|
||
о X X |
|
|
|
|
||
X о |
о |
X |
о |
X |
|
|
|
|
|
||||
|
|
X X о |
X X о |
|
||
|
|
о X |
о X |
|
||
|
X о о |
|
|
|
|
|
|
X X X |
|
|
|
|
|
|
о |
0 |
|
о |
о |
|
|
|
|
|
X |
X |
|
X о о |
X |
|
о X |
|
||
|
|
|
||||
о X X X X о = |
X о о |
|
||||
X о |
|
о X |
|
|
||
X о о |
X |
X--X X |
|
|||
о |
X X X о |
о |
о |
|
||
X |
|
о X |
|
|
|
|
Задача |
параллельного |
обучения. Эта задача |
возникает |
|||
в случаях, |
когда |
попек правильных решений ведется для |
||||
п(п |
> |
1) |
ситуаций и ситуации предъявляются |
неупорядо |
||
ченно во времени. В этих условиях процесс обучения может быть затруднен или нарушен, поскольку на выбор реакцип в любой из ситуаций могут влиять результаты проб, выпол ненных в остальных п — 1 ситуациях. Эксперимент строил ся следующим образом. Автомат помещался в ячейку А сре ды, изображенной на рис. 70. Среда содержала четыре «осо
бых» ситуации — А, В, С и Е |
(изображены на рисунке от |
|
дельно). После выполнения пробы в одной из этих |
ситуаций |
|
с помощью алгоритма Вг автомат перемещался |
в другую |
|
ситуацию. Перемещения осуществлялись по схеме |
А -*- С |
|
->- Е -*- В А. Разрешенные |
шаги в каждой из |
ситуаций |
указаны на рис. 70 стрелками. При выполнении разрешен ного шага возбуждалась i-модель Пр, неразрешенного — НПр. Основное обучение автомата проводилось на участке среды L , разделенном на одинаковые «классы» I и П. Начи ная поиск в ячейке Л, лежащей в области I класса, автомат перемещался во I I класс после выполнения первой удачной пробы. Перемещение осуществлялось в соответствии с при
веденной |
схемой. После выполнения удачной пробы во |
||||||
I I |
классе |
автомат |
помещался |
последовательно в |
ситуации |
||
Е, |
В, А, |
С зоны |
Т среды |
(«экзамен»). Если |
все |
действия |
|
выполнялись правильно, |
обучение считалось |
оконченным. |
|||||
Если же в какой-либо ситуации |
зоны Т выполнялось нераз- |
||||||
