Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Башкирский Государственный Аграрный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

книги из ГПНТБ / Автоматы и разумное поведение. Опыт моделирования

.pdf

Скачиваний:

Добавлен:

25.10.2023

Размер:

17.04 Mб

Скачать

☆

<<< < Предыдущая 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 3435 / 3835 36 37 38 > Следующая >>>

Автомат

А*

падал» на «пищу», но действия «есть» не выполнил, так как его «внимание» (СУТ-2) было привлечено в это время к со стоянию сферы эмоций.

Конкретные различия в вариантах обучения автоматов видны из рис. 107, где представлены «разрешающие матри цы» вариантов. Строки и столбцы этих матриц соответствуют блокам М-сети. Использована нумерация блоков, приведен ная на рис. 93. Единица на пересечении i-й строки и /-го столбца означает, что обучение и установление связей, на правленных от i-моделей блока i к i-моделям блока / раз решено. Отсутствие единицы означает запрет соответствую щих операций. В экспериментах использовались значения параметров обучения, определенные ранее в тестах гл. 9.

(Для связей блока ПС в Аг было принято |3 = Р = 0,95.) Значения оценочных коэффициентов, полученные в описан ных экспериментах, приведены в табл. 27. Отметим, что оценка е подсчптывалась по времени, которое автоматы на ходились на одном или сходных участках среды. При под счете у в качестве ячейки gB принималась ячейка А, & g$ — ячейка F.

Из таблицы следует, что выработанная опорным вариан том А0 оценка е существепио улучшена всеми обучающими ся вариантами и'более всего — автоматом Аг- Обратная кар тина наблюдается для оценки адекватности 6. Здесь она ми нимальна для Ач и максимальна для Ао. Обучающиеся варианты «чувствуют себя» в среде лучше, чем Ао, но «пла тят» за это уменьшением адекватности реакций. Однако все

значения (3 находятся в допустимой области. Таким образом, можно сделать предварительный вывод: если для каких-либо целей необходим автомат, обеспечивающий высокую оценку качества функционирования, а адекватность его внутренних реакций не важна, то следует выбрать автомат типа Аг. Если же, напротив, важна только адекватность внутренних реакций, наилучшим явится вариант Ао. Этот вывод, впро чем, применим только к среде Si. Необходимо проверить,

Т а б л и ц а	27
		Оценки реакций в среде
	'л		л	л
е	'л	'в	3	V
—48	0,95	0,77	0,72	_
- 9,4	0,88	0,64	0,52	0,44
2,8	0,66	0,53	0,13	0,75
—10,8	0,83	0,78	0,61	0,75

не изменится ли характер поведения автоматов в средах других типов. Для ответа на этот вопрос были проведены эксперименты в разных средах.

Данные табл. 27 показывают, что оценки автомата As занимают промежуточное положение по отношению к оцен-

кам Ai и Аг (е и 6 близки к Ai, у — к Аг). Это легко объяс няется тем обстоятельством, что основные преимущества «памяти ситуаций» могут проявиться, когда среда содержит часто повторяющиеся ситуации или такова, что для органи зации удовлетворительного поведения необходимо помнить последовательности реакций и их результатов. Среда Si не обладает указанными свойствами. Очевидно, автомат As име ет смысл использовать только в средах (например, в регу лярных), где такие свойства хорошо выражены. Поэтому в дальнейшем мы не будем исследовать As в «невыгодных» для него условиях.

§ 5. Эксперименты		с	М-автоматами
в различных	средах

Из рис. 104 видно, что среда Si содержит значительное ко личество раздражителей класса «зверь». Представляет инте рес рассмотреть реакции автомата в более «приятной» для

			о
О	•	©	D щ
		©		т
© т1 о			Q	т
Q	t ©		Q	Q
	Кфо		О	Q
О	Кфо		г
О	Ш		О Г т
	4		is
	4		Ш	О
			Ш	О
а	f	t	О
©	Q	•	О
*г	О	•	©
			©

а /	О
	Ш

Рис. 108. Внешние реакции А 0 в среде Яг-

	Q		Q	Рис.	109. Внеш
О		о		ние	реакции
	•u- £;		•ш	и Аг	в среде	1S2.
				М-автоматов		Ах

(В

T Q

• ©

-u—

s±

Q •

Q /

Q В

О Q

(В

(±1

него среде. Такая среда S2, содержащая

большее

количество

раздражителей класса «пища», представлена на рис. 108.

Здесь

А — исходная

ячейка,

Ft,

Fz, F3 — ориентиры

первого,

второго и третьего этапов плана. Прежде всего в ячейку А

был помещен автомат Aq. ЕГО внешние реакции представлены

на

рис. 108,

внутренние — в табл.

28.

Затем

аналогичные

Т а б л и ц а

СУТ-

•

таблица

реакций

4) в s 2

«Ест»

«Нести»

Блоки

ЗД

СУТ-2

НП

АД

РЦ

ПО

АД

ПО

пл

8В

пп

др

ДР

др

пи

пп

ДР

пл

ал ДРДР пл

гн

УД

ув

уд

УД

ув

уд

РД

уд

УД УДрд рд

ДТ

нд

дт

Дт

дт

нд

дт

ДТ

нд

дт

дт. дт

СП

345

12 3—1176

Т а б л и ц а 29

СУТтаблпца | р е а к ц и й

А, в S2

Блоки

СУТ-2 ПО

СУТ-

та б л и ц а

ре а к ц и й

*4<, В S%

Блоки

СУТ-2 ПО

•

«Спит»

«Ест»

РЦ ш ип а щ бк у д дт ст

АД РЦ Ш			РЦ Ш
у б	8В	пп	пп п щ
н д	бп	нд	сх	у д
нд	ст	нд	ст	нд

Т а б л и ц а 30

РЦ Ш		РЦ НП
пл	пл	ДР	ип
гн	бп	лб	ну
от	дт	дт	ст

АД АД Ш			РЦ	ш	АД ПО
пп	у б	ЗВ	п ш	пщ	пп	пп
бк	сх	ув	РД	УД	у д	б п
от	—	дт	дт	бс	—	нд

О			о			О
а			•		©	•
а		2122		\	©	•	\
				\			\
19	20			23	24	25	26
Э	АД Ш		Э	Ш	РЦ	ПО ш
у б	у б у б		ЗВ	пп	дА	у б	пл
РД	Пр гр		б ц	у в	Пр	у в	у д
ДТ	— дт		ДТ	нд	—	дт	нд

	Si			Q			•
				(И				Q
«ЕС!г»		t	«Ест»
«ЕС!г»			«Ест»
27	28	29	30	31	32	33	34	35	36
АД АД Ш			АД	Э	Э Ш		РЦ	э	э
уб	пп	у б	пп	у б	зв у б		пщ	у б у б
гл	нт	гл	нт	гн	нт гл		нт	у в нт
дт	—	нд	ст	ид	— дт		ст	пд —

	Т а б л и ц а	31
			Оценки реакций в среде
Автомат	в	'л	'а	л	л
	в	'л	'а	S	V
				S	V
А,	33,6	1,0	0,6	0,6	0,82
	10,7	0,83	0,65	0,48	0,67
	3,1	0,79	0,63	0,42	0,74

347

12*

о О Q Q Q 0 Q Q Q Q Q Q Q

о Q		Q	а		О
Q О Q Q				О	О
Q ©		^	О о	О	(1
Nр .	йQ		Q о ©		Q Q
Q О	Я	Q	Q	Q О	Q Q
Q I		Q	о	е>	Q Q

вQ о о Q Q Q

о	Q	Q	Q
Q	о	О	Q а О

Q о Q о Q Q о Q Q Q Q Q Q

Рис. 110. Внешние

реакции	Л'о в сре
де 5з.	!

исследования		были	проведены	с	обучающимися	варианта
ми Ai	и Az	(рис. 109, табл. 29		и	30). Оценочные	коэффи-
циенты	приведены		в табл. 31. При		подсчете у ячейке gn со
ответствует ячейка			А, ячейке g$ — F3. Из таблицы следует,
что в случае		«приятной» среды		все обучающиеся		варианты

автомата оказываются хуже необучающегося. Более, того, имеющий в среде Si максимальную оценку е автомат Аг в среде 1S2 имеет минимальную оценку. Адекватность же его внутренних реакций в Si по сравнению с S\ существенно повысилась. Предварительный вывод: исследуемые алгорит мы обучения не являются универсальными •' относительно свойств среды, их эффективность существенно зависит от этих свойств. Чтобы полнее рассмотреть характер! предпо лагаемой зависимости, продолжим исследование автоматов в другой среде — S3.

Среда S3, представленная на рис. 110, содержит преиму щественно раздражители класса «препятствие», не являю щиеся для автомата ни «опасными», ни «съедобными». Выше было показано, что эти раздражители также оцениваются автоматом как «неприятные», вызывая, однако, другие по сравнению с «опасностью» внутренние реакции; Автоматы стартовали из ячейки А, ячейки Fi, Fz, F3 — ориентиры по следовательных этапов плана. На рис. 110 показаны бнешние реакции автомата Ац. Видно, что автомат выполнил только первый этап плана (напомним, что этап считается выполнен ным, если автомат занимает любую ячейку в окрестности ориентира). Его внутренние реакции представлены в табл. 32.

Поведение		автоматов А\	и А2 показано на рис. 111 и в
табл.	33	и 34. Оценочные коэффициенты приведены в
табл.	35. Значение е вычислялось для всех автоматов по сов
падающим		или близким	участкам траектории. При вычис-

СУТ-

та б л п ц а '

ре а к ц и й

А0 в S3

Блоки

СУТ-2 ПО

Т а б л и ц а 32

		QIQ				•	О
	О	Р				•	О О	о		Q
		Р			1	•	о		Q Q
					1		1			•
										•
1	2	3	4	5		6	7		8	9
ПО ПО ПО по нп						ПО	ш	РЦ		ш
дВ	дВ	д р	д р	пи		пп	д р	ДР		пп
— н в н в н т н т						н т	нт	н у н т
д с	бс	д т	дт	дт		н д	н д	дт		дт

DIJD	Q о
О р
Р	Q
	Q

10	11	12	13
РЦ	Э АД Ш
п п	п п д р		пп
нт	и т	нт	н у
дт	д т	н д	н д

14 15 16 17 18

ПО ПО по э ш

пп	пп	п п	д р ЦП
н у	н т	н т	нт	нт
п д	дт	дт	дт	дт

Т а б л и ц а 33

СУТ-

та б л п ц а

ре а к ц и й

Аг в S3

ОО	Q	О О	• О
ОО	о О О	о р	• О		Q	О Q Q
о Q	о О О	О Q		О О	• О	О
О	Q Q		О	/	• О	О О О
	Q Q		О
ft	т	\

Блоки

1 2

13 l i

СУТ-2

по по по нп

э ш

по

РЦ

ПО ПС ПС ш

ПС

ПО

дВ

пп

дВ

д р

пп

дВ

з в

пп

з в

дВ

пп

п п

п л

пп

п п

пп

— н в г н н у

н т н т РД н т

УД н т

г л

н т

у в Пр Пр г л

г л

н т

д т

бс

дт

бс

нд

д т

от

нд

от

н д

от

бс

с п

ст

Т а б л и ц а

СУТ-

О •

О О О

С Ю

а О

О О О

D О О

т а б л и ц а

•

О О

о О

О О

р е а к ц и й

СЮ Q О

О О

О Q О

А2 В iSg

Блоки

4 |

СУТ-2

ПО ПО ПО НП

ПО ш

РЦ

РЦ ш

ПО ш

ПС ПС по ш

ПО

дВ дВ пп

дВ

д р

з в

нп

зв

зВ

шц

пп

зв

зВ

—

дВ

ав

—•

н в

гн

ну

н т

у в

РД Пр

РД

у в

нт

г л

н т

ИТ

ит

бц

рд

Пр

д т

бс

дт

б с

пд

ст

ДТ

СП

и д

ст

д т

сп

д т

бс

дт

—

дт

ст

о	О О о	Q Q QJ Q Q\|Q\|Q						P_
Q о ~*		Л	ш			__ . . . .
О	\ О о	О О	1	Q		§
О	Q : t-	Q Рр!IDО		Q		§
	Q : t-	Q Рр!IDО		©	О		/
Q О		Q о	•	О О			Q Q
	с			Л				О
	О АТ Q			Л

	Q	Q		Q QjQ Л			D	IS
-	Q			Q	>		•	\
	О		О	Q	>			о
О • О О О Q Q Q Q О						Й	О О
				Рис. 111.		Внешние
				Т а б л и ц а			35

О Q о О Q • О о О о О Q О

0	Q		л		- -*т
	А		О О о			о Ч
	Чл		О О о			о Ч
Q И		ч	О о		Q	у
		Q	т О о	о	<щ^/ о
О о			it О Q / Q О					\ Q О
		О	До О	Q\	ш		о	О
			•		Q о	о	о	О \
	о					Q	' \ Q г'
		Q		О	•>ь/			о
о о О Q о О О						Q Q • о
		М-автоматов		At	а А2	в	среде S3.

Оценки реакций в среде

Автомат

Аг

А*

349

е	'л	'э	Л	Л
			Р	V
—70,4	1,0	0,94	0,94
—46,3	0,9	0,7	0,6	0,75
—18,7	0,62	0,71	0,33	0,75

лении у отождествлялись	ячейки gB и А, а также	g$ и Fz.
Из таблицы видно, что в	среде S3 обучающиеся	автоматы

опять имеют преимущество и максимальная оценка е выра ботана А%. Обсуждение полученных результатов удобно при вести ниже.

Мы видели, что зависимость оценочных коэффициентов от характера среды более четко проявляется для автомата А%. Интересно поэтому рассмотреть режим обучения с «памятью состояний» более подробно.

§ 6.	Влияние	памяти М-автомата на	адекватность
его	внутренних	реакций

Из данных предыдущего параграфа следует, что в поведении автомата А2, реализующего режим обучения с «памятью состояний», наблюдается следующая закономерность: чем «хуже» среда, в которой он действует, тем относительно выше оценка качества его функционирования и тем ниже оценка адекватности его внутренних реакций. Представляет

2	3	4	5	6	7	5
1	1			1		1
1	1	1		1	1	1
1	1	1		1	1	1
	1	1			1	1
1	1	1		1	1	1
1	1	1		1	1	1
1	1	1		1	1	1

Рис. 112. Измененная ма трица обучения (я) и блок-схема автомата (б).

^ I пп I	^ I пп »Т"*^ ^		I nn
да/	/70//	да	///
J	4 ~ г т	г
У	н	,	ля
У	н	,

па

/7С //

интерес попытка улучшить значения В, не ухудшая сущест венно е.

Очевидно, в процессе формирования оценок немаловаж ную роль играют особенности памяти автомата. В нашем случае память реализуется совокупностью связей М-сети. Наиболее общей характеристикой сетп является количество имеющихся в ней связей и их конфигурация. Разрешающая матрица обучения (см. рис. 107) для Аг допускает установ ление весьма большого количества разнообразных связей. Можно предположить, что среди них существуют как связи, мало влияющие на поведение автомата, так и связи, приво дящие к нежелательным процессам в сети. Поэтому может оказаться целесообразным уменьшить объем памяти авто мата.

В настоящее время не существует строгих методов ана лиза оптимальности разрешающих матриц, и при их изме нении приходится опираться на интуитивные рассуждения. Последние сводятся в нашем случае опять к представлениям о «логическом» и «эмоциональном» каналах переработки информации. Ограничим разрешающую матрицу таким об разом, чтобы связи устанавливались в центральных блоках этих каналов — ПО, ПС и 9,— а также между ними. Лока лизуя таким образом процессы обучения, мы уменьшаем общее количество связей, устанавливающихся в сети в ходе обучения, уменьшаем влияние на характер поведения второ степенных совпадений и увеличиваем удельный вес пред-

© © © © © © Щ jl© ©						Ш Г-		О
© © © © © ©	i ...г-		©		• •	• 1 — ID		О		Тестовая
А					• •		• • •	•	в	Тестовая
	©j	j©]		о					в	Рис. 113.
	©j	j©]		о						ситуация.
	1	\|

Рис. 114. Ожидаемые реакции М-ав томата в тестовой ситуации.

-^8

организации в формировании поведения. Все это должно при вести к улучшению характеристик последнего. Измененная соответствующим образом разрешающая матрица обучения представлена на рис. 112, а. Ее иллюстрирует блок-схема на рис. 112, б, на которой соединительные линии указывают области, где установление разрешено. Связи предорганиза ции на рисунке не показаны. Автомат, реализующий эту разрешающую матрицу, обозначим символом Аз.

Адекватность поведения автомата во многом определяет ся «подвижностью» процессов обучения, т. е. способностью автомата быстро изменять оценки при изменении среды. В нашем случае такие способности автомата определяются соотношением активностей процессов проторения и забыва ния связей, которые, в свою очередь, зависят от значения

коэффициентов кг, kz и В, В в выражениях (8.9) и (8.10). Изменять это соотношение можно, очевидно, путем измене ния одной какой-либо пары коэффициентов.

Будем исследовать характер изменения реакций автома та, варьируя значения В и р . Для этого поместим автомат Аз в тестовую ситуацию, изображенную на рис. 113. В ходе

эксперимента автомат	перемещается	из ячейки А в		ячей
ку В. На первой половине пути автомат			воспринимает	толь
ко «отрицательные»	раздражители,	на	второй — «положи-

—\|	1			Рис. 115.	Зависимость оценки	качества
—\|	1	1	I J	функционирования М-автомата		от под-
0,2	OA	0,6	0,8 p,J3	важности	обучения.

Рис. 116. Реакции М-автомата в те стовой ситуации.

15 .15 17 19 21 25

25 27 Т

13 15

17 19 21 23 25 27 Т

	тельные». Адекватными			значениями			Д(Д =		Ппр— Пнпр)
	будут, следовательно, отрицательное значение на первом
	участке	и положительное — на втором. Поскольку								автомат
	вначале воспринимает отрицательные раздражители, можно
	ожидать, что выработанное им за это время значение А (от
	рицательное)		будет сохранять свой знак и в течение							некото
	рого времени		б после	перехода	в	область		положительных
	раздражителей (рис. 114). Время					переходного периода б
	является	в этих условиях характеристикой						памяти.		Варьи-
		/ч
	руя Р и	Р, будем подбирать такие			их значения,				при	которых
	б минимально и, следовательно, значения е максимальны.
	При всех экспериментах сохраняется равенство								Р =	р, зна
	чения остальных параметров обучения соответствуют основ
	ному варианту.
	Результаты эксперимента приведены на рис. 115. Видно,
	что оптимальные значения коэффициентов принадлежат об
	ласти 0,6 -т- 0,7. Однако но условию (9.19) нижняя									граница
352	их значений		составляет	примерно		0,8.	Поэтому		примем для

<<< < Предыдущая 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 3435 / 3835 36 37 38 > Следующая >>>

Соседние файлы в папке книги из ГПНТБ