Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Книги / TURIN / ПРИЛОЖ~1.DOC
Скачиваний:
32
Добавлен:
10.12.2013
Размер:
135.68 Кб
Скачать

Поведение автоматов в случайных средах

История изучения моделей этого типа начинается с конца 50-х гг., когда М.Л.Цетлин предложил задачу о создании технических устройств, которые могли бы демонстрировать целесообразное поведе­ние в случайных средах, о параметрах которых эти устройства априорно не имели бы информации. К началу 60-х гг. появились не­сколько конструкций, обладавших нужными спо­собностями. И первой среди них стал автомат с линейной тактикой, предложенный Цетлиным.

Автомат с линейной тактикой —это обычный конечный автомат, в ко­тором смена состояний под влиянием входных сигналов происходит так, как это показано на рис. Это простейший автомат с двумя состояниями. В левом состоянии автомат выдает в качестве своего выхода сигнал о том, что он совершает действиеd1, а в правом состоянии —сигнал о том, что он совершает действиеd2. Если после этого на следу­ющем такте работы среда штрафует автомат за сде­ланное действие, он меняет свое состояние и автоматически меняет свое действие (эта смена по­казана на диаграмме переходов пунктиром). Если же среда поощряет автомат к тому же действию, то автомат сохраняет свое состояние, и действие по­вторяется.

d1d2 Действия

1 2 СРЕДА

Поощрения и штрафы

Рис. ,а

Реализация такого простейшего автомата весь­ма проста, но эта простота ограничивает возможно­сти автомата. Предположим, что среда работает как некоторый случайный механизм. Другими словами, на дейст­вие d1автомата она отвечает сигналом штрафа с некоторой постоянной (но неизвестной автомату) вероятностью n2, а с вероятностью 1 —niсреда фор­мирует на вход автомата сигнал поощрения за это действие. Среды такого типа обычно называют стационарными, подчеркивая их независимость от вре­мени и воздействия на нее со стороны автомата.

Пусть автомат находился в начальный момент в состоянии 1,т. е. выдал в среду действиеd1. Тог­да, если среда, например, определяется вектором (n1,n2) = (0,8; 0,1),то с вероятностью 0,8автомат за действие d1будет оштрафован и в результате этого сменит состояние. С вероятностью 0,2штра­фа за d1не будет, и автомат может остаться в со­стоянии 1.В состоянии 1на следующем шаге работы вероятность штрафа опять будет 0,8,а ве­роятность поощрения — 0,2.В состоянии 2автомат ожидает более комфортное существование. Здесь за действие d2получает наказание лишь с веро­ятностью 0,1.И лишь изредка он будет попадать в состояние 1с немалой величиной ожидаемого штрафа.

Целесообразно ведущий себя автомат должен минимизировать суммарный штраф за время свое­го существования. Но если бы автомат заранее знал параметры среды, наилучшей стратегией его поведения было бы постоянное нахождение в со­стоянии 2,терпя штрафы в этом состоянии как не­избежное зло. Всякий переход в состояние 1лишь увеличивает накапливаемый штраф. Но беда в том, что априорная информация о параметрах сре­ды автомату не дана. Он на своей "шкуре" должен узнать эти параметры.

Простейший автомат превращается в автомат с линейной тактикой после того, как увеличивается число состояний, в которых он выполняет одинако­вое действие. На рис. ,бпоказан такой автомат, рассчитанный на выдачу в среду трех разных дей­ствий:d1,d2и d3.Все группы состояний устроены одинаково. Когда автомат, находящийся в опреде­ленной группе состояний, получает сигнал поощре­ния за выполненное действие, то он переходит в новое состояние, двигаясь "в глубину" данной груп­пы к состоянию с номером m. Если цепочка поощ­рений достаточна, то, в конце концов, он достигает этого последнего в группе состояния m и остается в нем все время, пока идут сигналы поощрения.

m m m

m-1

m-1 m-1

.

d1d2

.

. d3

2

2 2

1

1 1

Рис. ,б

Сигналы штрафа заставляют автомат двигаться в обратном направлении. И если выбранное им дей­ствие среде "не нравится", то он, в конце концов, дойдет до первого состояния в группе, и очередной сигнал штрафа от среды переведет его в первое со­стояние группы, связанной с реализацией другого действия. Если это действие окажется удачным, то автомат начнет двигаться вглубь по этой новой группе состояний, а если, попав в первое состояние группы, он мгновенно получит сигнал штрафа, то немедленно отреагирует на это сменой группы и пе­реходом к новому действию.

Автомат с линейной тактикой в среде, в ко­торой, например, сигналы штрафов от среды за действия автомата поступают в соответствии с вектором (0,9; 0,1; 0,7),в конце концов, окажется во второй группе состояний, и "выбить" его оттуда при большом значении m будет нелегко. Значение m, называемое глубиной памяти автомата, харак­теризует его инерционность, способность сохранять наилучшее действие в данной среде некоторого периода адаптации.

Соседние файлы в папке TURIN