Добавил:

bagiwow Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Пермский национальный исследовательский политехнический университет

Предмет:

Дискретная математика

Файл:

Книги / TURIN / ПРИЛОЖ~1.DOC

Скачиваний:

Добавлен:

10.12.2013

Размер:

135.68 Кб

Скачать

☆

<<< < Предыдущая 12 / 52 3 4 5 > Следующая >>>

Поведение автоматов в случайных средах

История изучения моделей этого типа начинается с конца 50-х гг., когда М.Л.Цетлин предложил задачу о создании технических устройств, которые могли бы демонстрировать целесообразное поведение в случайных средах, о параметрах которых эти устройства априорно не имели бы информации. К началу 60-х гг. появились несколько конструкций, обладавших нужными способностями. И первой среди них стал автомат с линейной тактикой, предложенный Цетлиным.

Автомат с линейной тактикой —это обычный конечный автомат, в котором смена состояний под влиянием входных сигналов происходит так, как это показано на рис. Это простейший автомат с двумя состояниями. В левом состоянии автомат выдает в качестве своего выхода сигнал о том, что он совершает действиеd₁, а в правом состоянии —сигнал о том, что он совершает действиеd₂. Если после этого на следующем такте работы среда штрафует автомат за сделанное действие, он меняет свое состояние и автоматически меняет свое действие (эта смена показана на диаграмме переходов пунктиром). Если же среда поощряет автомат к тому же действию, то автомат сохраняет свое состояние, и действие повторяется.

d₁d₂Действия

1 2 СРЕДА

Поощрения и штрафы

Рис. ,а

Реализация такого простейшего автомата весьма проста, но эта простота ограничивает возможности автомата. Предположим, что среда работает как некоторый случайный механизм. Другими словами, на действие d₁автомата она отвечает сигналом штрафа с некоторой постоянной (но неизвестной автомату) вероятностью n₂, а с вероятностью 1 —n_iсреда формирует на вход автомата сигнал поощрения за это действие. Среды такого типа обычно называют стационарными, подчеркивая их независимость от времени и воздействия на нее со стороны автомата.

Пусть автомат находился в начальный момент в состоянии 1,т. е. выдал в среду действиеd₁. Тогда, если среда, например, определяется вектором (n₁,n₂) = (0,8; 0,1),то с вероятностью 0,8автомат за действие d₁будет оштрафован и в результате этого сменит состояние. С вероятностью 0,2штрафа за d₁не будет, и автомат может остаться в состоянии 1.В состоянии 1на следующем шаге работы вероятность штрафа опять будет 0,8,а вероятность поощрения — 0,2.В состоянии 2автомат ожидает более комфортное существование. Здесь за действие d₂получает наказание лишь с вероятностью 0,1.И лишь изредка он будет попадать в состояние 1с немалой величиной ожидаемого штрафа.

Целесообразно ведущий себя автомат должен минимизировать суммарный штраф за время своего существования. Но если бы автомат заранее знал параметры среды, наилучшей стратегией его поведения было бы постоянное нахождение в состоянии 2,терпя штрафы в этом состоянии как неизбежное зло. Всякий переход в состояние 1лишь увеличивает накапливаемый штраф. Но беда в том, что априорная информация о параметрах среды автомату не дана. Он на своей "шкуре" должен узнать эти параметры.

Простейший автомат превращается в автомат с линейной тактикой после того, как увеличивается число состояний, в которых он выполняет одинаковое действие. На рис. ,бпоказан такой автомат, рассчитанный на выдачу в среду трех разных действий:d₁,d₂и d₃.Все группы состояний устроены одинаково. Когда автомат, находящийся в определенной группе состояний, получает сигнал поощрения за выполненное действие, то он переходит в новое состояние, двигаясь "в глубину" данной группы к состоянию с номером m. Если цепочка поощрений достаточна, то, в конце концов, он достигает этого последнего в группе состояния m и остается в нем все время, пока идут сигналы поощрения.

m m m

m-1

m-1 m-1

d₁d₂

. d₃

2 2

1 1

Рис. ,б

Сигналы штрафа заставляют автомат двигаться в обратном направлении. И если выбранное им действие среде "не нравится", то он, в конце концов, дойдет до первого состояния в группе, и очередной сигнал штрафа от среды переведет его в первое состояние группы, связанной с реализацией другого действия. Если это действие окажется удачным, то автомат начнет двигаться вглубь по этой новой группе состояний, а если, попав в первое состояние группы, он мгновенно получит сигнал штрафа, то немедленно отреагирует на это сменой группы и переходом к новому действию.

Автомат с линейной тактикой в среде, в которой, например, сигналы штрафов от среды за действия автомата поступают в соответствии с вектором (0,9; 0,1; 0,7),в конце концов, окажется во второй группе состояний, и "выбить" его оттуда при большом значении m будет нелегко. Значение m, называемое глубиной памяти автомата, характеризует его инерционность, способность сохранять наилучшее действие в данной среде некоторого периода адаптации.

<<< < Предыдущая 12 / 52 3 4 5 > Следующая >>>

Соседние файлы в папке TURIN

#
10.12.2013138.75 Кб37ЛЕКЦПР~4.DOC
#
10.12.201344.54 Кб32ЛЕКЦПРИЛ.DOC
#
10.12.201312.8 Кб33ЛИТЕРА~1.DOC
#
10.12.201319.46 Кб33ЛИТЕРАТУРА.doc
#
10.12.201387.55 Кб48ответы.doc
#
10.12.2013135.68 Кб32ПРИЛОЖ~1.DOC
#
10.12.2013429.57 Кб43РУКОВО~1.DOC
#
10.12.2013119.81 Кб35РУКОВО~2.DOC
#
10.12.2013280.06 Кб49РУКОВО~3.DOC
#
10.12.2013180.22 Кб35РУКОВО~4.DOC