Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие ПП (главы 3 и 4).doc
Скачиваний:
54
Добавлен:
09.04.2015
Размер:
3.05 Mб
Скачать

3. Задача о распределении ресурса

Имеется некоторый ресурс в количестве ипредприятий, между которыми этот ресурс требуется распределить так, чтобы максимизировать суммарную прибыль, даваемую этими предприятиями. Известны функции,, определяющие прибыль каждого из предприятий в зависимости от количестваимеющегося на предприятии ресурса. Таким образом, если-е предприятие располагает ресурсом в количестве, то оно обеспечивает прибыль величиной. С учетом введенных обозначений, задача о распределении ресурса может быть сформулирована в виде:

(4.1.4)

Данная статическая задача с сепарабельной целевой функцией может быть сведена к задаче динамического программирования.

Предположим, что распределение ресурса осуществляется по шагам: сначала выделяется некоторое количество ресурса одному предприятию, затем другому и т.д. Введем переменную – количество ресурса, выделенное-му предприятию (в динамическом программировании соответствует количеству ресурса, выделенному в-й момент времени или на-м шаге). Тогда прибыль, даваемая-м предприятием, составит. Количество ресурса, остающегося не распределенным к-му моменту времени, обозначим через. В результате вместо задачи (4.1.4) получим следующую задачу динамического программирования:

В такой постановке интерпретируются как управления, а– как значения параметра состояния системы.

Сведение исходной задачи к задаче динамического программирования позволяет в ряде случаев существенно облегчить получение искомого решения.

4.2. Метод динамического программирования р. Беллмана

Запишем задачу динамического программирования в виде, несколько отличающемся от (4.1.1), но по сути эквивалентном:

(4.2.1)

Будем считать допустимыми к использованию только управления, принадлежащие множеству допустимых управлений, которое определяется следующим образом:

(4.2.2)

Введем функцию Беллмана , которая приопределяется выражением

, (4.2.3)

а при рекуррентным соотношением

. (4.2.4)

Выражение (4.2.4) при может быть записано также в виде:

.

Рекуррентное соотношение (4.2.4) называется функциональным уравнением Беллмана. Функцию Беллмана обычно бывает найти сложно, что является недостатком метода динамического программирования.

Введем понятие условно оптимального управления Беллмана, представляющего собой совокупность допустимых управлений, на которых достигается максимум (4.2.4):

Здесь управление оптимально при условии, что значение, соответствующее моменту времени, также оптимально.

При определении условно оптимального управления и функции Беллмана в процессе решения задачи динамического программирования используются следующие формальные правила:

1) ;

2) ;

3) ,

где . В результате имеем функцию.

Конкретные траектории состояния и управлений системы определяют следующим образом. Сначала находят решение оптимизационной задачии в качестве управления в начальный момент времени используют условно оптимальное управление. Тогда. Затем в качестве следующего управления принимаюти определяют. Процесс продолжается вплоть до нахожденияи. В общем виде для процесса определения траектории системы можно записать:

Изложенный метод построения траектории системы носит название метода Беллмана.

Теорема 4.2.1

Траектория , построенная методом Беллмана, является оптимальной.

Доказательство. Траектория является допустимой, поскольку она удовлетворяет ограничениям задачи (4.2.1) и условию (4.2.2). По построению справедливы равенства:

Сложим эти равенства:

(4.2.5)

Здесь при записи последнего слагаемого учтено равенство (4.2.3). Полученное выражение по смыслу является значением целевой функции задачи (4.2.1). Рассмотрим некоторую произвольно выбранную допустимую траекторию и покажем, что она не лучше траектории. Тем самым будет доказана оптимальность последней. Из соотношения (4.2.4) вытекает справедливость неравенств:

В результате сложения этих неравенств с учетом (4.2.3) получим:

Поскольку , из последнего неравенства и из (4.2.5) следует

т.е. траектория является оптимальной. Теорема доказана.

Следует отметить, что оптимальных траекторий может быть много. Это относится как к траекториям управлений системой, так и к траекториям ее состояния.