Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
УМК ЭММ и М.doc
Скачиваний:
11
Добавлен:
01.03.2025
Размер:
5.95 Mб
Скачать

Принцип оптимальности Беллмана

Последовательность состояний S вместе с процессами перехода из одного состояния в другое называют траекторией системы S. Траекторию можно задать в виде схемы:

где символами отмечены процессы перехода S из состояния в под действием управления . Каждой траектории соответствует некоторое значение функции . Траектория, на которой достигается экстремум функции F (при конкретных m и y), называется оптимальной траекторией. По-другому, траектория, соответствующая оптимальному управлению, называется оптимальной траекторией.

Разобьем оптимальную траекторию на два куска

и

Принцип оптимальности гласит: последний кусок оптимальной траектории является оптимальной траекторией. По–другому: если

оптимальное управление, то составляющая также является оптимальным управлением.

Доказательство принципа оптимальности легко проводится рассуждением от противного. Пусть – оптимальная траектория. В силу аддитивности, значение целевой функции на оптимальной траектории можно представить в виде суммы двух слагаемых , где – значение целевой функции на траектории . Если предположить, что не является оптимальной, то существует траектория для которой значение более экстремально, чем . Тогда значение менее экстремально, чем , т.е траектория не является оптимальной, хотя по предположению она оптимальная. Полученное противоречие и доказывает принцип оптимальности.

Уравнение Беллмана. Решение исходной задачи

Построение функции Беллмана начинают с последнего этапа. Именно

(4.1.6)

т.е. для каждого определяется управление , при котором известная функция принимает экстремальное значение, равное . Обычно задача (4.1.6) значительно проще задачи (4.1.3).

Предположим теперь, что функция уже построена для всех Тогда при в силу аддитивности целевой функции имеем:

(4.1.7)

Перебирая значения , для каждого из них получим оптимальное управление , на котором достигается экстремум функции (4.1.7).

Уравнение (4.1.7) называется функциональным уравнением Беллмана. Оно имеет рекуррентный характер, т.е. значения функции Беллмана на предыдущем этапе выражаются через ее значения на последующем этапе. Соотношение (4.1.6), которое получается из (4.1.7) при k = n1 и B(y, n) = 0, можно считать краевым условием для уравнения Беллмана.

Разворачивая процесс построения функции Беллмана от конца к началу по формулам (4.1.5), (4.1.6), получим последовательность оптимальных управлений с соответствующими значениями функции B(y, m):

(4.1.8)

Укажем, как получить решение исходной задачи. Пусть – начальное состояние S (в момент ). Просматривая ряд (4.1.8) от начала к концу, находим – оптимальное управление на первом этапе, – оптимальное значение целевой функции за весь процесс. Далее

– оптимальное состояние системы после первого этапа, и – оптимальное управление на втором этапе и оптимальное состояние системы после второго этапа и – оптимальное управление на последнем этапе и конечное оптимальное состояние системы.