Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методы оптимальных решений_Курс лекций.doc
Скачиваний:
1
Добавлен:
01.04.2025
Размер:
934.4 Кб
Скачать
    1. Принцип оптимальности и уравнения Беллмана

Принцип оптимальности впервые сформулирован Р.Беллманом в 1953 г. В отечественной математике общепринятой стала формулировка этого принципа, предложенная Е.С.Вентцель [3].

Каково бы ни было состояние s системы в результате какого-либо числа шагов, на ближайшем шаге нужно выбирать управление так, чтобы оно в совокупности с оптимальным управлением на всех последующих шагах приводило к оптимальному выигрышу на всех оставшихся шагах, включая данный.

Основным требованием остается то, что процесс управления должен быть без обратной связи. Иными словами, принцип утверждает, что для любого управляемого процесса без обратной связи оптимальное управление таково, что оно является оптимальным для любого подпроцесса по отношению к исходному состоянию этого подпроцесса. Следовательно, решение, принимаемое на каждом шаге, оказывается наилучшим с точки зрения управления в целом.

На последнем, n-м шаге решение принимается только из оптимальности этого шага, т.е. локально-оптимально для любого состояния системы sn-1 к началу этого шага. Если решается задача на максимум целевой функции, то управление Xn нужно выбрать так, чтобы при любых состояниях sn-1 получить максимум целевой функции на этом шаге:

(4.4)

Максимум показателя эффективности n-го шага , вычисленный по формуле (4.4), называется условным максимумом целевой функции на n-м шаге. Максимизация проводится по всем допустимым управлениям Xn. Соответствующее решение Xn, при котором достигается , тоже зависит от sn-1, называется условным оптимальным управлением на n-м шаге и обозначается .

После решения одношаговой задачи имеем (для всех возможных состояний sn-1) две функции: и .

Рассмотрим двухшаговую задачу, т.е. добавим к n-му шагу (n-1)-й (рис.2).

Для любых состояний sn-2, произвольных управлений Xn-1 и оптимальном управлении на последнем шаге значение целевой функции на двух последних шагах равно сумме:

(4.5)

Согласно принципу оптимальности нужно найти максимум выражения (4.5) по всем допустимым управлениям Xn-1. Этот максимум зависит только от состояния к началу предпоследнего шага sn-2, т.к. значение sn-1 можно найти из уравнения состояния (4.2) при k=n-1 и подставить в функцию Максимум суммы (4.5) обозначается и называется условным максимумом целевой функции при оптимальном управлении на двух последних шагах. Соответствующее управление называется условным оптимальным управлением на (n-1)-м шаге и обозначается .

(4.6)

В результате максимизации получаются две функции: и . Далее аналогичным образом рассматривается трехшаговая задача и т.д., т.е. к решенной задаче присоединяется предыдуший шаг.

Итак, в общем случае целевая функция на n-k последних шагах (рис.3) при произвольном управлении на Xk на k–м шаге и оптимальном управлении на последующих n-k шагах равна сумме:

(4.7)

Согласно принципу оптимальности управление Xk выбирается из условия максимума этой суммы. Управление, при котором достигается максимум, обозначается и называется условным оптимальным управлением на k-м шаге. Максимум суммы (4.7) обозначается :

(4.8)

Рекуррентные уравнения (4.8) называют уравнениями Беллмана. Процесс нахождения оптимального решения называется условной оптимизацией.

В общем виде алгоритм решения следующий:

  1. Найти решение как решение задачи (4.4) и определить соответствующее управление .

  2. Далее использовать уравнения состояний (4.2) (для выражения sk через sk-1) и уравнения Беллмана (4.8) для нахождения решений и .

В результате условной оптимизации получаются две последовательности: условных максимумов целевой функции

и условных оптимальных управлений

.

Найденное значение - условный максимум целевой функции за n шагов при условии, что к началу первого шага система была в начальном состоянии s0, т.е. это искомый максимум целевой функции:

. (4.9)

При фиксированном состоянии s0 имеется решение . Дальше следует использовать уравнения состояния (4.2) и последовательность условных оптимальных управлений для получения следующей цепочки результатов:

.