Принцип оптимальности и уравнения Беллмана

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Вятский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Методы оптимальных решений_Курс лекций.doc

Скачиваний:

Добавлен:

01.04.2025

Размер:

934.4 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 / 1917 18 19 > Следующая >>>

Принцип оптимальности и уравнения Беллмана

Принцип оптимальности впервые сформулирован Р.Беллманом в 1953 г. В отечественной математике общепринятой стала формулировка этого принципа, предложенная Е.С.Вентцель [3].

Каково бы ни было состояние s системы в результате какого-либо числа шагов, на ближайшем шаге нужно выбирать управление так, чтобы оно в совокупности с оптимальным управлением на всех последующих шагах приводило к оптимальному выигрышу на всех оставшихся шагах, включая данный.

Основным требованием остается то, что процесс управления должен быть без обратной связи. Иными словами, принцип утверждает, что для любого управляемого процесса без обратной связи оптимальное управление таково, что оно является оптимальным для любого подпроцесса по отношению к исходному состоянию этого подпроцесса. Следовательно, решение, принимаемое на каждом шаге, оказывается наилучшим с точки зрения управления в целом.

На последнем, n-м шаге решение принимается только из оптимальности этого шага, т.е. локально-оптимально для любого состояния системы s_n_-1 к началу этого шага. Если решается задача на максимум целевой функции, то управление X_n нужно выбрать так, чтобы при любых состояниях s_n_-1 получить максимум целевой функции на этом шаге:

(4.4)

Максимум показателя эффективности n-го шага , вычисленный по формуле (4.4), называется условным максимумом целевой функции на n-м шаге. Максимизация проводится по всем допустимым управлениям X_n. Соответствующее решение X_n, при котором достигается , тоже зависит от s_n_-1, называется условным оптимальным управлением на n-м шаге и обозначается .

После решения одношаговой задачи имеем (для всех возможных состояний s_n_-1) две функции: и .

Рассмотрим двухшаговую задачу, т.е. добавим к n-му шагу (n-1)-й (рис.2).

Для любых состояний s_n_-2, произвольных управлений X_n_-1 и оптимальном управлении на последнем шаге значение целевой функции на двух последних шагах равно сумме:

(4.5)

Согласно принципу оптимальности нужно найти максимум выражения (4.5) по всем допустимым управлениям X_n_-1. Этот максимум зависит только от состояния к началу предпоследнего шага s_n_-2, т.к. значение s_n_-₁ можно найти из уравнения состояния (4.2) при k=n-1 и подставить в функцию Максимум суммы (4.5) обозначается и называется условным максимумом целевой функции при оптимальном управлении на двух последних шагах. Соответствующее управление называется условным оптимальным управлением на (n-1)-м шаге и обозначается .

(4.6)

В результате максимизации получаются две функции: и . Далее аналогичным образом рассматривается трехшаговая задача и т.д., т.е. к решенной задаче присоединяется предыдуший шаг.

Итак, в общем случае целевая функция на n-k последних шагах (рис.3) при произвольном управлении на X_k на k–м шаге и оптимальном управлении на последующих n-k шагах равна сумме:

(4.7)

Согласно принципу оптимальности управление X_k выбирается из условия максимума этой суммы. Управление, при котором достигается максимум, обозначается и называется условным оптимальным управлением на k-м шаге. Максимум суммы (4.7) обозначается :

(4.8)

Рекуррентные уравнения (4.8) называют уравнениями Беллмана. Процесс нахождения оптимального решения называется условной оптимизацией.

В общем виде алгоритм решения следующий:

Найти решение как решение задачи (4.4) и определить соответствующее управление .
Далее использовать уравнения состояний (4.2) (для выражения s_kчерез s_k_-1) и уравнения Беллмана (4.8) для нахождения решений и .

В результате условной оптимизации получаются две последовательности: условных максимумов целевой функции

и условных оптимальных управлений

Найденное значение - условный максимум целевой функции за n шагов при условии, что к началу первого шага система была в начальном состоянии s₀, т.е. это искомый максимум целевой функции:

. (4.9)

При фиксированном состоянии s₀ имеется решение . Дальше следует использовать уравнения состояния (4.2) и последовательность условных оптимальных управлений для получения следующей цепочки результатов:

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 / 1917 18 19 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025456.7 Кб2методрекомендации к промежуточной аттестации ст...doc
#
02.06.20152.32 Mб12Методуказания II семестр.pdf
#
01.07.20252.79 Mб2Методуказания к ПЗ (Электропривод)1.doc
#
27.04.201979.87 Кб3методуказания повыш. уровень.doc
#
01.05.2025116.2 Кб3Методы изучения культуры.docx
#
01.04.2025934.4 Кб1Методы оптимальных решений_Курс лекций.doc
#
01.04.20251.04 Mб3Методы оптимальных решений_решение задач (2).doc
#
02.06.201556.32 Кб20Методы поиска решений.doc
#
01.07.2025214.53 Кб2МЕТОДЫ, СРЕДСТВА И РЕЖИМЫ ОБРАБОТКИ МЕДИЦИНСКОГО ИНСТРУМЕНТАРИЯ В ЛПУ.doc
#
01.07.20251.25 Mб0Метрология и стандартизация.docx
#
01.05.202546.08 Кб2Метрология. Вопросы 25-30, 34.doc