
- •Раздел 3
- •Глава 12. Задачи оптимального управления и методы их приближенного решения
- •§1. Постановка задачи оптимального управления
- •§2. Принцип максимума л. С. Понтрягина
- •§3. Метод приближенного решения задачи оптимального управления, использующий п-систему
- •§4. Приближенное решение задачи оптимального управления методом вариаций в фазовом пространстве. Метод локальных вариаций
- •§5. Приближенное решение задачи оптимального управления методом вариаций в пространстве управлений
- •§6. Метод динамического программирования Беллмана
- •§7. Приближенное решение задач оптимального управления методом динамического программирования Беллмана
- •Этап 2.
- •Этап 1.
- •Этап 2.
- •§8. Приближенное решение задач оптимального управления путем сведения к задаче нелинейного программирования
§7. Приближенное решение задач оптимального управления методом динамического программирования Беллмана
Рассмотрим (только для простоты записи) задачу оптимального управления для стационарной динамической системы и критерием оптимальности, зависящим только от вектора управления:
(1)
(2)
Обратим
внимание на то, что, в отличие от того,
как это делалось ранее, для обозначения
фазового вектора использована маленькая
букваx,
а для обозначения
вектора управления – маленькая букваu.
Покроем
интервал
сеткой
с шагом
(рисунок 1).
Рисунок
1 - Равномерная
временная сетка на интервале
Систему ОДУ (1) заменим ее конечно-разностным аналогом
, (3)
а функционал (2) заменим его приближенным значением, вычисленным по формуле прямоугольников
, (4)
где
есть
-матрица.
Таким образом, задача оптимального управления (1), (2) в дискретной форме имеет вид (3), (4).
Аналогично
матрице
введем в рассмотрение
-матрицу
и сформулируем принцип оптимальности
(см. параграф 6) для задачи (3), (4).
Утверждение
1 (принцип оптимальности для дискретной
системы). Пусть
=
- оптимальное управление для задачи
оптимального управления (3), (4) и пусть
=
- соответствующая оптимальная фазовая
траектория. Тогда для любых
управление
и соответствующая траектория
будут оптимальными на интервале времени
●
Другими
словами, если траектория
оптимальна, то и любая ее завершающая
часть, начинающаяся из точки
,
будет оптимальной на последних
шагах. А всякая другая траектория из
того же состояния, вообще говоря, не
является оптимальной на этих шагах
(рисунок 2).
Рисунок
2 - К принципу
оптимальности для дискретной системы.
Обозначим
значение функционала (4) на завершающих
шагах
,
.
Тогда
если на завершающих
шагах управление оптимально, имеет
место равенство
=
, (5)
где
-функция
Беллмана последних
шагов для дискретной задачи оптимального
управления (3), (4).
Из
утверждения 1 следует, что на последнем
шаге (когда
)
=
. (6)
Найдем
рекуррентное соотношение, связывающее
между собой функции
,
.
Положим для этого, что функция
известна. Тогда если наk-ом
шаге с начальным состоянием
выбрать управление
,
то процесс перейдет в состояние
(начальное для последующих
шагов). Если этот переход оптимален, то
опять же из утверждения 1 следует искомое
соотношение
. (7)
Уравнения
(6), (7) позволяют последовательно найти
функции
,
,…,
и называютсяуравнениями
Беллмана для дискретной системы
(3), (4). Отметим, что одновременно с
нахождением функций
,
,…,
оказываются определенными и управления
.
Поскольку управление
зависит от состояния
,
это управление называетсяусловно
оптимальным управлением.
После
нахождения условно оптимальных управлений
можно найти искомые управления
по следующей схеме:
поскольку состояние
известно, находим управление
; с этим управлением по формуле (3) находим состояние
;
поскольку состояние
известно, находим управление
; с этим управлением по формуле (3) находим состояние
;
……
поскольку состояние
известно, находим управление
; очевидно, что
=
.
Схема приближенного решения задач оптимального управления методом динамического программирования Беллмана
Этап 1
Шаг 1. Из условия (6) находим условно оптимальное управление
и функцию Беллмана
.
Шаг 2. Используя результаты предыдущего шага, из условия (7) находим условно оптимальное управление
и функцию Беллмана
.
…………………..
Шаг N. Используя результаты предыдущего шага, из условия (7) находим условно оптимальное управление
и функцию Беллмана
.