- •Раздел 3
- •Глава 12. Задачи оптимального управления и методы их приближенного решения
- •§1. Постановка задачи оптимального управления
- •§2. Принцип максимума л. С. Понтрягина
- •§3. Метод приближенного решения задачи оптимального управления, использующий п-систему
- •§4. Приближенное решение задачи оптимального управления методом вариаций в фазовом пространстве. Метод локальных вариаций
- •§5. Приближенное решение задачи оптимального управления методом вариаций в пространстве управлений
- •§6. Метод динамического программирования Беллмана
- •§7. Приближенное решение задач оптимального управления методом динамического программирования Беллмана
- •Этап 2.
- •Этап 1.
- •Этап 2.
- •§8. Приближенное решение задач оптимального управления путем сведения к задаче нелинейного программирования
§5. Приближенное решение задачи оптимального управления методом вариаций в пространстве управлений
Метод разработан в ИМП АН СССР Федоренко Р.П. Рассмотрим задачу оптимального управления
(1)
(2)
Обратим
внимание на то, что данная постановка
задачи оптимального управления не
содержит граничного условия
и ограничений на вектор фазовых
координат
.
Положим,
что известно некоторое приближение к
оптимальному управлению
,
которое мы будем называтьневозмущенным
управлением.
В
рассматриваемом методе существенно
используется производная функционала
.
Если для
любых достаточно малых возмущений
невозмущенного управления
справедливо соотношение
,
то
-
вектор-столбец
называетсяфункциональной
производной в смысле Фреше
функционала
на невозмущенной траектории
и обозначается
. (3)
Здесь
транспонированный вектор
,
- некоторая векторная норма.
Техника дифференцирования функционалов, определенных на траекториях динамической системы, достаточно сложна и ее рассмотрение выходит за рамки данного курса. Будем полагать, однако, что мы умеем вычислять функциональные производные (3).
Заметим, что метод вариаций в пространстве управлений применим и к функционалам, отличным от функционала (2), например, к функционалу вида
.
По существу, при этом изменяется лишь техника вычисления функциональных производных.
В
методе вариаций в пространстве управлений
на каждой итерации вариация
управления
определяется путем минимизации линейной
части приращения функционала
,
вызванного этой вариаций:
. (4)
Здесь
- некоторая малая окрестность невозмущенного
управления
.
Окрестность
имеет важное технологическое значение
– удачное построение этой окрестности
может значительно повысить вычислительную
эффективность метода. Однако задача
построения этой окрестности однозначного
решения не имеет.
При
построении множества
следует учитывать следующие требования.
Из того факта, что
,
должно следовать, что
.Множество
должно быть достаточно малой окрестностью
траектории
,
чтобы линейная часть
приращения функционала
достаточно точно описывала это
приращение.Множество
должно быть достаточно большой
окрестностью траектории
,
чтобы сходимость управления к оптимальному
управлению не была слишком медленной.Множество
должно бытьполной
окрестностью невозмущенного управления
.
Окрестность
траектории
называется полной, если для любой
допустимой вариации управления
(т.е. такой вариации, что
)
существует такое число
,
что
для всех
и для всех
.
Понятие полной окрестности формализует
требование полноты допустимых вариаций
– окрестность
должна содержать вариации невозмущенного
управления во всех допустимых
направлениях.
Схема метода вариаций в пространстве управлений.
Из каких либо соображений задаем начальное приближение к оптимальному управлению
и полагаем счетчик числа итераций
равным
.С управлением
решаем задачу Коши для системы ОДУ (1)
– получаем фазовую траекторию
.Вычисляем
- значение критерия качества управления
(2) на невозмущенной траектории
.В окрестности невозмущенной траектории
выполняем линеаризацию задачи –
вычисляем функциональную производную
![]()
и
определяем окрестность
невозмущенной траектории.
Из условия
(5)
находим
приращение
управления
.
Полагаем
.Если условие окончания итераций выполнено (см. ниже), то в качестве приближения к оптимальному управлению принимаем управление
и заканчиваем вычисления. Иначе –
полагаем
и переходим к п. 2●
В качестве условия окончания итераций естественно принять условие
,
где
- некоторая функциональная норма,
заданная константа.
Заметим, что задача (5) может быть сведена к задаче линейного программирования, что является значительным достоинством метода.
Входные термины:
задача оптимального быстродействия;
фазовое пространство;
динамическая система.
Выходные термины:
принцип оптимальности;
функция Беллмана;
уравнение динамического программирования Беллмана;
метод динамического программирования Беллмана.
