
- •12. Оптимальное управление
- •12.1 Введение
- •12.2. Цели управления и критерии оптимизации
- •12.3. Синтез оптимальных систем управления с помощью вариационного исчисления
- •12.4. Синтез оптимальных систем с помощью принципа максимума
- •12.4.1. Общие положения
- •12.4.2 Последовательность решения задач с помощью принципа максимума
- •1) При любом в интервале функция , рассматриваемая как функция переменного , , достигала в точке максимума ;
- •12.4.3. Связь принципа максимума с уравнением Эйлера
- •12.4.4. Пример применения метода Понтрягина.
- •12.5. Динамическое программирование - метод решения задач оптимального управления
- •12.5.1 Общие сведения
- •12.5.2. Принцип оптимальности Беллмана
- •12.5.3 Уравнение Беллмана
- •12.5.4. Пример применения уравнения Беллмана
- •12.5.5. Дискретный вариант мдп
12.5.2. Принцип оптимальности Беллмана
Одним из основных принципов организации оптимального управления в МДП является принцип оптимальности, сформулированный Р.Беллманом. Переходим к изложению этого принципа.
Пусть математическое описание объекта управления задано системой дифференциальных уравнений:
или
в векторной форме
На
координаты и управление наложены
различные ограничения, которые имеют
вид:
Пусть
критерий оптимальности выражен
функционалом, который может зависеть
от координат вектора
,
управления
и времени
:
Кроме
того, мы рассмотрим приложение МДП к
задачам, так называемым терминальным,
где требуется перевод системы из
начального состояния
в конечное
состояние
Оптимальное
управление, доставляющее экстремум
функционалу и соответствующие ему
процессы, будем отмечать звездочкой
При найденном управлении функционал
будет функцией начальных условий и
интервала управления
.
Мы будем его также отмечать звездочкой
. Согласно определения,
Это
выражение представляет собой функциональное
выражение, из которого мы можем найти
значение оптимального управления
Выберем
промежуточную точку
(рис.
12.3) на интервале
.
На
оптимальной траектории
появится точка
,
которая будет соответствовать
промежуточному положению. Таким образом,
траектория разделится на две части (АВ2
и В2С)
Функционал разделится также на две
партии:
Принцип оптимальности сводится к следующему:
оптимальное управление таково, что, каким бы не было начальное состояние системы и начальное оптимальное управление, всегда последующее управление должно быть также оптимальным, относительно состояния, возникшего в результате оптимального управления на начальном этапе.
Сделаем
исследование на втором этапе (рис.12.3).
Движение на втором этапе может начаться
из различных точек.
Принимая эти точки за начальные, мы
можем провести оптимальные траекторииa
. Их называют условно-оптимальными, так
как они оптимальные только для отрезка
времени (
)
и для промежуточных точек
.
Но оптимальной траекторией для обоих
отрезков времени будет только
.
Определение
оптимального управления
на интервале (
)
может быть
выполнено с помощью функционального
уравнения:
.
В
рамках МДП полученное уравнение равно
второму члену в суммарном функционале,
то-есть,
.
Имеем
тогда
12.5.3 Уравнение Беллмана
Как
известно, в методе ДП принято двигаться
от конца к началу. Поэтому можно считать,
что конец оптимальной траектории
известен заранее. Начало движения будем
обозначать не
,
а
.
Момент времени
,
который разделяет оптимальную траекторию
на две части, также будем считать
переменной величиной, которая может
сколь угодно близко приближаться к
.
Поэтому подставим вместо
.
В соответствии с гипотезами, принятыми
раньше, напишем функциональное уравнение
в
следующем виде:
Разложим
в написанном выше уравнении сумму
в фигурных скобках в ряд Тейлора, в
окрестности
,
по степеням
:
(23)
Здесь:
- остатки, содержащие члены разложения
с производными второго и большего
порядка, которые являются малыми
величинами в сравнении с
.
Замечания:
Терм
так как верхний и нижний пределы равны.
В соответствии с теоремой дифференцирования интеграла по параметру,
значение
которого зависит от верхнего предела,
производная равна функции под знаком
интеграла,
3.
Терм
не зависит от
.
Поэтому его можно вынести за знак
EXTR и его сократить с аналогичным термом левой части уравнения.
После этого делим все члены уравнения на
и, устремив
, получим,
пренебрегая
:
Заменяя
,
получаем окончательно:
Полученное
выражение называется уравнением
Беллмана. Оно представляет собой
специфическое уравнение в частных
производных. Решая его, приходим к
et
.
Решение уравнения Беллмана обычно достаточно трудное. Чтобы прийти к конечным результатам, используют численные методы. Но в простейших задачах удается решить уравнение Беллман аналитическими методами.