Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
OTAU lecture 1.docx
Скачиваний:
9
Добавлен:
01.07.2025
Размер:
1.96 Mб
Скачать

8.5. Оптимальное позиционное управление (динамическое программирование)

Среди задач оптимального управления различают задачи программного оптимального управления и по­зиционного оптимального управления. В первом слу­чае (см. подглаву 8.5) управляющее воздействие U форми­руется в виде функции времени. Во втором случае управляющее воздействие U формируется в виде стра­тегии управления по принципу обратной связи, как функция от доступных значений фазового вектора со­стояний объекта управления (задача синтеза, о кото­рой говорилось в главе 1).

Нахождение оптимального управления U0(t, X) сразу в виде функции текущего состояния связано с использованием метода динамического программиро­вания. Этот метод представляет собой обширный раз­дел математики, посвященный решению многошаго­вых задач оптимального управления. При этом выбор управления на каждом шаге осуществляется в соот­ветствии с конечной целью управления и состоянием системы, полученным в результате управления, при­нятого на предыдущем шаге.

В ряде задач автоматического управления многошаговость проистекает из существа процесса. Напри­мер, определение оптимальных размеров ступеней в многоступенчатой ракете. Часто многошаговость вво­дится искусственно, чтобы обеспечить возможность применения данного метода. Термин «динамическое» указывает на существенную роль времени и порядка в выборе управления.

Основная идея метода. Пусть процесс управления некоторой системой X состоит из m шагов. На i-м ша­ге управление Ui - переводит систему из состояния Xi-1, достигнутого в результате (i-1)-го шага, в новое состояние Xi. Этот процесс перехода осуществляет за­данная функция fi(X,U), и новое состояние опреде­ляется значениями Xi-1, Ui:

Xi=fi(Xi-1,Ui). (8.5.1)

Таким образом, управления U1,U2,...,Um переводят систему из начального состояния Х0 в конечное состоя­ние Хт, причем требуется, чтобы заданный функцио­нал F(X0,U1,Х1,U2,...,Uт, Хт) достигал экстре­мального значения F*, то есть, например,

(8.5.2)

Важной особенностью метода динамического про­граммирования является то, что он применим лишь для аддитивной целевой функции. Это означает в дан­ном примере, что

(8.5.3)

В основе этого метода лежит принцип оптималь­ности, сформулированный Р. Беллманом. Этот прин­цип утверждает, что отрезок оптимальной траектории есть снова оптимальная траектория. В применении к рассматриваемому примеру этот принцип может быть переформулирован следующим образом: предполо­жим, что осуществляя управление системой X, мы уже выбрали некоторые управления U1,U2, ..., Uk и тем самым траекторию Х0, Х1, ..., Xk и хотим завер­шить процесс, то есть выбрать Uk+1, Uk+2,…,Um (а зна­чит, и Xk+1, Xk+2,…, Хт). Тогда, если завершающая часть процесса не будет оптимальной в смысле дости­жения максимума

(8.5.4)

то и весь процесс не будет оптимальным.

Используя этот принцип, получим основное функ­циональное соотношение метода динамического про­граммирования, называемое уравнением Беллмана. Определим последовательность функций перемен­ной х:

ωm(X)=0, (k=1,2,…,m) (8.5.5)

Здесь максимум берется по всем управлениям, допу­стимым на шаге k. Смысл функций ωk-1(X) ясен: если система на шаге k - 1 оказалась в состоянии X, то ωk-1(X) - максимально возможное значение функции F. Одновременно с построением функции ωk-1(X) на­ходятся условные оптимальные управления Uk(X) на каждом шаге, то есть значения оптимального управле­ния при всевозможных предположениях о состоянии х системы на шаге k-1.

Уравнения Беллмана позволяют рассчитать всю последовательность значений ωk(X), начиная с Хт, Um вплоть до Х0 - произвольного начального состояния. При этом расчете U(X,t) может интерпретироваться как оптимальный закон управления с обратной связью по измерениям текущего (шаг k) состояния объекта.

Из сказанного очевидна следующая особенность метода динамического программирования - с его по­мощью решается не одна конкретная задача при опре­деленном Х0, а сразу все подобные однотипные за­дачи при любом начальном состоянии.

Численная реализация метода динамического про­граммирования весьма сложна и применяют его обыч­но в тех случаях, когда необходимо многократно решать типовые задачи, например такие, как опреде­ление оптимального режима полета самолета при ме­няющихся погодных условиях. Основная идея метода динамического программирования переносится и на непрерывные во времени системы автоматического уп­равления.

Рассмотрим вновь оптимальную задачу

(8.5.6)

на траекториях системы

(8.5.7)

Введем функцию

(8.5.8)

где минимизация производится при условиях

(8.5.9)

Выведем уравнение Беллмана в этом случае, имея в виду, что оптимальное значение критерия

(8.5.10)

Рассмотрим два момента времени τ и τ+Δ, Δ > 0. Согласно определению В(Х) имеем

(8.5.11)

Здесь вновь используется основная идея метода дина­мического программирования, дающая возможность провести сначала выбор управления, начиная с мо­мента τ+Δ до Т, а затем осуществить минимизацию по значениям управления в пределах отрезка [τ,τ+Δ].

Считая, что функции F(X,U,t) и f(X,U,t) непре­рывны по всем аргументам, допустимые траектории X(t) непрерывны по t и U(t) принадлежат к клас­су кусочно-непрерывных функций, причем отрезок [τ, τ+Δ] не включает точек разрыва, имеем с точ­ностью до членов более высокого порядка малости по Δ:

Δxi (τ)=fi(x(τ), и (τ), τ) Δ (i=1, 2,...,n), (8.5.12)

(8.5.13)

Считая, что функция В(Х) дифференцируема, раз­ложим ее в ряд Тейлора, пренебрегая более высокими членами малости, чем Δ:

(8.5.14)

Подставив (8.4.12), (8.4.13), (8.4.14) в (8.4.11) и заме­няя τ на t, получаем искомое уравнение Беллмана в непрерывном случае:

(8.5.15)

Так же как и в дискретном случае, важно пони­мать, что функция U(X,t), минимизирующая выраже­ние

(8.5.16)

по явно входящему U в пределах допустимой области U при фиксированных X и t, определяет оптимальный закон управления с обратной связью по измерениям текущего состояния системы X = X(t). Сравнивая выражения (8.5.16) с основным усло­вием принципа максимума Понтрягина (8.4.7), не­трудно усмотреть, что обозначив -∂B/∂xii(t) и определив функцию Гамильтона, как и ранее, прихо­дим к требованию ее максимизации при U(t) U. Отметим в заключение, что материал данной гла­вы сложен, и это надо ясно себе представлять. Стро­гое его изложение потребовало бы от читателя знаний функционального анализа и топологии, а кроме того, значительного объема учебника. Хотя в подзаголовке учебника обозначено «математические методы», что вроде бы неявно подразумевает обучение некоей вы­числительной технике решения задач автоматического управления, следует все же различать основополагаю­щие идеи, заложенные в тот или иной метод и технику его численной реализации. В данной главе учебника основной акцент сделан именно на идеях, в них зало­женных, вернее, на развитии идеи Лагранжа, цити­руемой в подглаве 8.1. Вычислительная же техника этих ме­тодов - это умение составления корректных алгорит­мов, реализация которых возможна, как правило, только на самых современных и мощных ЭВМ.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]