
vostrikov
.pdf

432 |
Глава 13. ОПТИМАЛЬНЫЕ СИСТЕМЫ |
ПРИМЕР 13.2
Определить множество равновесных состояний для объекта, поведение которого описывает система уравнений
x1 2x1 x2 u,
x2 |
x1 5x2 2u. |
Запишем для него уравнения статики
2x10 x20 u 0, x10 5x20 2u 0.
Определим управляющее воздействие из первого уравнения и подставим во второе. После преобразования получим уравнение множества реализуемых равновесных состояний в виде
x |
0 |
5 |
x |
0 |
. |
|
|
|
|||
|
2 |
3 |
1 |
|
Графической интерпретацией этого множества в пространстве состояний является прямая, именно ей должно принадлежать конечное состояние объекта. В другую точку пространства состояний его перевести невозможно (точнее, перевести можно, но стабилизировать нельзя).
13.2.3.ОГРАНИЧЕНИЯ НА ПЕРЕМЕННЫЕ СОСТОЯНИЯ
ИУПРАВЛЕНИЕ
Любая задача оптимизации имеет практический смысл только при ограничениях на переменные состояния и ресурс управления.
Ограничения на переменные состояния дают некоторую рабочую область x в пространстве состояний (рис. 13.5, а). Наиболее часто они носят характер модуля, xi xi , i 1, n .
На управляющие воздействия также накладываются ограничения, которые в общем случае можно представить в виде некоторой рабочей области u (рис. 13.5, б). В реальных системах ограничение на ресурс управления, как правило, также носит характер ограничения по моду-
лю u j U j , j 1, m .

13.2. Постановка задачи синтеза оптимальных систем |
433 |
|||||||||||||
|
|
|
|
|
|
|
|
|
Um |
|
|
|
|
|
|
xxn |
|
|
|
|
|
|
um |
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Uu |
|
|
|
|
|
|
|
x |
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i Ui |
|
|
|
|
|
|
|
|
xi i |
|
|
|
||||
|
|
|
|
|
|
|
x |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
а |
|
б |
Рис. 13.5. Иллюстрация рабочих областей:
а –переменных состояния; б – управляющих воздействий
На этапе постановки задачи синтеза необходимо убедиться в том, что множество начальных [x(0)] и конечных [x(T)] состояний объекта находится внутри рабочей области пространства состояний x.
13.2.4. КРИТЕРИЙ ОПТИМАЛЬНОСТИ
Критерий оптимальности в обобщенной форме отражает требования к качеству переходных процессов замкнутой системы. В задаче синтеза оптимальных систем его принято представлять в виде интегрального функционала
|
T |
|
J 0 min f0 x,u dt , |
(13.4) |
|
u |
u 0 |
|
|
|
где T – время перехода из начального состояния в конечное.
В зависимости от требований к качеству работы системы можно выделить несколько наиболее часто встречающихся критериев оптимальности.
1. Критерий быстродействия отражает требование минимизации времени переходного процесса и может быть записан в виде
J 0 min T . |
(13.5) |
u u
Этот критерий представим в форме интегрального функционала
|
T |
|
J 0 min dt . |
(13.6) |
|
u |
u 0 |
|
|
|

434 Глава 13. ОПТИМАЛЬНЫЕ СИСТЕМЫ
2. Критерий минимума затрат энергии по состоянию. В случае,
когда требуется минимизировать затраты энергии только по одной из компонент вектора состояния, критерий оптимальности имеет вид
T |
|
|
J 0 min x2 |
t dt . |
(13.7) |
i |
|
|
u u 0
Если речь идет о минимизации затрат энергии по всему вектору состояния, то он принимает форму
|
T |
|
J 0 min xT Pxdt , |
(13.8) |
|
u |
u 0 |
|
|
|
|
где P – матрица коэффициентов квадратичной формы размера n |
n . |
3. Критерий минимума затрат энергии на управление. Он может быть записан аналогично (13.7) относительно одной из компонент управляющего воздействия
|
|
|
T |
|
J 0 |
|
min u2j dt |
(13.9) |
|
|
|
u |
u 0 |
|
|
|
|
|
|
или относительно всего вектора управления |
|
|||
|
|
|
T |
|
J 0 |
min uT Qudt , |
(13.10) |
||
|
u |
|
u 0 |
|
|
|
|
|
где Q – матрица квадратичной формы размера m m .
4. Критерий минимума полных затрат энергии. Это общий случай критерия минимума затрат энергии, объединяющий критерии (13.8) и
(13.9):
|
T |
|
J 0 min xT Px uT Qu dt . |
(13.11) |
|
u |
u 0 |
|
|
|

13.3. Метод динамического программирования |
435 |
13.2.5. ФОРМА РЕЗУЛЬТАТА
При постановке задачи заранее оговаривается тип управляющего воздействия, которое необходимо определить в процессе синтеза. Например, для одноактных систем, работающих без помех и возмущений,
можно рассчитывать программное оптимальное управление u0 u0 (t) . Однако более часто применяют оптимальное управление в виде обратной связи u0 u0 (x) .
Задача синтеза оптимальной системы формулируется следующим образом. Для объекта, описанного в переменных состояния с заданными ограничениями на управление и состояние, необходимо найти такой закон управления, который обеспечивал бы переход системы из начального состояния в конечное в соответствии с определенным критерием оптимальности.
13.3. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ
Метод динамического программирования, предложенный в начале 1950-х годов Р. Беллманом [1, 3, 41, 44], используется для синтеза оптимальных систем управления, при выводе его основных соотношений используется принцип оптимальности.
13.3.1. ПРИНЦИП ОПТИМАЛЬНОСТИ
Формулировка принципа оптимальности следующая: конечный участок оптимальной траектории есть также оптимальная траектория. Доказательство этого принципа можно найти в [3], здесь ограничимся лишь его пояснением.
Предположим, что существует единственная оптимальная траектория перехода из точки x(0) в точку x(T) (рис. 13.6). Промежуточная точка x(t) разбивает эту траекторию на две части. Причем ее конечный участок представляет собой оптимальную траекторию, иначе можно было бы найти новую оптимальную

436 |
Глава 13. ОПТИМАЛЬНЫЕ СИСТЕМЫ |
траекторию перехода из точки x(t) в точку x(T) и организовать движение из начальной точки x(0) в конечную x(T) по новой оптимальной траектории. Это невозможно, так как для системы существует лишь одна оптимальная траектория перехода из одной точки в другую.
13.3.2. ОСНОВНЫЕ СООТНОШЕНИЯ МЕТОДА ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ
Будем рассматривать общий класс объектов управления, который описывается уравнением (13.1)
x f (x,u), |
x Rn , |
u Rm , |
m n. |
Полагаем, что переменные состояния xi xi , i 1, n и ресурс управ-
ления u j U j , j 1, m ограничены.
Необходимо определить управляющее воздействие, которое обеспечивало бы переход из начального состояния x(t) в конечное x(T) за время T (рис. 13.7) в соответствии с критерием оптимальности
|
T |
|
J min f0 x,u d . |
(13.12) |
|
u |
u t |
|
|
|
xnxn
x(T )
x(T)
x (t+ t)
x(t t)
x(t )
(t)
x1 x1
Рис. 13.7. Иллюстрация оптимального перехода из одной точки в другую

13.3. Метод динамического программирования |
437 |
Выберем на оптимальной траектории перехода промежуточную точку x(t+ t), расположенную достаточно близко к заданной начальной точке. Согласно принципу оптимальности конечный участок есть также оптимальная траектория, поэтому представим критерий оптимальности (13.12) в виде суммы двух критериев, соответствующих двум участкам движения:
|
|
|
|
|
t t |
|
|
T |
|
J J1 |
J2 |
|
min |
f0 (x, u)d |
min |
f0 (x, u)d |
(13.13) |
||
|
|
u |
u |
t |
u |
u t |
t |
|
|
|
|
|
|
|
|
||||
или после преобразований |
|
|
|
|
|
||||
|
|
|
|
t |
t |
T |
|
|
|
J |
min |
|
|
f0 (x, u)d |
|
f0 (x, u)d . |
(13.14) |
||
|
u |
u |
|
t |
|
t t |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
Рассматривая второй интеграл выражения (13.14) как функцию нижнего предела, обозначим его
|
|
T |
|
V x(t |
t) |
f0 (x,u)d . |
(13.15) |
tt
Сучетом (13.15) соотношение (13.14) представим в виде
|
|
|
t t |
|
|
|
J |
min |
f0 (x, u)d |
V x(t |
t) . |
(13.16) |
|
|
u |
u |
t |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
Полагая промежуток |
времени t |
достаточно малым, |
сделаем в |
|||
(13.16) следующие упрощения: |
|
|
|
|||
1) интеграл приближенно заменим произведением |
|
|
||||
|
|
t |
t |
|
|
|
|
|
|
f0 (x, u)d |
f0 (x, u) |
t ; |
(13.17) |
|
|
t |
|
|
|
|
2) функцию V |
x(t |
|
t) разложим в ряд Тейлора в окрестности за- |
|||
данной начальной точки |
|
|
|
|


13.3. Метод динамического программирования |
439 |
Поскольку рассматривается оптимальная траектория движения для объекта (13.1), подставим в (13.23) вместо x правую часть уравнения объекта и получим основное уравнение метода динамического программирования в виде
min f0 (x, u) |
V |
f (x, u) 0 . |
(13.24) |
|
xT |
||||
u u |
|
|
Таким образом, оптимальным будет управление, которое минимизирует выражение (13.24). Однако использовать его для вычисления
u0 нельзя, так как одно уравнение (13.24) содержит m + 1 неизвестную величину ( u0 Rm и V R1 ).
13.3.3. РАСЧЕТНЫЕ СООТНОШЕНИЯ МЕТОДА ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ
В случае оптимального управления u |
u0 соотношение |
(13.24) |
|||
принимает вид |
|
|
|
|
|
f0 x, u0 |
V |
f x, u0 |
0 . |
(13.25) |
|
xT |
|||||
|
|
|
|
Продифференцируем (13.25) по u вдоль оптимальной траектории
f0 (x,u) |
|
|
|
V f (x,u) |
|
0 . |
(13.26) |
||
u |
|
|
|
xT |
|
u |
|
||
|
u u0 |
|
|
u u0 |
|
||||
|
|
|
|
|
Добавив уравнения (13.26) к (13.25), получим систему из m+1 уравнения с m+1 неизвестным, решая которую можно найти оптимальное управление.
Поскольку (13.25) и (13.26) представляют собой систему уравнений в частных производных, для определения из нее оптимального управления, как правило, приходится использовать приближенные численные методы. В результате найденное управление получается не оптимальным, а близким к нему.
Задача отыскания точного оптимального управления методом динамического программирования носит название задачи АКОР (анали-

440 |
Глава 13. ОПТИМАЛЬНЫЕ СИСТЕМЫ |
тического конструирования оптимальных регуляторов). Эта задача имеет решение при наличии следующих условий [1, 3, 17].
1. Объект управления описывается линейным уравнением состоя-
ния (13.3)
|
x Ax Bu , |
|
x Rn , |
u Rm , |
m n . |
2. |
Переход из начальной точки x(0) |
в конечную x(T ) рассматрива- |
|||
ется на бесконечном интервале времени (T |
) . |
||||
3. |
Критерий оптимальности имеет вид квадратичной формы (13.11) |
||||
|
J min |
xT Px |
uT Qu d . |
||
|
u |
u |
0 |
|
|
|
|
|
|
||
|
|
|
|
|
Оптимальное управление, полученное методом динамического программирования, для такой постановки задачи будет иметь вид
u0 Kx .
Таким образом, оптимальным для задачи АКОР будет пропорциональный закон управления.
ПРИМЕР 13.2 |
|
|
|
|
|
|
|
|
|
|
Объект, модель которого имеет вид |
|
|
|
|
|
|
||||
x |
|
|
|
|
|
|
|
|
||
2x u, |
u |
100, |
|
|
x |
|
20, |
|||
необходимо перевести из начальной точки |
x(0) |
0 в конечную x(T ) 1 . |
||||||||
Время процесса не ограничено, а критерий оптимальности следующий: |
||||||||||
J |
min |
5x2 |
u2 |
|
|
d . |
|
|||
|
u |
u 0 |
|
|
|
|
||||
|
|
|
f0 |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
Запишем основное уравнение метода динамического программирова-
ния (13.25)
5x2 u2 |
V |
2x u |
0 |
|
|||
|
|||
0 |
xT |
0 |
|
|
|
|