![](/user_photo/_userpic.png)
книги из ГПНТБ / Егоров С.В. Элементы идентификации и оптимизации управляемых систем учеб. пособие
.pdfлив обе части равенства на Д/, получаем при Д/->-0 диффе ренциальное уравнение Веллмана относительно потенциала
dJ* |
. |
C(X, |
, , |
, |
dJ* |
X |
(5-8) |
dt |
= min |
U, |
t) + — |
||||
u en „ \ |
|
|
|
dX |
|
|
|
с краевым условием J*(X T, |
T) = Ф (Х Т, |
T). |
Это |
уравнение |
дает необходимое и достаточное условие оптимальности, по скольку управление, доставляющее минимум выражению в фигурных скобках, является искомым оптимальным управле нием. Если выражение в скобках непрерывно по У и на него не наложено ограничений (это соответствует постановке классической задачи динамической оптимизации — см. п. 4 § 1-3), то из необходимого условия минимума
<Н-1 |
= 0 |
(5-9) |
ли |
|
|
получаем выражение для экстремального |
(а в случае его |
|
единственности — оптимального) управления |
|
|
U* = U(X, |
dJ* |
(5-10) |
дХ ’ 0, |
которое дает управление как функцию от состояния систе мы (управление типа обратной связи), поскольку потенциал сам является функцией состояния. Однако пока мы не мо жем указать явное выражение для экстремального управле ния, поскольку уравнение Веллмана (5-8) еще не решено и потенциал J*(X, t) не найден. Однако, если найденное из
(5-9) управление действительно минимизирует правую часть
уравнения |
(5-8), |
то, подставляя |
в него |
(5-10), |
получаем |
уравнение Гамильтона—Якоби относительно потенциала |
|||||
|
6J* |
G* (X, 0J* |
dJ* |
•X = U |
(5-11) |
|
dt |
~дХ~' 0 |
+ д Х |
||
с условием |
|
|
|
|
|
|
<) I* |
J* (x Т, Г) = Ф(ХТ, Т), |
|
|
|
где G*(X, |
|
Уравнения (5-9) |
и (5-11) |
||
t) = G(X, U*, I). |
позволяют найти оптимальное управление и потенциал. Оче видно, они являются лишь необходимыми условиями опти
мальности. Решение уравнения (5-11) возможно лишь в про стейших случаях, поскольку оно в общем случае нелинейно. Удобно представить его в иной форме, как это было сдела-
181
mo с уравнением Эйлера—Лагранжа в и. 4 § 1-3, когда урав
нение системы имеет вид X= F(X, U, i).
Определим скалярную функцию—гамильтониан:
НЧХ, и * |
/)=0(Х, а* , t) + ^ l . F ( X , и *, t). (5-12) |
оЛ |
пЛ |
Тогда от (ууного скалярного уравнения (5-11) в частных производных можно перейти к двум векторным (или 2п ска
лярным) обыкновенным дифференциальным уравнениям Га мильтона относительно состояния и градиента потенциала,
обозначенного |
(—— 1 |
= ф: |
|
|
|
|
|
|
||
|
|
V дл |
|
|
|
|
|
|
|
|
|
|
^(h\) \ |
X (/„) = Х,„ |
Х (Т )= Х т, |
|
(5-1За) |
||||
; |
|
I дИ*V |
|
|
|
|
|
|
(5-136) |
|
* |
= |
- Ы - |
|
|
|
|
|
|
||
|
|
|
|
|
|
|
||||
В самом деле: |
0J* |
|
0_ |
dj< |
|
дУ* |
|
|
|
|
; |
11 |
|
|
■F(X, |
U*, t). |
|||||
п . — |
дХ |
|
dt |
дХ |
|
~дХ* |
||||
' |
dt |
|
|
|
|
|
||||
С другой |
стороны, |
дифференцируя уравнение |
(5-11) по |
|||||||
X, получаем |
|
|
|
|
|
|
|
dJ* \т |
|
|
/ дУ* |
Y |
_ ( 0(1 * \ч~ |
, |
<)У* j: |
, |
№ |
|
|||
{. dXdt j |
~ [ дХ I |
+ |
|
+ |
дХ |
дХ |
|
|
||
поэтому |
( dG* \т |
|
(X, И\ О . |
|
dH* V |
|
||||
ф = |
|
|
(5-Н) |
|||||||
\ dX ) |
|
|
dX |
] |
|
dX |
|
|||
|
|
|
|
|
|
Как и (5-11), уравнения (5-13) дают лишь необходимые условия оптимальности, причем более удобные, чем (5-11), поскольку градиент потенциала входит в оптимальное управ ление (5-10). Градиент потенциала называют также сопря женным состоянием, так как по форме уравнения для .него имеют характер сопряженных уравнениям состояния, как это видно из (5-13). Отметим, что в задаче без ограничений последние уравнения эквивалентны уравнениям (1-46), при этом вектор ф совпадает с вектором множителей Лагранжа. Показано (5-1], что уравнения Гамильтона (5-13) остаются справедливыми не только при наличии ограничений, но и в случае, если условия гладкости функции /*(Х, t) не вынол-
182
няются на некотором множестве состояний. Поэтому урав нения Гамильтона (5-13) играют большую роль во всей тео рии оптимального управления динамическими системами. Решение уравнений Гамильтона, как и уравнений ЭйлераЛагранжа (1-40), приводит к двухточечной краевой задаче (ДКЗ) (см. п. 4 § 1-3). В следующем разделе будет рассмот рен практически важный случай, когда ДКЗ можно свести к несравненно более простой одноточечной задаче и получить явное выражение для оптимального управления типа обрат ной связи.
В заключение заметим, что уравнение Веллмана в прило жениях может иметь вид иной, чем (5-8). Например, для за дачи оптимального по быстродействии! перевода стационар ной системы в заданное состояние Хт, уравнение (5-8) при
нимает вид
^ n ~ F ( X , U) = - 1, Т (Х т) = 0 , |
(5-15) |
i/eiiu ал
где Т — минимальное время указанного перевода.
§ 5-3. Аналитическое конструирование регуляторов
Термин «аналитическое конструирование регуляторов» был введен в 1960 г. в работах А. М. Летова и Н. Н. Красов ского ,[5-3—5-5]. Он относится к методике аналитического выражения оптимального управления системой как функции ее состояния, что позволяет легко решить задачу синтеза оп тимального регулятора. Получаемая при этом система авто матического регулирования оптимальным образом ликвиди рует начальные отклонения от состояния равновесия и яв ляется асимптотически устойчивой при бесконечном интер вале оптимизации.
Дальнейшее изложение здесь следует работам Р. Калмана |5-6, 5-7], который также занимался указанной проблемой.
Пункт 1. Задача стабилизации
Рассмотрим линейную, управляемую но Килману систему
X = A (t)X + B(t)U , X(to) =Хо, |
(5-16) |
где А, В — матрицы коэффициентов соответственно |
разме |
ров (пХп), (пХ.т ), которую требуется перевести за время
183
(Т—to) из состояния Х0 в равновесное состояние или близкое
ему таким образом, чтобы минимизировать функционал
т
У = 1 х т(Г)Ф(7’)Л(7,) + -iJ(XTQ(0 X + mR(t) U)dt, (5-17>
где Q, R — симметричные /положительно определенные маг рицы коэффициентов (пХ п ), (mXm) • Решение этой задачи дается теоремой 5-4. [5-7].
Для любых Хо, t0 задача регулирования в пространстве состояний имеет решения. Оптимальное управление для этой задачи задается в виде функции состояния
U*(t, X )= —R lBTK(l)X, |
(Я 18) |
где K(t) —единственное решение уравнения Риккати
k —KBR~'BTK—ATK—KA —Q,
удовлетворяющее условию К(Т) = Ф (Т). Оптимальная, тра ектория системы определяется решением дифференциального уравнения
X= (A -B R -'B TK)X
сначальным условием Х(10) —Хо. Наконец оптимальное ка чество вычисляется по формуле
J*(Xo, t0) = ± - X o TK(to)X.
Для доказательства рассмотрим функционал (5-17). Мож но показать, что решением уравнения Гамильтона—Якоби (5-11) является положительно определенная квадратичная форма
J*(X, 0 = - у |
ХТК(()Х, |
(5-19) |
где K(t) — некоторая матрица |
коэффициентов, |
зависящих |
только от времени. Тогда, подставляя (5-19) в (5-8), полу чаем из условия (5-9) непосредственными выкладками опти мальное управление
U*(t, X) = - R - 'B TK (t)X = -F (l)X , |
(5-20) |
которое соответствует нестационарной отрицательной об ратной связи, при этом матрицу F(i) можно назвать матри
184
цей коэффициентов усиления регулятора. Чтобы найти K(t),
подставим (5-20) в (5-11), что дает
- ХТКХ = XTQX+ XrK BR'ВТКХ + 2.V'Л ' К Х - 2 Х ' К BR ' /ГКХ
(для простоты записи зависимость матриц от времени опу щена), пли окончательно, учитьшая произвольность X и сим
метричность квадратичной формы:
K— KBR лВтК—КА—АтК—() |
(5 21) |
с краевым условием К (’Г )—Ф (Т). Таким образом, в данном
случае, т. е. для линейной системы с квадратичным крите рием оптимальности, удается избежать решения двухточеч ной краевой задачи. Полученное уравнение удобно решать на вычислительных машинах в обращенном времени x = T —t, тогда К(Т) = К *(0), где К *(т) — решение сопряженной
системы. При этом решение для (5-21) должно выбираться из условия положительной определенности квадратичной формы (5-19) (критерий Сильвестра):
kn it) |
• |
.*1/(0 |
., () i= 1, |
п для всех |
|
|
|
del |
|
|
|
|
|||
|
|
|
|
Л, < |
/ |
7\ |
|
kn (f) . |
. М О |
|
|
||||
|
|
|
|
|
|||
Сделаем следующие замечания. |
стационарна, |
т. |
е. |
||||
1. Если |
рассмотренная |
задача |
|||||
A (t)—A, B (l)= B , Q (t)= Q , |
R(t)= ,R |
и интервал оптимиза |
|||||
ции бесконечен |
(Г = >э) (при этом член Л'ЧрХ в критерии |
можно опустить, поскольку он постоянен для любых Хп), то
в предположении, что существует
ПтЛ:(Г)=А- |
(5-22) |
т-+■* |
|
оптимальный закон управления (регулятор) получается ста ционарным:
U*(t, X) = U*(X) = - R - iBTKX, |
(5-23) |
где К удовлетворяет уравнению
~KBR 'BTK -K A -A TK -Q = 0, |
(5-24) |
которое .получается из (5-21) три К — 0 как уравнение уста
новившегося режима. Указанное предположение выполняется для систем, полностью управляемых, в смысле (2-11), при
185
этом получаемая система регулирования оказывается устой
чивой [5-7]. |
и задача стационарна, то практически |
Если Т „< Г < |
также можно использовать стационарный регулятор (5-23), поскольку решение уравнения Риккати (5-21) практически постоянно на интервале [to, Т—Т„].
2. Оптимальная стационарная система регулирования ( г. е. при Т— >->) оказывается абсолютно устойчивой, даже
если система (5-16) неустойчива. В самом деле, если бы это было не так, то некоторые из координат не стремились бы к нулю; следовательно, потенциал J*(X 0, to) был бы беско
нечен, что не так.
3. Рассмотренный регулятор является оптимальным лишь при возмущениях начального состояния системы. Такие за дачи встречаются при проектировании автопилотов [5-8], систем наведения на неподвижные цели и др., когда в про цессе движения система уже не подвергается другим воздей ствиям, кроме управляющих.
4. На практике часто возникает задача регулирования вы хода. Если последний линейно связан с состоянием ( Y= СХ), а критерий оптимальности имеет вид
т
.! — УТ(Т)Ф (Т) Y(Т) + J (yj'Q(/) Y + U‘R (l) U)dt,
in
то для полностью наблюдаемой в смысле (2-15) системы су ществует взаимно однозначное отображение пространства выхода на пространство состояния. Поэтому задача эквива лентна минимизации функционала
г
|
J = XT(T)i\u(T)X(T)+ |
j1 {XrQ\X+ U4W)dt, |
|||||
|
|
|
|
|
to |
|
|
где Ф| = СТФС, |
Q\ — CTQC. Следовательно, все |
результаты |
|||||
и. 1 |
перенося тся на рассматриваемый случай. |
|
|||||
|
Приме р |
5-2 [5-10]. |
Рассмотрим |
систему |
х — ах + и и |
||
функцию |
|
|
|
г |
|
|
|
|
|
|
|
|
|
|
|
|
J |
= |
± f x * ( T ) |
+ ± |
jV - * |
+ rM«)rf/, |
|
где |
|
|
|
|
П |
|
|
f^sO, q > 0, |
r^>0. Оптимальное |
управление согласно |
|||||
(5-20) равно |
|
u*(t, |
х ) = г |
1 • k(t) -х, |
|
||
|
|
|
|
186
где k(t) находится из уравнения Риккати
к= — 2ак +г 1• к'2— г/, к( Т) f.
В данном случае можно получить аналитическое решение,
поскольку |
|
|
|
|
|
|
|
f |
-------- ^ -------- --- f <//, |
||
|
|
,) |
r'k 2 —2’' akuk |
q |
.) |
|
|
I; (О |
|
|
I |
откуда |
|
|
3 4-(I (3-«)T-*3fl {t~T) |
||
|
/ , ' ( / ) |
|
|||
|
- г Г |
|
|
||
|
|
|
Те23 (Л-Г) |
||
где р = V |
1 + |
|
l'r-'—ti |
|
3 |
, 7 = |
! |
3 |
|||
|
|
|
f r l — u |
||
Оптимальная траектория находится как |
|||||
|
|
|
t |
|
|
|
|
x ( t ) |
— жпсхр j* ( и — И |
-/е( т ) ) с/т. |
|
|
|
|
о |
|
|
11а рис. 5-2,а, б показаны оптимальные траектории и уп
равления для различных коэффициентов стоимости последпесо: если управление «дорого», то оно «расходуется» весьма экономно, поэтому отклонение состояния от нуля убывает весьма медленно; при малой стоимости управляющее воздей ствие весьма интенсивно (при г-*-0 оно приближается к им
пульсной функции), поэтому и отклонение быстро сводится к пулю.
На рис. 5-2,« показаны решения уравнения Риккати при различной стоимости управления: с уменьшением г коэффи
циент образной связи также уменьшается и зависит от вре мени на все меньшем конечном интервале.
Рис. 5-2,г иллюстрирует зависимость k(t) от |
величины |
||||
интервала |
оптимизации |
для |
двух |
граничных |
условий |
к (Т )—0 и k(T) = 1 (т. е. |
f—0, |
f = l ) : функция k(i) стремит |
|||
ся к одному |
и тому же |
постоянному |
значению |
в обрат |
ном времени независимо от конечных условий. Из выраже ния для k (t) легко получить это значение:
lim&(/) = г(р + а).
Т —> ТС
Отметим, что для систем высокого порядка при 7'= v> возникают значительные трудности с определением знака
187
коэффициентов матрицы К, поскольку решение квадратных
уравнений (5-24) дает два значения коэффициентов ±/i,j и проверка положительной определенности квадратичной фор мы (5-19) по Сильвестру весьма трудоемка. Поэтому неко торые авторы считают (например, в [5-10]), что легче .найти квазипостоянное значение решения уравнения Риккати, чем нужное решение алгебраического уравнения (5-24).
Рис. 5-2. К задаче оптимального управления системой пер вого порядка: оптимальные траектории (а), оптимальное уп равление (б), зависимость k(t, г) (s), зависимость k{t, Т)
для [ = 0 и f — 1
Пункт 2. |
Задача слежения |
Рассмотрим линейную систему |
|
1 ’X=AX + BU, Х(,1о)=Х0, |
|
\Y=CX, |
(5-25) |
где А, В, С — матрицы коэффициентов, в общем случае не стационарные, размеров соответственно (riXn), (nXtn), (qXn). Далее предполагается, что система полностью упраб-
ляема по Калману. Рассмотрим решение задачи слежения выходной переменной системы У за желаемым выходом У*{(), который .в приложениях может быть уставкой или
188
программой системы регулирования, задающим воздействием следящей системы, координатами движущейся цели и т. п.
Введем вектор рассогласования
£— У*— У |
(5-26) |
и будем стремиться уменьшить его к заданному |
моменту |
времени Т таким образом, чтобы минимизировать функцио
нал
|
т |
|
|
J ~ ~ Ет (Т)ФЕ(Т) + у |
J (ETQE 4 UTRU)Ut, |
(5-27) |
|
где Ф, Q — неотрицательно-определенные, |
a R — положи |
||
тельно-определенная матрица, |
причем Ф, |
Q, R могут |
зави |
сеть от времени. В соответствии с (5-12) запишем гамильто ниан
// = |
у ( |
Р - С'Х)Т Q(V* - |
СХ) f |
|
|
+ У |
UTRIJ -\ ФТЛХ 4 |
фТ/1/У, |
(5-28) |
где ф = (~^г) |
находится как решение дифференциального |
|||
уравнения (5-136): |
|
|
|
|
Ф = - |
(~-J «= ~ ЛТф - C'QCX + CJQY* |
(5-29) |
||
с конечным условием |
|
|
||
Ф(Т) = Ст(Т )Ф С (Т )Х (Т )-С Т(Т) ФY* (Г). |
|
Если на управление не наложено ограничений, то из усло вия (5-9) минимума гамильтониана получаем оптимальное управление
U*(/)=—R-'Br4>(t). (5-30)
Таким образом, уравнение (5-13) движения системы по оптимальной траектории и сопряженной системы принимают «ид
X |
А |
- в/?-*вт" X |
0 |
ф |
- C*QC |
-Л т л |
С'ЦУ* |
189
Показано [5-6], что решение относительно ф(/) можно записать как
ф (0 = * ( / ) * ( / ) ( 5 - 3 2 )
где К —матрица (пХ.п), £ —вектор (гсХ1). Найдем уравне
ния, которым должны удовлетворять K(t) и g(t). |
Из (5-29) |
||||
следует, что i\>=KX+ KX—g или |
(учитывая, |
что Х —АХ— |
|||
- B R 'B TKX - BR~'BTg) |
ф - |
КХ + КАХ - |
KBR 'BTKX - |
||
—KBR 'BTg —g = 0" подставляя сюда выражение |
(5-26) |
для |
|||
Ф, получаем с учетом (5-29) |
|
|
|
|
|
(K + KA + ATK -K BR-'BTK+CTQ C )X - |
|
|
|||
~ ( g - (KBR~lBT—AT)g+ CTQY*) =0. |
|
|
|||
Так как последнее равенство дол>к,но выполняться |
при |
||||
любых Х ((), Y*(l) и t, то должны выполняться условия |
|
||||
k + K A + A TK-KBR~'BTK + C TQC=0, |
|
|
, |
||
К(Т) = СЦ Т )-ф .С (Т ), |
|
|
|
g —(KBR~iBT—AT)g + CTQY*= 0, g(T) = CT(T )-0 -Y *(T ),
где первое уравнение является матричным уравнением Риккати, а второе — линейным дифференциальным уравнением, причем первое уравнение не .зависит от сигнала Y*(t). Та
ким образом, оптимальное управление (5-30) с учетом (5-32) можно переписать:
U*(t, X) = - R 'BTK(t)X + R 'RTg(t) =
= -F {l)X + U y*(t), |
(5-34) |
где /•'(/) — матрица коэффициентов обратной связи. Следо вательно, оптимальный регулятор имеет две цепи регулиро вания — прямую, с регулированием по задающему воздейст вию Y* и обратную, о воздействием по состоянию X. Одна
ко структура такой системы регулирования существенно от личается от комбинированной следящей системы (с воздей ствием по отклонению и задающему воздействию) отсутст вием второго канала .передачи задающего воздействия в со ответствии с «принципом двухканальности» Б. Н. Петрова в чеории инвариантных систем. Тем не менее реализация та кой оптимальной следящей системы имеет значительно боль шую Трудность, чем комбинированной: если в последней
1У0