![](/user_photo/_userpic.png)
книги из ГПНТБ / Егоров С.В. Элементы идентификации и оптимизации управляемых систем учеб. пособие
.pdf![](/html/65386/283/html_6OXHWv_16u.0Rpf/htmlconvd-OWTCmi191x1.jpg)
условия полной компенсации обычно нереализуемы из-за не возможности получения идеальных дифференцирующих уст ройств, то в оптимальной системе — из-за невозможности получения устройств е отрицательной памятью, у которых выход зависит от настоящих и будущих значений входа.
В самом деле, обозначим через i}(t) фундаментальную мат рицу решений однородного уравнения
g-(KBR~lBT- A T)g = О,
получаемого |
из (5-33) при У* ^ 0. Обозначим |
матрицу |
ф(/, т) — |
• 0, 1 (т), тогда |
|
|
т |
|
|
t ) g ( l ) + J ф(У, t ) - C T(x)Q(x)Y*(x)dx, |
t ^ T , |
|
t |
|
|
Поскольку ф-'('Л 0 —ф(1, T), |
<|>(f, T) -ф(7’, т )= ф (/, т), |
|
г |
|
™ |
g ( t ) = 4>(t, T ) - g ( T ) + J ф((, |
x)CT(x)-Q(x)Y*(x)dx, |
t
или с учетом краевого условия для g(t),
g(i)=4>(t, Т) СТ(Г)ФУ*(7’) +
г
+ ^ я>(/,т) CT(x)Q(x) Y*(x)dx. |
(5-35) |
t
Из последнего выражения видно, что текущее значение g(l) определяется будущим значением воздействия У*(/) па отрезке (/, Т]. Следовательно, программу изменения состав ляющей Uy*(t) в законе управления (5-34) удается рассчи
тать, если заранее известен закон изменения Y*(t) на всем интервале оптимизации [to, Т], что на практике возможно
лишь для систем программного управления. Если же харак тер Y*(t) заранее неизвестен, например, в собственно сле дящих системах или игровых ситуациях, где изменением У*(/) распоряжается «противник», то этот сигнал необходи мо прогнозировать, что является неразрешимой задачей, когда интервал оптимизации достаточно велик.
§ 5-4. Оптимизация по принципу максимума
Рассмотренный в § 5-2 подход, основанный фактически на теории Гамильтона —Якоби, позволил получить в § 5-3
191
конструктивные решения дли случая линейных систем й квадратичных функционалов. Ряд важных результатов для других случаев, в частности, для задач максимального быст родействия (п. 10 § 1-2), .позволяет получить условия опти мальности, сформулированные в виде «принципа максиму ма» Л. С. Понтрягина в работе {5-9]. Позднее было показано, что принцип максимума тесно связан с теорией Гамильто на-Якоби.
Пункт 1. Основные положения
Рассмотрим управляемую систему
X= F{X, U), X(t0)= X о, |
(5-36) |
которую надо перевести либо в точку X* (задача |
1), либо |
па многообразие Я координатного пространства X (задача 2) |
|
с помощью допустимого управления U k iiu таким |
образом, |
чтобы минимизировать функционал |
|
г |
|
|
(5-37) |
причем момент времени Т заранее не фиксируется. Далее
предполагается также, что £/(/)—кусочно-непрерывная функция, а функция F в (5-36) непрерывна по X и U и диф ференцируема по X.
•■^метим, что рассмотрение автономной |
системы |
(5-36) |
|
(/• не зависит от t) |
и случая независимости функции стои |
||
мости G от t не снижает общности задачи, |
поскольку для |
||
функций F(X, U, t) |
или G (X, U, t) можно |
ввести |
новую |
координату xn+i = t, |
изменение которой описывается уравне |
||
нием яг„+1 = 1, xn+i(to) = t0, и свести задачу |
к рассматривае |
||
мой. |
|
|
|
Обозначим через Хо(t) функцию, определяемую |
уравне |
||
нием |
|
|
|
x0 = G(X, U), *о(М =0,
тогда уравнения системы (5-36) и функционал (5-37) можно записать в виде «расширенной» системы
(5-38)
192
Помимо системы (5-38), рассмотрим вспомогательную си стему для сопряженного состояния Ч^^фо, фь ...,ф„)т, за даваемую уравнением
Т = - |
dF + |
(5-39) |
дХ+•Ч', |
которое является однородным линейным дифференциальным уравнением и для заданного Ч^о) допускает единственное решение.
Введем в рассмотрение гамильтониан
Н(Х+, U, 4r) = 4 fT-/'+(X+, U). |
(5-40) |
С его помощью урав!нения (5-38) и (5-39) |
можно перепи |
сать для задачи 1 в виде |
|
k+ = {~wi' х + (*о) = * о + , Х(Т)= х\
(5-41)
ЭтИ уравнения отличаются от аналогичных по форме (5-13) тем, что гамильтониан здесь может быть вычислен при произвольном управлении, не обязательно оптимальном. Поэтому сопряженное состояние здесь не совпадает в общем случае о градиентом потенциала (ом. § 5-2). При этом, если взять произвольное допустимое управление, то для найден ной траектории X+(t) можно найти по (5-39) сопряженную
траекторию ЧНОТогда при постоянных I и Ч' можно най |
|
ти гамильтониан как функцию параметра U и сформулиро |
|
вать теорему 5-5 |
(принцип максимума [5-9]). |
Пусть LJ(t), |
(to ^ t^ .T ) —такое допустимое управление, |
что соответствующая ему траектория X (t), исходящая в мо |
мент t0 из точки X(to), проходит в момент Т через X*. Для оптимальности управления U(t) и траектории X(t) необхо димо существование такой ненулевой непрерывной векторфункции ^V(t) = (фо(Т), Ф1(0> •••>ty”(t))T, соответствующей функциям U(() и X(t) , что:
1°. Для любого момента te[to, Т], являющегося |
точкой |
не |
|
прерывности управления U(t), функция H(W (t), |
X+(t), |
U) |
|
переменного |
U еП„ достигает в точке U = U (t) |
максимума |
|
H(W (t), |
X+(t), U (t))= M (V {t), X+V)). |
(5-42) |
13-1303 |
193 |
2°. В конечный момент Т выполнены соотношения
М Т )< 0 , М (У{Т), Х Ц Т ))= 0. |
(5-43) |
Оказывается далее, что если величины Wft), X+(t), U(t) удовлетворяют системе (5-41) и условию 1°, то функции x¥o(t) и M(*¥(t), X+(t)) переменного t являются постоянны ми, так что проверку соотношений (5-43) можно проводить не обязательно в момент Т, а в любой момент 16[/<>, Т].
Таким образам, принцип максимума дает необходимые
условия оптимальности и позволяет, следовательно, выделить экстремальные траектории, среди которых могут быть опти мальные. В [5-9] доказано, что для линейных систем с крите рием быстродействия существует единственная выделяемая принципом максимума траектория, т. е. доказана достаточ ность принципа максимума для этого случая. Полученные в [5-1] достаточные условия позволяют утверждать, что прин цип максимума, как правило, приводит именно к оптималь ным траекториям.
Определение оптимального управления при максимиза ции гамильтониана (5-40) представляло бы довольно неслож ную задачу статической оптимизации (правда, решаемой для каждого момента времени), 'если бы искомое движение Ч'(/), для которого экстремальное управление приводит систему в заданную конечную точку, могло быть вычислено в темпе с движением X (t). Поскольку 'F(/), а следовательно, и экстре
мальное управление, максимизирующее гамильтониан (5-40), существенно зависят от выбора начального значения 'У(to),
то решение всей задачи таким путем упирается в «проблему 1Р(/0)»• Однако определение искомого значения Чг(/о) равно
сильно знанию градиента потенциала му* для соответству-
ющей задачи в начальной точке X(t0). В самом деле, зна ние xV(to), порождающего оптимальные управление и траек
торию, приводит к выполнению уравнения Гамильтона —• Якоби (5-11), ПРИ этом вычисляемый вдоль оптимальной траектории гамильтониан (5-12) отличается от (5-40) лишь наличием постоянного множителя фо перед величиной G,
когда вспомогательные переменные tpi, ..., ф„ в принципе мак симума имеют смысл соответствующих координат градиента
потенциала, взятых с обратным знаком: ф(= ---- ■— 1= 1.
..., п. При этом максимизация гамильтониана (5-40) совер
шенно эквивалентна минимизации правой части уравнения
194
Веллмана (5-8), поскольку фо=^6. Следовательно, оптимиза ция по принципу максимума при «удачно найденном» 'F(^o) равносильна оптимизации с использованием уравнения Велл мана, но имеет перед последней то преимущество, что не требует решения уравнения Гамильтона—Якоби. Однако это одновременно является и недостатком принципа максимума, поскольку незнание потенциала J*(X, t) не позволяет по
лучить оптимальное управление в форме обратной связи (5-10), а лишь в функции времени (программного управле ния), недостатки которого известны.
Уместно привести сравнение указанных двух методов оп тимизации с выбором оптимального маршрута двумя турис тами, из которых первый — «Динамический программист» — затратил значительный труд на составление карты окрестно стей турбазы, используя которую, он легко найдет оптималь ный маршрут на базу из любого близлежащего пункта, в то время как второй — «Принципиальный максималист» — за пасся множеством инструкций об оптимальных путях на базу, только не знает, какой же инструкцией надо пользо ваться в конкретной ситуации.
Показано (5-1], что точка 'F(^o) может быть найдена на поверхности гиперсферы произвольного (например, единич ного) радиуса, однако это практически не решает задачу оп ределения Чг(/о). Конечное условие ЧГ(Т) зависит от ограни чений на Х (Т): например, в задаче с фиксированным Х(Т)
условия на VF(7) не налагаются, в задаче со свободным
Х(Т) имеем Ч<’(7’) = ^—(Х(Г)Т) |
и т д (см. тадЛИцу 1-1). |
дХ.
Однако даже при наличии условий на XF(7’) нельзя найти lF(^o), решая (5-39) в обращенном 'времени, поскольку в этом случае неизвестен конец оптимальной траектории Х(Т). Эта ситуация типична для двухточечной краевой за
дачи относительно уравнений (5-41), к которой и приводит принцип максимума. Тем не менее в ряде случаев он дает ценную информацию о структуре оптимального управления, сформулированную в виде теорем о «релейном управлении» и «я-интервалах».
Пункт 2. Конструктивные результаты принципа максимума
Теорема 5-6. Для систем, линейных относительно управ ления
X = F(X )+BU , Uе £2и,
13* |
195 |
|
где В —числовая матрица, оптимальное управление прини мает граничные значения при условии, что функция стоимо сти G(X, U) критерия (5-37) не зависит от управления или зависит от него линейно.
Указанному типу критерия удовлетворяет, например, кри терий максимального быстродействия с G (X, U) = 1. Уста
новлено (5-9), что для линейных систем X=AX+BU, у ко торых собственные значения А имеют неположительные ве
щественные части (устойчивые или нейтральные системы), оптимальное по быстродействию управление, переводящее систему в начало координат, существует относительно лю бого начального состояния. Для этого случая гамильтониан
(5-40) принимает вид, учитывая, что г|з0= —1:
Н = — 1 + 'FТАХ + W B U,
где VF= (ipi.....ф„)т удовлетворяет уравнению |
|
||
|
ijr = - A r4r. |
|
(5-44) |
Условие максимума |
гамильтониана |
для |
ограниченного |
управления, например, |
|иД^МД0> /= 1, .... |
пг, дает |
|
u m ^ W |
) - S g W . / = 1, |
.... m, |
(5-45) |
Рис. 5-3. Релейная система, оптимальная по быстро действию
где b}—j-ik вектор — столбец матрицы В. Операцию взятия
знака в (5-45) реализуют с помощью реле, и оптимальная система управления получается релейной (рис. 5-3). Такая система относится к разомкнутому типу, поскольку управле ние в ней формируется независимо от состояния объекта. Однако, чтобы такая система была работоспособной, надо для заданного состояния X(to) «угадать» единственно воз можное x¥(tQ), при котором система переходит в заданное
196
конечное состояние X*. Положение усугубляется еще и тем,
что для устойчивых систем сопряженная система (5-45) яв ляется неустойчивой, что влечет за собой большую чувстви тельность (решений к вариациям начального условия (/о)• В самом деле, устойчивая система имеет отрицательные ве щественные части корней характеристического уравнения
det[A—p I]= 0 , |
(5-46) |
но тогда корни характеристического уравнения |
сопряжен |
ной системы (5-44) |
|
det{—Ат—pi]= det{Ar +р1]—0 |
(5-47) |
имеют обратные знаки.
Существуют методы последовательного приближения к «удачному» ^(/0), рассмотренные далее; однако легко заме тить, что программное управление (5-45) может быть легко получено и в форме обратной связи
Uj*(X )= M r Sgv{(X(t)), / = 1, ..., ш, |
(5-48) |
гораздо более удобной для синтеза регулятора. В самом де ле, поскольку задача линейного быстродействия имеет един ственное решение, релейная структура управления (5-45) должна получиться и при использовании любых других не обходимых условий оптимальности. Поэтому решение задачи методом динамического программирования позволило бы найти управление в форме (5-10), но со (структурой (5-48). Следовательно, все пространство состояний системы делится на две области, в одной из которых управление принимает значение + M S и — M j — в другой. Далее показано, как най
ти поверхность переключения, разделяющую эти области и переключающую функцию щ(Х) « i(5-48). А теперь рассмот рим другое свойство оптимального управления в задаче ли нейного быстродействия, которое дается теоремой в числе переключений (А. А. Фельдбаум, 1953 г.).
Теорема 5-7. Если корни р\, ..., рп характеристического уравнения (5-46) линейной системы являются действительны ми, то число переключений оптимального управления (5-45) не превышает (п—1).
В самом деле, корни характеристического уравнения (5-47) отличаются лишь знаком от корней уравнения (5-46). Поэтому решение однородного уравнения (5-44) может быть записано для случая простых корней в виде
* м о = |
1- х............. |
п- |
Л = 1
107
где cih— постоянные, зависящие от ty\(to), ..., г|э„(^о)-
Подставляя это выражение в (5-45), получим
П |
П |
Uj*(t) ~ M r S g ^ d j k -e~pk \ |
d ]k = ^ b 4 - c,k, J = 1, . . . , m . |
k = l |
v = l |
Так как сумма n экспонент может обращаться в нуль на полубесконечном интервале [to, 50) не более n— 1 раз, то
это доказывает теорему.
Если же среди корней уравнения (5-46) имеются комп лексно-сопряженные, то по знакам суммы последнего выра жения будут члены вида ехр (—Rep^)-sin + ср*). Понят
но, что на достаточно большом интервале времени такая сум ма может обратиться в нуль сколь угодно много раз.
Физический смысл релейного управления довольно прост: весь процесс оптимального перехода системы из одного со стояния в другое состоит из двух участков — максимального разгона вначале и последующего максимального торможе ния.
Пункт 3. Конструирование регуляторов метолом поверхностей переключения
Рассмотрим вначале для простоты устойчивую линейную систему второго порядка с простыми корнями и с единствен ным управляющим воздействием, ограниченным по модулю: |и| < 1. Пусть минимизируется время перехода из Хо в
.Х*= 0. Выше была указана возможность получения опти мального управления типа обратной связи.
По теоремам 5-6, 5-7 получаем, что оптимальное управле ние в этом случае может иметь одно переключение и прини мать значения +1 или —1. Рассмотрим траектории движения системы при таких управлениях (рис. 5-4,а). Очевидно, что попасть в точку Х* = 0 на конечной стадии движения можно,
двигаясь только по двум траекториям, проходящим через на чало координат (на рисунке они показаны сплошной ли нией). Следовательно, при оптимальном управлении надо быстрейшим образом попасть на одну из этих траекторий, после чего, переключив знак управления на противополож ный, прийти по ней в начало координат.. Таким образом, обе указанные траектории образуют в координатном прост ранстве системы линию переключения, на которой происхо
дит смена знака управления. При этом по одну сторону от нее оптимальное управление имеет один знак, а по другую—
198
другой. Например, оптимальный переход в начало координат из Х0— С осуществляется по траектории CDО, причем на отрезке CD управление должно быть u(t) = + 1, а на отрез ке DO u(t) = — 1. С помощью устройства, в котором запоми
нается линия переключения (фактически, это нелинейный преобразователь НП — рис. 5-4,6), можно реализовать опти
мальный по быстродействию регулятор, если формировать сигнал управления по отклонению процесса от оптимально го. Как видно из рис. 5-4,6, линия переключения делит про-
S)
Рис. 5-4. Оптимальное управление системой второго поряд
ка: траектории |
движения при м =+ 1 (а), |
формирование |
оптимального |
управления типа обратной |
связи (б) |
странство состояний на две области, обозначенные R+ и R~.
Зная действительное состояние объекта по отношению к ли нии переключения, можно выбрать знак управления. Напри мер, еслй XbR+, то отклонение е — (*2*—*2)>0 и реалязует-
199
ся м = + 1, если же X&R~\ то {хъ*—Х2) < 0 и и— —1. Оче
видно, что «а самой линии переключения е= 0, поэтому воз никает неопределенность в работе поляризованного реле ПР. Эту неопределенность
можно устранить с помощью логической схемы, осущест вляющей переключение знака
|
при е= 0, или с помощью реле |
||||||||
|
с небольшим гистерезисом (за-- |
||||||||
|
липанием), |
как |
показано |
на |
|||||
|
рис. 5-4,6. Для избежания ав |
||||||||
|
токолебаний |
вблизи |
начала |
||||||
|
координат |
можно |
предусмот |
||||||
|
реть |
отключение |
ПР |
при |
|||||
|
\\Х\\<е. |
|
|
|
|
|
|
|
|
Рис. 5-5. Поверхности и ли |
Для |
систем |
высокого |
по |
|||||
рядка подобная схема |
сильно |
||||||||
нии переключения для систе |
|||||||||
мы третьего порядка |
усложняется. |
Например, |
для |
системы третьего порядка прост ранство состояний разбивается на следующие многообразия
(рис. 5-5): одномерные — |
линии переключения R\+ и R r, |
|
двумерные — поверхности |
переключения i?2+ |
и R2~, трех |
мерные области Rs+ и Rz~, лежащие по разные |
стороны от |
|
поверхностей /?2+ и R2~. На каждом из этих многообразий |
управление принимает знак, соответствующий верхнему ин дексу многообразия. Так, оптимальная траектория из точки Х0 —С еR3~ имеет вид CDEO, при этом управление имеет
три интервала постоянства знака: — 1, +1, —1. Реализация таких систем рассмотрена в [5-11].
§ 5-5. Оптимизация дискретных систем
Рассмотрим управляемые процессы, состоящие из после довательности взаимосвязанных элементов .Х1ВД, k—1, 2,..., N,
на которые можно разбить процесс во времени и простран стве, и пусть каждый элемент характеризует состояние сис темы, причем каждое последующее состояние Х[&] зависит только от предыдущего X[k—1] (марковские процессы). По
следовательность состояний дается либо уравнением связи
X[ft]=/\(X[fe-l], U {k-1]), *{0]=*о, * = 1,2, ..., |
(5-49) |
либо таблицей, либо графом переходов. Индекс. «&»_для ну мерации состояний может трактоваться как дискретное в-ре? мя или как дискретная пространственная координата.
200