Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Егоров С.В. Элементы идентификации и оптимизации управляемых систем учеб. пособие

.pdf
Скачиваний:
5
Добавлен:
24.10.2023
Размер:
9.47 Mб
Скачать

условия полной компенсации обычно нереализуемы из-за не­ возможности получения идеальных дифференцирующих уст­ ройств, то в оптимальной системе — из-за невозможности получения устройств е отрицательной памятью, у которых выход зависит от настоящих и будущих значений входа.

В самом деле, обозначим через i}(t) фундаментальную мат­ рицу решений однородного уравнения

g-(KBR~lBT- A T)g = О,

получаемого

из (5-33) при У* ^ 0. Обозначим

матрицу

ф(/, т) —

• 0, 1 (т), тогда

 

 

т

 

 

t ) g ( l ) + J ф(У, t ) - C T(x)Q(x)Y*(x)dx,

t ^ T ,

 

t

 

 

Поскольку ф-'('Л 0 —ф(1, T),

<|>(f, T) -ф(7’, т )= ф (/, т),

 

г

 

g ( t ) = 4>(t, T ) - g ( T ) + J ф((,

x)CT(x)-Q(x)Y*(x)dx,

t

или с учетом краевого условия для g(t),

g(i)=4>(t, Т) СТ(Г)ФУ*(7’) +

г

+ ^ я>(/,т) CT(x)Q(x) Y*(x)dx.

(5-35)

t

Из последнего выражения видно, что текущее значение g(l) определяется будущим значением воздействия У*(/) па отрезке (/, Т]. Следовательно, программу изменения состав­ ляющей Uy*(t) в законе управления (5-34) удается рассчи­

тать, если заранее известен закон изменения Y*(t) на всем интервале оптимизации [to, Т], что на практике возможно

лишь для систем программного управления. Если же харак­ тер Y*(t) заранее неизвестен, например, в собственно сле­ дящих системах или игровых ситуациях, где изменением У*(/) распоряжается «противник», то этот сигнал необходи­ мо прогнозировать, что является неразрешимой задачей, когда интервал оптимизации достаточно велик.

§ 5-4. Оптимизация по принципу максимума

Рассмотренный в § 5-2 подход, основанный фактически на теории Гамильтона —Якоби, позволил получить в § 5-3

191

конструктивные решения дли случая линейных систем й квадратичных функционалов. Ряд важных результатов для других случаев, в частности, для задач максимального быст­ родействия (п. 10 § 1-2), .позволяет получить условия опти­ мальности, сформулированные в виде «принципа максиму­ ма» Л. С. Понтрягина в работе {5-9]. Позднее было показано, что принцип максимума тесно связан с теорией Гамильто­ на-Якоби.

Пункт 1. Основные положения

Рассмотрим управляемую систему

X= F{X, U), X(t0)= X о,

(5-36)

которую надо перевести либо в точку X* (задача

1), либо

па многообразие Я координатного пространства X (задача 2)

с помощью допустимого управления U k iiu таким

образом,

чтобы минимизировать функционал

 

г

 

 

(5-37)

причем момент времени Т заранее не фиксируется. Далее

предполагается также, что £/(/)—кусочно-непрерывная функция, а функция F в (5-36) непрерывна по X и U и диф­ ференцируема по X.

•■^метим, что рассмотрение автономной

системы

(5-36)

(/• не зависит от t)

и случая независимости функции стои­

мости G от t не снижает общности задачи,

поскольку для

функций F(X, U, t)

или G (X, U, t) можно

ввести

новую

координату xn+i = t,

изменение которой описывается уравне­

нием яг„+1 = 1, xn+i(to) = t0, и свести задачу

к рассматривае­

мой.

 

 

 

Обозначим через Хо(t) функцию, определяемую

уравне­

нием

 

 

 

x0 = G(X, U), *о(М =0,

тогда уравнения системы (5-36) и функционал (5-37) можно записать в виде «расширенной» системы

(5-38)

192

Помимо системы (5-38), рассмотрим вспомогательную си­ стему для сопряженного состояния Ч^^фо, фь ...,ф„)т, за­ даваемую уравнением

Т = -

dF +

(5-39)

дХ+•Ч',

которое является однородным линейным дифференциальным уравнением и для заданного Ч^о) допускает единственное решение.

Введем в рассмотрение гамильтониан

Н(Х+, U, 4r) = 4 fT-/'+(X+, U).

(5-40)

С его помощью урав!нения (5-38) и (5-39)

можно перепи­

сать для задачи 1 в виде

 

k+ = {~wi' х + (*о) = * о + , Х(Т)= х\

(5-41)

ЭтИ уравнения отличаются от аналогичных по форме (5-13) тем, что гамильтониан здесь может быть вычислен при произвольном управлении, не обязательно оптимальном. Поэтому сопряженное состояние здесь не совпадает в общем случае о градиентом потенциала (ом. § 5-2). При этом, если взять произвольное допустимое управление, то для найден­ ной траектории X+(t) можно найти по (5-39) сопряженную

траекторию ЧНОТогда при постоянных I и Ч' можно най­

ти гамильтониан как функцию параметра U и сформулиро­

вать теорему 5-5

(принцип максимума [5-9]).

Пусть LJ(t),

(to ^ t^ .T ) —такое допустимое управление,

что соответствующая ему траектория X (t), исходящая в мо­

мент t0 из точки X(to), проходит в момент Т через X*. Для оптимальности управления U(t) и траектории X(t) необхо­ димо существование такой ненулевой непрерывной векторфункции ^V(t) = (фо(Т), Ф1(0> •••>ty”(t))T, соответствующей функциям U(() и X(t) , что:

1°. Для любого момента te[to, Т], являющегося

точкой

не­

прерывности управления U(t), функция H(W (t),

X+(t),

U)

переменного

U еП„ достигает в точке U = U (t)

максимума

H(W (t),

X+(t), U (t))= M (V {t), X+V)).

(5-42)

13-1303

193

2°. В конечный момент Т выполнены соотношения

М Т )< 0 , М (У{Т), Х Ц Т ))= 0.

(5-43)

Оказывается далее, что если величины Wft), X+(t), U(t) удовлетворяют системе (5-41) и условию 1°, то функции x¥o(t) и M(*¥(t), X+(t)) переменного t являются постоянны­ ми, так что проверку соотношений (5-43) можно проводить не обязательно в момент Т, а в любой момент 16[/<>, Т].

Таким образам, принцип максимума дает необходимые

условия оптимальности и позволяет, следовательно, выделить экстремальные траектории, среди которых могут быть опти­ мальные. В [5-9] доказано, что для линейных систем с крите­ рием быстродействия существует единственная выделяемая принципом максимума траектория, т. е. доказана достаточ­ ность принципа максимума для этого случая. Полученные в [5-1] достаточные условия позволяют утверждать, что прин­ цип максимума, как правило, приводит именно к оптималь­ ным траекториям.

Определение оптимального управления при максимиза­ ции гамильтониана (5-40) представляло бы довольно неслож­ ную задачу статической оптимизации (правда, решаемой для каждого момента времени), 'если бы искомое движение Ч'(/), для которого экстремальное управление приводит систему в заданную конечную точку, могло быть вычислено в темпе с движением X (t). Поскольку 'F(/), а следовательно, и экстре­

мальное управление, максимизирующее гамильтониан (5-40), существенно зависят от выбора начального значения 'У(to),

то решение всей задачи таким путем упирается в «проблему 1Р(/0)»• Однако определение искомого значения Чг(/о) равно­

сильно знанию градиента потенциала му* для соответству-

ющей задачи в начальной точке X(t0). В самом деле, зна­ ние xV(to), порождающего оптимальные управление и траек­

торию, приводит к выполнению уравнения Гамильтона —• Якоби (5-11), ПРИ этом вычисляемый вдоль оптимальной траектории гамильтониан (5-12) отличается от (5-40) лишь наличием постоянного множителя фо перед величиной G,

когда вспомогательные переменные tpi, ..., ф„ в принципе мак­ симума имеют смысл соответствующих координат градиента

потенциала, взятых с обратным знаком: ф(= ---- ■— 1= 1.

..., п. При этом максимизация гамильтониана (5-40) совер­

шенно эквивалентна минимизации правой части уравнения

194

Веллмана (5-8), поскольку фо=^6. Следовательно, оптимиза­ ция по принципу максимума при «удачно найденном» 'F(^o) равносильна оптимизации с использованием уравнения Велл­ мана, но имеет перед последней то преимущество, что не требует решения уравнения Гамильтона—Якоби. Однако это одновременно является и недостатком принципа максимума, поскольку незнание потенциала J*(X, t) не позволяет по­

лучить оптимальное управление в форме обратной связи (5-10), а лишь в функции времени (программного управле­ ния), недостатки которого известны.

Уместно привести сравнение указанных двух методов оп­ тимизации с выбором оптимального маршрута двумя турис­ тами, из которых первый — «Динамический программист» — затратил значительный труд на составление карты окрестно­ стей турбазы, используя которую, он легко найдет оптималь­ ный маршрут на базу из любого близлежащего пункта, в то время как второй — «Принципиальный максималист» — за­ пасся множеством инструкций об оптимальных путях на базу, только не знает, какой же инструкцией надо пользо­ ваться в конкретной ситуации.

Показано (5-1], что точка 'F(^o) может быть найдена на поверхности гиперсферы произвольного (например, единич­ ного) радиуса, однако это практически не решает задачу оп­ ределения Чг(/о). Конечное условие ЧГ(Т) зависит от ограни­ чений на Х (Т): например, в задаче с фиксированным Х(Т)

условия на VF(7) не налагаются, в задаче со свободным

Х(Т) имеем Ч<’(7’) = ^—(Х(Г)Т)

и т д (см. тадЛИцу 1-1).

дХ.

Однако даже при наличии условий на XF(7’) нельзя найти lF(^o), решая (5-39) в обращенном 'времени, поскольку в этом случае неизвестен конец оптимальной траектории Х(Т). Эта ситуация типична для двухточечной краевой за­

дачи относительно уравнений (5-41), к которой и приводит принцип максимума. Тем не менее в ряде случаев он дает ценную информацию о структуре оптимального управления, сформулированную в виде теорем о «релейном управлении» и «я-интервалах».

Пункт 2. Конструктивные результаты принципа максимума

Теорема 5-6. Для систем, линейных относительно управ­ ления

X = F(X )+BU , Uе £2и,

13*

195

 

где В —числовая матрица, оптимальное управление прини­ мает граничные значения при условии, что функция стоимо­ сти G(X, U) критерия (5-37) не зависит от управления или зависит от него линейно.

Указанному типу критерия удовлетворяет, например, кри­ терий максимального быстродействия с G (X, U) = 1. Уста­

новлено (5-9), что для линейных систем X=AX+BU, у ко­ торых собственные значения А имеют неположительные ве­

щественные части (устойчивые или нейтральные системы), оптимальное по быстродействию управление, переводящее систему в начало координат, существует относительно лю­ бого начального состояния. Для этого случая гамильтониан

(5-40) принимает вид, учитывая, что г|з0= —1:

Н = — 1 + 'FТАХ + W B U,

где VF= (ipi.....ф„)т удовлетворяет уравнению

 

 

ijr = - A r4r.

 

(5-44)

Условие максимума

гамильтониана

для

ограниченного

управления, например,

|иД^МД0> /= 1, ....

пг, дает

u m ^ W

) - S g W . / = 1,

.... m,

(5-45)

Рис. 5-3. Релейная система, оптимальная по быстро­ действию

где b}—j-ik вектор — столбец матрицы В. Операцию взятия

знака в (5-45) реализуют с помощью реле, и оптимальная система управления получается релейной (рис. 5-3). Такая система относится к разомкнутому типу, поскольку управле­ ние в ней формируется независимо от состояния объекта. Однако, чтобы такая система была работоспособной, надо для заданного состояния X(to) «угадать» единственно воз­ можное x¥(tQ), при котором система переходит в заданное

196

конечное состояние X*. Положение усугубляется еще и тем,

что для устойчивых систем сопряженная система (5-45) яв­ ляется неустойчивой, что влечет за собой большую чувстви­ тельность (решений к вариациям начального условия (/о)• В самом деле, устойчивая система имеет отрицательные ве­ щественные части корней характеристического уравнения

det[A—p I]= 0 ,

(5-46)

но тогда корни характеристического уравнения

сопряжен­

ной системы (5-44)

 

det{—Ат—pi]= det{Ar +р1]—0

(5-47)

имеют обратные знаки.

Существуют методы последовательного приближения к «удачному» ^(/0), рассмотренные далее; однако легко заме­ тить, что программное управление (5-45) может быть легко получено и в форме обратной связи

Uj*(X )= M r Sgv{(X(t)), / = 1, ..., ш,

(5-48)

гораздо более удобной для синтеза регулятора. В самом де­ ле, поскольку задача линейного быстродействия имеет един­ ственное решение, релейная структура управления (5-45) должна получиться и при использовании любых других не­ обходимых условий оптимальности. Поэтому решение задачи методом динамического программирования позволило бы найти управление в форме (5-10), но со (структурой (5-48). Следовательно, все пространство состояний системы делится на две области, в одной из которых управление принимает значение + M S и — M j — в другой. Далее показано, как най­

ти поверхность переключения, разделяющую эти области и переключающую функцию щ(Х) « i(5-48). А теперь рассмот­ рим другое свойство оптимального управления в задаче ли­ нейного быстродействия, которое дается теоремой в числе переключений (А. А. Фельдбаум, 1953 г.).

Теорема 5-7. Если корни р\, ..., рп характеристического уравнения (5-46) линейной системы являются действительны­ ми, то число переключений оптимального управления (5-45) не превышает (п1).

В самом деле, корни характеристического уравнения (5-47) отличаются лишь знаком от корней уравнения (5-46). Поэтому решение однородного уравнения (5-44) может быть записано для случая простых корней в виде

* м о =

1- х.............

п-

Л = 1

107

где cih— постоянные, зависящие от ty\(to), ..., г|э„(^о)-

Подставляя это выражение в (5-45), получим

П

П

Uj*(t) ~ M r S g ^ d j k -e~pk \

d ]k = ^ b 4 - c,k, J = 1, . . . , m .

k = l

v = l

Так как сумма n экспонент может обращаться в нуль на полубесконечном интервале [to, 50) не более n— 1 раз, то

это доказывает теорему.

Если же среди корней уравнения (5-46) имеются комп­ лексно-сопряженные, то по знакам суммы последнего выра­ жения будут члены вида ехр (—Rep^)-sin + ср*). Понят­

но, что на достаточно большом интервале времени такая сум­ ма может обратиться в нуль сколь угодно много раз.

Физический смысл релейного управления довольно прост: весь процесс оптимального перехода системы из одного со­ стояния в другое состоит из двух участков — максимального разгона вначале и последующего максимального торможе­ ния.

Пункт 3. Конструирование регуляторов метолом поверхностей переключения

Рассмотрим вначале для простоты устойчивую линейную систему второго порядка с простыми корнями и с единствен­ ным управляющим воздействием, ограниченным по модулю: |и| < 1. Пусть минимизируется время перехода из Хо в

.Х*= 0. Выше была указана возможность получения опти­ мального управления типа обратной связи.

По теоремам 5-6, 5-7 получаем, что оптимальное управле­ ние в этом случае может иметь одно переключение и прини­ мать значения +1 или —1. Рассмотрим траектории движения системы при таких управлениях (рис. 5-4,а). Очевидно, что попасть в точку Х* = 0 на конечной стадии движения можно,

двигаясь только по двум траекториям, проходящим через на­ чало координат (на рисунке они показаны сплошной ли­ нией). Следовательно, при оптимальном управлении надо быстрейшим образом попасть на одну из этих траекторий, после чего, переключив знак управления на противополож­ ный, прийти по ней в начало координат.. Таким образом, обе указанные траектории образуют в координатном прост­ ранстве системы линию переключения, на которой происхо­

дит смена знака управления. При этом по одну сторону от нее оптимальное управление имеет один знак, а по другую—

198

другой. Например, оптимальный переход в начало координат из Х0— С осуществляется по траектории CDО, причем на отрезке CD управление должно быть u(t) = + 1, а на отрез­ ке DO u(t) = — 1. С помощью устройства, в котором запоми­

нается линия переключения (фактически, это нелинейный преобразователь НП — рис. 5-4,6), можно реализовать опти­

мальный по быстродействию регулятор, если формировать сигнал управления по отклонению процесса от оптимально­ го. Как видно из рис. 5-4,6, линия переключения делит про-

S)

Рис. 5-4. Оптимальное управление системой второго поряд­

ка: траектории

движения при м =+ 1 (а),

формирование

оптимального

управления типа обратной

связи (б)

странство состояний на две области, обозначенные R+ и R~.

Зная действительное состояние объекта по отношению к ли­ нии переключения, можно выбрать знак управления. Напри­ мер, еслй XbR+, то отклонение е — (*2*—*2)>0 и реалязует-

199

ся м = + 1, если же X&R~\ то {хъ*—Х2) < 0 и и— 1. Оче­

видно, что «а самой линии переключения е= 0, поэтому воз­ никает неопределенность в работе поляризованного реле ПР. Эту неопределенность

можно устранить с помощью логической схемы, осущест­ вляющей переключение знака

 

при е= 0, или с помощью реле

 

с небольшим гистерезисом (за--

 

липанием),

как

показано

на

 

рис. 5-4,6. Для избежания ав­

 

токолебаний

вблизи

начала

 

координат

можно

предусмот­

 

реть

отключение

ПР

при

 

\\Х\\<е.

 

 

 

 

 

 

 

Рис. 5-5. Поверхности и ли­

Для

систем

высокого

по­

рядка подобная схема

сильно

нии переключения для систе­

мы третьего порядка

усложняется.

Например,

для

системы третьего порядка прост­ ранство состояний разбивается на следующие многообразия

(рис. 5-5): одномерные —

линии переключения R\+ и R r,

двумерные — поверхности

переключения i?2+

и R2~, трех­

мерные области Rs+ и Rz~, лежащие по разные

стороны от

поверхностей /?2+ и R2~. На каждом из этих многообразий

управление принимает знак, соответствующий верхнему ин­ дексу многообразия. Так, оптимальная траектория из точки Х0 —С еR3~ имеет вид CDEO, при этом управление имеет

три интервала постоянства знака: — 1, +1, —1. Реализация таких систем рассмотрена в [5-11].

§ 5-5. Оптимизация дискретных систем

Рассмотрим управляемые процессы, состоящие из после­ довательности взаимосвязанных элементов .Х1ВД, k—1, 2,..., N,

на которые можно разбить процесс во времени и простран­ стве, и пусть каждый элемент характеризует состояние сис­ темы, причем каждое последующее состояние Х[&] зависит только от предыдущего X[k—1] (марковские процессы). По­

следовательность состояний дается либо уравнением связи

X[ft]=/\(X[fe-l], U {k-1]), *{0]=*о, * = 1,2, ...,

(5-49)

либо таблицей, либо графом переходов. Индекс. «&»_для ну­ мерации состояний может трактоваться как дискретное в-ре? мя или как дискретная пространственная координата.

200

Соседние файлы в папке книги из ГПНТБ