Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Егоров С.В. Элементы идентификации и оптимизации управляемых систем учеб. пособие

.pdf
Скачиваний:
5
Добавлен:
24.10.2023
Размер:
9.47 Mб
Скачать

УУ представляет собой «сигнум-реле», в которое входит запоминающее устройство ( ЗУ) и реле, управляющее реверсом И Д . Запоминающее уст­ ройство сделано таким образом, что при снижении уровня сигнала, по­ ступающего в него, оно запоминает максимально достигнутое значение. Если целевая функция (показатель оптимальности) измеряется напряже­

нием,

то такое

З У можно выполнить в виде конденсатора, заряжаемого

через диод (рис. 4-12,6).

 

 

 

 

на

диаграмме,

Допустим, что объект безынерционен. Как показано

воздействие u( t )

равномерно нарастает до момента 11, когда

сминал

раз­

ности

AG = G* G(t)

достигает величины

Д0доп , при

которой сраба­

тывает «сигнум-,реле» и

происходит

реверс

И Д .

В результате

этого

воз­

действие u(t)

начинает

изменяться

в обратную

сторону

до

нового

ре­

верса

(момент

h )

и т.

д. Таким образом в

СЭР устанавливаются

авто­

колебания, амплитуда которых (рысканье) определяется (величиной ЛСД0П.

блок-схема (а), вариант ЗУ (6), диаграмма ра­ боты (в)

В схеме рис. 4-12,6 при каждом срабатывании «сигнум-реле» замыкается контакт реле.

При наличии в объекте инерционности или запаздывания рысканье, очевидно, возрастает тем больше, чем больше инерционность, поскольку

экстремальное значение G* достигается существенно позже момента

to,

соответствующего прохождению управляющего воздействия через

опти­

мальное значение (штрих-пунктир на рис. 4-12,я). Для снижения потерь на рысканье можно уменьшить скорость изменения и (<)■ однако это при­ водит к снижению быстродействия СЭР.

Недостатком рассмотренной схемы СЭР является также необходимость

применения

специальной

стабилизации

для

обеспечения

работоспособно­

сти схемы

в условиях помех и дрейфа

экстремума. В самом деле, для

правильной

работы СЭР

реверс И Д должен

происходить

после, но не до

прохождении экстремума, поскольку в последнем случае система начнет

удаляться от него. Очевидно, что это может произойти

под действием

даже кратковременной помехи при измерении1 0(0» если

амплитуда по­

171

мехи превосходит

ДСдоп, гак

как работой реле

управляет

сигнал

Д G — G*

А

Аналогичное

явление может произойти и при

дрейфе

G(t) .

статической характеристики объекта, вызванном возмущением

г, если

скорость

д р е й ф а

Gz

превышает

полезную скорость

G u , обусловленную

изменением управляющего воздействия. В этом случае (при Gz > G u) вместо уменьшения сигнала на выходе (после момента (о) происходит его увеличение, поэтому реверса не происходит, и система удаляется от экстремума.

Для обеспечения устойчивости применяют различные способы стаби­ лизации: а) периодическое реверсирование ЯД независимо от «оипнумреле», осуществляемое специальным коммутатором поверочных реверсов,

б) усреднение (интегрирование)

вое изменение и(1) и усреднение

А

G(t) для борьбы с помехами, в) шаго­

G(t) межДу шагами и др.

 

 

Рис.

4-13. Блок-схема ЭРА-1

 

Способ

а) применен

в

электронном

экстремальном регуляторе

ЭЭР-1,

в котором

время

между

поверочными

реверсами устанавливается

в пре­

делах (10—300)

сек. Такой регулятор осуществляет устойчивый поиск при

Gz < 0,5 G u [4-11].

Способ в) применен в электронном регуляторе ЭРА-2 (схема регуля­ тора 1А01-1) [4-11]. С помощью специальной приставки регулятор ЭРА-2 может проводить оптимизацию по шести поочередно коммутируемым каналам управления, .при этом осуществляется поиск по методу Гаусса— Зайделя.

Пункт 2.

В градиентных СЭР получили распространение регуляторы с шаговым

изменением управляющих

воздействий

[4-10], в частности, для одномер­

ных систем нашел применение регулятор ЭРА-1.

Регулятор делает шаги

Д и постоянной величины, однако частота их

следования пропорциональна величине

dG

— . Блок-схема регулятора пока’

172

зама на рис. 4-13.

Запоминающее устройство З У

формирует сигнал

ДО = G (<) — 0 ,_ ь

где G,_i — значение показателя

оптимальности, до­

стигнутое на предыдущем шаге. Этот сигнал подается на вход интегра­ тора. При достижении выходной величиной порогового значения ± v„ срабатывает реле блока формирования управляющего сигнала БФУС и

дается команда в исполнительное устройство

для изменения управления

на

величину Д и в зависимости

от

 

знака

величины

 

 

 

о= Jt ,

A G ( t ) d t .

 

 

 

Одновременно

дается команда в

Ч-1

 

на

запоминание

нового

значения

З У

 

О/

при этом

интегратор приводится

в

нулевое состояние. Такая схема

хороша своей помехоустойчивостью, так

как

за время //— //_i

произво­

дится интегрирование помехи. Эффект

фильтрации

особенно

заметен

вблизи экстремума, когда сигнал

ДG(t)

достаточно мал и время фильт­

рации велико.

С помощью приставки

число

каналов

управления

может

быть увеличено до шести. При этом используется временное разделение каналов, и траектория поиска совпадает с траекторией метода Гаусса—

 

Зайделя. Очевидно, при. этом снн-

л ч - н ч

жается

быстродействие,

что

при

дрейфе

экстремума

приводит

и к

 

снижению точности.

 

двухка-

Ц ( р ) - и

В качестве

примера

нальното ЭР, работающего по ме­

 

тоду градиента,

рассмотрим

дис­

 

кретный

автоматический

оптими­

 

затор ДАО-2, выполненный на

 

феррит-транзистор,ных элементах.

 

Блок-схема

его

показана

на

 

рис. 4-14,а

где

показаны

следую-

Рис. 4-14. Блок-схема ДАО-2 (а), траектория

поиска

(б)

 

щие основные блоки [4-12]:

фильтр Ф,

операционные

блоки

О Б t w

О Б },

исполнительные двигатели

И Д \ и ИД з ,

программное устройство ПУ.

иэме-

Фильтр преобразует отфильтрованное по специальному закону

А

пение G в пропорциональную частоту импульсов f a , которые поступают

в двоичные реверсивные счетчики, являющиеся основными узлами опера­ ционных блоков. Схема работает следующим образом.

После дробных шагов Ди11р поочередно по обоим каналам (траекто­ рия движения показана на рис. 4-14,6) в счетчиках операционных блоков записываются в обратном коде числа, попорц,падальные соответствующим координатам .градиента, точнее, приращениям показателя оптимальности

за счет

соответствующих пробных

шагов, а такж е

их

знак,и. После этого

дается

команда одновременно на

пуск двигателей

И Д \

и И Д г в направ­

лениях, соответствующих, знакам приращений, а также команда на счи­ тывание чисел в счетчиках. Такое считывание производится с помощью импульсов постоянной частоты, поэтому счетчики заполняются (во всех разрядах появляются единицы) при поступлении в ник чисел импульсов, равных записанным числам. Первый же импульс переполнения отключаег соответствующий двигатель. Таким образом, двигатели И Д { и И Д 2 в р а ­ щаются с постоянной скоростью в течение отрезков времени, пропорцио­

нальных соответствующих координатам градиента.

определение

координат

Как следует из траектории пробных шагов,

градиента производится в разны х точках ( U и

и ' ) , правда,

лежащих

довольно близко. Это делается для экономии времени, чтобы после пер­

вого пробного шага не тратить время

на возвращение в исходную точку

и установление переходных процессов.

Быстродействие такж е увеличи­

вает применение пробных шагов с форсировкой, приводящее к ускорен­ ному протеканию переходных процессов. Такое решение эффективно, если объект можно представить в виде соединения линейной инерционной час­ ти Л Ч и нелинейной безынерционной Н Ч (рис. 4-14,а). Динамические ха­ рактеристики каналов линейной части при этом предполагаются стацио­ нарными.

Г л а в а 5

ДИНАМИЧЕСКАЯ ОПТИМИЗАЦИЯ

Движение есть изменение вообще.

(Г егель)

... Будущее, которое, как известно, бросает свою тень задолго перед тем, как войти, стучало в окно.

(А. Ахматова)

Как указано во введении, к динамической оптимизации отнесен круг проблем, возникающих .при экстремизации функционалов. В этой главе рассмотрены в основном неклаосические вариационные задачи (ом. § 1-3), возникающие при управлении системами в переходных режимах с ограни­ ченными возможностями управляющих воздействий, что проявляется либо в задании жестких ограничений типа не­ равенств, либо в задании стоимости управления в критерии оптимальности. При описании движения динамических си­ стем принята концепция состояния. Поэтому указанные за­ дачи можно сформулировать как задачи перевода системы из заданного начального в конечное состояние (или задан­ ное конечное множество), которое может быть фиксирован­ ным или подвижным. Естественно, при этом возникает во­ прос: можно ли с помощью допустимых управлений достиг­ нуть целевого состояния (множества) за ограниченное вре­ мя? Положительный ответ на этот вопрос позволяет перейти к следующему этапу — нахождению самого оптимального управления. Для этого используются различные условия, сформулированные или в виде уравнений (Веллмана, Га­ мильтона—Якоби и др.), или в виде вариационных принци­ пов (Гамильтона, максимума, экстремального выбора на­ правления и др.). Условия оптимальности в конечном итоге приводят к решению двухточечных краевых задач для диф­ ференциальных уравнений, которые лишь в простейших, правда, практически важных .случаях сводятся к стандарт­ ным одноточечным задачам. В этой связи значительный ин­ терес вызывают вычислительные аспекты решения таких за­ дач с помощью вычислительных машин и способы построе­

175

ния простых в реализации, .но близких к оптимальным сис­ темам.

В заключение рассмотрены проблемы управления систе­ мами, состояние которых зависит не только от управляющих, но и возмущающих воздействий. Характерной особенностью реализации оптимального управления в таких системах яв­ ляется необходимость прогнозирования возмущенного дви­ жения.

§ 5-1. Особенности задач динамической оптимизации

Далее будут рассматриваться динамические системы, в отношении которых предполагается существование единст­

венной переходной функции состояния ср (t; т, Хх,

 

U), значениями которой служат состояния Xt —q(t\

(5-1)

т, Xr, U), в которых оказывается система в момент

времени t, если в начальный момент т она была в

 

начальном состоянии Xт и если па нее действовало управляющее воздействие U.

К таковым, в частности, относятся все системы, описывае­ мые обыкновенными дифференциальными уравнениями.

Рассмотренное в § 2-2, 2-5 понятие управляемости необ­ ходимо уточнить для случая, когда на управление наложены жесткие ограничения. Дело в том, что управляемость сис­ темы в смысле'(2-11) (по Р. Калману) может достигаться при управлениях, не являющихся допустимыми, • т. е. не

удовлетворяющих ограничениям при переводе системы в за­ данное состояние. В этом плане критерий (2-46) имеет смысл критерия «потенциальной» управляемости, показывая, что при заданной структуре линейной системы, определяе­ мой парой матриц А и В, можно найти управление, перево­ дящее ее из начального состояния Хо в желаемое X* за ко­

нечное время. Однако такое управление может оказаться не­ реализуемым из-за ограничений, и, следовательно, пол­ ностью управляемая по Калману система может оказаться неуправляемой практически относительно некоторых со­ стояний. Очевидно, что для неуправляемых систем опти­ мальное управление не существует.

Эта особенность характерна для задач динамической оп­ тимизации. В отличие от задач статической оптимизации, где отсутствие решения обычно наблюдалось там, где об­ ласть Qu оказывалась незамкнутой (противоречивость огра­ ничений обычно свидетельствует о некорректной постановке

176

задачи и в расчет не принимается), в задачах динамической оптимизации оптимальное решение находится проще всего именно при отсутствии ограничений на управления (при этом для управляемой по Калману системы вопрос о сущест­ вовании решения не ставится), и чем уже область, тем слабее возможности управления и тем более вероятна не­ управляемость системы. Здесь и встает вопрос о существова­ нии оптимального управления для заданной конкретной системы при заданных ограничениях и начальных и конеч­ ных состояниях. В связи с постановкой такого вопроса рас­ смотрим понятие достижимости в (п+1)-мерном простран­ стве с п координатами состояния системы Х=(х\, ..., хп) и

координатой времени (аналог четырехмерного пространства Минковского в физике).

Назовем состояние (Xr, Т) достижимым из состояния 1(Х0, /о) относительно Q„, где -to^ Т, если найдется такое

'I'fi 12ы, что

Хт=ц>(Т; Хо, to, U).

Множество D=D(Xo, to, Т, Qu), образованное множеством достижимых состояний (Хт, Т) при заданном Ии называется областью достижимости относительно Хо, to, Й„.

Если при этом Г есть время первого достижения, то разность Т—to называется временем перехода. По мере уве-

.личения Т при фиксированном to область достижимости рас­ ширяется (возможно, ограниченно) и образует при Т-

юбластъ управляемости D В дополнение к поня­

тию управляемости по Калману будем называть

оистему управляемой относительно многообразий

•l'i и Гг, если существует

такое

допустимое

уп-

(5-3)

равление Uей„, которое

переводит

систему

из

 

состояния ХобГ] в состояние Х*а Г2

за конечное

 

время.

 

 

 

 

 

.'Понятия достижимости и управляемости играют важную

роль в задачах динамической

оптимизации с

фиксирован­

ным и свободным временем: если величина Т задана, то ис­

кать оптимальное управление имеет смысл лишь в случае, когда конечное состояние Xr eDr, в противном случае реше­ ние не существует; если же величина Т свободна, то необ­

ходимым условием существования решения является условие Хт е или Л ' Г г (конечно, везде предполагается управ

12—1303

177

ляемость по Калману). Таким образом, выявление областей DI и (или l'i и Гг) является одним из предметов теорем

существования решения соответствующих вариационных задач.

В настоящее время теоремы существования доказаны в формах, требующих дополнительных исследований в прило­ жениях. Достаточно просто можно получить необходимые условия существования. Например, легко видеть, что усло­ вий

Г2П£ Ч *о, *о. Т>Ои)ф 0,

(5-4)

где 0 пустое множество, является необходимым для су­

ществования оптимального управления относительно (ло, /о) и Qu. Значительно более сложно установить достаточ­ ные условия существования. Если без потери общности по­ ложить, что критерий оптимальности определяется лишь конечным состоянием <1* (Xr, Т) (для этого достаточно ввести

в число

координат

дополнительную

хо= G(X,

U,

/),

х0(/0) = 0),

то имеет место теорема 5-1 [5-7]:

 

 

Предположим,

что

Г2 П^т¥=0

и что

существует

такая

топология,

что Г2

q DT компактно,

а функция Ф(ХГ,

Т)

по­

лунепрерывна снизу*. Тогда оптимальное управление отно­ сительно (Хо, to) и Qu существует.

Поскольку в приложениях условие полунепрерывное™

функции Ф обычно удовлетворяется, основные

трудности

вызывает исследование свойств множеств DT и пересечения

Г2

с DT. Во многих

практических задачах, когда множество

Г2

является точкой,

прямой или гиперплоскостью

или вы­

пукло, установление компактности Ът часто оказывается

достаточным для существования оптимального управления. Здесь могут быть полезными следующие теоремы.

Теорема 5-2 [5-10]. Для системы X —A (t)X + B(t)U, (5-5)

где управление U (t) состоит из кусочно-непрерывных функ­ ций U 6Qu(t), причем все множества Qu(0 содержатся в сфере 5(0, М) :|| U\\'h^ZM, множество DT ограничено для лю­ бого T^>to.

Теорема 5-3 [5-12]. Для системы (5-5) с A {i)—A, B (t)= B , где управление U(t) состоит из измеримых функций, удов­

* Множество называется компактным, если оно замкнуто и ограничено. Функция ([) называется полунепрерывной снизу в точке (Хт, Т) , если для t >0 найдется такое &>0, что

|(X, / ) - ( Х т , Г)||-.б=:Ф ( Х 1 I) < Ф (Х т , Т) у а.

178

летворяющих ограничению UsQu(t), где множества Q„(0:

1)выпуклы, 2) содержатся в некоторой сфере 5(0, М)е/?га,

3)замкнуты в R,„, множество DT замкнуто для любого

7>/0.

П р и м е р 5-1. Рассмотрим

проблему

наискорейшего попадания раке­

ты на космическую станцию

(рис. 5-1,а)

с нулевой конечной скоростью

для избежания удара о станцию [5-1]. Уравнение движения ракеты имеет

вид

X= / (х, х, и),

где х — расстояние по прямой до точки встречи,

причем сила

тяги раке-

iu ограничена: |м|<1. Введя координаты л.-,—лг,

х ^ —х, можно

переписать

уравнение движения в нормальной форме

 

 

J*l=*2,

*2= /(*1, *2. к)-

При определенных ограничениях на

характер функции

/, можно най­

ти область управляемости (рис. 5-1,6),

причем по мере приближения на­

чального состояния к границе области

нремя перехода в

начало коорди­

нат неограниченно возрастает.

 

 

Рис. 5-1. К задаче наискорешнсго встречи ракеты с косми­

ческой станцией: схема встречи (а), траектории встречи и

облапь упраилнемопн (6)

§ 5-2. Динамическое программирование

Термин «динамическое программирование» (ДП) полу­ чил распространение после появления в 1957 г. работы того

12*

179

же названия [5-2], в которой обобщались результаты Р. Велл­ мана по оптимизации различных классов систем. Предло­ женный им метод решения задач оптимизации базируется на

принципе оптимальности:

Оптимальное поведение обладает тем свойст- ]

 

вом, что каковы бы ни были первоначальное со­

_ ,

стояние и региение в начальный момент, после-

дующие решения должны составлять оптимальное 1

е '

поведение относительно состояния, получающе­

 

гося в результате первого решения.

 

Для управляемой системы под «поведением» следует по­ нимать ее движение, а под «решением» — выбор управления ею. Получим условия оптимальности предположив, что опти­ мальная траектория и конечное состояние (Хт, Т) найдены.

Определим скалярную функцию, называемую в дальнейшем потенциалом управления или просто потенциалом (некоторые

авторы называют се функцией Ляпунова—Веллмана), как минимальное значение критерия оптимальности (1-27), ко­ торое получается для заданного в момент времени t состоя­ ния (X, t) при оптимальном управлении:

 

 

г

J*(X , t)= m \ n J(X , U, t)= min{<l>(XT, Т) +

fG (X , U,t)dt}.

<j£Ou

ue.au

J

 

 

(5-7)

Тогда из принципа оптимальности получаем

J*(X , t)= min{G(X,

U, t)At i-J* [X I

AX, t + At).

Предполагая, что потенциал является гладкой функцией состояния (что не всегда справедливо, например, в задачах линейного быстродействия), при разложении по Тейлору получаем

J* (X, /) =

min (G (X, U, t) At + J* (X, t) +

 

uenu

+ at

At + - оSл r AX + 0 № At» '

где 0(AX, At) содержит члены более высокого порядка.

Сократив в обеих частях равенства /*(Х, /), а также разде­

160

Соседние файлы в папке книги из ГПНТБ