книги из ГПНТБ / Егоров С.В. Элементы идентификации и оптимизации управляемых систем учеб. пособие
.pdfУУ представляет собой «сигнум-реле», в которое входит запоминающее устройство ( ЗУ) и реле, управляющее реверсом И Д . Запоминающее уст ройство сделано таким образом, что при снижении уровня сигнала, по ступающего в него, оно запоминает максимально достигнутое значение. Если целевая функция (показатель оптимальности) измеряется напряже
нием, |
то такое |
З У можно выполнить в виде конденсатора, заряжаемого |
||||||||
через диод (рис. 4-12,6). |
|
|
|
|
на |
диаграмме, |
||||
Допустим, что объект безынерционен. Как показано |
||||||||||
воздействие u( t ) |
равномерно нарастает до момента 11, когда |
сминал |
раз |
|||||||
ности |
AG = G* — G(t) |
достигает величины |
Д0доп , при |
которой сраба |
||||||
тывает «сигнум-,реле» и |
происходит |
реверс |
И Д . |
В результате |
этого |
воз |
||||
действие u(t) |
начинает |
изменяться |
в обратную |
сторону |
до |
нового |
ре |
|||
верса |
(момент |
h ) |
и т. |
д. Таким образом в |
СЭР устанавливаются |
авто |
колебания, амплитуда которых (рысканье) определяется (величиной ЛСД0П.
блок-схема (а), вариант ЗУ (6), диаграмма ра боты (в)
В схеме рис. 4-12,6 при каждом срабатывании «сигнум-реле» замыкается контакт реле.
При наличии в объекте инерционности или запаздывания рысканье, очевидно, возрастает тем больше, чем больше инерционность, поскольку
экстремальное значение G* достигается существенно позже момента |
to, |
соответствующего прохождению управляющего воздействия через |
опти |
мальное значение (штрих-пунктир на рис. 4-12,я). Для снижения потерь на рысканье можно уменьшить скорость изменения и (<)■ однако это при водит к снижению быстродействия СЭР.
Недостатком рассмотренной схемы СЭР является также необходимость
применения |
специальной |
стабилизации |
для |
обеспечения |
работоспособно |
сти схемы |
в условиях помех и дрейфа |
экстремума. В самом деле, для |
|||
правильной |
работы СЭР |
реверс И Д должен |
происходить |
после, но не до |
прохождении экстремума, поскольку в последнем случае система начнет
удаляться от него. Очевидно, что это может произойти |
под действием |
даже кратковременной помехи при измерении1 0(0» если |
амплитуда по |
171
мехи превосходит |
ДСдоп, гак |
как работой реле |
управляет |
сигнал |
||
Д G — G* |
А |
Аналогичное |
явление может произойти и при |
дрейфе |
||
G(t) . |
||||||
статической характеристики объекта, вызванном возмущением |
г, если |
|||||
скорость |
д р е й ф а |
Gz |
превышает |
полезную скорость |
G u , обусловленную |
изменением управляющего воздействия. В этом случае (при Gz > G u) вместо уменьшения сигнала на выходе (после момента (о) происходит его увеличение, поэтому реверса не происходит, и система удаляется от экстремума.
Для обеспечения устойчивости применяют различные способы стаби лизации: а) периодическое реверсирование ЯД независимо от «оипнумреле», осуществляемое специальным коммутатором поверочных реверсов,
б) усреднение (интегрирование)
вое изменение и(1) и усреднение
А
G(t) для борьбы с помехами, в) шаго
G(t) межДу шагами и др.
|
|
Рис. |
4-13. Блок-схема ЭРА-1 |
|
||
Способ |
а) применен |
в |
электронном |
экстремальном регуляторе |
ЭЭР-1, |
|
в котором |
время |
между |
поверочными |
реверсами устанавливается |
в пре |
|
делах (10—300) |
сек. Такой регулятор осуществляет устойчивый поиск при |
Gz < 0,5 G u [4-11].
Способ в) применен в электронном регуляторе ЭРА-2 (схема регуля тора 1А01-1) [4-11]. С помощью специальной приставки регулятор ЭРА-2 может проводить оптимизацию по шести поочередно коммутируемым каналам управления, .при этом осуществляется поиск по методу Гаусса— Зайделя.
Пункт 2.
В градиентных СЭР получили распространение регуляторы с шаговым
изменением управляющих |
воздействий |
[4-10], в частности, для одномер |
ных систем нашел применение регулятор ЭРА-1. |
||
Регулятор делает шаги |
Д и постоянной величины, однако частота их |
|
следования пропорциональна величине |
dG |
|
— . Блок-схема регулятора пока’ |
172
зама на рис. 4-13. |
Запоминающее устройство З У |
формирует сигнал |
ДО = G (<) — 0 ,_ ь |
где G,_i — значение показателя |
оптимальности, до |
стигнутое на предыдущем шаге. Этот сигнал подается на вход интегра тора. При достижении выходной величиной порогового значения ± v„ срабатывает реле блока формирования управляющего сигнала БФУС и
дается команда в исполнительное устройство |
для изменения управления |
||||||||
на |
величину Д и в зависимости |
от |
|
знака |
величины |
|
|||
|
|
о= Jt , |
A G ( t ) d t . |
|
|
|
|||
Одновременно |
дается команда в |
Ч-1 |
|
на |
запоминание |
нового |
значения |
||
З У |
|
||||||||
О/ |
при этом |
интегратор приводится |
в |
нулевое состояние. Такая схема |
|||||
хороша своей помехоустойчивостью, так |
как |
за время //— //_i |
произво |
||||||
дится интегрирование помехи. Эффект |
фильтрации |
особенно |
заметен |
||||||
вблизи экстремума, когда сигнал |
ДG(t) |
достаточно мал и время фильт |
|||||||
рации велико. |
С помощью приставки |
число |
каналов |
управления |
может |
быть увеличено до шести. При этом используется временное разделение каналов, и траектория поиска совпадает с траекторией метода Гаусса—
|
Зайделя. Очевидно, при. этом снн- |
||||||
л ч - н ч |
жается |
быстродействие, |
что |
при |
|||
дрейфе |
экстремума |
приводит |
и к |
||||
|
снижению точности. |
|
двухка- |
||||
Ц ( р ) - и |
В качестве |
примера |
|||||
нальното ЭР, работающего по ме |
|||||||
|
тоду градиента, |
рассмотрим |
дис |
||||
|
кретный |
автоматический |
оптими |
||||
|
затор ДАО-2, выполненный на |
||||||
|
феррит-транзистор,ных элементах. |
||||||
|
Блок-схема |
его |
показана |
на |
|||
|
рис. 4-14,а |
где |
показаны |
следую- |
Рис. 4-14. Блок-схема ДАО-2 (а), траектория |
поиска |
(б) |
|
||
щие основные блоки [4-12]: |
фильтр Ф, |
операционные |
блоки |
О Б t w |
О Б }, |
исполнительные двигатели |
И Д \ и ИД з , |
программное устройство ПУ. |
иэме- |
||
Фильтр преобразует отфильтрованное по специальному закону |
А
пение G в пропорциональную частоту импульсов f a , которые поступают
в двоичные реверсивные счетчики, являющиеся основными узлами опера ционных блоков. Схема работает следующим образом.
После дробных шагов Ди11р поочередно по обоим каналам (траекто рия движения показана на рис. 4-14,6) в счетчиках операционных блоков записываются в обратном коде числа, попорц,падальные соответствующим координатам .градиента, точнее, приращениям показателя оптимальности
за счет |
соответствующих пробных |
шагов, а такж е |
их |
знак,и. После этого |
дается |
команда одновременно на |
пуск двигателей |
И Д \ |
и И Д г в направ |
лениях, соответствующих, знакам приращений, а также команда на счи тывание чисел в счетчиках. Такое считывание производится с помощью импульсов постоянной частоты, поэтому счетчики заполняются (во всех разрядах появляются единицы) при поступлении в ник чисел импульсов, равных записанным числам. Первый же импульс переполнения отключаег соответствующий двигатель. Таким образом, двигатели И Д { и И Д 2 в р а щаются с постоянной скоростью в течение отрезков времени, пропорцио
нальных соответствующих координатам градиента. |
определение |
координат |
Как следует из траектории пробных шагов, |
||
градиента производится в разны х точках ( U и |
и ' ) , правда, |
лежащих |
довольно близко. Это делается для экономии времени, чтобы после пер
вого пробного шага не тратить время |
на возвращение в исходную точку |
и установление переходных процессов. |
Быстродействие такж е увеличи |
вает применение пробных шагов с форсировкой, приводящее к ускорен ному протеканию переходных процессов. Такое решение эффективно, если объект можно представить в виде соединения линейной инерционной час ти Л Ч и нелинейной безынерционной Н Ч (рис. 4-14,а). Динамические ха рактеристики каналов линейной части при этом предполагаются стацио нарными.
Г л а в а 5
ДИНАМИЧЕСКАЯ ОПТИМИЗАЦИЯ
Движение есть изменение вообще.
(Г егель)
... Будущее, которое, как известно, бросает свою тень задолго перед тем, как войти, стучало в окно.
(А. Ахматова)
Как указано во введении, к динамической оптимизации отнесен круг проблем, возникающих .при экстремизации функционалов. В этой главе рассмотрены в основном неклаосические вариационные задачи (ом. § 1-3), возникающие при управлении системами в переходных режимах с ограни ченными возможностями управляющих воздействий, что проявляется либо в задании жестких ограничений типа не равенств, либо в задании стоимости управления в критерии оптимальности. При описании движения динамических си стем принята концепция состояния. Поэтому указанные за дачи можно сформулировать как задачи перевода системы из заданного начального в конечное состояние (или задан ное конечное множество), которое может быть фиксирован ным или подвижным. Естественно, при этом возникает во прос: можно ли с помощью допустимых управлений достиг нуть целевого состояния (множества) за ограниченное вре мя? Положительный ответ на этот вопрос позволяет перейти к следующему этапу — нахождению самого оптимального управления. Для этого используются различные условия, сформулированные или в виде уравнений (Веллмана, Га мильтона—Якоби и др.), или в виде вариационных принци пов (Гамильтона, максимума, экстремального выбора на правления и др.). Условия оптимальности в конечном итоге приводят к решению двухточечных краевых задач для диф ференциальных уравнений, которые лишь в простейших, правда, практически важных .случаях сводятся к стандарт ным одноточечным задачам. В этой связи значительный ин терес вызывают вычислительные аспекты решения таких за дач с помощью вычислительных машин и способы построе
175
ния простых в реализации, .но близких к оптимальным сис темам.
В заключение рассмотрены проблемы управления систе мами, состояние которых зависит не только от управляющих, но и возмущающих воздействий. Характерной особенностью реализации оптимального управления в таких системах яв ляется необходимость прогнозирования возмущенного дви жения.
§ 5-1. Особенности задач динамической оптимизации
Далее будут рассматриваться динамические системы, в отношении которых предполагается существование единст
венной переходной функции состояния ср (t; т, Хх, |
|
U), значениями которой служат состояния Xt —q(t\ |
(5-1) |
т, Xr, U), в которых оказывается система в момент |
|
времени t, если в начальный момент т она была в |
|
начальном состоянии Xт и если па нее действовало управляющее воздействие U.
К таковым, в частности, относятся все системы, описывае мые обыкновенными дифференциальными уравнениями.
Рассмотренное в § 2-2, 2-5 понятие управляемости необ ходимо уточнить для случая, когда на управление наложены жесткие ограничения. Дело в том, что управляемость сис темы в смысле'(2-11) (по Р. Калману) может достигаться при управлениях, не являющихся допустимыми, • т. е. не
удовлетворяющих ограничениям при переводе системы в за данное состояние. В этом плане критерий (2-46) имеет смысл критерия «потенциальной» управляемости, показывая, что при заданной структуре линейной системы, определяе мой парой матриц А и В, можно найти управление, перево дящее ее из начального состояния Хо в желаемое X* за ко
нечное время. Однако такое управление может оказаться не реализуемым из-за ограничений, и, следовательно, пол ностью управляемая по Калману система может оказаться неуправляемой практически относительно некоторых со стояний. Очевидно, что для неуправляемых систем опти мальное управление не существует.
Эта особенность характерна для задач динамической оп тимизации. В отличие от задач статической оптимизации, где отсутствие решения обычно наблюдалось там, где об ласть Qu оказывалась незамкнутой (противоречивость огра ничений обычно свидетельствует о некорректной постановке
176
задачи и в расчет не принимается), в задачах динамической оптимизации оптимальное решение находится проще всего именно при отсутствии ограничений на управления (при этом для управляемой по Калману системы вопрос о сущест вовании решения не ставится), и чем уже область, тем слабее возможности управления и тем более вероятна не управляемость системы. Здесь и встает вопрос о существова нии оптимального управления для заданной конкретной системы при заданных ограничениях и начальных и конеч ных состояниях. В связи с постановкой такого вопроса рас смотрим понятие достижимости в (п+1)-мерном простран стве с п координатами состояния системы Х=(х\, ..., хп) и
координатой времени (аналог четырехмерного пространства Минковского в физике).
Назовем состояние (Xr, Т) достижимым из состояния 1(Х0, /о) относительно Q„, где -to^ Т, если найдется такое
'I'fi 12ы, что
Хт=ц>(Т; Хо, to, U).
Множество D=D(Xo, to, Т, Qu), образованное множеством достижимых состояний (Хт, Т) при заданном Ии называется областью достижимости относительно Хо, to, Й„.
Если при этом Г есть время первого достижения, то разность Т—to называется временем перехода. По мере уве-
.личения Т при фиксированном to область достижимости рас ширяется (возможно, ограниченно) и образует при Т-
юбластъ управляемости D В дополнение к поня
тию управляемости по Калману будем называть
оистему управляемой относительно многообразий
•l'i и Гг, если существует |
такое |
допустимое |
уп- |
(5-3) |
|
равление Uей„, которое |
переводит |
систему |
из |
|
|
состояния ХобГ] в состояние Х*а Г2 |
за конечное |
|
|||
время. |
|
|
|
|
|
.'Понятия достижимости и управляемости играют важную |
|||||
роль в задачах динамической |
оптимизации с |
фиксирован |
ным и свободным временем: если величина Т задана, то ис
кать оптимальное управление имеет смысл лишь в случае, когда конечное состояние Xr eDr, в противном случае реше ние не существует; если же величина Т свободна, то необ
ходимым условием существования решения является условие Хт е или Л ' Г г (конечно, везде предполагается управ
12—1303 |
177 |
ляемость по Калману). Таким образом, выявление областей DI и (или l'i и Гг) является одним из предметов теорем
существования решения соответствующих вариационных задач.
В настоящее время теоремы существования доказаны в формах, требующих дополнительных исследований в прило жениях. Достаточно просто можно получить необходимые условия существования. Например, легко видеть, что усло вий
Г2П£ Ч *о, *о. Т>Ои)ф 0, |
(5-4) |
где 0 —пустое множество, является необходимым для су
ществования оптимального управления относительно (ло, /о) и Qu. Значительно более сложно установить достаточ ные условия существования. Если без потери общности по ложить, что критерий оптимальности определяется лишь конечным состоянием <1* (Xr, Т) (для этого достаточно ввести
в число |
координат |
дополнительную |
хо= G(X, |
U, |
/), |
||
х0(/0) = 0), |
то имеет место теорема 5-1 [5-7]: |
|
|
||||
Предположим, |
что |
Г2 П^т¥=0 |
и что |
существует |
такая |
||
топология, |
что Г2 |
q DT компактно, |
а функция Ф(ХГ, |
Т) |
по |
лунепрерывна снизу*. Тогда оптимальное управление отно сительно (Хо, to) и Qu существует.
Поскольку в приложениях условие полунепрерывное™
функции Ф обычно удовлетворяется, основные |
трудности |
||
вызывает исследование свойств множеств DT и пересечения |
|||
Г2 |
с DT. Во многих |
практических задачах, когда множество |
|
Г2 |
является точкой, |
прямой или гиперплоскостью |
или вы |
пукло, установление компактности Ът часто оказывается
достаточным для существования оптимального управления. Здесь могут быть полезными следующие теоремы.
Теорема 5-2 [5-10]. Для системы X —A (t)X + B(t)U, (5-5)
где управление U (t) состоит из кусочно-непрерывных функ ций U 6Qu(t), причем все множества Qu(0 содержатся в сфере 5(0, М) :|| U\\'h^ZM, множество DT ограничено для лю бого T^>to.
Теорема 5-3 [5-12]. Для системы (5-5) с A {i)—A, B (t)= B , где управление U(t) состоит из измеримых функций, удов
* Множество называется компактным, если оно замкнуто и ограничено. Функция ([) называется полунепрерывной снизу в точке (Хт, Т) , если для t >0 найдется такое &>0, что
|(X, / ) - ( Х т , Г)||-.б=:Ф ( Х 1 I) < Ф (Х т , Т) у а.
178
летворяющих ограничению UsQu(t), где множества Q„(0:
1)выпуклы, 2) содержатся в некоторой сфере 5(0, М)е/?га,
3)замкнуты в R,„, множество DT замкнуто для любого
7>/0.
П р и м е р 5-1. Рассмотрим |
проблему |
наискорейшего попадания раке |
ты на космическую станцию |
(рис. 5-1,а) |
с нулевой конечной скоростью |
для избежания удара о станцию [5-1]. Уравнение движения ракеты имеет
вид
X= / (х, х, и),
где х — расстояние по прямой до точки встречи, |
причем сила |
тяги раке- |
iu ограничена: |м|<1. Введя координаты л.-,—лг, |
х ^ —х, можно |
переписать |
уравнение движения в нормальной форме |
|
|
J*l=*2,
*2= /(*1, *2. к)-
При определенных ограничениях на |
характер функции |
/, можно най |
ти область управляемости (рис. 5-1,6), |
причем по мере приближения на |
|
чального состояния к границе области |
нремя перехода в |
начало коорди |
нат неограниченно возрастает. |
|
|
Рис. 5-1. К задаче наискорешнсго встречи ракеты с косми
ческой станцией: схема встречи (а), траектории встречи и
облапь упраилнемопн (6)
§ 5-2. Динамическое программирование
Термин «динамическое программирование» (ДП) полу чил распространение после появления в 1957 г. работы того
12* |
179 |
же названия [5-2], в которой обобщались результаты Р. Велл мана по оптимизации различных классов систем. Предло женный им метод решения задач оптимизации базируется на
принципе оптимальности:
Оптимальное поведение обладает тем свойст- ] |
|
вом, что каковы бы ни были первоначальное со |
_ , |
стояние и региение в начальный момент, после- |
|
дующие решения должны составлять оптимальное 1 |
е ' |
поведение относительно состояния, получающе |
|
гося в результате первого решения. |
|
Для управляемой системы под «поведением» следует по нимать ее движение, а под «решением» — выбор управления ею. Получим условия оптимальности предположив, что опти мальная траектория и конечное состояние (Хт, Т) найдены.
Определим скалярную функцию, называемую в дальнейшем потенциалом управления или просто потенциалом (некоторые
авторы называют се функцией Ляпунова—Веллмана), как минимальное значение критерия оптимальности (1-27), ко торое получается для заданного в момент времени t состоя ния (X, t) при оптимальном управлении:
|
|
г |
J*(X , t)= m \ n J(X , U, t)= min{<l>(XT, Т) + |
fG (X , U,t)dt}. |
|
<j£Ou |
ue.au |
J |
|
|
(5-7) |
Тогда из принципа оптимальности получаем |
||
J*(X , t)= min{G(X, |
U, t)At i-J* [X I |
AX, t + At). |
Предполагая, что потенциал является гладкой функцией состояния (что не всегда справедливо, например, в задачах линейного быстродействия), при разложении по Тейлору получаем
J* (X, /) = |
min (G (X, U, t) At + J* (X, t) + |
|
uenu |
+ at |
At + - оSл r AX + 0 № At» ' |
где 0(AX, At) содержит члены более высокого порядка.
Сократив в обеих частях равенства /*(Х, /), а также разде
160