книги из ГПНТБ / Егоров С.В. Элементы идентификации и оптимизации управляемых систем учеб. пособие
.pdfБесконечную последовательность состояний Х|0], -Х(1], получаемую реккурентно по (5-49), назовем, следуя Веллма ну, многошаговым процессом, а часть последовательности — Х|0], ..., X[jV] — N-шаговым процессом. Во многих приклад ных задачах число N шагов заранее не фиксировано и зави сит от начального состояния, например, в процессах с огра ниченным ресурсом, которые прекращаются, как только ис черпаны ресурсы движения, в траекторных процессах, кото
рые заканчиваются, как только их траектория попадает на заданное в пространстве состояний многообразие. Надо от метить, что принятая дискретизация может быть проведена для любого непрерывного процесса. Например, система
X = F(X, U, t) сводится к дискретной рассмотренного типа,
если отрезок времени 1(о, Л |
разбить на такое количество N |
|
отрезков длиной АТ= (Г—t0)N~\ что |
дифференциальное |
|
уравнение системы аппроксимируется разностным |
||
а д = Х (/ г -1 ]+ ^ д а -1 ], |
U[k = l], |
k)AT, k — \....... N. |
Такая дискретизация необходима всегда, если решение осуществляется на ЦВМ, при этом обычно и упрощается за дача оптимизации, как -это показано далее.
Для непрерывных систем проводится не только дискрети зация по времени, но и по уровню, при этом диапазон изме нения каждой координаты состояния и управления квантует ся соответственно на v* и vu уровней, исходя из допустимой точности решения.
Качество N-шагового процесса оценим величиной критерия
/ = г’ е ц а д |
ш ) . |
(5-so) |
Требуется найти такую последовательность |
управлений |
|
(стратегию) (ДО], .... U[N—1]ей„, |
чтобы критерий был мини |
|
мален. |
|
|
Обратим внимание, что величина (5-50) зависит в конеч ном итоге, как это следует из (5-49), только от начального состояния Хо и искомой стратегии:
/= /(*с а д .... а д -i]).
Поэтому задачу оптимизации дискретной системы можно сформулировать как задачу на экстремум функции N пере менных (ДО], ..., U{N— 1] при ограничениях. Эта задача весь ма трудоемка, когда N велико. Метод динамического про-
201
граммирования позволяет свести ее к N менее сложных задач на экстремум функции одной переменной U[k\ k —Q, 1, N—l. Идея решения вытекает из принципа оптимальности:
будем искать управление только на один шаг, считая, что последующие управления оптимальны.
Обозначим потенциал /V-шагового процесса, начинающе
гося из состояния Хо,
JN*(Xo)=mmJ(X0, t/[0], ..., U{N -l]).
U[k\ eQu, O ^ k ^ N - l.
Из принципа оптимальности следует, что
Js * W 0]) =min[G0(XtO], U[0}) + /**_, (Х{1])], t/[0] т и
и аналогично
J* N-\(-^[1]) =min[Gi(X[l], G(1])+/*n_2(X[2])], t/[i]eQu
(5-51)
j 2*{X[N-2]) =m\n{GKM X [N -2 l U [N -2]) +
U[ N - 2] e O u
+J l*(X [N -1])],
/!*(X[yV-1]) =minG*_,(X{N -1], U [N -1]).
ЩЛГ-I] ши
Имея эти соотношения, называемые уравнениями Велл мана (динамического программирования) в реккурентной форме, решим задачу нахождения оптимальной стратегии.
Заметим, что в отличие от непрерывных систем, когда тре буется решение дифференциального уравнения Веллмана, здесь 'фигурируют лишь функциональные уравнения. Удобно Применить для решения задачи движение от конечного со стояния X{N\ к начальному Х(0]. Если вести нумерацию соот
ношений (5-51) в соответствии с нижним индексом у потен циала, то из первого соотношения посредством минимизации только по одной переменной U[N—1] функции Gw-i легко найти потенциал Ji*(X{N—1)) для всевозможных состояний
X[N—1] и соответствующее U*[N—l]= ;t/(.Xj|7V—1]), перево
дящее |
систему |
за один шаг (за время АТ) |
в состояние |
X[N], |
Зная J 1*, |
из второго соотношения для |
всевозможных |
состояний X[N—2] аналогично находятся |
Jz*(X[N—2]) и |
U*[N—2]— U(X[N—2]). Продолжая указанный процесс, на ходим последовательно U*{N—3], ..., t/*[0], одновременно гра
дуируя в единицах потенциала пространство состояний, так как при этом определяются Ц величины Jh*(XlN—A]), k = l,
202
N. В этом .случае оптимальная стратегия находится для
всевозможных начальных состояний -XJ0], а не только для за данного. Таким образом решается более широкая задача, чем исходная. Зная градуировку пространства, легко найти опти мальное управление для любого состояния на каждом шаге: это управление должно быть таким, чтобы потенциал на каждом шаге убывал наиболее значительно (метод функцио нального пространства при решении задачи динамической
оптимизации).
Если конечное состояние не задано, то решение уравне ний (5-51) целесообразнее осуществлять, двигаясь от задан ного начального состояния.
При выводе соотношений (5-51) исходная задача свелась к семейству N подобных задач, из которых каждая последую
щая включается в предыдущую, но является более простой. Такой прием .понижения сложности задачи Веллман назы вает принципом инвариантного вложения.
Сделаем несколько замечаний по схеме вычислений.
1. Рассмотрим задачу с закрепленными концами для сис темы (5-49). При ограничениях на управление число состоя ний X{N —1], из которых можно попасть в ЛГ[ЛГ], также огра ничено. В свою очередь число состояний X[N—2], из которых можно попасть за один шаг в указанные состояния X[N—1],
ограничено, но, очевидно, больше числа последних. Поэтому при решении уравнений (5-51) от конца к началу захваты ваются все более широкие области .состояний, пока не будет заполнена некоторая область Пхо начальных состояний, из которых при заданных ограничениях можно попасть за N
шагов в состояние -ЛГ|[А^]. Таким образом, одновременно ре шается проблема управляемости: если -Х[0]еП*о, то система управляема относительно заданных состояний Х(0] и XJW],
2. Оценим объем памяти и вычислений для ЦВМ, на ко торой решается система уравнений динамического програм мирования (5-51).
При квантовании п-мерного пространства состояний на V* уровней ,по каждой координате получаем v*” узлов тг-мер- ной решетки. Для каждого узла Xhнеобходимо запомнить m значений компонент управления U*(Xk). Поэтому общая ем
кость запоминающего устройства ЦВМ должна быть про порциональна m vxn. Если ЦВМ используется в контуре уп
равления системой, то такое ЗУ должно быть оперативным. Емкость ^последи,их в настоящее время не превышает 10б. Поэтому при V * — 102 порядок системы получается неболь-
203
ншм (я^ З ). Беллман называет указанную трудность прак тической реализации рассмотренного способа управления «проклятием размерности».
С ростам и и т сильно растет и объем вычислений, хотя
последний существенно зависит от принятого метода мини мизации при решении (5-51). Если применить сканирование области управлений, то при квантовании каждой компонен ты вектора управления на vu уровней необходимо для каж дого состояния из 'общего числа vx" просмотреть vumвариан тов управления. Таким образом вычисляется v*n-vum значе ний потенциала. Как ни велико это число, наибольшим пре пятствием на пути использования ЦВМ для управления в данном случае является не объем вычислений, а память опе ративного ЗУ.
Очевидно, чем жестче ограничения на состояния и управ ления, чем уже области Q* и £2„, тем меньшими могут быть взяты величины ух, vu и тем меньше объем вычислений и
памяти, что является достоинством метода динамического программирования по сравнению с классическими способами учета ограничений.
3. Рассмотрим устойчивость вычислительного процесс для системы уравнений (5-51) в связи с наличием погрешно стей от квантования переменных и округления при вычисле ниях. Эти погрешности приводят к тому, что для 6-го урав нения (5-51) находится оценка потенциала
X*=m in {G*_* + / V ,} +5», 6 = 1, .... N,
U [ N - k ]
где t,k показывает накопленную погрешность. Очевидно, что
слишком быстрый рост последней вызовет недопустимую чувствительность решения к возможным погрешностям. По казано [5-13], что
шах | |=max|/„*—Jk*\г^бе,
если погрешность решения каждого из уравнений (5-51) не превышает е. Линейный порядок роста максимальной ошиб ки означает устойчивость вычислительного процесса.
П р и м е р 5-3 [5-14]. Рассмотрим задачу выбора наиболее быстрого маршрута в городе, плав которого представлен на рис. 5-6,а сетевым графом. При этом числа на улицах между перекрестками обозначают вре мя прохода или проезда квартала в минутах. Требуется наиболее быстро пересечь город из т. А в т. В, причем допускается лишь движение справа
налево. |
|
условии существует 70 |
возможных |
путей из |
Даже три указанном |
||||
А в В. |
Конечно, можно |
было бы найти суммарное |
время для |
каждого |
204
'такого маршрута и выбрать лучший путем сравнения. Используя прийцйп инвариантного погружения, сведем эту трудоемкую задачу к серии более простых.
Присвоим конечной точке В время 0. В точку В можно попасть лишь
из точек |
С и |
D. Путь СВ требует |
2 мин., поэтому точке |
С |
присвоим |
|||
время 2. |
мин. |
(на рис. 5-6,6 |
время |
для каждого перекрестка |
указано в |
|||
кружке). Аналогично .присвоим точке D время 4 мин. |
приняты в т. Е: |
|||||||
Рассмотрим теперь .два решения, которые могут быть |
||||||||
а) двигаться по пути ЕС, |
потратив 9 м,ин. на общий |
путь |
до |
В, |
||||
б) двигаться по пути ED |
потратив лишь 7 мин. на |
общий |
путь до |
|||||
точки В. |
|
|
|
|
Е |
минимальное |
||
Выбираем наискорейший путь и присваиваем точке |
||||||||
время 7 |
мин. |
Эту процедуру |
проделаем .и для остальных |
перекрестков, |
вплоть до точки А. Полученное в точке А время 36 мин. является мини мальным, соответствуя наискорейшему пути .из А в В (или наоборот).
Отметим существенное уменьшение объема вычислений: для 8 пере крестков, в которых возможно единственное направление движения, надо
произвести по одной операции сложения, и для |
16 |
перекрестков, где |
||||
возможны два направления, — |
по два сложения |
и |
сравнению, |
итого |
||
8+16 • 2+16=56 |
операций. Если |
же |
использовать |
прямой подсчет |
време |
|
ни для всех 70 |
путей, когда каждый |
путь требует |
7 |
сложений, и |
после |
довательное сравнение с другими 69 путями, то потребуется 70-7-1-69= = 559 операций. Для более сложных задач выигрыш в объеме вычислений получается еще значительнее.
§ 5 - 6 . О п т и м и з а ц и я с и с т е м с в о з м у щ е н и я м и
Пункт 1. Общие положения
Рассмотренные выше методы оптимального управления можно назвать детерминированными, поскольку они отно-
205
Сятся к системам без возмущений или с возмущениями, за данными как известные функции времени, что позволяет ввести их в число координат системы (ем. п. 1 § 5-4). На практике управляемые системы часто подвержены случай ным возмущениям (изменения нагрузки в энергосистемах, изменения конъюнктуры в экономике и т. д.). В общем слу чае они мешают достижению цели управления. Рассмотрим системы с контролируемыми возмущениями Z (t), заданными
явно:
X=F(X , U, Z, |
0 , X(t0)= X 0. |
|
(5-52) |
Для таких систем необходимо уточнить |
поня |
|
|
тие управляемости. Будем считать систему (5-52) |
|
||
управляемой относительно |
многообразий |
Г[ и |
|
Гг, если существует такое допустимое управление, |
|
||
которое при наихудших возмущениях переводит |
(5-53) |
||
систему из состояния ХобГ) |
в состояние |
Х*еГг |
за конечное время (сравни с (5-3)). Наихудшими при этом считаются такие возможные возмущения ZeQz, которые максимизируют время указанного перевода при фиксированном управлении.
Аналогично уточняется и понятие достижимости. Далее будут рассмотрены системы (5-52), управляемые в вышеука занном 'смысле. Поскольку вопросы существования оптималь ного управления для систем с возмущениями разработаны недостаточно, будем предполагать, что для системы (5-52) с Z&ilz оптимальное управление существует.
Очевидно, что величина критерия оптимальности (1-27) для рассматриваемых систем зависит не только от выбора управлений, но и от возмущений, поскольку они также влия ют на траекторию движения системы. Вследствие этого изме няется и понятие потенциала управления (5-7). При этом можно указать по крайней мере три возможных определения его для рассматриваемых систем, когда ZT, Т заданы:
1) реально возмущенный, равный минимальному значе
нию критерия оптимальности при фактически действующих возмущениях:
/z*= min/(Ao, to\ U(t), |
Z(t), to ^ts^T ): |
(5-54a) |
t/e 11u |
|
|
2) усредненный no множеству возмущений: |
|
|
J*(X о, tQ) =min Mz{ J(Xo, |
t0\ U(t). ZeQ2) ); |
(5-546) |
Ue П ,, |
|
|
206
§) максимально возмущенный (минимаксный):
J*макс(-^о, to) =min шах/(Х0, W, U(t), Z(t),
U e S lu Z б£2г
t0^ t ^ T ) . |
(5-54в) |
Поскольку при случайных возмущениях величина (5-54а) может быть вычислена лишь апостериорно, то использова ние функции Jz* для оперативного определения оптималь
ного управления невозможно. В этом плане два последних определения более плодотворны при наличии, разумеется, соответствующих характеристик возможных возмущений: определение (5-546) широко применяется при расчете ста тистически оптимального управления для систем, где воз мущения не всегда являются наихудшими, в отличие от оп ределения (5-54в), которое широко применяется в игровых задачах (дифференциальных играх), где возмущениями рас поряжается «противник», выбирающий наихудшие для про тивоположной стороны воздействия.
Поскольку «средние» или «наихудшие» возмущения в общем случае не совпадают с фактическими, то управление, оптимальное статистически или минимаксно, в общем случае не является оптимальным фактически и, следовательно, дает большее значение критерия, чем (5-54а). Вот почему во мно гих случаях, когда потери от неоптимальности управления, рассчитанного по статистическому или минимаксному кри терию, недопустимо велики, стремятся как можно точнее «угадать» действительный характер возмущений на интер вале оптимизации и найти соответствующее оптимальное управление. Этот путь, связанный с прогнозированием воз мущенного движения, будет рассмотрен далее. А здесь при ведем некоторые важные результаты оптимизации по ста тистическим критериям.
Рассмотрим линейную систему
| |
X=AX + BiU+ B2Z, |
(5-55) |
\ |
Y=CX + l, |
где У — вектор наблюдаемых выходов, a Z, £ — возмущения, оптимизируемую по критерию
г
Г=М {ХТ(Т)Ф Х (Т )+ j (XTQX+UTRU )dt). |
(5-56) |
807
Справедлива следующая теорема $-8, известная как Тео рема разделения Хоу [5-15]:
В линейных системах (5-55) с квадратичным критерием оптимальности (5-56) при белых гауссовых входных воздей ствиях Z, £ оптимальный стохастический регулятор представ ляет собой последовательное соединение оптимального уст ройства для оценки состояния и детерминированного опти мального управления.
Если для системы |
Х = Е (Х , U, Z) ib критерии (5-56) |
Ф= 0, то при условии, |
что Z — гаектор независимых случай |
ных возмущений, оптимальным регулятором является фильтр Винера [5-16].
Пункт 2. Компенсация и прогнозирование возмущений
При оптимизации систем с возмущениями возможны два
подхода:
1) компенсационный, связанный с приведением исходной
системы к .системе без возмущений путем нахождения со ставляющей управления Uz, компенсирующей возмущения, и
последующего определения собственно оптимизационной со
ставляющей |
Uo, минимизирующей заданный критерий |
(в этом случае управление равно U—Uz+Uq)\ |
|
2) прямой, |
связанный с непосредственной минимизацией |
Критерия с учетом фактических возмущений, но без их ком пенсации в обычном смысле.
Отметим характерную особенность первого подхода: |
|
|
управление при компенсационном методе форми |
(5-57) |
|
руется по текущей информации о возмущениях |
||
|
исостоянии.
Всамом деле, согласно теории инвариантности компен сационная составляющая управления определяется лишь на стоящим и прошлым возмущений, т. е. формируется из те кущего возмущения устройством с положительной памятью. Пусть эта составляющая полностью компенсирует действие возмущений. Тогда оптимизационная составляющая для ском пенсированной системы определяется, согласно вышерассмот
ренным результатам, только ее текущим состоянием. Таким образом, оптимальный регулятор в целом (т. е. формирую щий 1/2 и Uо) здесь оказывается устройством с положитель
ной памятью, и при этом не возникает необходимости зна ния будущего характера возмущений. Этот важный вывод
20 3
.верен, к сожалению, лишь при условии, что достигнута полная компенсация возмущений независимо от стоимости
этой компенсации (когда стоимость управления не входит в критерий оптимальности), иными словами, при неограни ченных возможностях управления. Между тем, полная ком пенсация возмущений обычно невозможна (когда компенса ционная составляющая выходит за пределы ограничений на управление, когда условия абсолютной инвариантности не реализуемы и в других случаях). Следовательно, компенса ционный метод имеет ограниченные возможности, а сама компенсация может привести к неоптимальности. Возникает вопрос: а надо ли вообще полностью компенсировать воз мущения? Ведь они оказывают на состояние системы такое же действие, что и управление, и в силу своего случайного характера могут в целом двигать систему в желаемом направ лении. Этот эффект .возмущений, несомненно, полезен, и его компенсация нецелесообразна. Однако чтобы судить об этом, необходимо иметь количественную оценку такого эф фекта, а также эффекта компенсации. Такую оценку могли бы дать величины J z* по (5-54а), Jo* и /г**, где Jo* и J Zk*
равны минимальному значению критерия оптимальности со ответственно при отсутствии возмущений (Z = 0) и при их полной компенсации (очевидно, что J z* ^ J zk*). При /г*>/о*
возмущения в целом вредны, поскольку ухудшают качество управления, а при Jz*< .Jо*—полезны. Однако такая оценка
является весьма грубой из-за того, что оценивает эффект возмущений в целом, на всем интервале оптимизации. По этому здесь требуется более тонкая структура оценивания из-за переменчивости характера возмущений.
Рассмотрим для простоты линейные системы. В общем случае возмущение вызывает две составляющих скорости движения системы, из которых одна касательна оптимальной
траектории (движущая составляющая Xa(Z )), а другая нор
мальна ей (отклоняющая составляющая X„(Z)). Оптималь ной траекторией X*(t) в задаче с возмущениями считается
траектория, найденная апостериорно для реально действую щих возмущений и с учетом имеющихся условий и ограни чений, т. е. со значением критерия (5-54а).
На этой траектории, очевидно, составляющая X„(Z) пол
ностью скомпенсирована составляющей XH(U). Относитель
но составляющей Xa(Z) можно лишь сказать, что она пол-
14-1303 |
209 |
йостью компенсирована лишь в случае, если имеет направ ление, противоположное движению системы вдоль оптималь ной траектории (рис. 5-7). Следовательно, оптимальное уп равление предполагает более сложный вид компенсации воз мущений, чем полную (кстати, даже полная компенсация
Хн и Ха эквивалентна полной (абсолютной) компенсации
возмущения лишь в указанном выше случае неограниченных возможностей управления). Такую компенсацию (возмуще ния можно назвать оптимизационной, поскольку она нераз
рывно связана с оптимальной траекторией. Сложность ее состоит в том, что последняя априори неизвестна. Сущест вует по крайней мере один способ определения этой траек тории — узнать каким-то обра
|
|
зом |
характер |
возмущений |
на |
||||
|
|
всем |
интервале |
оптимизации, |
|||||
|
|
что |
предполагает |
|
их |
точное |
|||
|
|
прогнозирование. Но при из |
|||||||
|
|
вестных на |
интервале |
оптими |
|||||
|
|
зации |
возмущениях |
задача |
ре |
||||
|
|
шается известными нам мето |
|||||||
|
|
дами. |
Найденное |
оптимальное |
|||||
|
|
управление |
|
будет, |
|
конечно, |
|||
|
|
одновременно |
|
осуществлять |
и |
||||
|
|
оптимизационную |
компенсацию |
||||||
|
|
возмущений, |
|
однако |
|
вряд |
ли |
||
Рис. 5-7. Составляющие воз |
необходимо |
теперь |
искать |
со |
|||||
ответствующую |
составляющую |
||||||||
мущенного движения |
относи |
управления. Рассмотренный под |
|||||||
тельно оптимальной |
траекто |
||||||||
рии |
|
ход можно |
назвать |
прямым. |
|||||
от компенсационного, |
Он |
существенно |
|
отличается |
|||||
предполагает |
|
прогнозирование |
|||||||
возмущений и позволяет |
найти |
оптимальное |
управление |
и при ограниченных его возможностях. Отметим его харак терную особенность:
управление при прямом методе формируется |
(5-58) |
по прогнозу о возмущениях и текущему состоя |
|
нию. |
|
Следовательно, оптимальный регулятор в целом (т. е. сов местно с экстраполятором возмущений) здесь оказывается устройством и с отрицательной, и с положительной памятью. С необходимостью прогнозирования мы столкнулись уже
210