Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Егоров С.В. Элементы идентификации и оптимизации управляемых систем учеб. пособие

.pdf
Скачиваний:
5
Добавлен:
24.10.2023
Размер:
9.47 Mб
Скачать

Бесконечную последовательность состояний Х|0], -Х(1], получаемую реккурентно по (5-49), назовем, следуя Веллма­ ну, многошаговым процессом, а часть последовательности — Х|0], ..., X[jV] — N-шаговым процессом. Во многих приклад­ ных задачах число N шагов заранее не фиксировано и зави­ сит от начального состояния, например, в процессах с огра­ ниченным ресурсом, которые прекращаются, как только ис­ черпаны ресурсы движения, в траекторных процессах, кото­

рые заканчиваются, как только их траектория попадает на заданное в пространстве состояний многообразие. Надо от­ метить, что принятая дискретизация может быть проведена для любого непрерывного процесса. Например, система

X = F(X, U, t) сводится к дискретной рассмотренного типа,

если отрезок времени 1(о, Л

разбить на такое количество N

отрезков длиной АТ= (Г—t0)N~\ что

дифференциальное

уравнение системы аппроксимируется разностным

а д = Х (/ г -1 ]+ ^ д а -1 ],

U[k = l],

k)AT, k — \....... N.

Такая дискретизация необходима всегда, если решение осуществляется на ЦВМ, при этом обычно и упрощается за­ дача оптимизации, как -это показано далее.

Для непрерывных систем проводится не только дискрети­ зация по времени, но и по уровню, при этом диапазон изме­ нения каждой координаты состояния и управления квантует­ ся соответственно на v* и vu уровней, исходя из допустимой точности решения.

Качество N-шагового процесса оценим величиной критерия

/ = г’ е ц а д

ш ) .

(5-so)

Требуется найти такую последовательность

управлений

(стратегию) (ДО], .... U[N—1]ей„,

чтобы критерий был мини­

мален.

 

 

Обратим внимание, что величина (5-50) зависит в конеч­ ном итоге, как это следует из (5-49), только от начального состояния Хо и искомой стратегии:

/= /(*с а д .... а д -i]).

Поэтому задачу оптимизации дискретной системы можно сформулировать как задачу на экстремум функции N пере­ менных (ДО], ..., U{N— 1] при ограничениях. Эта задача весь­ ма трудоемка, когда N велико. Метод динамического про-

201

граммирования позволяет свести ее к N менее сложных задач на экстремум функции одной переменной U[k\ k —Q, 1, N—l. Идея решения вытекает из принципа оптимальности:

будем искать управление только на один шаг, считая, что последующие управления оптимальны.

Обозначим потенциал /V-шагового процесса, начинающе­

гося из состояния Хо,

JN*(Xo)=mmJ(X0, t/[0], ..., U{N -l]).

U[k\ eQu, O ^ k ^ N - l.

Из принципа оптимальности следует, что

Js * W 0]) =min[G0(XtO], U[0}) + /**_, (Х{1])], t/[0] т и

и аналогично

J* N-\(-^[1]) =min[Gi(X[l], G(1])+/*n_2(X[2])], t/[i]eQu

(5-51)

j 2*{X[N-2]) =m\n{GKM X [N -2 l U [N -2]) +

U[ N - 2] e O u

+J l*(X [N -1])],

/!*(X[yV-1]) =minG*_,(X{N -1], U [N -1]).

ЩЛГ-I] ши

Имея эти соотношения, называемые уравнениями Велл­ мана (динамического программирования) в реккурентной форме, решим задачу нахождения оптимальной стратегии.

Заметим, что в отличие от непрерывных систем, когда тре­ буется решение дифференциального уравнения Веллмана, здесь 'фигурируют лишь функциональные уравнения. Удобно Применить для решения задачи движение от конечного со­ стояния X{N\ к начальному Х(0]. Если вести нумерацию соот­

ношений (5-51) в соответствии с нижним индексом у потен­ циала, то из первого соотношения посредством минимизации только по одной переменной U[N—1] функции Gw-i легко найти потенциал Ji*(X{N—1)) для всевозможных состояний

X[N—1] и соответствующее U*[N—l]= ;t/(.Xj|7V—1]), перево­

дящее

систему

за один шаг (за время АТ)

в состояние

X[N],

Зная J 1*,

из второго соотношения для

всевозможных

состояний X[N—2] аналогично находятся

Jz*(X[N—2]) и

U*[N—2]— U(X[N—2]). Продолжая указанный процесс, на­ ходим последовательно U*{N—3], ..., t/*[0], одновременно гра­

дуируя в единицах потенциала пространство состояний, так как при этом определяются Ц величины Jh*(XlN—A]), k = l,

202

N. В этом .случае оптимальная стратегия находится для

всевозможных начальных состояний -XJ0], а не только для за­ данного. Таким образом решается более широкая задача, чем исходная. Зная градуировку пространства, легко найти опти­ мальное управление для любого состояния на каждом шаге: это управление должно быть таким, чтобы потенциал на каждом шаге убывал наиболее значительно (метод функцио­ нального пространства при решении задачи динамической

оптимизации).

Если конечное состояние не задано, то решение уравне­ ний (5-51) целесообразнее осуществлять, двигаясь от задан­ ного начального состояния.

При выводе соотношений (5-51) исходная задача свелась к семейству N подобных задач, из которых каждая последую­

щая включается в предыдущую, но является более простой. Такой прием .понижения сложности задачи Веллман назы­ вает принципом инвариантного вложения.

Сделаем несколько замечаний по схеме вычислений.

1. Рассмотрим задачу с закрепленными концами для сис­ темы (5-49). При ограничениях на управление число состоя­ ний X{N 1], из которых можно попасть в ЛГ[ЛГ], также огра­ ничено. В свою очередь число состояний X[N—2], из которых можно попасть за один шаг в указанные состояния X[N—1],

ограничено, но, очевидно, больше числа последних. Поэтому при решении уравнений (5-51) от конца к началу захваты­ ваются все более широкие области .состояний, пока не будет заполнена некоторая область Пхо начальных состояний, из которых при заданных ограничениях можно попасть за N

шагов в состояние -ЛГ|[А^]. Таким образом, одновременно ре­ шается проблема управляемости: если -Х[0]еП*о, то система управляема относительно заданных состояний Х(0] и XJW],

2. Оценим объем памяти и вычислений для ЦВМ, на ко­ торой решается система уравнений динамического програм­ мирования (5-51).

При квантовании п-мерного пространства состояний на V* уровней ,по каждой координате получаем v*” узлов тг-мер- ной решетки. Для каждого узла Xhнеобходимо запомнить m значений компонент управления U*(Xk). Поэтому общая ем­

кость запоминающего устройства ЦВМ должна быть про­ порциональна m vxn. Если ЦВМ используется в контуре уп­

равления системой, то такое ЗУ должно быть оперативным. Емкость ^последи,их в настоящее время не превышает 10б. Поэтому при V * — 102 порядок системы получается неболь-

203

ншм (я^ З ). Беллман называет указанную трудность прак­ тической реализации рассмотренного способа управления «проклятием размерности».

С ростам и и т сильно растет и объем вычислений, хотя

последний существенно зависит от принятого метода мини­ мизации при решении (5-51). Если применить сканирование области управлений, то при квантовании каждой компонен­ ты вектора управления на vu уровней необходимо для каж­ дого состояния из 'общего числа vx" просмотреть vumвариан­ тов управления. Таким образом вычисляется v*n-vum значе­ ний потенциала. Как ни велико это число, наибольшим пре­ пятствием на пути использования ЦВМ для управления в данном случае является не объем вычислений, а память опе­ ративного ЗУ.

Очевидно, чем жестче ограничения на состояния и управ­ ления, чем уже области Q* и £2„, тем меньшими могут быть взяты величины ух, vu и тем меньше объем вычислений и

памяти, что является достоинством метода динамического программирования по сравнению с классическими способами учета ограничений.

3. Рассмотрим устойчивость вычислительного процесс для системы уравнений (5-51) в связи с наличием погрешно­ стей от квантования переменных и округления при вычисле­ ниях. Эти погрешности приводят к тому, что для 6-го урав­ нения (5-51) находится оценка потенциала

X*=m in {G*_* + / V ,} +5», 6 = 1, .... N,

U [ N - k ]

где t,k показывает накопленную погрешность. Очевидно, что

слишком быстрый рост последней вызовет недопустимую чувствительность решения к возможным погрешностям. По­ казано [5-13], что

шах | |=max|/„*—Jk*\г^бе,

если погрешность решения каждого из уравнений (5-51) не превышает е. Линейный порядок роста максимальной ошиб­ ки означает устойчивость вычислительного процесса.

П р и м е р 5-3 [5-14]. Рассмотрим задачу выбора наиболее быстрого маршрута в городе, плав которого представлен на рис. 5-6,а сетевым графом. При этом числа на улицах между перекрестками обозначают вре­ мя прохода или проезда квартала в минутах. Требуется наиболее быстро пересечь город из т. А в т. В, причем допускается лишь движение справа

налево.

 

условии существует 70

возможных

путей из

Даже три указанном

А в В.

Конечно, можно

было бы найти суммарное

время для

каждого

204

'такого маршрута и выбрать лучший путем сравнения. Используя прийцйп инвариантного погружения, сведем эту трудоемкую задачу к серии более простых.

Присвоим конечной точке В время 0. В точку В можно попасть лишь

из точек

С и

D. Путь СВ требует

2 мин., поэтому точке

С

присвоим

время 2.

мин.

(на рис. 5-6,6

время

для каждого перекрестка

указано в

кружке). Аналогично .присвоим точке D время 4 мин.

приняты в т. Е:

Рассмотрим теперь .два решения, которые могут быть

а) двигаться по пути ЕС,

потратив 9 м,ин. на общий

путь

до

В,

б) двигаться по пути ED

потратив лишь 7 мин. на

общий

путь до

точки В.

 

 

 

 

Е

минимальное

Выбираем наискорейший путь и присваиваем точке

время 7

мин.

Эту процедуру

проделаем .и для остальных

перекрестков,

вплоть до точки А. Полученное в точке А время 36 мин. является мини­ мальным, соответствуя наискорейшему пути .из А в В (или наоборот).

Отметим существенное уменьшение объема вычислений: для 8 пере­ крестков, в которых возможно единственное направление движения, надо

произвести по одной операции сложения, и для

16

перекрестков, где

возможны два направления, —

по два сложения

и

сравнению,

итого

8+16 • 2+16=56

операций. Если

же

использовать

прямой подсчет

време­

ни для всех 70

путей, когда каждый

путь требует

7

сложений, и

после­

довательное сравнение с другими 69 путями, то потребуется 70-7-1-69= = 559 операций. Для более сложных задач выигрыш в объеме вычислений получается еще значительнее.

§ 5 - 6 . О п т и м и з а ц и я с и с т е м с в о з м у щ е н и я м и

Пункт 1. Общие положения

Рассмотренные выше методы оптимального управления можно назвать детерминированными, поскольку они отно-

205

Сятся к системам без возмущений или с возмущениями, за­ данными как известные функции времени, что позволяет ввести их в число координат системы (ем. п. 1 § 5-4). На практике управляемые системы часто подвержены случай­ ным возмущениям (изменения нагрузки в энергосистемах, изменения конъюнктуры в экономике и т. д.). В общем слу­ чае они мешают достижению цели управления. Рассмотрим системы с контролируемыми возмущениями Z (t), заданными

явно:

X=F(X , U, Z,

0 , X(t0)= X 0.

 

(5-52)

Для таких систем необходимо уточнить

поня­

 

тие управляемости. Будем считать систему (5-52)

 

управляемой относительно

многообразий

Г[ и

 

Гг, если существует такое допустимое управление,

 

которое при наихудших возмущениях переводит

(5-53)

систему из состояния ХобГ)

в состояние

Х*еГг

за конечное время (сравни с (5-3)). Наихудшими при этом считаются такие возможные возмущения ZeQz, которые максимизируют время указанного перевода при фиксированном управлении.

Аналогично уточняется и понятие достижимости. Далее будут рассмотрены системы (5-52), управляемые в вышеука­ занном 'смысле. Поскольку вопросы существования оптималь­ ного управления для систем с возмущениями разработаны недостаточно, будем предполагать, что для системы (5-52) с Z&ilz оптимальное управление существует.

Очевидно, что величина критерия оптимальности (1-27) для рассматриваемых систем зависит не только от выбора управлений, но и от возмущений, поскольку они также влия­ ют на траекторию движения системы. Вследствие этого изме­ няется и понятие потенциала управления (5-7). При этом можно указать по крайней мере три возможных определения его для рассматриваемых систем, когда ZT, Т заданы:

1) реально возмущенный, равный минимальному значе­

нию критерия оптимальности при фактически действующих возмущениях:

/z*= min/(Ao, to\ U(t),

Z(t), to ^ts^T ):

(5-54a)

t/e 11u

 

 

2) усредненный no множеству возмущений:

 

J*(X о, tQ) =min Mz{ J(Xo,

t0\ U(t). ZeQ2) );

(5-546)

Ue П ,,

 

 

206

§) максимально возмущенный (минимаксный):

J*макс(-^о, to) =min шах/(Х0, W, U(t), Z(t),

U e S lu Z б£2г

t0^ t ^ T ) .

(5-54в)

Поскольку при случайных возмущениях величина (5-54а) может быть вычислена лишь апостериорно, то использова­ ние функции Jz* для оперативного определения оптималь­

ного управления невозможно. В этом плане два последних определения более плодотворны при наличии, разумеется, соответствующих характеристик возможных возмущений: определение (5-546) широко применяется при расчете ста­ тистически оптимального управления для систем, где воз­ мущения не всегда являются наихудшими, в отличие от оп­ ределения (5-54в), которое широко применяется в игровых задачах (дифференциальных играх), где возмущениями рас­ поряжается «противник», выбирающий наихудшие для про­ тивоположной стороны воздействия.

Поскольку «средние» или «наихудшие» возмущения в общем случае не совпадают с фактическими, то управление, оптимальное статистически или минимаксно, в общем случае не является оптимальным фактически и, следовательно, дает большее значение критерия, чем (5-54а). Вот почему во мно­ гих случаях, когда потери от неоптимальности управления, рассчитанного по статистическому или минимаксному кри­ терию, недопустимо велики, стремятся как можно точнее «угадать» действительный характер возмущений на интер­ вале оптимизации и найти соответствующее оптимальное управление. Этот путь, связанный с прогнозированием воз­ мущенного движения, будет рассмотрен далее. А здесь при­ ведем некоторые важные результаты оптимизации по ста­ тистическим критериям.

Рассмотрим линейную систему

|

X=AX + BiU+ B2Z,

(5-55)

\

Y=CX + l,

где У — вектор наблюдаемых выходов, a Z, £ — возмущения, оптимизируемую по критерию

г

Г=М {ХТ(Т)Ф Х (Т )+ j (XTQX+UTRU )dt).

(5-56)

807

Справедлива следующая теорема $-8, известная как Тео­ рема разделения Хоу [5-15]:

В линейных системах (5-55) с квадратичным критерием оптимальности (5-56) при белых гауссовых входных воздей­ ствиях Z, £ оптимальный стохастический регулятор представ­ ляет собой последовательное соединение оптимального уст­ ройства для оценки состояния и детерминированного опти­ мального управления.

Если для системы

Х = Е (Х , U, Z) ib критерии (5-56)

Ф= 0, то при условии,

что Z — гаектор независимых случай­

ных возмущений, оптимальным регулятором является фильтр Винера [5-16].

Пункт 2. Компенсация и прогнозирование возмущений

При оптимизации систем с возмущениями возможны два

подхода:

1) компенсационный, связанный с приведением исходной

системы к .системе без возмущений путем нахождения со­ ставляющей управления Uz, компенсирующей возмущения, и

последующего определения собственно оптимизационной со­

ставляющей

Uo, минимизирующей заданный критерий

(в этом случае управление равно U—Uz+Uq)\

2) прямой,

связанный с непосредственной минимизацией

Критерия с учетом фактических возмущений, но без их ком­ пенсации в обычном смысле.

Отметим характерную особенность первого подхода:

 

управление при компенсационном методе форми­

(5-57)

руется по текущей информации о возмущениях

 

исостоянии.

Всамом деле, согласно теории инвариантности компен­ сационная составляющая управления определяется лишь на­ стоящим и прошлым возмущений, т. е. формируется из те­ кущего возмущения устройством с положительной памятью. Пусть эта составляющая полностью компенсирует действие возмущений. Тогда оптимизационная составляющая для ском­ пенсированной системы определяется, согласно вышерассмот­

ренным результатам, только ее текущим состоянием. Таким образом, оптимальный регулятор в целом (т. е. формирую­ щий 1/2 и Uо) здесь оказывается устройством с положитель­

ной памятью, и при этом не возникает необходимости зна­ ния будущего характера возмущений. Этот важный вывод

20 3

.верен, к сожалению, лишь при условии, что достигнута полная компенсация возмущений независимо от стоимости

этой компенсации (когда стоимость управления не входит в критерий оптимальности), иными словами, при неограни­ ченных возможностях управления. Между тем, полная ком­ пенсация возмущений обычно невозможна (когда компенса­ ционная составляющая выходит за пределы ограничений на управление, когда условия абсолютной инвариантности не­ реализуемы и в других случаях). Следовательно, компенса­ ционный метод имеет ограниченные возможности, а сама компенсация может привести к неоптимальности. Возникает вопрос: а надо ли вообще полностью компенсировать воз­ мущения? Ведь они оказывают на состояние системы такое же действие, что и управление, и в силу своего случайного характера могут в целом двигать систему в желаемом направ­ лении. Этот эффект .возмущений, несомненно, полезен, и его компенсация нецелесообразна. Однако чтобы судить об этом, необходимо иметь количественную оценку такого эф­ фекта, а также эффекта компенсации. Такую оценку могли бы дать величины J z* по (5-54а), Jo* и /г**, где Jo* и J Zk*

равны минимальному значению критерия оптимальности со­ ответственно при отсутствии возмущений (Z = 0) и при их полной компенсации (очевидно, что J z* ^ J zk*). При /г*>/о*

возмущения в целом вредны, поскольку ухудшают качество управления, а при Jz*< .Jо*—полезны. Однако такая оценка

является весьма грубой из-за того, что оценивает эффект возмущений в целом, на всем интервале оптимизации. По­ этому здесь требуется более тонкая структура оценивания из-за переменчивости характера возмущений.

Рассмотрим для простоты линейные системы. В общем случае возмущение вызывает две составляющих скорости движения системы, из которых одна касательна оптимальной

траектории (движущая составляющая Xa(Z )), а другая нор­

мальна ей (отклоняющая составляющая X„(Z)). Оптималь­ ной траекторией X*(t) в задаче с возмущениями считается

траектория, найденная апостериорно для реально действую­ щих возмущений и с учетом имеющихся условий и ограни­ чений, т. е. со значением критерия (5-54а).

На этой траектории, очевидно, составляющая X„(Z) пол­

ностью скомпенсирована составляющей XH(U). Относитель­

но составляющей Xa(Z) можно лишь сказать, что она пол-

14-1303

209

йостью компенсирована лишь в случае, если имеет направ­ ление, противоположное движению системы вдоль оптималь­ ной траектории (рис. 5-7). Следовательно, оптимальное уп­ равление предполагает более сложный вид компенсации воз­ мущений, чем полную (кстати, даже полная компенсация

Хн и Ха эквивалентна полной (абсолютной) компенсации

возмущения лишь в указанном выше случае неограниченных возможностей управления). Такую компенсацию (возмуще­ ния можно назвать оптимизационной, поскольку она нераз­

рывно связана с оптимальной траекторией. Сложность ее состоит в том, что последняя априори неизвестна. Сущест­ вует по крайней мере один способ определения этой траек­ тории — узнать каким-то обра­

 

 

зом

характер

возмущений

на

 

 

всем

интервале

оптимизации,

 

 

что

предполагает

 

их

точное

 

 

прогнозирование. Но при из­

 

 

вестных на

интервале

оптими­

 

 

зации

возмущениях

задача

ре­

 

 

шается известными нам мето­

 

 

дами.

Найденное

оптимальное

 

 

управление

 

будет,

 

конечно,

 

 

одновременно

 

осуществлять

и

 

 

оптимизационную

компенсацию

 

 

возмущений,

 

однако

 

вряд

ли

Рис. 5-7. Составляющие воз­

необходимо

теперь

искать

со­

ответствующую

составляющую

мущенного движения

относи­

управления. Рассмотренный под­

тельно оптимальной

траекто­

рии

 

ход можно

назвать

прямым.

от компенсационного,

Он

существенно

 

отличается

предполагает

 

прогнозирование

возмущений и позволяет

найти

оптимальное

управление

и при ограниченных его возможностях. Отметим его харак­ терную особенность:

управление при прямом методе формируется

(5-58)

по прогнозу о возмущениях и текущему состоя­

нию.

 

Следовательно, оптимальный регулятор в целом (т. е. сов­ местно с экстраполятором возмущений) здесь оказывается устройством и с отрицательной, и с положительной памятью. С необходимостью прогнозирования мы столкнулись уже

210

Соседние файлы в папке книги из ГПНТБ