который требуется |
за |
конечное |
время |
/к перевести |
из |
начального |
состоя- |
ния х (0) = х1н. |
|
X (0) = х2„ В |
конечное |
состояние |
* (/к) = xlK, |
'* (tK) - |
*2К |
таким образом, |
чтобы |
энергия, |
затрачиваемая управляющим |
устройством, |
была минимальной, т. е. чтобы обеспечивался минимум функционала |
|
£?= 5 |
|
i L |
|
|
|
|
|
|
|
|
|
|
|
|
|
(11.51) |
о |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Уравнения состояния объекта, соответствующие передаточной функции |
(11.49), имеет вид: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н (/) = |
(0. |
** (0 = к0У (0. |
|
|
|
|
|
|
|
|
|
|
(11.52) |
где *i (0 = |
хв (0- |
|
|
|
|
|
функций ф( (t) |
запишем |
выражение |
Для отыскания вспомогательных |
для гамильтониана (11.46): |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н = Фо/о + b f i |
+ |
Ф2/2 = |
Фи (0 Уг (0 + |
Фх (0 х2 (0 + ф2 (0 60у (/). |
(11.53) |
Применяя второе из соотношений (11.48), |
получаем |
|
|
|
|
|
d фо/d / = 0; |
d ф^б / = |
0; |
б ф 2/ б / = |
— фь |
|
|
|
|
|
(11.54) |
откуда |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Фо(/) = |
С„; |
фж(0 = Сх; |
ф2 (/) = - |
C,t + |
С2. |
|
|
|
|
|
(11.55) |
Теперь |
гамильтониан (11.53) |
примет |
вид: |
|
|
|
|
|
|
|
Н = C t f (t) + |
Ctx2 (t) + |
(С, - |
Cyt) у (11). |
|
|
|
|
|
|
|
(11.56) |
Условие максимума гамильтониана Н по управлению у (t) дает |
|
дН1ду = 2С,у (/) + С2 — Cxt = |
0, |
|
|
|
|
|
|
|
|
|
(11.57) |
откуда закон управления |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0(0 = |
А . |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(11.58) |
2С2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Умножая управляющее воздействие (11.58) на передаточный коэффи |
циент k0 и интегрируя его |
по |
времени, |
получаем: |
|
|
|
|
|
|
|
x2 (t) = k0 - ^ |
~ |
t * - k 0 - £ l — t + |
C3, |
|
|
|
|
|
|
|
(11.59) |
|
|
4С0 |
|
2С0 |
|
|
|
|
|
|
|
|
|
|
|
|
X (/) = |
Xj (0 = |
|
—^1— /з _ |
|
|
|
,2 + |
Сз< + |
с 4. |
|
|
|
|
(11.60) |
|
|
|
|
12С0 |
|
|
4С0 |
|
|
|
|
|
|
|
|
|
|
Подставляя заданные граничные условия в выражения (11.59) и (11.60), |
можно найти постоянные интегрирования Съ С2, С3 и С4. |
|
|
|
|
|
Метод динамического программирования. |
Метод |
основан |
на |
сформулированном Р. Веллманом |
принципе |
оптимальности: |
оп |
тимальная траектория любой управляемой динамической |
системы |
в каждой |
промежуточной |
точке |
х |
|
(/) |
обладает |
тем |
свойством, |
что каковы |
бы ни были |
первоначальное состояние |
и |
первона |
чальное |
управление, |
последующее |
управление |
должно |
быть |
оптимальным |
относительно |
этого |
|
состояния |
х |
(/), |
|
полученно |
го в результате |
первоначального |
|
управления. |
Принцип опти |
мальности утверждает, что каждый участок оптимальной траекто рии от любой ее промежуточной точки x(t) до конечной точки х (/к)
также оптимален по рассматриваемому критерию. Так, если имеется единственная оптимальная траектория 1—2 (рис. 11.4, сплошная линия) и на ней рассматривается промежуточная точка х (/), то согласно принципу оптимальности оптимальной для «начального» состояния х (t) будет траектория 2 (независимо от того, по какой траектории система пришла в указанную точку). В справедливости этого утверждения нетрудно убедиться, рассуждая от противного. Действительно, если бы между точками х (t) и x ( t K) существовала какая-либо другая оптимальная траектория 2', то и для началь
ного состояния х (0) |
оптимальной была бы не траектория 1—2, |
а траектория 1—2' |
А это противоречит исходной посылке, что |
траектория 1—2 единственная оптимальная траектория.
Заметим, что начальный участок 1 оптимальной траектории сам по себе может и не быть оптимальным.
Вследствие отмеченного принципиального различия конечных и начальных участков оптимальной траектории при применении метода динамического программирования часто используют про цедуру поэтапной оптимизации траектории с попятным движением от конечного состояния к начальному: вначале оптимизируют са мый последний отрезок траектории, затем прилегающий к нему предпоследний и так далее все предшествующие отрезки до задан ного исходного состояния х (0). При этом на каждом шаге такой поэтапной оптимизации приходится делать серию предположений о возможных исходах управления на предыдущем шаге (еще не най денного!), для каждого из предположений находить оптимальное управление и значение функционала на рассматриваемом текущем шаге и выбирать из серии найденных управлений то, которое сов-
местно с уже выбранными для последующих отрезков управле ниями обеспечивает общий минимум функционала.
Несмотря на то, что принцип оптимальности был сформулиро ван Р. Веллманом с помощью чисто эвристических, интуитивных рассуждений и сама формулировка принципа имела чисто качест венный, нематематический характер, в дальнейшем на его основе был разработан строгий математический метод оптимизации, по лучивший название динамического программирования и широко используемый как для дискретных, так и для непрерывных систем
управления. |
|
Рассмотрим с у щ н о с т ь |
м е т о д а д и н а м и ч е с к о г о |
п р о г р а м м и р о в а н и я |
применительно к непрерывным си |
стемам. Пусть имеется нестационарный объект управления, опи сываемый нелинейным векторным дифференциальным уравнением
* ( < ) = /[ * (9, |
у (О, |
t], |
|
(11.61) |
и требуется найти управление y(t), |
минимизирующее функционал |
Q [у (0, *к] = I |
и [х |
(у, t), у (t), |
i] d t |
(11 .62) |
О |
|
|
|
|
при заданных начальном состоянии х |
(0) = |
ха, конечном времени tK, |
ограничении у (/) |
£ Y и |
произвольном конечном состоянии х (tH). |
Согласно принципу оптимальности каждое текущее значение времени t на заданном интервале 0 < t < tK может быть выбрано в качестве начала отсчета, и оптимальное управление у\_2 (/), ми
нимизирующее функционал (11.62) на этом интервале, будет сов
падать на |
интервале |
t ^ 6' ^ |
/к |
с оптимальным |
управлением |
у* (ft), минимизирующим функционал |
|
Q[y($), |
U, t] = $ |
М * (у . |
й). |
У (ft), ft]dft, |
(11.63) |
|
/ |
|
|
|
|
причем минимальное значение Q* = S функционала (11.63) будет (при найденном оптимальном управлении!) зависеть только от на чального для участка 2 состояния х (/) и длительности /к— t про цесса управления:
Ц М * ( У , О). У ( Ч О Н *
У(ft) k У и |
|
= S[x( t) , tK, t], t < t < t K. |
O1-64) |
Полная производная интеграла (11.63) по переменному нижнему пределу t
d Q |
П |
d xi , |
dQ |
|
|
dQ |
= —/о1*(0. t), y( t) , t], |
0 |
dT |
^ dxf |
d i |
cM |
|
i=i |
|
|
|
|
(11.65)
Отсюда с учетом уравнений объекта (11.61)
£?L = M * (y . |
О, У (О, t ] + Y - ^ - f i l x ( t ) , У (0. <1, |
а/ |
z_< |
|
i=i |
(11.66)
Уравнение (11.66) справедливо для любого допустимого управ ления у (t) £ У, не выводящего объект на границу области У, При оптимальном управлении у* (t) это уравнение с учетом выра жения (11.64) приобретает вид
|
as |
min |
/о [-«(У, О- У (9, |
t ] + Y d^ r f l lx(t),y((),(\.. |
|
а/ |
|
зКОбУ |
|
1=1 |
|
|
|
|
|
|
|
|
|
|
|
(11.67) |
|
Уравнение (11.67), называемое уравнением Веллмана, можно |
|
записать в |
более компактной форме: |
|
|
|
^ - = |
min |
[/о Iх (У, |
0. У (0> |
9 + ( - ^ - У |
/[■*(<).У (0><Л |
|
а/ |
у (1) ^ у I |
|
\ дх J |
) |
|
|
<te£/<*K |
|
|
(11.68) |
|
|
|
|
|
|
|
ИЛИ |
|
|
|
|
|
|
— |
т ‘п |
{М *(У. |
0. у (0 . <]+(gradS,/[ л :( 0 , У(0» 9». |
|
dt |
y(t)£Y |
|
|
|
|
|
|
|
|
|
|
(11.69) |
|
где (as/ajc)7' = [dS/d*lf a*S/ajc2, |
, dS/fo*)]7, = |
dS!dx[ —век |
тор-столбец, соответствующий градиенту grad S скалярной функ ции S векторного аргумента х; ( ) — обозначение скалярного произведения векторов.
Уравнение Веллмана представляет собой специфическое диффе ренциальное уравнение первого порядка в частных производных относительно одной переменной S. Специфичность уравнения за ключается в том, что оно содержит операцию минимизации по аргу менту у (t) и поэтому справедливо только для оптимального управ ления у* (t).
Уравнения (11.67) — (11.69) выражают необходимое условие оптимальности управления и определяют порядок решения задачи
оптимального управления методом динамического программирова ния. На первом этапе минимизируют выражение в правой части: для чего дифференцируют ее по управлению у (/) и приравнивают производную к нулю. В результате минимизации оптимальное уп равление у* (/) выражается через функции /0, / и не известные пока составляющие градиента 5:
y*l(t) = y*l[f0, / , grad S] = JV* [JC (0, gradS]. |
(11.70) |
При подстановке выражения (11.70) в уравнение (11.69) послед нее уже не будет содержать операцию минимизации и управление у* (/), и поэтому может быть разрешено относительно неизвестной S при граничном условии
S [ X ( t K), |
^K] — 0 . |
(11.71) |
Получив, |
наконец, функцию S lx (t), |
/1 и ее градиент grad S |
по аргументу х , и подставив его в формулу (11.70), выражают оп тимальное управление через переменные состояния x(t).
В заключение отметим, что в случаях, когда функции / г и / 0 не зависят явно от времени t, функция S также не зависит от вре мени, и, следовательно, dS/dt = 0.
Пример 2. Определим для стационарного линейного объекта
(P) = (P)ly (P) = koIp (T0p + 1) (11.72)
оптимальное управляющее воздействие у* (/), стабилизирующее объект в по
ложении х х (0) = |
*2 (0) = |
0 и обеспечивающее |
минимум функционала |
|
|
oo |
|
|
|
(11.73) |
0 |
[y (01 = j* [qx2B ( t)+ r y 2 (t)]dt, |
|
|
0 |
|
|
|
|
где q, |
r — положительные |
константы. |
|
Уравнения состояния |
объекта: |
|
х1 (t) = |
*2 (/); |
х2 (/) = |
ах2 (0 + by (t), |
(11.74) |
где х х (t) = |
х в ((), |
а = — 1/Г0, b — k0/T 0. |
|
Для стационарного объекта и функционала, не зависящего явно от вре |
мени, |
уравнение |
Веллмана имеет вид |
|
|
|
|
|
|
|
(11.75) |
Найдем производную выражения в скобках по управлению и прирав |
няем |
ее к нулю: |
|
|
|
2ry -j----------b = |
0, |
|
(11.76) |
откуда |
dx2 |
|
|
|
|
|
|
|
|
|
У* (0 = |
' |
b |
dS |
|
(11.77) |
2r |
dx2 |
|
|
|
|
|
|
|
|
После подстановки выражения (11.77) в уравнение Веллмана приходим к нелинейному дифференциальному уравнению в частных производных пер
|
вого порядка |
|
|
|
|
dS |
|
|
|
яА |
b2 |
f |
d S \2 |
dS |
х 2 "Ь а х 2 |
О, |
(11.78) |
|
4г |
V |
дх2 ) |
дхj. |
дх2 |
|
|
|
|
которое необходимо решить при граничном условии |
S [х (оо)] = 0. |
|
Решение уравнения (11.78) будем искать в виде квадратичной формы |
|
5 (-Я р |
* 2) |
— |
^11*1 |
^ 1 2 * 1 * 2 |
“Ь ^22*2 |
|
|
0 ^ *79) |
с неопределенными коэффициентами Сц, с12, с22, удовлетворяющей указан ному граничному условию.
Подставив функцию S и ее производные в уравнение (11.78) и прирав
няв к нулю коэффициенты, |
при слагаемых х\, |
х ±х 2, х \ , получим: |
|
с12 = Дfqr lb, с22 = (ar |
+ r ^ J а2 + 2Ь л ] q/r |
)/b2. |
(11.80) |
Коэффициент сп нет необходимости определять, так как управление у* зависит только от производной dSldx2, в которую этот коэффициент не вхо
дит.
Теперь при найденных .значениях коэффициентов (11.80) можно вычис лить производную dSldx2 и записать окончательное выражение для опти мального управляющего воздействия
У* (0 =
X (2с12хг + 2с22х2) = — Ajqlr х± —
(11.81)
являющегося, очевидно, линейной функцией переменных состояния.
Связь метода динамического программирования с принципом максимума. Применим уравнение Веллмана (11.67) для случая,
когда функции и / 0 не зависят явно от времени, т. е. когда dSIdt = 0. Напомним, что к такому случаю можно свести и задачу с нестационарными объектом (11.61) и функционалом (11.62). Для этого необходимо лишь ввести дополнительную переменную состоя ния хп+ъ удовлетворяющую уравнению (11.35).
Расширим вектор-столбец градиента функции S в формуле ^11.69) на один элемент, равный единице, и обозначим его
|
dS |
dS |
DS у |
(11.82) |
|
дх1 |
дх2 |
дхп \ = -Ф - |
|
|
|
Учтем, |
что минимум |
положительной функции равен взятому |
с противоположным знаком максимуму совпадающей с ней по мо-
дулю отрицательной функции. Тогда вместо уравнения (11.67) можно записать
О = max |
п |
|
|
£ фл |
шах {фГТ } |
(11.83) |
у (/)€У |
£=0 |
У(06У |
|
Сопоставляя полученное выражение с условием (11.46) прин ципа максимума, легко убедиться, что они идентичны, если век тор <р отождествить с вектором ф, т. е. если
|
- Ф = [1. |
dS |
3S |
dS |
|
дхг |
дх2 |
дх{: Г |
|
|
|
или |
|
|
|
|
фо= — 1; tyi = — dS/dx1\ ф2 = |
—3S/dx2; |
|
= — dS!dxn. |
|
|
|
Поясним смысл выбора оптимального управления в соответст вии с выражением (11.83). Для этого введем вспомогательную функ цию
5 = S {х0у хъ |
хп) = S {хъ х2, |
хп) + *0, (11.86) |
где 5 |
определяется |
формулой |
(11.64), а составляющая |
х0 — фор |
мулой |
(11.40). Переменная S |
является |
непрерывной |
функцией |
точки в расширенном пространстве состояния х , и в этом простран стве существуют изоповерхности S = const равных значений функционала (11.63). Согласно выражениям (11.84), (11.85) вектор ф является взятым со знаком минус градиентом скаляра S в про
странстве л:, |
и |
следовательно, как |
любой градиент, ортогонален |
в любой точке х |
к изоповерхностям 5 |
= const и к вектору касатель |
ной х = / , |
который имеет смысл вектора скорости движения изо |
бражающей точки X.
Таким образом, условие максимизации скалярного произведе
ния векторов ф и / означает следующее: необходимо в каждый мо мент времени выбирать такое управление у , чтобы проекция век
тора скорости х изображающей точки на вектор отрицательной нормали к изоповерхностям критерия оптимальности была макси
мальной, т. е. чтобы составляющая вектора лгв направлении наи скорейшего убывания функционала Q была максимально большой. При этом проекция оказывается отрицательной, а ее максимальное значение равно нулю.
11.3. Системы, оптимальные по быстродействию
Синтез алгоритмов разомкнутого управления. Применим прин
цип максимума для синтеза оптимального по быстродействию закона управления у* (/) линейным стационарным объектом ви да (2.157), который при отсутствии возмущения z ( t ) описывается системой уравнений
п |
т |
|
|
|
|
Xi (О = £ atix, (t) + £ Ъ1Ш(0, |
i= 1; |
2; |
п, |
(11.87) |
/=1 |
/= 1 |
|
|
|
|
или одним векторным уравнением |
|
|
|
|
x{t) = A x{t) + By{t). |
|
|
|
(11.88) |
Пусть требуется |
перевести объект |
из |
начального |
состояния |
х (0) = х н в конечное состояние |
х (tK) = |
х к за минимально воз |
можное время при ограничениях на управление |
|
1 й ( 0 К й м , / = |
1; 2; |
т. |
|
|
(11.89) |
Заметим, что при решении задач синтеза замкнутых систем управления удобно в качестве переменных состояния рассматри вать не абсолютные значения координат объекта, а отклонения координат от некоторой известной вектор-функции х 3 (/), которая задана заранее или формируется задающим устройством системы в процессе управления.
Оптимизируемый функционал в задаче максимального быстро
действия имеет, как известно, вид |
|
|
Q [у (01 = $ fo l* (У. |
0. У(01 d t = tK= min , |
(11.90) |
о |
|
у (оеу |
|
т. е. подынтегральная |
функция |
= 1. |
|
С учетом последнего тождества и введенного в предыдущем
разделе условия ф0 = |
— 1 гамильтониан (11.46) для объекта (11.87), |
(11.88) примет следующий вид |
|
|
Я = - 1 + фг (0 [Ах (0 + By (01 = — 1 + |
£ ф, (0 X |
|
|
|
|
|
|
1=1 |
х Г £ |
ацх, (0 + |
£ |
ьИу1 (о1 = — 1 + |
£ |
ч»{ (0 х |
L /= i |
/ = 1 |
J |
£=1 |
|
п |
auxj (t) + |
п |
т |
bt,y, (0, |
|
|
X £ |
£ |
% (0 £ |
|
(11.91) |
/=1 |
|
i= 1 |
/ = 1 |
|
|
|
где функции ф* (/) определяются вспомогательной системой урав нений (11. .5)
Ь (0 = dH/dXi = - £ аи^ (t), i = 1; 2; |
n, |
(11.92) |
/= 1 |
|
|
или в векторной форме |
|
Ч » (0 = — Л тЧ>(0- |
(11.93) |
От управляющего воздействия у (t) зависит только третье сла гаемое в выражении (11.91), поэтому условие достижения максимума гамильтониана Н сводится к условию:
пт
шах £ |
Ь (О S Ьцу! (I) |
(11.94) |
Уj i t ) 1= 1 |
/ = 1 |
|
или
тп
S |
max у, (/) £ |
(0. |
(11.95) |
/= 1 »/(/) |
£=1 |
|
|
Так |
как |
каждая |
составляющая г// (/) |
изменяется независимо |
от остальных |
составляющих вектора у (t), |
то выражения (11.94) |
и (11.95) достигают максимума, если все *//(/)' принимают свои максимально допустимые значения, т. е. если
|w (0 = У1* sign g |
(/), / = 1; 2; |
m, |
(11.96) |
или в векторной форме |
|
|
У* (0 = Ум sign [Вг ф (0] = ум sign [Яу], |
|
(11.97) |
где ум — диагональная матрица т X т, состоящая из максимально |
допустимых |
значений |
t/;M управляющих |
воздействий; sign — знак |
(плюс или минус) функции, стоящей |
после этого |
символа; |
sign [Ну] = {sign //yjmxi -матрица-столбец; |
|
Ну = дН/ду\ |
Ну.= дН1ду/. |
|
|
(11.96) и (11.97) означают, что оптимальные управляющие воздейст
вия у*, (t) представляют собой кусочно-постоянные функции вре-
П
мени, принимающие в зависимости от знака суммы £ &г/фг (/) зна-
1=1
чения + у)м или — у/н (рис. 11.5), т. е.
У /(0= + У /м , |
если |
2 btf tt(t)> 0 , |
|
|
|
1=1 |
(11.98) |
|
|
П |
y‘j{ t) = — yiw, |
|
|
если |
£ М > /(0 < 0. |
|
|
|
1=1 |
|
Моменты переключения управляющих воздействий и, следова тельно, длительности интервалов постоянства зависят от заданных начальных и конечных состояний х н и х к, вида ограничений у (^) ( F и собственных чисел А.г матрицы А.
Закон управления (11.96), (11.97) справедлив, если функция, стоящая после символа sign, принимает нулевые значения только
Рис. 11.5. Управляющее воздействие в системе, оптимальной по быстродействию
в изолированных точках. Если же эта функция обращается тож дественно в нуль на каком-либо конечном интервале времени, то задача управления относится к классу особых задач оптимального управления, для решения которых применяются специальные методы.
Как видно из выражения (11.96), для получения оптимальных управляющих воздействий в виде известных функций времени у* (t) необходимо найти вспомогательные функции ф* (/), которые
являются решениями системы уравнений (11.92). Вид этих решений зависит от начальных условий ф (0) и от собственных значений р*
|
|
|
|
|
|
|
матрицы А ту которые, как известно из теории матриц, |
связаны |
с собственными значениями |
матрицы А соотношением |
|
К |
i = 1; |
2; |
п. |
|
(11.99) |
Равенство |
(11.99) |
означает, |
что если объект (11.88) устойчив, |
то решения ф* (/) |
неустойчивы. Это обстоятельство |
уже |
само по |
себе существенно |
затрудняет |
отыскание функций |
ф*(/). |
Кроме |
того, сложность решения вспомогательной системы уравнений (11.92) определяется еще и тем, что начальные условия ф* (0) за ранее неизвестны и в общем случае их нельзя выразить в аналити ческой форме через граничные условия х„ и лгк основной системы уравнений (11.87). Поэтому условия фг (0) приходится подбирать методом последовательных приближений до тех пор, пока управ ления yj (/), получающиеся при выбираемых значениях ф*(0), не обеспечат выход вектора x(t) в заданное конечное состояние х к.
Однако во многих практических случаях задачу синтеза разомк нутой системы с максимальным быстродействием удается решить без отыскания функций ф* (/). При этом дополнительно к принципу максимума используют теорему об п интервалах.
Теорема об п интервалах, сформулированная и доказанная в 1953 г. советским ученым А. А. Фельдбаумом, утверждает сле дующее: если все корни характеристического уравнения линей ного объекта (11.88) (т. е. собственные значения ^ матрицы А) —