Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Теория автоматического управления

..pdf
Скачиваний:
131
Добавлен:
15.11.2022
Размер:
16.96 Mб
Скачать

который требуется

за

конечное

время

/к перевести

из

начального

состоя-

ния х (0) = х1н.

 

X (0) = х2„ В

конечное

состояние

* (/к) = xlK,

'* (tK) -

*2К

таким образом,

чтобы

энергия,

затрачиваемая управляющим

устройством,

была минимальной, т. е. чтобы обеспечивался минимум функционала

 

£?= 5

 

i L

 

 

 

 

 

 

 

 

 

 

 

 

 

(11.51)

о

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Уравнения состояния объекта, соответствующие передаточной функции

(11.49), имеет вид:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Н (/) =

(0.

** (0 = к0У (0.

 

 

 

 

 

 

 

 

 

 

(11.52)

где *i (0 =

хв (0-

 

 

 

 

 

функций ф( (t)

запишем

выражение

Для отыскания вспомогательных

для гамильтониана (11.46):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Н = Фо/о + b f i

+

Ф2/2 =

Фи (0 Уг (0 +

Фх (0 х2 (0 + ф2 (0 60у (/).

(11.53)

Применяя второе из соотношений (11.48),

получаем

 

 

 

 

 

d фо/d / = 0;

d ф^б / =

0;

б ф 2/ б / =

— фь

 

 

 

 

 

(11.54)

откуда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Фо(/) =

С„;

фж(0 = Сх;

ф2 (/) = -

C,t +

С2.

 

 

 

 

 

(11.55)

Теперь

гамильтониан (11.53)

примет

вид:

 

 

 

 

 

 

 

Н = C t f (t) +

Ctx2 (t) +

(С, -

Cyt) у (11).

 

 

 

 

 

 

 

(11.56)

Условие максимума гамильтониана Н по управлению у (t) дает

 

дН1ду = 2С,у (/) + С2 — Cxt =

0,

 

 

 

 

 

 

 

 

 

(11.57)

откуда закон управления

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0(0 =

А .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(11.58)

2С2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Умножая управляющее воздействие (11.58) на передаточный коэффи­

циент k0 и интегрируя его

по

времени,

получаем:

 

 

 

 

 

 

 

x2 (t) = k0 - ^

~

t * - k 0 - £ l — t +

C3,

 

 

 

 

 

 

 

(11.59)

 

 

4С0

 

2С0

 

 

 

 

 

 

 

 

 

 

 

 

X (/) =

Xj (0 =

 

—^1— /з _

 

 

 

,2 +

Сз< +

с 4.

 

 

 

 

(11.60)

 

 

 

 

12С0

 

 

4С0

 

 

 

 

 

 

 

 

 

 

Подставляя заданные граничные условия в выражения (11.59) и (11.60),

можно найти постоянные интегрирования Съ С2, С3 и С4.

 

 

 

 

 

Метод динамического программирования.

Метод

основан

на

сформулированном Р. Веллманом

принципе

оптимальности:

оп­

тимальная траектория любой управляемой динамической

системы

в каждой

промежуточной

точке

х

 

(/)

обладает

тем

свойством,

что каковы

бы ни были

первоначальное состояние

и

первона­

чальное

управление,

последующее

управление

должно

быть

оптимальным

относительно

этого

 

состояния

х

(/),

 

полученно­

го в результате

первоначального

 

управления.

Принцип опти­

мальности утверждает, что каждый участок оптимальной траекто­ рии от любой ее промежуточной точки x(t) до конечной точки х (/к)

381

также оптимален по рассматриваемому критерию. Так, если имеется единственная оптимальная траектория 1—2 (рис. 11.4, сплошная линия) и на ней рассматривается промежуточная точка х (/), то согласно принципу оптимальности оптимальной для «начального» состояния х (t) будет траектория 2 (независимо от того, по какой траектории система пришла в указанную точку). В справедливости этого утверждения нетрудно убедиться, рассуждая от противного. Действительно, если бы между точками х (t) и x ( t K) существовала какая-либо другая оптимальная траектория 2', то и для началь­

ного состояния х (0)

оптимальной была бы не траектория 1—2,

а траектория 1—2'

А это противоречит исходной посылке, что

траектория 1—2 единственная оптимальная траектория.

Заметим, что начальный участок 1 оптимальной траектории сам по себе может и не быть оптимальным.

Вследствие отмеченного принципиального различия конечных и начальных участков оптимальной траектории при применении метода динамического программирования часто используют про­ цедуру поэтапной оптимизации траектории с попятным движением от конечного состояния к начальному: вначале оптимизируют са­ мый последний отрезок траектории, затем прилегающий к нему предпоследний и так далее все предшествующие отрезки до задан­ ного исходного состояния х (0). При этом на каждом шаге такой поэтапной оптимизации приходится делать серию предположений о возможных исходах управления на предыдущем шаге (еще не най­ денного!), для каждого из предположений находить оптимальное управление и значение функционала на рассматриваемом текущем шаге и выбирать из серии найденных управлений то, которое сов-

382

местно с уже выбранными для последующих отрезков управле­ ниями обеспечивает общий минимум функционала.

Несмотря на то, что принцип оптимальности был сформулиро­ ван Р. Веллманом с помощью чисто эвристических, интуитивных рассуждений и сама формулировка принципа имела чисто качест­ венный, нематематический характер, в дальнейшем на его основе был разработан строгий математический метод оптимизации, по­ лучивший название динамического программирования и широко используемый как для дискретных, так и для непрерывных систем

управления.

 

Рассмотрим с у щ н о с т ь

м е т о д а д и н а м и ч е с к о г о

п р о г р а м м и р о в а н и я

применительно к непрерывным си­

стемам. Пусть имеется нестационарный объект управления, опи­ сываемый нелинейным векторным дифференциальным уравнением

* ( < ) = /[ * (9,

у (О,

t],

 

(11.61)

и требуется найти управление y(t),

минимизирующее функционал

Q [у (0, *к] = I

и [х

(у, t), у (t),

i] d t

(11 .62)

О

 

 

 

 

при заданных начальном состоянии х

(0) =

ха, конечном времени tK,

ограничении у (/)

£ Y и

произвольном конечном состоянии х (tH).

Согласно принципу оптимальности каждое текущее значение времени t на заданном интервале 0 < t < tK может быть выбрано в качестве начала отсчета, и оптимальное управление у\_2 (/), ми­

нимизирующее функционал (11.62) на этом интервале, будет сов­

падать на

интервале

t ^ 6' ^

с оптимальным

управлением

у* (ft), минимизирующим функционал

 

Q[y($),

U, t] = $

М * (у .

й).

У (ft), ft]dft,

(11.63)

 

/

 

 

 

 

причем минимальное значение Q* = S функционала (11.63) будет (при найденном оптимальном управлении!) зависеть только от на­ чального для участка 2 состояния х (/) и длительности /к— t про­ цесса управления:

Ц М * ( У , О). У ( Ч О Н *

У(ft) k У и

 

= S[x( t) , tK, t], t < t < t K.

O1-64)

Полная производная интеграла (11.63) по переменному нижнему пределу t

d Q

П

d xi ,

dQ

 

 

dQ

= —/о1*(0. t), y( t) , t],

0

dT

^ dxf

d i

cM

 

i=i

 

 

 

 

(11.65)

Отсюда с учетом уравнений объекта (11.61)

£?L = M * (y .

О, У (О, t ] + Y - ^ - f i l x ( t ) , У (0. <1,

а/

z_<

 

i=i

(11.66)

Уравнение (11.66) справедливо для любого допустимого управ­ ления у (t) £ У, не выводящего объект на границу области У, При оптимальном управлении у* (t) это уравнение с учетом выра­ жения (11.64) приобретает вид

as

min

/о [-«(У, О- У (9,

t ] + Y d^ r f l lx(t),y((),(\..

а/

зКОбУ

 

1=1

 

 

 

 

 

 

 

 

 

(11.67)

Уравнение (11.67), называемое уравнением Веллмана, можно

записать в

более компактной форме:

 

 

^ - =

min

[/о (У,

0. У (0>

9 + ( - ^ - У

/[■*(<).У (0><Л

а/

у (1) ^ у I

 

\ дх J

)

 

<te£/<*K

 

 

(11.68)

 

 

 

 

 

ИЛИ

 

 

 

 

 

т ‘п

{М *(У.

0. у (0 . <]+(gradS,/[ л :( 0 , У(0» 9».

dt

y(t)£Y

 

 

 

 

 

 

 

 

 

(11.69)

где (as/ajc)7' = [dS/d*lf a*S/ajc2,

, dS/fo*)]7, =

dS!dx[ —век­

тор-столбец, соответствующий градиенту grad S скалярной функ­ ции S векторного аргумента х; ( ) — обозначение скалярного произведения векторов.

Уравнение Веллмана представляет собой специфическое диффе­ ренциальное уравнение первого порядка в частных производных относительно одной переменной S. Специфичность уравнения за­ ключается в том, что оно содержит операцию минимизации по аргу­ менту у (t) и поэтому справедливо только для оптимального управ­ ления у* (t).

Уравнения (11.67) — (11.69) выражают необходимое условие оптимальности управления и определяют порядок решения задачи

384

оптимального управления методом динамического программирова­ ния. На первом этапе минимизируют выражение в правой части: для чего дифференцируют ее по управлению у (/) и приравнивают производную к нулю. В результате минимизации оптимальное уп­ равление у* (/) выражается через функции /0, / и не известные пока составляющие градиента 5:

y*l(t) = y*l[f0, / , grad S] = JV* [JC (0, gradS].

(11.70)

При подстановке выражения (11.70) в уравнение (11.69) послед­ нее уже не будет содержать операцию минимизации и управление у* (/), и поэтому может быть разрешено относительно неизвестной S при граничном условии

S [ X ( t K),

^K] — 0 .

(11.71)

Получив,

наконец, функцию S lx (t),

/1 и ее градиент grad S

по аргументу х , и подставив его в формулу (11.70), выражают оп­ тимальное управление через переменные состояния x(t).

В заключение отметим, что в случаях, когда функции / г и / 0 не зависят явно от времени t, функция S также не зависит от вре­ мени, и, следовательно, dS/dt = 0.

Пример 2. Определим для стационарного линейного объекта

(P) = (P)ly (P) = koIp (T0p + 1) (11.72)

оптимальное управляющее воздействие у* (/), стабилизирующее объект в по­

ложении х х (0) =

*2 (0) =

0 и обеспечивающее

минимум функционала

 

 

oo

 

 

 

(11.73)

0

[y (01 = j* [qx2B ( t)+ r y 2 (t)]dt,

 

 

0

 

 

 

 

где q,

r — положительные

константы.

 

Уравнения состояния

объекта:

 

х1 (t) =

*2 (/);

х2 (/) =

ах2 (0 + by (t),

(11.74)

где х х (t) =

х в ((),

а = — 1/Г0, b — k0/T 0.

 

Для стационарного объекта и функционала, не зависящего явно от вре­

мени,

уравнение

Веллмана имеет вид

 

 

 

 

 

 

 

(11.75)

Найдем производную выражения в скобках по управлению и прирав­

няем

ее к нулю:

 

 

 

2ry -j----------b =

0,

 

(11.76)

откуда

dx2

 

 

 

 

 

 

 

 

 

У* (0 =

'

b

dS

 

(11.77)

2r

dx2

 

 

 

 

 

 

 

 

13 Зак. № 507

После подстановки выражения (11.77) в уравнение Веллмана приходим к нелинейному дифференциальному уравнению в частных производных пер­

вого порядка

 

 

 

 

dS

 

 

яА

b2

f

d S \2

dS

х 2 а х 2

О,

(11.78)

4г

V

дх2 )

дхj.

дх2

 

 

которое необходимо решить при граничном условии

S (оо)] = 0.

Решение уравнения (11.78) будем искать в виде квадратичной формы

5 (-Я р

* 2)

^11*1

^ 1 2 * 1 * 2

“Ь ^22*2

 

 

0 ^ *79)

с неопределенными коэффициентами Сц, с12, с22, удовлетворяющей указан­ ному граничному условию.

Подставив функцию S и ее производные в уравнение (11.78) и прирав­

няв к нулю коэффициенты,

при слагаемых х\,

х ±х 2, х \ , получим:

 

с12 = Дfqr lb, с22 = (ar

+ r ^ J а2 + 2Ь л ] q/r

)/b2.

(11.80)

Коэффициент сп нет необходимости определять, так как управление у* зависит только от производной dSldx2, в которую этот коэффициент не вхо­

дит.

Теперь при найденных .значениях коэффициентов (11.80) можно вычис­ лить производную dSldx2 и записать окончательное выражение для опти­ мального управляющего воздействия

У* (0 =

X (2с12хг + 2с22х2) = — Ajqlr х± —

(11.81)

являющегося, очевидно, линейной функцией переменных состояния.

Связь метода динамического программирования с принципом максимума. Применим уравнение Веллмана (11.67) для случая,

когда функции и / 0 не зависят явно от времени, т. е. когда dSIdt = 0. Напомним, что к такому случаю можно свести и задачу с нестационарными объектом (11.61) и функционалом (11.62). Для этого необходимо лишь ввести дополнительную переменную состоя­ ния хп+ъ удовлетворяющую уравнению (11.35).

Расширим вектор-столбец градиента функции S в формуле ^11.69) на один элемент, равный единице, и обозначим его

dS

dS

DS у

(11.82)

дх1

дх2

дхп \ = -

 

Учтем,

что минимум

положительной функции равен взятому

с противоположным знаком максимуму совпадающей с ней по мо-

386

дулю отрицательной функции. Тогда вместо уравнения (11.67) можно записать

О = max

п

 

 

£ фл

шах {фГТ }

(11.83)

у (/)€У

£=0

У(06У

 

Сопоставляя полученное выражение с условием (11.46) прин­ ципа максимума, легко убедиться, что они идентичны, если век­ тор <р отождествить с вектором ф, т. е. если

- Ф = [1.

dS

3S

dS

дхг

дх2

дх{: Г

 

или

 

 

 

фо= — 1; tyi = — dS/dx1\ ф2 =

—3S/dx2;

= — dS!dxn.

 

 

 

(11.84)

(11.85)

Поясним смысл выбора оптимального управления в соответст­ вии с выражением (11.83). Для этого введем вспомогательную функ­ цию

5 = S {х0у хъ

хп) = S {хъ х2,

хп) + *0, (11.86)

где 5

определяется

формулой

(11.64), а составляющая

х0 — фор­

мулой

(11.40). Переменная S

является

непрерывной

функцией

точки в расширенном пространстве состояния х , и в этом простран­ стве существуют изоповерхности S = const равных значений функционала (11.63). Согласно выражениям (11.84), (11.85) вектор ф является взятым со знаком минус градиентом скаляра S в про­

странстве л:,

и

следовательно, как

любой градиент, ортогонален

в любой точке х

к изоповерхностям 5

= const и к вектору касатель­

ной х = / ,

который имеет смысл вектора скорости движения изо­

бражающей точки X.

Таким образом, условие максимизации скалярного произведе­

ния векторов ф и / означает следующее: необходимо в каждый мо­ мент времени выбирать такое управление у , чтобы проекция век­

тора скорости х изображающей точки на вектор отрицательной нормали к изоповерхностям критерия оптимальности была макси­

мальной, т. е. чтобы составляющая вектора лгв направлении наи­ скорейшего убывания функционала Q была максимально большой. При этом проекция оказывается отрицательной, а ее максимальное значение равно нулю.

13*

387

11.3. Системы, оптимальные по быстродействию

Синтез алгоритмов разомкнутого управления. Применим прин­

цип максимума для синтеза оптимального по быстродействию закона управления у* (/) линейным стационарным объектом ви­ да (2.157), который при отсутствии возмущения z ( t ) описывается системой уравнений

п

т

 

 

 

 

Xi (О = £ atix, (t) + £ Ъ1Ш(0,

i= 1;

2;

п,

(11.87)

/=1

/= 1

 

 

 

 

или одним векторным уравнением

 

 

 

 

x{t) = A x{t) + By{t).

 

 

 

(11.88)

Пусть требуется

перевести объект

из

начального

состояния

х (0) = х н в конечное состояние

х (tK) =

х к за минимально воз­

можное время при ограничениях на управление

 

1 й ( 0 К й м , / =

1; 2;

т.

 

 

(11.89)

Заметим, что при решении задач синтеза замкнутых систем управления удобно в качестве переменных состояния рассматри­ вать не абсолютные значения координат объекта, а отклонения координат от некоторой известной вектор-функции х 3 (/), которая задана заранее или формируется задающим устройством системы в процессе управления.

Оптимизируемый функционал в задаче максимального быстро­

действия имеет, как известно, вид

 

 

Q [у (01 = $ fo l* (У.

0. У(01 d t = tK= min ,

(11.90)

о

 

у (оеу

 

т. е. подынтегральная

функция

= 1.

 

С учетом последнего тождества и введенного в предыдущем

разделе условия ф0 =

— 1 гамильтониан (11.46) для объекта (11.87),

(11.88) примет следующий вид

 

 

Я = - 1 + фг (0 [Ах (0 + By (01 = — 1 +

£ ф, (0 X

 

 

 

 

 

 

1=1

х Г £

ацх, (0 +

£

ьИу1 (о1 = — 1 +

£

ч»{ (0 х

L /= i

/ = 1

J

£=1

 

п

auxj (t) +

п

т

bt,y, (0,

 

 

X £

£

% (0 £

 

(11.91)

/=1

 

i= 1

/ = 1

 

 

 

где функции ф* (/) определяются вспомогательной системой урав­ нений (11. .5)

Ь (0 = dH/dXi = - £ аи^ (t), i = 1; 2;

n,

(11.92)

/= 1

 

 

или в векторной форме

 

Ч » (0 = — Л тЧ>(0-

(11.93)

От управляющего воздействия у (t) зависит только третье сла­ гаемое в выражении (11.91), поэтому условие достижения максимума гамильтониана Н сводится к условию:

пт

шах £

Ь S Ьцу! (I)

(11.94)

Уj i t ) 1= 1

/ = 1

 

или

тп

S

max у, (/) £

(0.

(11.95)

/= 1 »/(/)

£=1

 

 

Так

как

каждая

составляющая г// (/)

изменяется независимо

от остальных

составляющих вектора у (t),

то выражения (11.94)

и (11.95) достигают максимума, если все *//(/)' принимают свои максимально допустимые значения, т. е. если

|w (0 = У1* sign g

(/), / = 1; 2;

m,

(11.96)

или в векторной форме

 

 

У* (0 = Ум sign [Вг ф (0] = ум sign [Яу],

 

(11.97)

где ум — диагональная матрица т X т, состоящая из максимально

допустимых

значений

t/;M управляющих

воздействий; sign — знак

(плюс или минус) функции, стоящей

после этого

символа;

sign [Ну] = {sign //yjmxi -матрица-столбец;

 

Ну = дН/ду\

Ну.= дН1ду/.

 

 

(11.96) и (11.97) означают, что оптимальные управляющие воздейст­

вия у*, (t) представляют собой кусочно-постоянные функции вре-

П

мени, принимающие в зависимости от знака суммы £ &г/фг (/) зна-

1=1

чения + у)м или — у/н (рис. 11.5), т. е.

У /(0= + У /м ,

если

2 btf tt(t)> 0 ,

 

 

 

1=1

(11.98)

 

 

П

y‘j{ t) = — yiw,

 

 

если

£ М > /(0 < 0.

 

 

 

1=1

 

Моменты переключения управляющих воздействий и, следова­ тельно, длительности интервалов постоянства зависят от заданных начальных и конечных состояний х н и х к, вида ограничений у (^) ( F и собственных чисел А.г матрицы А.

Закон управления (11.96), (11.97) справедлив, если функция, стоящая после символа sign, принимает нулевые значения только

Рис. 11.5. Управляющее воздействие в системе, оптимальной по быстродействию

в изолированных точках. Если же эта функция обращается тож­ дественно в нуль на каком-либо конечном интервале времени, то задача управления относится к классу особых задач оптимального управления, для решения которых применяются специальные методы.

Как видно из выражения (11.96), для получения оптимальных управляющих воздействий в виде известных функций времени у* (t) необходимо найти вспомогательные функции ф* (/), которые

являются решениями системы уравнений (11.92). Вид этих решений зависит от начальных условий ф (0) и от собственных значений р*

матрицы А ту которые, как известно из теории матриц,

связаны

с собственными значениями

матрицы А соотношением

 

К

i = 1;

2;

п.

 

(11.99)

Равенство

(11.99)

означает,

что если объект (11.88) устойчив,

то решения ф* (/)

неустойчивы. Это обстоятельство

уже

само по

себе существенно

затрудняет

отыскание функций

ф*(/).

Кроме

того, сложность решения вспомогательной системы уравнений (11.92) определяется еще и тем, что начальные условия ф* (0) за­ ранее неизвестны и в общем случае их нельзя выразить в аналити­ ческой форме через граничные условия х„ и лгк основной системы уравнений (11.87). Поэтому условия фг (0) приходится подбирать методом последовательных приближений до тех пор, пока управ­ ления yj (/), получающиеся при выбираемых значениях ф*(0), не обеспечат выход вектора x(t) в заданное конечное состояние х к.

Однако во многих практических случаях задачу синтеза разомк­ нутой системы с максимальным быстродействием удается решить без отыскания функций ф* (/). При этом дополнительно к принципу максимума используют теорему об п интервалах.

Теорема об п интервалах, сформулированная и доказанная в 1953 г. советским ученым А. А. Фельдбаумом, утверждает сле­ дующее: если все корни характеристического уравнения линей­ ного объекта (11.88) (т. е. собственные значения ^ матрицы А)

390

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]