Теория автоматического управления. Волков В.Д., Смольянинов А.В
.pdf
|
|
|
|
|
x1(t ) u(t ), |
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x2(t ) x1(t ) |
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
y(t ) x |
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
2(t ) |
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
1 |
2 |
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
I |
|
0 |
u2(t )dt |
|
[x12(2) x22(2)] min. |
|
|
|
|||||||||
|
|
|
|
|
2 |
2 |
|
|
|
|||||||||||||
|
Требуется найти управление с накоплением информации о состоянии. |
|||||||||||||||||||||
|
Перепишем модель в матричной форме |
|
|
|
|
|
|
|||||||||||||||
|
|
|
d x1 |
|
0 |
|
0 x1 |
1 |
|
|
x1 |
|
|
|||||||||
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
u, |
y(t ) (0 |
1 ) |
|
|
|
|||
|
|
|
dt |
|
|
|
|
|||||||||||||||
|
|
|
x |
2 |
|
|
|
0 x2 |
|
0 |
|
|
x2 . |
|
|
|||||||
|
Сравнивая с общей постановкой задачи, имеем |
|
|
|
|
|||||||||||||||||
|
|
0 |
0 |
|
|
|
|
1 |
C (0 |
1 ), n 2, m 1, x0* |
1 |
|||||||||||
|
|
A |
0 |
, B |
|
, |
|
|
||||||||||||||
|
|
1 |
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
1 . |
||||
|
Для оптимальной системы с полной обратной связью уравнение линейного регуля- |
|||||||||||||||||||||
тора имеет вид |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
* |
|
|
|
|
|
|
|
[12 4(2 t )2(5 t )]x1 6(2 t )(4 |
t )x2 |
|||||||||||
|
|
u (t,x1 |
,x2 ) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
2 |
t ) |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
12(3 t ) (2 t ) (6 |
|
|
|
||||||
|
1. Синтезируем оценивающее устройство второго (полного) порядка. Зададим мат- |
|||||||||||||||||||||
рицу |
1 |
|
|
|
|
|
|
|
|
|
|
0 |
1 |
имеет кратные собственные значения |
||||||||
L |
. При этом матрица |
A LC |
1 |
|
||||||||||||||||||
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|||
1 = 2 =-1. Тогда, записывая (5.247), получаем
dxˆ
1 u(t ) u(t ) xˆ2(t ), xˆ1(0 ) 1, dt
dxˆ
2 xˆ1(t ) 2[ y(t ) xˆ2(t )], xˆ2(0 ) 1. dt
2. Для синтеза оценивающего устройства первого порядка зададим D=-1, L=1. Ис-
комую матрицу G=(g1 g2) и число H определим из (5.249)
|
|
g2 |
0 g1 |
g2 0 |
1 0, g1 H 0 , |
||||||
откуда g1 =-1, g2 =1, H=-1, и из (5.248), (5.250) находим |
|
|
|
||||||||
|
dzˆ |
|
|
|
|
|
|
1 |
|
|
|
|
|
u(t ) y(t ) z(tˆ |
), |
z(0ˆ ) ( 1 |
1) |
|
0, |
||||
|
|
||||||||||
|
dt |
|
|
|
|
|
|
1 |
|
|
|
|
x(tˆ |
) |
0 |
1 1 y(t ) |
|
|
|
|
|||
|
|
|
|
, |
|
|
|
|
|||
|
|
|
|
1 |
1 |
z(tˆ ) |
|
|
|
|
|
т.е. xˆ1(t ) y(t ) z(ˆ t ), |
xˆ2(t ) y(t ). |
|
|
|
|
|
|||||
591
3. Полученные с помощью наблюдателей оценки используются вместо соответст-
вующих координат вектора состояний в оптимальном управлении с полной обратной свя-
зью, т.е.
* |
t |
|
|
* |
ˆ |
ˆ |
|
[12 4(2 t )2(5 t )]xˆ1 6(2 t )(4 |
t )xˆ2 |
. |
|
u (t,X |
0 |
) |
|
u (t,x1 |
(t ),x2 |
(t )) |
|
|
|
||
|
|
12(3 t ) (2 t )2(6 t ) |
|
||||||||
Пример 5.16. Рассмотрим еще один метод синтеза полного наблюдателя на приме-
ре стабилизации перевернутого маятника. Пусть измеряется положение маятника y. Тогда,
в силу выбора переменных состояния: y=x1; y’=x2., матрица выхода С=(1 0).
Проведем синтез методом размещения корней. Назначим собственные значения наблюда-
теля значительно дальше от мнимой оси, чем собственные значения системы. Примем:
*1= -10; *2=-20. Получим следующую матрицу наблюдателя: L=(30 201)T.
Наблюдатель вместе с регулятором состояния образует динамический регулятор,
входом которого является выход объекта, а выходом – управляющее воздействие на объ-
ект (рис. 5.43). Передаточная функция такого регулятора для рассматриваемого примера
WR ( s ) |
693( s 1 ) . |
|
|
|
|
s2 |
33s 293 |
|
|
|
|
^ |
|
u |
|
y |
Оказалось, что нуль переда- |
x |
|
|
|
||
-К |
|
Объект |
|
|
точной функции регулятора z1=-1 ра- |
|
|
|
|
|
вен левому (оставшемуся на месте) |
|
|
L |
|
|
|
|
|
|
|
полюсу передаточной функции объ- |
|
|
|
|
|
|
|
|
|
x |
|
|
екта. Корни характеристического |
|
B |
|
C |
|
|
|
|
|
y |
|
уравнения замкнутой системы |
|
|
|
|
|
|
|
|
A |
|
|
A3 ( p ) s4 33s3 292s2 660s 400 |
Наблюдатель
в точности равны назначенным кор-
Рис. 5.43. Система с наблюдателем состояния ням системы p1=-1; p2=-2 и наблюда-
теля: p3=-10; p4=-20.
В заключение следует отметить недостаток синтезированного наблюдателя – его избыточность. Поскольку одна из переменных состояния v1=y измеряется, следует синте-
зировать наблюдатель, порядок которого меньше порядка модели объекта.
592
5.6.Синтез стохастических систем оптимального управления
5.6.1. Функционалы для оптимизации стохастических процессов
Функционалы (5.175) и (5.177), вычисленные для реализации стохасти-
ческого процесса, являются случайными величинами. Для получения крите-
рия, пригодного для оптимизации управления стохастическим процессом,
функционалы указанных типов, отнесенные к реализации процесса, должны быть усреднены на некотором вероятностном поле /9/.
Пусть для непрерывного управляемого стохастического процесса су-
ществует безусловное распределение вероятностей с плотностью p(t, x, u).
Тогда безусловное математическое ожидание (МО) функционала типа
(5.175), отнесенного к произвольной реализации стохастического процесса,
будет иметь вид
J M [I ] I( x,u)p(t,x,u)dxdu
|
|
|
. |
(5.251) |
|
|
|
||
t2 |
|
|
||
|
|
|
|
|
M V3 |
[ x(t2 )] L[ x( ),u( ), ]d |
|
||
|
t |
1 |
|
|
|
|
|
|
|
Величина J неслучайная, и постановка задачи оптимизации управления путем минимизации функционала (5.251) прозрачна в математическом отно-
шении.
Однако на практике часто не может быть «ансамбля реализаций», и ус-
реднение по этому ансамблю является чисто искусственным подходом.
Более плодотворным является подход, когда минимизируется функ-
ционал
Jy My [I ] I( x,u)p( x,u,t Z )dxdu
|
|
|
|
, |
(5.252) |
|
|
|
|
||
|
t2 |
|
|
||
|
[ x(t2 |
|
|
|
|
My V3 |
)] L[ x( ),u( ), ]d |
|
|||
|
|
t |
1 |
|
|
|
|
|
|
|
|
где p( x,u,t Z ) – условная (апостериорная) плотность вероятности при на593
блюдении величины z в течение рассматриваемого интервала времени; My –
символ условного математического ожидания (УМО).
При бесконечном повышении точности измерения x(t), u(t) условное распределение p( x,u,t Z ) стремиться к - функции с центром в истинных значениях x, u. Функционал (5.252) здесь вырождается в функционал (5.175),
поскольку точно измеряемая реализация ничем от детерминированного про-
цесса не отличается.
В пособии рассматриваются задачи синтеза оптимального управления стохастическими системами для ограниченного круга реализаций: с полной обратной связью и совместного оценивания и управления.
5.6.2. Синтез оптимального управления с полной обратной связью
Пусть поведение объекта управления описывается стохастическим
дифференциальным уравнением Ито /106/
f ( t ,X ( t ),u( t ))dt ( t,X ( t ),u( t ))dW , X ( t1 ) X0 , (5.253)
где X – вектор состояния системы; W(t) – k-мерный стандартный винеров-
ский случайный процесс /107/, не зависящий от X0, (второй член в уравнении
(5.253) характеризует случайные внешние воздействия на объект); (t,x,u) –
матричная функция размера (n k).
Стандартный винеровский случайный процесс, входящий в (5.253),
удовлетворяет условиям: W(t1)=0, M[W(t)] 0 для всех t>t1 вектор W(t) для любых t>t0 распределен по гауссовскому закону, процесс является однород-
ным с независимыми приращениями. Ковариационная функция стандартного винеровского процесса RW(t1,t2)=E min(t1,t2), а производная формально равна
стандартному белому шуму: G(t ) dW . dt
Для нахождения решений стохастических дифференциальных уравне-
ний используется формула дифференцирования Ито. В общем случае приме-
няют численные методы решения /108/.
594
Уравнение (5.257) является нелинейным дифференциальным уравнени-
ем с частными производными второго порядка. Структура управления опре-
деляется в результате максимизации выражения в фигурных скобках (5.258).
Минимальное значение функционала (5.256)
min |
J( dn ) |
|
( t |
0 , x )p0 ( x )dx |
(5.259) |
dn D0 ( t0 , p0 ( x )) |
|
|
|
|
|
|
|
B |
|
|
|
достигается для любой начальной плотности вероятности p0(x). В этом и за-
ключается основное преимущество управления с обратной связью.
Если, как и ранее, обозначить Б(t,x)=- (t,x), то уравнение Беллмана
(5.257) и (5.259) можно переписать в эквивалентной форме
|
|
|
Б |
(t,x ) |
|
|
n |
|
|
|
Б |
(t,x ) |
|
|
|
|||||||||
|
|
|
|
|
fi (t,x,u) |
|
||||||||||||||||||
|
|
|
|
t |
|
|
|
|
xi |
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
i 1 |
|
|
|
|
|
|
|||||||||
|
|
1 |
|
n n |
|
|
|
2 |
|
Б |
(t,x ) |
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
min |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
aij (t,x,u) |
|
0 |
||||||
|
|
|
|
|
xi xj |
|
|
|||||||||||||||||
u U |
|
|
2 i 1 j 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
f |
0 |
(t,x,u) |
|
(t,x ) Q |
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Б (t2 |
,x ) F( x ) x B |
|
|
|
|
|
|
|
(5.260) |
|||||||||||||||
min |
|
J(d |
n |
) |
|
|
Б (t |
0 |
,x )p (t,x )dx |
|
|
|||||||||||||
dn Dn ( t0 ,p0 ( x )) |
|
|
|
|
|
|
|
|
|
|
|
0 |
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
B |
|
|
|
|
|
|
|
|
|
|
|
При решении задач синтеза обычно достаточно определить оптималь-
ное управление, а затем использовать его для определения оптимальных пар dn* ( p* ( , ),u( , )) Dn ( t0 , p0 ( x )) при любых начальных условиях. Если плотность вероятности дельтаобразная: p0(x)= (x-x0), то минимум функцио-
нала достигается для любого начального состояния x0.
Пример 5.17. Модель объекта управления имеет вид /9/
|
|
|
|
|
dX u(t)dt |
a dW, |
X(0) X0, |
где |
X R, |
|
u |
|
Umax ; a,T,Umax – заданные положительные числа. |
||
|
|
||||||
|
Функционал качества управления |
|
|
||||
.
Сравнивая с общей постановкой задачи имеем:
597
J1 x2 p(T,x)dx. 2 R
Сравнивая с общей постановкой задачи, имеем:
f ( t,x,u ) u; ( t,x,u ) |
|
; |
f 0 (t,x,u ) 0; |
F( x ) |
1 |
x.2 |
|||||||||||||||||
a |
|||||||||||||||||||||||
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
||
1. Выписываем уравнение Беллмана и граничное условие |
|
|
|
||||||||||||||||||||
|
|
|
|
Б |
(t,x ) |
|
|
Б |
(t,x ) |
2 |
Б |
(t,x ) |
|
|
|||||||||
|
min |
|
|
|
|
u |
1 |
|
|
|
a |
0 |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
u |
|
Umax |
t |
x |
2 |
|
|
x2 |
. |
|||||||||||||
|
|
||||||||||||||||||||||
|
|
||||||||||||||||||||||
Б (T ,x ) 1 x2 2
2.Находим структуру оптимального управления из условия минимума выражения
вфигурных скобках:
|
|
Б |
( t,x ) |
|
u* ( t,x ) Umax sign |
|
. |
||
|
x |
|||
|
|
|
||
3. Подставляя полученное выражение для управления в уравнение Беллмана
Б (t,x ) |
U |
|
|
Б ( t,x ) |
|
|
1 |
|
2 Б ( t,x ) |
0, Б ( t,x ) |
1 |
x2 . |
|
max |
|
x |
|
x2 |
|
||||||
t |
|
|
2 |
|
2 |
|
||||||
4. Решение уравнения является четной функцией и может быть записано в виде
|
Б |
|
|
|
|
1 |
|
2 |
|
|
|
|
|
|
|
|
|
, |
|||
|
|
( t,x ) |
|
|
y |
|
p( t,x y ) ( y )p( t,x y ) |
dy |
|||||||||||||
|
2 |
|
|||||||||||||||||||
|
|
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
где |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
[z (T t )Umax ] |
2 |
|
||||
p(t,z ) |
|
|
|
|
|
|
|
exp |
|
, |
|
||||||||||
|
|
|
|
|
|
|
|
|
2a(T t ) |
|
|
||||||||||
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
2 (T t ) |
|
|
|
. |
||||||||||||
( y ) |
1 |
|
(1 e 2 y ) |
1 |
ye 2 y , |
Umax |
|
|
|
|
|||||||||||
4 2 |
|
2 |
a |
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
Искомое оптимальное управление с обратной связью:
u* ( t,x ) Umax sign( x ).
5.6.3. Синтез оптимальных линейных регуляторов
Уравнение Беллмана (5.257) для задачи управления линейной стохас-
тической системой (5.253) в форме
dX [ A(t )X( t ) B(t )u(t )]dt C(t )dW ,
598
Первое уравнение в (5.266) является уравнением Риккати. Решая сис-
тему (5.266), можно получить оптимальное управление (5.265) с полной об-
ратной связью.
Пример 5.18. Для задачи
dX [ AX(t ) Bu(t )]dt CdW , X(0 ) X0
|
1 |
T |
, |
|
J |
[Sx2 Qu2(t,x )] p(t,x )dxdt min |
|||
|
||||
2 |
0 |
R |
||
где T, S, Q – заданные положительные числа; A, B, C- заданные числа.
Требуется найти оптимальное управление с полной обратной связью.
Сравнивая с общей постановкой задачи, имеем A(t)=A, B(t)=B, C(t)=C, S(t)=S,
Q(t)=Q, =0, t0=t1=0, t2=T. Тогда из (5.265) и (5.266)
|
|
|
|
K2 |
(t ) 2AK2(t ) |
K22(t )B2 |
S, |
K2(T ) 0; |
||||||||||||||
|
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Q |
|
|
|
|
|
|
|
|
|
|
|
|
K0 |
(t ) |
1 |
|
C2 K2(t ), |
K0 (T ) 0; |
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
* |
|
|
B |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
u (t,x ) |
|
|
K2(t )x. |
|
|
|
|
|
|
|
|
|
|||||||
|
Q |
|
|
|
|
|
|
|
|
|
||||||||||||
Отсюда получаем: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
K2(t ) |
|
|
S[e 2 (T t ) 1] |
; |
|
|
|
|
|
|
|
|
||||||||||
A ( A)e 2 ( T t ) |
|
|
|
|
|
|
|
|
||||||||||||||
K0 |
(t ) |
C2S(T t ) |
|
C2Q |
ln[ A ( A)e 2 (T t ) ] ln2 , |
|||||||||||||||||
|
2 |
|||||||||||||||||||||
|
|
|
|
2( A) |
|
2B |
|
|
|
|
|
|
|
|
|
|||||||
* |
|
|
|
|
BS[e 2 (T t ) 1] |
|
|
|
|
2 |
|
SB2 |
||||||||||
u (t ) |
|
x, |
|
A |
|
|
|
. |
||||||||||||||
Q[ A ( A)e 2 (T t ) ] |
|
Q |
||||||||||||||||||||
5.6.4. Оптимальное управление линейными непрерывными
стохастическими системами с накоплением информации о состоянии
Модели объекта и управления описываются стохастическими диффе-
ренциальными уравнениями Ито /9, 107/
dX A(t )X(t ) B(t )u(t ) dt 1(t )dW1 , |
X(t0 |
) X0 |
, |
dY C(t )X(t )dt 2 (t )dW2 , Y(t0 ) 0, |
|
|
(5.267) |
|
|
|
где X – вектор состояния; Y – вектор измерений; W1(t), W2(t) – независимые
стандартные винеровские случайные процессы.
600
