книги из ГПНТБ / Острем К.Ю. Введение в стохастическую теорию управления
.pdf310 |
Глава 8 |
|
т (t0) = т0. |
Показать, что минимальное значение средних потерь вычисляет ся по формуле
|
|
|
|
|
N-1 |
|
|
El = |
ml S(t0)m0 + |
tvS(t0)R0 |
+ |
Ц tr L T (t) [TS (t + 1) Г + |
|||
|
|
|
|
|
|
|
N—I |
+ |
Q2] L (t) R (0 = |
ml |
S (t0) m0 |
+ tr Q0R(N) |
+ |
V, tr Qx (t) R (t), |
|
где |
|
|
|
|
|
|
|
|
R(t+ |
1 ) = Ф Р ( 0 OT + |
R! |
(t), |
|||
R(tQ) = Ro-
Сравнить этот результат с результатом для оптимальной замк нутой системы (теорема 6.2). Сравнить метод решения этой проблемы с методом, использованным в упражнении 5.
Указание. Использовать лемму 6.1.
7. Рассмотреть систему (6.1) с критерием (6.13). Пусть до пустимые стратегии такие, что u(t) есть функция x(t—1). Най дите оптимальную стратегию и покажите, что минимум функции потерь вычисляется по формуле
El = |
тТ S(t0)m + |
trS(t0)Ra |
+ £ |
t r S ( * + 1 ) ^ ( 0 |
+ |
|
|
|
t=ta |
|
|
-г |
£ t r < P r S t f |
+ l)TL(t)R1(t) |
+ trG>TS(t0+ |
l)TL(t0)R0. |
|
Использовать этот результат для метода вычисления запазды вания при получении информации о значении состояния.
Указание. Использовать лемму 6.1.
8. Рассмотреть задачу с неполной информацией о состоянии. Предположить, что допустимые стратегии такие, что u(t) есть функция K(_ft, где k — фиксированное число. Найти оптимальную стратегию и минимальные средние потери.
7. ЗАДАЧА ДЛЯ СИСТЕМ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ
В разделе рассмотрена линейная квадратичная задача уп равления для систем с непрерывным временем. Для доказа тельства теоремы разделения используем непрерывно-времен ной аналог метода, изложенного в разд. 6.
312 |
Глава 8 |
Задача 7.1
Рассмотрим систему, описываемую стохастическими диф ференциальными уравнениями (7.1) и (7.2). Найти допустимую стратегию управления, минимизирующую критерий (7.3).
Эта задача значительно сложнее, чем задача для систем с дискретным временем. Причина этого в том, что пространство, натянутое на наблюдаемые выходные сигналы, имеет бесконеч ную размерность. Для решения этой задачи используем косвен ный метод, который аналогичен в некоторой степени методам, использованным в разд. 6. Эту аналогию можно использовать при выводе оценки для средних потерь.
Тождество |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Лемма 7.1 |
является |
непрерывно-временным |
аналогом |
лем |
||||||||||||
мы 6.1. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Лемма 7.1. |
Предположим, что уравнение |
Риккати |
|
|
||||||||||||
— dt = Ат |
S + SA 4 |
Qi — SBQ71 |
Вт |
S |
|
|
(7.4) |
|||||||||
с начальным |
условием |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
имеет решение, |
которое |
|
S(/1 ) |
= |
Q0 |
|
|
|
|
|
|
|
(7-5) |
|||
является |
неотрицательно |
|
определенным |
|||||||||||||
в интервале / о ^ ^ ^ ^ ь Пусть |
х—решение |
|
стохастического |
диф- |
||||||||||||
ренциального |
уравнения |
(7.1), |
тогда |
|
|
|
|
|
|
|
|
|||||
хт(1г) Q0x (tj) + |
j |
xT(t) |
QiX |
(t) |
+ U T |
(/) QM (/)] dt |
= |
|
|
|
|
|
||||
= |
xT |
(l0) S (t0) x (t0) |
|
i, |
|
QT1 |
BT |
Sx)T |
|
Q2 [u + |
|
|||||
4 |
J |
(и + |
|
|
||||||||||||
|
|
|
|
|
|
d |
t. |
|
|
|
|
|
|
|
|
|
4 |
|
|
|
|
4 |
|
|
4 |
|
<i |
|
|
4 |
|
|
|
QT BT |
Sx) |
dt |
f |
tr RiSdt |
Г dvT Sx |
f xT Sdv. |
||||||||||
|
|
|
|
|
|
{ |
|
|
|
i\ |
|
|
|
I |
|
(7.6) |
Доказательство. |
Справедливо |
следующее |
равенство: |
|
||||||||||||
хт ft) Q0x |
ft) = хт |
ft) |
S ft) х (tj = |
хт |
(t0) S (t0) x (tQ) |
+ |
|
|||||||||
|
|
|
t, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
\d |
[xT |
Sx)- |
|
|
|
|
|
|
|
|
(7.7) |
||
Так как x — решение стохастического дифференциального урав нения (7.1), то х не имеет производной по времени. Таким об разом, дифференциал d{xTSx) не подчиняется правилам обыч-
|
|
Линейная |
|
стохастическая |
теория |
управления |
|
|
3 1 3 |
|||||||
ного |
исчисления. Используя |
правило |
дифференцирования |
(тео |
||||||||||||
рема |
8.1 гл. 3), |
получим |
|
|
|
|
|
|
|
|
|
|
||||
|
d (хт |
Sx) |
= dxT |
Sx + хт |
Sdx - f хт |
— |
xdt |
-}- |
(tr SRJ |
dt, |
(7.8) |
|||||
|
|
|
|
|
|
|
|
|
|
dt |
|
|
|
|
|
|
так как ковариационная функция приращения |
dx |
равна |
R{dt. |
|||||||||||||
Из уравнения |
(7.1) |
следует, |
что |
|
|
|
|
|
|
|
|
|
||||
|
|
хт Sdx = [хт SAx |
+ хт SBu] dt + хт |
Sdv, |
|
|
(7.9) |
|||||||||
|
|
dxT |
Sx = |
[л;г AT Sx |
+ |
uT BT Sx] |
dt + |
dvT |
Sx. |
|
(7.10> |
|||||
Уравнение |
(7.4) |
дает |
|
|
|
|
|
|
|
|
|
|
|
|||
хт — xdt= |
[— xTATSx |
|
— xrSAx |
— х^х |
+ xTSBCS'1 |
BTSx] |
dt. |
(7.11) |
||||||||
dt |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Из уравнений |
|
(7.7) — (7.11) |
находим |
|
|
|
|
|
|
|
||||||
d [хт Sx) |
= |
[ит Вт |
Sx + хт SBu |
— хт Qxx + хт |
SBOJ1 |
Вт |
Sx] dt + |
|||||||||
|
|
+ |
tr (RXS) |
|
dt + dvT |
Sx |
+ |
xT |
Sdv |
= |
|
|
|
|
|
|
|
|
= [—uTQ2u |
— xT Qjx + |
{u + Q71 BT |
Sx)TQ2{u |
+ |
|
|||||||||
|
4- Q i - 1 BT Sx)} dt + |
tr RxSdt |
~ |
dTTSx |
+ |
xT |
Sdv, |
|
(7.12) |
|||||||
где последнее равенство получаем путем прибавления и вычи тания члена uTQ2u. Переставив члены в выражении (7.12), по лучаем соотношение (7.6), и лемма доказана.
Используя лемму 7.1, можно решить задачу оптимального управления системой (7.1) с критерием (7.3) в различных слу чаях.
Детерминированный случай
Рассмотрим сначала детерминированный случай, когда и = 0 . Лемма 7.1 приводит к неравенству для функции потерь
U
(7.13)
которое становится равенством для стратегии управления
и =— OJ1 BTSx = — Lx. |
(7.14) |
Линейная стохастическая теория управления |
315- |
+ min Е { j (и + Lxf Q2 (и + Lx) dt } . |
(7.19> |
|
" |
и |
|
Далее найдем |
|
|
Я [ J (и + £*)Г <32 |
(« + |
£*) Л| = |
|
|
||
и |
и |
|
|
|
|
|
= |
j" Е |
[{и + L x ) r Q2 (и + |
Lx) [ Г,] dt |
= |
||
|
||||||
= |
j (« + |
ЩТQ2 (« + Ex) dt + |
j (tr L T Q2LP) dt\, |
|||
|
<• |
|
|
<• |
(7.20)' |
|
так как условное распределение x(t) относительно Yt |
нормально |
|||||
л
со средним значением х и ковариационной |
матрицей Р. Так |
как. |
||||||||||
Р не зависит от и, то |
|
|
|
|
|
|
|
|
|
|||
£ |
[ х г |
(tj) Q0x (t) + j |
(xT Qjx + |
uQ2u) dt] > |
mT S (t0) m |
+ |
|
|||||
|
|
|
и |
|
|
|
|
|
|
|
|
|
|
|
|
|
ti |
|
|
/ 1 |
|
|
|
|
|
|
+ |
tr S (/„) 7?0 |
4- |
f (tr ^ 5 ) |
f (tr L T |
Q2LP) dtr |
(7.21). |
|||||
где равенство имеет |
место |
для |
стратегии |
управления |
|
|
||||||
|
|
и = |
— Lx |
= — LE [х (t) | Yt\. |
|
(7.22> |
||||||
Таким |
образом, оптимальная |
стратегия |
является линейной функ |
|||||||||
цией, |
при |
которой u(t) |
есть |
функция |
условного |
среднего |
x(t). |
|||||
Отметим, |
что матрица |
L — та |
же, что |
и в детерминированном, |
||||||||
случае. Выводы сформулированы в теореме 7.1. |
|
|
|
|||||||||
Теорема 7.1. Рассмотрим |
систему, |
описываемую |
стохасти |
|||||||||
ческими дифференциальными |
уравнениями. (7.1) |
и (7.2). Пред |
||||||||||
положим, что допустимая стратегия управления такая, что зна чение управляющего сигнала в момент t является функцией выходных сигналов вплоть до времени t. Допустим, что уравне
ние |
Риккати |
(7.4) |
имеет решение |
на отрезке |
f o ^ ^ i - |
Тогда! |
|
закон |
управления |
|
|
|
|
||
|
|
|
|
|
л |
|
|
|
|
|
|
и = — |
Lx, |
|
|
|
|
|
|
|
л |
|
|
где L |
определяется |
выражением (7.14), а х — условное |
среднее |
||||
x{t) |
относительно |
Yt, минимизирует критерий |
(7.3). Минималь |
||||
ное значение |
средних потерь вычисляется по |
формуле |
|
||||
316 Глава 8
min El=mT |
S {t0) m + tr S (/„) R 0 + |
f (tr S R J dt + |
|
|
и |
|
и |
|
|
|
|
+ |
\{trSBQf |
BT SP)dt. |
(7.23) |
и
Замечание. Члены в выражении для минимального значения средних потерь можно интерпретировать так же, как и в задаче для систем с дискретным временем. Член inTS(t0)m является, таким образом, вкладом начального состояния в среднее значе
ние. Член irS{to)Ro |
обусловлен неопределенностью |
начального |
||
состояния. Член j" tr(SRi)dt |
обусловлен |
помехами, |
действующи |
|
ми на систему, а последний |
член (7.23) — неопределенностью в |
|||
оценке состояния. |
[Сравните |
выражения |
(7.15) и (7.18).] |
|
Свойства замкнутой системы |
|
|
|
|
Объединив результаты теоремы 7.1 этой главы |
с теоремой |
|||
6.2 гл. 7, найдем, что оптимальное управление замкнутой систе мой описывается следующими уравнениями:
dx = Axdt -f Budt -f dv, dy = Cxdt + de,
dx = Axdt + Budt + К [dy - Cxdt],
л
и = — Lx.
Вводя x и x как переменные состояния, найдем, что эти урав нения сводятся к уравнению
х |
|
A — BL |
BL |
х |
dv |
|
|
х |
~ |
|
|
А—КС |
X |
dv — Kde |
|
Таким образом, |
динамика замкнутой системы определяется ди |
||||||
|
О |
|
|
|
[А—BL] |
||
намикой оптимальной |
детерминированной |
системы |
|||||
и динамикой |
фильтра Калмана [А—КС]. |
|
|
||||
Упражнения |
|
|
|
|
|
|
|
1. Рассмотреть |
систему |
|
|
|
|||
|
|
|
|
dx = udt + |
dv, |
|
|
|
|
|
|
dy = xdt + |
de, |
|
|
где {v(t)} и {e(t)} — винеровские процессы с параметрами дис персии г1 и г2. Начальное состояние нормально со средним in и ковариацией г0. Функция потерь имеет вид
Линейная стохастическая теория управления |
317 |
т
I = j [x2(t) + qu2(t)}dt.
о
Цель управления состоит в минимизации средних потерь. Оп ределить оптимальное управление для разомкнутой системы при Т-э-оо и оптимальную стратегию для случая неполной инфор мации о состоянии.
2.Рассмотреть задачу упражнения 1. Найти передаточную функцию закона управления для устойчивого состояния при Т—>оо. Найти также минимальное значение функции потерь в различных случаях.
3.Рассмотреть систему
|
|
|
|
dx = Axdt + |
dv, |
|
|
||
где {v(t), |
t е'Т}—винеровский |
процесс |
с ковариацией |
прира |
|||||
щений |
Rdt, а |
начальное состояние |
x(t0) |
нормально со |
средним |
||||
значением m |
и ковариационной |
матрицей R0. Показать, что |
|||||||
£ |
\хт |
ft) |
Q0x ( у + |
j хт |
(s) QjX |
(s) ds J = |
|
|
|
|
= |
mT |
S (t0) m + |
trS |
(t0) R0+ |
и |
(t) R (t) dt, |
|
|
|
j tr 5 |
|
|||||||
когда |
|
|
|
|
|
|
i. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
= ATS + SA + QU |
£&) = &• |
|
||||
|
|
at |
|
|
|
|
|
|
|
4. Рассмотреть систему (7.1) и (7.2). Показать, что функция потерь оптимальной разомкнутой системы определяется выра
жением |
|
|
л |
|
|
|
|
|
|
mT S (to) m + tr R (t0) R0 |
+ j tr R (s) Rx (s) ds, |
|||
где |
|
|
и |
|
|
|
|
|
|
= |
ATR |
+ RA + |
Q, |
|
at |
|
|
|
|
с начальным условием R(tt) |
=Qo- |
|
|
|
Сравнить с результатами для |
оптимальной замкнутой системы-. |
|||
5. Рассмотреть систему |
|
|
|
|
dx = Axdt |
- j - |
Budt + |
dv, |
|
dy = Cxdt - r de,
.318 |
Глава 8 |
где {v(t)} и {e(t)} —винеровские процессы с ковариациями при ращений Ridt и Rzdt и нормальным начальным состоянием со •средним т и ковариационной матрицей RQ. Найти стратегию управления, минимизирующую средние потери
' i
Е | хТ (у Q0x (А) + J / и г (0 и (О Л ].
Допустимые стратегии управления такие, что u(t) есть функция выходных сигналов, наблюдаемых вплоть до момента г.
6. Рассмотреть систему
dx = |
"О |
1 xdt |
+ |
1 udt + do, |
|
|
|
|
0 |
dy = |
11 |
0] xdt |
|
de, |
О |
О |
|
|
где {v(t)} и (e(f)} — независимые винеровские процессы с кова риациями приращений Idt и rdt. Функция потерь имеет вид
Определить стратегию управления, минимизирующую средние потери El, когда допустимые стратегии такие, что u(t) есть •функционал {y(s), tQ^.s^t}. Определить предельную стратегию при ^о-^°°- Дать физическую интерпретацию членов выражения для минимума функции потерь.
8. ЗАМЕЧАНИЯ И ЛИТЕРАТУРА
Такие фундаментальные в стохастической теории управления •понятия, как функция потерь, риска, решающая функция, впер
вые введены в статистической теории разделения в работах [1—3]. В статистической теории разделения сигналов, однако, •обычно ограничиваются статическим случаем, рассмотренным в разд. 3.
Довольно удивительно, что концепции рандомизированной •стратегии еще не применялась в стохастической теории управ ления. Более ранние исследования проблемы стохастического управления можно найти в работе [4].
Принцип определенности впервые рассмотрен в экономиче ской литературе [5, 6]. Дискретный вариант теоремы разделе ния доказан в работах [7, 8].
Разд. 5 основан на работе [9] . Теорема разделения для слу- -тая дискретного времени рассмотрена также в работах [10, 11].
Линейная стохастическая теория управления |
319> |
Работа [11] представляет особый интерес, так как в ней |
указа |
но на некоторые неясности в более ранних доказательствах. |
|
Изложение варианта теоремы разделения для случая |
непре |
рывного времени можно найти в работах [12—15]. Тождестве (7.6)—обобщение известного результата Лагранжа из вариа ционного исчисления [16].
1. |
Wald A., Statistical Decision Functions, Wiley N. Y., |
1950. |
|
2. |
Lehman E., Testing Statistical Hypotheses, Wiley, N. Y., |
1952. |
|
3. |
Blackwell D., |
Girshick A., Theory of Games and Statistical Decision, Wiley,. |
|
|
N. Y., 1954. |
Русский перевод: Блекуэл Д., Гиршнк А., Теория игр и сто |
|
|
хастических решений, изд-во «Мир», 1968. |
|
|
4. |
Beleman R., Adaptive Control Processes, Princeton Univ. Press, Princeton, |
||
|
New Jersey, |
1961. Русский перевод: Беллман P., Процессы регулирования |
|
с адаптацией, изд-во «Наука», М., 1964.
5.Simon Н. A., «Dynamic Programming under Uncertainty with a Quadratic Criterion Function*, Econometrica, 24, 74 (1956).
6.Theil H., «A Note on Certainty Equivalence in Dynamic Planning*, Econo metrica 25, 346 (1959).
7. Joseph P. |
D. |
and Ton J. Т., |
«On Linear Control Theory*, Trans. A I E E (Ap |
plications |
and |
Industry) 80, |
193—196 (1961). |
8.Gunkel T. L. Ill, Franklin G. F., «A General Solution for Linear Sampled Data Control*, Trans. ASME J. Basic Eng. 85-D, 197—201 (1963).
9.Astrom K. J-, Koepcke R. W., and Tung F., «On the Control of Linear Dis
crete Dynamic Systems with Quadratic Loss», IBM Research Rep RJ-222r September 1962.
10.Meier L., «Combined Control and Estimation Theory*, Report, Stanford Re search Institute, California, 1965.
11.Gittelman I. N., «Optimal Control of Discrete time Random Purameter sys
tems*, Report 07303-1-T, Dept. E E , Systems |
Engineering Laboratory, Uni |
versity of Michigan, Ann. Arbor, Michigan, July |
1967. |
12.Potter J. E., «A Guidance-Navigation Separation Theorem*, MIT Exper. Astronom. Lab., Rep. RE-11, August 1964.
13.Striebel C , «Sufficient Statistics in the Optimum Control' of Stochastic Sys tems*, JMAA, 12, 576—592 (1965).
14. Wonham W. M., «On the Separation Theorem of Stochastic Control*, SIAM J. Control, 6, (1968).
15.Wonham W. M., «Random Differential Equations in Control Theory*. Pro babilistic Methods in Applied Mathematics, A. T. Bharucha—Reid (editors), Academic Press, New York, 1969.
16.И. M. Гельфанд, С. В. Фомин, «Вариационное исчисление», Фпзматгиз. М.. 1961.
