Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Острем К.Ю. Введение в стохастическую теорию управления

.pdf
Скачиваний:
64
Добавлен:
24.10.2023
Размер:
10.97 Mб
Скачать

310

Глава 8

 

т (t0) = т0.

Показать, что минимальное значение средних потерь вычисляет­ ся по формуле

 

 

 

 

 

N-1

 

 

El =

ml S(t0)m0 +

tvS(t0)R0

+

Ц tr L T (t) [TS (t + 1) Г +

 

 

 

 

 

 

 

N—I

+

Q2] L (t) R (0 =

ml

S (t0) m0

+ tr Q0R(N)

+

V, tr Qx (t) R (t),

где

 

 

 

 

 

 

 

 

R(t+

1 ) = Ф Р ( 0 OT +

R!

(t),

R(tQ) = Ro-

Сравнить этот результат с результатом для оптимальной замк­ нутой системы (теорема 6.2). Сравнить метод решения этой проблемы с методом, использованным в упражнении 5.

Указание. Использовать лемму 6.1.

7. Рассмотреть систему (6.1) с критерием (6.13). Пусть до­ пустимые стратегии такие, что u(t) есть функция x(t—1). Най­ дите оптимальную стратегию и покажите, что минимум функции потерь вычисляется по формуле

El =

тТ S(t0)m +

trS(t0)Ra

+ £

t r S ( * + 1 ) ^ ( 0

+

 

 

 

t=ta

 

 

£ t r < P r S t f

+ l)TL(t)R1(t)

+ trG>TS(t0+

l)TL(t0)R0.

Использовать этот результат для метода вычисления запазды­ вания при получении информации о значении состояния.

Указание. Использовать лемму 6.1.

8. Рассмотреть задачу с неполной информацией о состоянии. Предположить, что допустимые стратегии такие, что u(t) есть функция K(_ft, где k — фиксированное число. Найти оптимальную стратегию и минимальные средние потери.

7. ЗАДАЧА ДЛЯ СИСТЕМ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ

В разделе рассмотрена линейная квадратичная задача уп­ равления для систем с непрерывным временем. Для доказа­ тельства теоремы разделения используем непрерывно-времен­ ной аналог метода, изложенного в разд. 6.

Линейная стохастическая теория управления

311

Постановка задачи

Рассмотрим систему, описываемую стохастическими диф­ ференциал ы-1 ы м и ур а в ней и я м и

 

 

 

dx = Axdt + Budt + dv,

 

(7.1)

 

 

 

dy = Cxdt + de,

 

 

(7.2)

где

xяХ1

-мерный

вектор состояния,

ирХ1 -мерный вектор

управления,

у—УХ1

-мерный

вектор

выходных

переменных,

{v(l),

teT},

\e(t),

teT)—независимые

винеровские

процессы

с нулевыми

средними значениями и ковариациями приращений

R\dt

и Rodt

соответственно; А,

В,

С и R\, R2— матрицы

соответ­

ствующих размерностей, элементы

которых могут

быть

кусочно-

непрерывными функциями времени.

Предположим, что начальное состояние нормально со сред­ ним значением m и ковариационной матрицей RQ. Случайные

процессы

{v(t), teT}

и {e(t),

t eT} не

зависят

от x(t0).

Мат­

рицы R0

и R i предполагаются

симметричными и

неотрицатель­

но определенными,

а ^2 — симметричной

и положительно

опре­

деленной. По аналогии со случаем дискретного времени средние

потери записываются

в виде

 

 

 

 

/ •

 

Е

т ft)

Q0x

(tl} + т (t) Q l X (t) + uT Q2u (t)] dt).

(7.3)

 

 

 

К

 

Матрицы

Qo и

Qi симметричны и неотрицательно определены,

a Q2— симметрична и положительно определена. Допустимые стратегии управления такие, что управляющий сигнал в момент / есть функция выходных сигналов, наблюдавшихся вплоть до момента t. По аналогии с задачей для систем с дискретным временем рассмотрим отдельно случаи полной и неполной ин­ формации о состоянии. Полная информация о состоянии озна­ чает, что вектор состояния можно измерить без ошибки. Так как управление системой осуществляется стохастическим диф­ ференциальным уравнением, то вектор состояния является мар­ ковским процессом и условные распределения будущих состоя­ ний относительно x(t) будут теми же, что и условные распреде­ ления относительно всех прежних значений x(s), s<it. В случае полной информации о состоянии допустимая стратегия управ­

ления такая,

что u(t) есть функция

x(t) и t.

В случае

неполной

информации

о состоянии

значение

управляющего сигнала u(t)

в момент t есть функция

Yt={y(s),

to^s^.t).

Задачу

стохасти­

ческого управления можно сформулировать следующим обра­ зом.

20*

312

Глава 8

Задача 7.1

Рассмотрим систему, описываемую стохастическими диф­ ференциальными уравнениями (7.1) и (7.2). Найти допустимую стратегию управления, минимизирующую критерий (7.3).

Эта задача значительно сложнее, чем задача для систем с дискретным временем. Причина этого в том, что пространство, натянутое на наблюдаемые выходные сигналы, имеет бесконеч­ ную размерность. Для решения этой задачи используем косвен­ ный метод, который аналогичен в некоторой степени методам, использованным в разд. 6. Эту аналогию можно использовать при выводе оценки для средних потерь.

Тождество

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Лемма 7.1

является

непрерывно-временным

аналогом

лем­

мы 6.1.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Лемма 7.1.

Предположим, что уравнение

Риккати

 

 

dt = Ат

S + SA 4

Qi — SBQ71

Вт

S

 

 

(7.4)

с начальным

условием

 

 

 

 

 

 

 

 

 

 

 

 

 

имеет решение,

которое

 

S(/1 )

=

Q0

 

 

 

 

 

 

 

(7-5)

является

неотрицательно

 

определенным

в интервале / о ^ ^ ^ ^ ь Пусть

х—решение

 

стохастического

диф-

ренциального

уравнения

(7.1),

тогда

 

 

 

 

 

 

 

 

хт(1г) Q0x (tj) +

j

xT(t)

QiX

(t)

+ U T

(/) QM (/)] dt

=

 

 

 

 

 

=

xT

(l0) S (t0) x (t0)

 

i,

 

QT1

BT

Sx)T

 

Q2 [u +

 

4

J

(и +

 

 

 

 

 

 

 

 

d

t.

 

 

 

 

 

 

 

 

4

 

 

 

 

4

 

 

4

 

<i

 

 

4

 

 

QT BT

Sx)

dt

f

tr RiSdt

Г dvT Sx

f xT Sdv.

 

 

 

 

 

 

{

 

 

 

i\

 

 

 

I

 

(7.6)

Доказательство.

Справедливо

следующее

равенство:

 

хт ft) Q0x

ft) = хт

ft)

S ft) х (tj =

хт

(t0) S (t0) x (tQ)

+

 

 

 

 

t,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

\d

[xT

Sx)-

 

 

 

 

 

 

 

 

(7.7)

Так как x — решение стохастического дифференциального урав­ нения (7.1), то х не имеет производной по времени. Таким об­ разом, дифференциал d{xTSx) не подчиняется правилам обыч-

 

 

Линейная

 

стохастическая

теория

управления

 

 

3 1 3

ного

исчисления. Используя

правило

дифференцирования

(тео­

рема

8.1 гл. 3),

получим

 

 

 

 

 

 

 

 

 

 

 

d (хт

Sx)

= dxT

Sx + хт

Sdx - f хт

xdt

-}-

(tr SRJ

dt,

(7.8)

 

 

 

 

 

 

 

 

 

 

dt

 

 

 

 

 

 

так как ковариационная функция приращения

dx

равна

R{dt.

Из уравнения

(7.1)

следует,

что

 

 

 

 

 

 

 

 

 

 

 

хт Sdx = [хт SAx

+ хт SBu] dt + хт

Sdv,

 

 

(7.9)

 

 

dxT

Sx =

[л;г AT Sx

+

uT BT Sx]

dt +

dvT

Sx.

 

(7.10>

Уравнение

(7.4)

дает

 

 

 

 

 

 

 

 

 

 

 

хт xdt=

[— xTATSx

 

— xrSAx

— х^х

+ xTSBCS'1

BTSx]

dt.

(7.11)

dt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Из уравнений

 

(7.7) — (7.11)

находим

 

 

 

 

 

 

 

d [хт Sx)

=

т Вт

Sx + хт SBu

— хт Qxx + хт

SBOJ1

Вт

Sx] dt +

 

 

+

tr (RXS)

 

dt + dvT

Sx

+

xT

Sdv

=

 

 

 

 

 

 

 

= [—uTQ2u

— xT Qjx +

{u + Q71 BT

Sx)TQ2{u

+

 

 

4- Q i - 1 BT Sx)} dt +

tr RxSdt

~

dTTSx

+

xT

Sdv,

 

(7.12)

где последнее равенство получаем путем прибавления и вычи­ тания члена uTQ2u. Переставив члены в выражении (7.12), по­ лучаем соотношение (7.6), и лемма доказана.

Используя лемму 7.1, можно решить задачу оптимального управления системой (7.1) с критерием (7.3) в различных слу­ чаях.

Детерминированный случай

Рассмотрим сначала детерминированный случай, когда и = 0 . Лемма 7.1 приводит к неравенству для функции потерь

U

(7.13)

которое становится равенством для стратегии управления

и =— OJ1 BTSx = — Lx.

(7.14)

314 Глава 8

Оптимальная

стратегия

единственна,

так как Q2 положительно

определена. Из

леммы

3.1 следует,

что минимальное

значение

•средних потерь

вычисляется по формуле

 

 

 

 

min£Z = Ехт(*„) 5 (f0 )х (t0) = mT

S (t0) m + tr 5 ( g R0. (7.15)

[Сравните с формулами

(6.13) — (6.18) гл. 7.]

 

 

Случай полной информации о состоянии

 

 

 

Перейдя в выражении

(7.6) к

математическому ожиданию,

получим

 

 

 

 

 

 

 

 

 

£ )хт ( g QQx ( g + j ' т (t) Qxx (t) + uT

(t) QM (t)} dt)

=

 

 

 

 

 

 

U

 

 

 

 

 

=

E [xT

( g 5 (t0) x (/„) +

j [u + QT1

BT

Sx]T Q2

[u +

 

 

 

 

 

 

и

 

 

 

 

 

+

QT1 BT

Sx] dt +

j ' tr RXS) dt) > mT

S (t0) m + trS

(/„) R0 +

 

и

 

i.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

- г

^{tvR&dt,

 

 

 

 

 

 

(7.16)

 

и

 

 

 

 

 

 

 

 

 

где равенство получается для стратегии

управления

 

и = — Q7 1 В Г Sx = -

LA\

(7.17)

В случае полной информации о состоянии выражение (7.17) яв­ ляется допустимой стратегией управления. Таким образом, оп­

тимальная стратегия определяется выражением (7 . 17), а

мини­

мальное значение функции

потерь вычисляется по

формуле

 

h

 

 

•min El = mT S ( g in

+ tr S (/„) R0 - f \ (tr tfxS)

dt.

(7.18)

•Случай неполной информации о состоянии

 

 

Перейдя в выражении

(7.6) к математическому

ожиданию,

толучим

 

 

 

•mm Е 1{хт ( g QQx ( g +

j ' т (t) Qxx (t) + uT (t) Q8u {t)] dt)

=

/.

 

 

 

ti

= mT S ( g m + tr R0S (/„) + j (tr /?XS) Л +

Линейная стохастическая теория управления

315-

+ min Е { j (и + Lxf Q2 (и + Lx) dt } .

(7.19>

"

и

 

Далее найдем

 

 

Я [ J (и + £*)Г <32

(« +

£*) Л| =

 

 

и

и

 

 

 

 

=

j" Е

[{и + L x ) r Q2 +

Lx) [ Г,] dt

=

 

=

j (« +

ЩТQ2 (« + Ex) dt +

j (tr L T Q2LP) dt\,

 

<•

 

 

<•

(7.20)'

так как условное распределение x(t) относительно Yt

нормально

л

со средним значением х и ковариационной

матрицей Р. Так

как.

Р не зависит от и, то

 

 

 

 

 

 

 

 

 

£

[ х г

(tj) Q0x (t) + j

(xT Qjx +

uQ2u) dt] >

mT S (t0) m

+

 

 

 

 

и

 

 

 

 

 

 

 

 

 

 

 

 

 

ti

 

 

/ 1

 

 

 

 

 

 

+

tr S (/„) 7?0

4-

f (tr ^ 5 )

f (tr L T

Q2LP) dtr

(7.21).

где равенство имеет

место

для

стратегии

управления

 

 

 

 

и =

— Lx

= — LE [х (t) | Yt\.

 

(7.22>

Таким

образом, оптимальная

стратегия

является линейной функ­

цией,

при

которой u(t)

есть

функция

условного

среднего

x(t).

Отметим,

что матрица

L — та

же, что

и в детерминированном,

случае. Выводы сформулированы в теореме 7.1.

 

 

 

Теорема 7.1. Рассмотрим

систему,

описываемую

стохасти­

ческими дифференциальными

уравнениями. (7.1)

и (7.2). Пред­

положим, что допустимая стратегия управления такая, что зна­ чение управляющего сигнала в момент t является функцией выходных сигналов вплоть до времени t. Допустим, что уравне­

ние

Риккати

(7.4)

имеет решение

на отрезке

f o ^ ^ i -

Тогда!

закон

управления

 

 

 

 

 

 

 

 

 

л

 

 

 

 

 

 

и = —

Lx,

 

 

 

 

 

 

 

л

 

 

где L

определяется

выражением (7.14), а х — условное

среднее

x{t)

относительно

Yt, минимизирует критерий

(7.3). Минималь­

ное значение

средних потерь вычисляется по

формуле

 

316 Глава 8

min El=mT

S {t0) m + tr S (/„) R 0 +

f (tr S R J dt +

 

и

 

и

 

 

 

+

\{trSBQf

BT SP)dt.

(7.23)

и

Замечание. Члены в выражении для минимального значения средних потерь можно интерпретировать так же, как и в задаче для систем с дискретным временем. Член inTS(t0)m является, таким образом, вкладом начального состояния в среднее значе­

ние. Член irS{to)Ro

обусловлен неопределенностью

начального

состояния. Член j" tr(SRi)dt

обусловлен

помехами,

действующи­

ми на систему, а последний

член (7.23) — неопределенностью в

оценке состояния.

[Сравните

выражения

(7.15) и (7.18).]

Свойства замкнутой системы

 

 

 

Объединив результаты теоремы 7.1 этой главы

с теоремой

6.2 гл. 7, найдем, что оптимальное управление замкнутой систе­ мой описывается следующими уравнениями:

dx = Axdt -f Budt -f dv, dy = Cxdt + de,

dx = Axdt + Budt + К [dy - Cxdt],

л

и = — Lx.

Вводя x и x как переменные состояния, найдем, что эти урав­ нения сводятся к уравнению

х

 

A — BL

BL

х

dv

 

х

~

 

 

А—КС

X

dv — Kde

 

Таким образом,

динамика замкнутой системы определяется ди­

 

О

 

 

 

[А—BL]

намикой оптимальной

детерминированной

системы

и динамикой

фильтра Калмана [А—КС].

 

 

Упражнения

 

 

 

 

 

 

 

1. Рассмотреть

систему

 

 

 

 

 

 

 

dx = udt +

dv,

 

 

 

 

 

 

dy = xdt +

de,

 

 

где {v(t)} и {e(t)} — винеровские процессы с параметрами дис­ персии г1 и г2. Начальное состояние нормально со средним in и ковариацией г0. Функция потерь имеет вид

Линейная стохастическая теория управления

317

т

I = j [x2(t) + qu2(t)}dt.

о

Цель управления состоит в минимизации средних потерь. Оп­ ределить оптимальное управление для разомкнутой системы при Т-э-оо и оптимальную стратегию для случая неполной инфор­ мации о состоянии.

2.Рассмотреть задачу упражнения 1. Найти передаточную функцию закона управления для устойчивого состояния при Т—>оо. Найти также минимальное значение функции потерь в различных случаях.

3.Рассмотреть систему

 

 

 

 

dx = Axdt +

dv,

 

 

где {v(t),

t е'Т}—винеровский

процесс

с ковариацией

прира­

щений

Rdt, а

начальное состояние

x(t0)

нормально со

средним

значением m

и ковариационной

матрицей R0. Показать, что

£

т

ft)

Q0x ( у +

j хт

(s) QjX

(s) ds J =

 

 

 

=

mT

S (t0) m +

trS

(t0) R0+

и

(t) R (t) dt,

 

 

j tr 5

 

когда

 

 

 

 

 

 

i.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= ATS + SA + QU

£&) = &•

 

 

 

at

 

 

 

 

 

 

4. Рассмотреть систему (7.1) и (7.2). Показать, что функция потерь оптимальной разомкнутой системы определяется выра­

жением

 

 

л

 

 

 

 

 

mT S (to) m + tr R (t0) R0

+ j tr R (s) Rx (s) ds,

где

 

 

и

 

 

 

 

 

=

ATR

+ RA +

Q,

at

 

 

 

 

с начальным условием R(tt)

=Qo-

 

 

Сравнить с результатами для

оптимальной замкнутой системы-.

5. Рассмотреть систему

 

 

 

 

dx = Axdt

- j -

Budt +

dv,

dy = Cxdt - r de,

.318

Глава 8

где {v(t)} и {e(t)} —винеровские процессы с ковариациями при­ ращений Ridt и Rzdt и нормальным начальным состоянием со •средним т и ковариационной матрицей RQ. Найти стратегию управления, минимизирующую средние потери

' i

Е | хТ Q0x (А) + J / и г (0 и Л ].

Допустимые стратегии управления такие, что u(t) есть функция выходных сигналов, наблюдаемых вплоть до момента г.

6. Рассмотреть систему

dx =

1 xdt

+

1 udt + do,

 

 

 

 

0

dy =

11

0] xdt

 

de,

О

О

 

 

где {v(t)} и (e(f)} независимые винеровские процессы с кова­ риациями приращений Idt и rdt. Функция потерь имеет вид

Определить стратегию управления, минимизирующую средние потери El, когда допустимые стратегии такие, что u(t) есть •функционал {y(s), tQ^.s^t}. Определить предельную стратегию при ^о-^°°- Дать физическую интерпретацию членов выражения для минимума функции потерь.

8. ЗАМЕЧАНИЯ И ЛИТЕРАТУРА

Такие фундаментальные в стохастической теории управления •понятия, как функция потерь, риска, решающая функция, впер­

вые введены в статистической теории разделения в работах [13]. В статистической теории разделения сигналов, однако, •обычно ограничиваются статическим случаем, рассмотренным в разд. 3.

Довольно удивительно, что концепции рандомизированной •стратегии еще не применялась в стохастической теории управ­ ления. Более ранние исследования проблемы стохастического управления можно найти в работе [4].

Принцип определенности впервые рассмотрен в экономиче­ ской литературе [5, 6]. Дискретный вариант теоремы разделе­ ния доказан в работах [7, 8].

Разд. 5 основан на работе [9] . Теорема разделения для слу- -тая дискретного времени рассмотрена также в работах [10, 11].

Линейная стохастическая теория управления

319>

Работа [11] представляет особый интерес, так как в ней

указа­

но на некоторые неясности в более ранних доказательствах.

Изложение варианта теоремы разделения для случая

непре­

рывного времени можно найти в работах [12—15]. Тождестве (7.6)обобщение известного результата Лагранжа из вариа­ ционного исчисления [16].

1.

Wald A., Statistical Decision Functions, Wiley N. Y.,

1950.

2.

Lehman E., Testing Statistical Hypotheses, Wiley, N. Y.,

1952.

3.

Blackwell D.,

Girshick A., Theory of Games and Statistical Decision, Wiley,.

 

N. Y., 1954.

Русский перевод: Блекуэл Д., Гиршнк А., Теория игр и сто­

 

хастических решений, изд-во «Мир», 1968.

 

4.

Beleman R., Adaptive Control Processes, Princeton Univ. Press, Princeton,

 

New Jersey,

1961. Русский перевод: Беллман P., Процессы регулирования

с адаптацией, изд-во «Наука», М., 1964.

5.Simon Н. A., «Dynamic Programming under Uncertainty with a Quadratic Criterion Function*, Econometrica, 24, 74 (1956).

6.Theil H., «A Note on Certainty Equivalence in Dynamic Planning*, Econo­ metrica 25, 346 (1959).

7. Joseph P.

D.

and Ton J. Т.,

«On Linear Control Theory*, Trans. A I E E (Ap­

plications

and

Industry) 80,

193—196 (1961).

8.Gunkel T. L. Ill, Franklin G. F., «A General Solution for Linear Sampled Data Control*, Trans. ASME J. Basic Eng. 85-D, 197—201 (1963).

9.Astrom K. J-, Koepcke R. W., and Tung F., «On the Control of Linear Dis­

crete Dynamic Systems with Quadratic Loss», IBM Research Rep RJ-222r September 1962.

10.Meier L., «Combined Control and Estimation Theory*, Report, Stanford Re­ search Institute, California, 1965.

11.Gittelman I. N., «Optimal Control of Discrete time Random Purameter sys­

tems*, Report 07303-1-T, Dept. E E , Systems

Engineering Laboratory, Uni­

versity of Michigan, Ann. Arbor, Michigan, July

1967.

12.Potter J. E., «A Guidance-Navigation Separation Theorem*, MIT Exper. Astronom. Lab., Rep. RE-11, August 1964.

13.Striebel C , «Sufficient Statistics in the Optimum Control' of Stochastic Sys­ tems*, JMAA, 12, 576—592 (1965).

14. Wonham W. M., «On the Separation Theorem of Stochastic Control*, SIAM J. Control, 6, (1968).

15.Wonham W. M., «Random Differential Equations in Control Theory*. Pro­ babilistic Methods in Applied Mathematics, A. T. Bharucha—Reid (editors), Academic Press, New York, 1969.

16.И. M. Гельфанд, С. В. Фомин, «Вариационное исчисление», Фпзматгиз. М.. 1961.