Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Методы оптимизации в статистических задачах управления

..pdf
Скачиваний:
8
Добавлен:
20.10.2023
Размер:
8.04 Mб
Скачать

Согласно известным свойствам плотности распределения веро­ ятностей искомая апостериорная плотность вероятностей (388) может быть представлена в следующем виде:

 

 

Я (4.

z*) =

р (tk, zk \slt

0 < i < 4 ) =

 

 

=

р (4,

zk I sk,

s[t

0 «

i <

k — 1) =

 

 

 

^

P(tk, zk, sk Isit 0<g i ^ k — 1)

_

 

 

 

 

 

 

p(tk, Sft/s,-,

 

— 1)

 

 

 

 

 

 

P (tk,

Zk, sk I S[, 0 ^

i gg k — 1)

 

(393)

 

 

 

 

\d zkp{tk, zk, s* |s£, O s ^ i ^ k — 1)

 

 

 

 

 

Входящая в выражение (393) плотность

вероятностей р (tk,

zk, sA/st-,

О <

i <

k

1) может рассчитываться по формуле

 

 

Р (4.

zb

h I Sit 0

< i

<

k — 1)

=

=

J dzk_!p

(tk,

zk\ 4_lt

zk_p, sjs,.,

0 <

i

« k — 1) =

 

 

 

, =

j

dzk-xp

(tk,

2a,sa | 4-1>

 

 

S(., 0 < i <

k

1) p I 4_J,

S;, 0 < t < k — 1).

Учитывая

доказанное

выше

марковское

 

свойство вектора

(z, s), а также формулы (390) и (392), последнее выражение может быть преобразовано следующим образом

Р (4,

Zk, SkI S;, 0 <

i < k — 1) =

= 1

dZk-lP (4.

I 4-1> ^A-l>

s*-i) P (4-1- z*-iI S£, 0 < t < /г — 1) = = J dZk^p (4, z*| 4-lf z^j) p X

X (s* I 4- z^) <7^4-1- z^_i).

После подстановки полученного результата в формулу (393) будем иметь следующее выражение для q (4, zft):

I

dzk-iP (<A, z* I

z * . x) p (s* I

z*) q (tk-1 , Z A .i)

 

q (4, z*) = / -

—=-----------------------

■----- -------

—-----— -----

• (394)

J dzk I dzk-iP (tk, zk j tk-1, Zk-!) p (Sk I tk, zk) q (tk-г, Zk-1)

Соотношение (394) дает рекуррентную процедуру вычисления q{tk, z k). Здесь р (4, zk \ 4_i, zk_x) легко рассчитывается на

167

основании формул (383), (384), а р (skLtk, zk) — на основании выражений (386), (387):

P(h,

z* I 4 - i , zk^)--

 

 

 

X

 

 

 

 

Y (2

 

 

 

 

X exp

 

(Z* z*-i — / (4-i, z*_lf и*_!)

А)* X

 

 

 

 

X { G k ~ \ Q k - \ G k - \ )

1 ( z k z k - \

/ ( 4 —i> zk-i> uk-i) A)

; (395)

 

 

P (sk I tk, 4) =

Кд

X

 

 

 

 

V(2n)r I

 

 

 

 

Rk I

 

 

X exp

—4-(Sft — h (4, гк)У Rk 1(sfe — /г (4, z*))

(396)

Для расчета числителя в формуле (394) необходимо взять

интеграл

 

 

 

 

 

 

 

 

ß (4,

zk) — f dz^jp (4, zk I 4_x, zk.j) q (4-i,

zk_j),

 

который с учетом

соотношения

(395)

может быть представлен

в виде

 

 

 

 

 

 

 

 

В (4, г*) =

,

1

__

f dzk ,q(tu-,,

Zu А X

 

V

V(2nr\Gk„1Qk_lGk_1\^

I

kl4Kk Ъ

hV

 

X exp

 

(Zft — z*-i — / (4_b zk_lt uk_j) А*) X

(397)

 

 

 

 

 

 

 

 

X (Gk~iQk-iGk-i)

1(г*— zft_i — /(4 - b Zé_i, и*_і) A) .

Проведем в подынтегральном выражении (397) некоторые пре­ образования. Апостериорную плотность вероятностей <7 (4_і, za-i) представим рядом Тейлора в окрестности точки zé:

q (4-ь

z^-i) =

? (4-х,

ч) + (z*-i — 4 *

dq%zk, Zk)-\ +

+ 4 - fo-i

— z*)*-

q{tkY

Zk) (Zk- 1 — Z*) +

°(liZk- 1 — zkИ , (398)

где o(||zA i— zÄ|j2) означает величину более высокого порядка малости, чем квадрат нормы вектора (zA_ i— zk). Аналогичным разложением можно представить вектор / (4-і, Ч-1> uk-i):

f (4-1, Z£-l> ^A-l) = / (4-1, z/e, И/г-і) -f-

+

z^ + o d z ^ - z * ! ) .

(399)

168 -

В отличие от формулы (398) здесь достаточно ограничиться линейными членами в разложении в связи с тем, что в выраже­ ние (397) вектор f (tk_lt zk_x, uk_j) входит с множителем; А. Раз­ ложение (399) позволяет провести преобразование в выражении

zk zk-\ / (4 -1» zk-li ^к-1) ^ — zk zk-l / (4 - 1 , zki ^k-l) А

 

 

 

X§2k

k ^ (^*“1

 

Z*) А +

0 dl Zk - \

zkII )А =

 

E +

А

df

Zk, Щ-і) (

 

 

E-{-

А

d/

 

zk, uk-i) -1

 

 

dzk

 

\zk

 

 

 

 

dzk

 

 

X

 

 

X / ( 4 -

zk>i > uk-\) А zk-i}

+

 

zk~i0

(IzkI I

)A.

(400)

Воспользовавшись в соотношении (400) разложением обрат­

ной матрицы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

£ + А

Щ(tk-Ъ zk. Uk-\)

 

 

E

 

 

df (tk- l i

 

1

uk-i)

+ o(A)

 

 

 

dzk

 

 

 

 

 

 

 

 

 

dzk

 

 

 

 

и принимая обозначение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

г » и

 

, ,

\ __ df

{ t k - i ,

Zh,

K f c _ j )

 

 

 

 

(401)

 

 

 

lzk (tk-i, zk,

Ч -i) —

 

 

dZk

 

 

 

 

 

 

получим

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ZkZk-1 f (4-1.

Z/;-l>

uk-l) А =

 

 

 

 

= iE

А fZk ( 4 - 1 .

4 , 4 - l ) ]

[2*

/ ( 4 - l >

4 , M£ -l)

А —

4 - 1 І

+

 

 

 

 

+

0 (A) +

0

zk(II- i 4

 

І

І

)

А .

 

(402)

Теперь,

используя

выражение

(402),

 

показатель экспоненты

в соотношении (397) представим в следующей форме:

 

 

 

 

 

------2ДГ (z*_1 —

4

+

/ (4 -1 ,

zk,

uk-l) A)*

x

 

 

 

 

X

+ A /2ft( 4 - i»

4 ,

u k - \ )] (G k -iQ k -iG k -i)

1

X

 

X (E

+

Af Zk (4 -1 ,

4 , M/e- l)) ( 4 - i — 4 +

/

(4 -1,

zk,

ua- i ) A)

+

 

 

 

 

+

0 (A) +

о (I Izk - i—:

 

 

4

А.

 

II)

 

 

(403)

Экспонента с показателем (403), рассматриваемая как функция переменной zk_lt представляет собой гауссовую плотность рас­ пределения вероятностей при математическом ожидании

Л*4-і = z k - f (4-1, 4 , Ч -i) А

 

 

(404)

и дисперсионной матрице

 

 

 

 

 

Dzk—1 = А ( Б -j- Аf Zk ( 4 - ь 4 »

u k -i))

1 (G k - 1, Q ft-iG fc-i) X

 

X (£■ -f- Af'zk ( 4 - ь 4 , wÄ_ i))* _1 =

A ( £

— A /'ft( 4 _ i,

4

, и * - і) )

X

X (G*_iQfe—iGa—i) ( £ — Af z k ( 4 - 1 ,

4> 4 - i ) )

+ °

( A ) -

(405)

169

Нормирующий множитель при экспоненте с точностью до членов порядка о (А) должен быть равен

Y {2л)П АI (Е - AQ (Е - д4 ) * I ’

Учитывая, что определитель произведения матриц равен про­

изведению определителей множителей,

и

раскрывая \ Е Af2k\,

\( Е — Д/гА)*| по формулам

 

 

IЕ — АД* |= 1 — А tr fzk +

о (А);

\(Е — А/гй)* 1=1 — А tr (fzkY +

+ 0 (А) — 1— А tr

—j—о (А),

получим следующее выражение для нормирующего множителя:

____________________1______________________

Y {2л)ПАI

 

I [і - 2 Л tr4 + ° <д>]

 

■=

....

...........1 ------------------------ .

(406)

 

У

д I G* - A

- iG'k-i I (1 - А tr ^ ft + о (А))

 

Теперь снова обратимся

к вычислению интеграла

ß (tk, zk)

[(см. формулу (397)]. Если для плотности распределения вероят­

ностей случайного вектора ѵ с параметрами Мѵ = тѵ и

Du =

dv

принять обозначение Nu (mv, du), то согласно

формулам

(403)

(406) можно записать:

 

 

 

ß (4, Ч) = (1 — А tr f'Zk (fÄ_lt zk, u*_i) +

о (А)) X

 

 

X j d z ^ N ^ l i Z k — /(4_J, zk, u ^ ) А), (Ga_1Qa_1GI_iA + o(A))] x

X <7(4-b z*_x).

Учитывая разложение (398), можно записать

ß (tk, z*) =

[1 — А tr ü k (tk_b zk}

ик_г) + о (А) ] X

 

X

<7(4-1, Zk)— Г (4-1, zk, и*_!)

dq(tk-1. Zft)

 

 

 

 

 

dzk

 

+

-j - А tr (

dzkdzk

°(A)

 

 

2

\

 

 

=

<7(4-1,

Z*) — /* (4-1,

zÄ, и*_і)

А

 

 

-f 4

А tr (Gfe_

A -i)

_

 

 

— A<7 (4-1, Z*) tr 4

(4_b zk, u*_x) + O(A).

(407)

170

г

Теперь на основании соотношений (396), (407) и разложения экспоненты можно записать выражение для числителя в фор­ муле (394)

J

(4,

zk I 4 -j , zk_x) p (sk I 4»

zk) q (4-i> Zk-i) —

= , 1

f14-[sk h (4, zk)\ RTl [s* h (tk, zk] -f о (A)} x

X

'q(tk_b

zk) - /* ( 4 - i, zk, и,.,)

dq^ ’ Zk) A +

A tr I Gk—\Qk-\G,k-i d2q{tk-1. zk) dzkdzk

A<? (4-i, Z*) tr fz (4_x, zk, uk_x) + 0 (A)

= 7 - —- {<? (4-1, Z*) — f* (4-i, zk, uk_x)

Z*} A +

/ ( 2 я ) ' \ R k \ ^

dZ k

+ ~

A tr ( G nQ nG ’n

\_

\

 

j

— Aq (4_ь

г*) tr fZk (4_b zk, uk^)

----?г A<7 K4-1, z*) (sft — Я (4,

г*)]* /?4

[s* — A(4, z*)l + о (A)]. (408)

Знаменатель в формуле (394) представляет собой проинтегри­ рованный по переменной zk числитель. Проводя указанную опе­ рацию над выражением (408) и учитывая правила интегрирова­ ния по частям, получим

 

J dzk { dzk_xp (4, zk 14_ь

Z*-i) P (S k4I 4 , Z*) <? (4 - 1 ,

Z*-l) =

 

V A

1 - 4 -

&Mk_x{sk - h { t k, zk))*RJx X

 

К(2л)г I Rk I

 

 

 

 

X (sA h (4, z*)) -j- о (A) ,

(409)

где

означает

апостериорное математическое

ожидание при

условии проведенных измерений до момента 4-і- Теперь в результате деления выражения (408) на (409) и не­

сложных преобразований получим

 

 

Я (tk, гк) = q (4-1, гк) - f* (4-і, гк, uk_x)

dq(t%£~k) А +

 

d2q(tk-1, 2ft) \

Gk-iQk—iGk-\

3za54

j

171

(tk-1 , Zft) tr f4 (tk_lt zk, u ^ )

— 4 ' Л<? (4-i, г*) Is* — h(4, z*)f

[S* h (4, zk)\ +

+ 4~

^*-1»

[S* _

h (tk>2*)1*

 

X

 

 

X [s* А (4, Zk)\ -j-o(A).

 

 

(410)

Замечая, что

 

 

 

 

 

 

Г(4-1, ZA, u*_i)

- —q (4-1, Z*) tr/'Ä(/ft_i, г*. uft_!) =

=

( - ^ - ) [/(4-1,

Zk, M*_i) q (4-1,

z*)l

 

v

и устремляя в выражении (410)

А к нулю, так

что

4

-і —:• 4 — 4

а векторы г и s стремятся к своим предельным значениям л: и у соответственно, получим уравнение в частных производных для апостериорной плотности распределения вероятностей:

Щ т 1

= -

Ш ’ V < '.* .“) ? ('. *)і+

 

+

4 -

tr ( о <0 <г (/) О* (0

+

 

+ гу q (/,

*)

[М, {г/ — /г (/, *)]* /?_1 (/) [у — /г (*, *)] — ■

 

— [У- h (t,

*)]* 7?-1 (t) [ y - h

(t, x)]j.

(411)

В соответствии с известным априорным законом распределе­ ния вероятностей (378) уравнение (411) должно решаться при условии

<7(0, х )= р а ( х ) .

 

(412)

Если интенсивность шума

измерений

бесконечно

велика,

что практически соответствует

отсутствию

измерений

фазовых

координат объекта, то в выражении (411) следует положить R -1 (t) = 0. Тогда соотношение (411) вырождается в уравнение Колмогорова (108) для диффузионного процесса.

4. Оптимальная линейная фильтрация. Фильтр Калмана

Рассмотрим частный случай уравнения (411), когда объект управления является линейным и описывается уравнением (361), т. е. когда

/ (4 X, и) = А (i) X + В (() и.

(413)

172

Измеритель также

предполагается линейным

 

 

h (t, X) = С (t) X,

(414)

где С (і) — матрица

переменных коэффициентов

размерности

[г, п\. Допустим, что начальное распределение вероятностей

вектора х нормально, т. е.

 

Ро (х) = ]f(2n)n\D0 exp

{x — mü)*D0l {x— m0) . (415)

При сформулированных условиях уравнение (411) прини­ мает вид

A S BTL = ~ ( i ) * m ( t ) x + B(t)u)q(i, х)] +

+ 4 - t r ( G ( / ) Q ( / ) G * ( n ^ # ) +

+ <7(*» х) [Mt (у С X)* R ' 1(/) {у— С (t) х)

- ( y - C ( t ) x ) * R - ' ( t ) ( y - C { t ) x ) ] .

(416)

Нетрудно убедиться, что уравнению (416) при выполнении условия (415) удовлетворяет решение

q (t, x) =

е х р ---- --

(х — т (t))*D~x(t) (х ■ m (/))],

]Л(2я)« | D ( 0

(417)

где функции m (t), D (t) удовлетворяют системе обыкновенных дифференциальных уравнений

т — А т В и ^ \ - DC*R~X{у — Ст)\

(418)

b = ADA-DA* + GQG*— DC*R-1CD

(419)

при начальных условиях

=

т 0;

 

т (0)

 

D (0)

=

D 0.

 

Этот результат можно получить с помощью перехода в выра­ жении (416) от q ( t , х) к характеристической функции g ( t , X), как это было сделано в п. 4 гл. I.

Апостериорная характеристическая функция g (t, 7,) удовле­ творяет следующему уравнению в частных производных:

д8іа ~ ~ = X* А (0 -д8^ і ~ + ß*B (t) ug (t, X)

— ±-X*G(t)Q(t)G*(t)Kg(t, X) +

173

+ 4 - 8 (t, Ц Mt [(у - C (t) x f

R-1 (0 ( у - C (i) X)] -

 

• - 4 - S (t, *•) У* R-1(*) У - І ( ^ y

§ {t, ц C* (t) R' 1(t) у +

 

+ 4 - tr ( c * ( 0 /? - 1( 0 C ( 0 ^ ^ - ) .

(420)

i

 

 

При отсутствии измерений фазовых координат объекта, что равносильно условию R (і) оо или R " 1 (t) —* 0, уравнение (420) совпадает с полученным ранее уравнением (111).

Таким образом, в рассматриваемом частном случае апосте­ риорный закон распределения фазовых координат объекта х (t) явдяется нормальным. Согласно формуле (419) апостериорная дисперсионная матрица D (t) не зависит от измерений у (t) и может быть рассчитана априорно. Тогда вектор апостериорного математического ожидания т (t) является решением линейного нестационарного дифференциального уравнения (418). Этот ре­ зультат, впервые порученный Калманом [133], был развит дру­ гими авторами [5, 15, 58, 91, 134, 155].

Решение уравнения (411) для апостериорных вероятностей

вобщем случае нелинейного объекта и нелинейного измерителя возможно лишь приближенными численными методами. Один из таких методов [28] дает возможность составить систему обык­ новенных дифференциальных уравнений для семиинвариантов закона распределения q (t, х). Эта система не замкнута. Однако учитывая быструю сходимость к нулю семиинвариантов при воз­ растании их порядка, можно положить равными нулю семиинва­ рианты порядка выше k (выбор k связан с условиями задачи). Это дает замкнутую систему обыкновенных дифференциальных уравнений, приближенно определяющих семиинварианты до k-ro порядка. Если положить k = 2, то описываемый подход будет равносилен проведению статистической линеаризации.

5.Достаточные координаты

Вп. 3 настоящей главы указывалось, что при наличии шумов

вканале измерения фазовых координат объекта управление является функционалом относительно апостериорной плотности вероятностей q (t, х) фазовых координат объекта (381). То же можно сказать и о функции Веллмана W 0, которая является теку­ щей оценкой минимальных потерь на интервале времени [t, Т]:

т

W0= min М I ф [т, X (т), и (т)] dr + к [Т, X (Т)\ I q (/, х)

и (т)££/ т£[*, Г]

= W0 (t,q(t,x)).

(421)

174

Апостериорная плотность распределения вероятностей q (t, х) является случайной, так как в соответствии с формулой (411) зависит от случайных наблюдений у (t). Однако значения q (t, х) измеряются точно. Таким образом, путем перехода от л: (t) к q (/, х) задача сведена к случаю точного наблюдения координат, но при этом размерность наблюдаемого вектора возросла от п до бесконечности. Это обстоятельство и объясняет сложность решения задачи оптимального управления при неточных изме­ рениях. Функция Веллмана (421) должна определяться из функ­ ционального уравнения, которое несложно получить, повторяя рассуждения, приведенные в п. 1 данной главы:

W0 (t, q (t, x) = min ІА f dxq {t, x) ф (t, я, и) -f о (А) +

u(lU {

J

 

+ N1 [WQ(t -)- A,

q (t -f- A, x)) I q (t, x)]j.

(422)

Математическое ожидание в формуле (422) должно вычисляться в соответствии с выражением (411). Решение уравнения (422)

должно удовлетворять очевидному условию

 

 

W0 (T, q(T, x)) = \dxq{T, х)Х(Т,

х).

(423)

Решение задачи существенно упрощается, если удается опре'

делить конечное число достаточных координат

[94].

К достаточ­

ным координатам предъявляются следующие требования. Прежде всего они должны быть достаточны для вычисления текущих потерь. Обозначим через у (t) вектор достаточных координат. Сформулированное требование означает, что в формулах (422), (423)

J dxq (t,

х) ф ( t, X, и) =

а ( t, у (t))\

J dxq (Т,

X) X (Т , X) =

ß (Г, у (Т)).

Другое требование к достаточным координатам состоит в том что они должны полностью определять будущую эволюцию фазо­ вых координат объекта. И, наконец, они должны быть достаточны для указания ограничений выбора управления на любом интер­ вале времени.

Если удается определить конечное число достаточных коор­

динат

у (/),

то оптимальное управление и функция Веллмана

могут

быть

представлены в форме и0 (t, у (t)), W0 (t, у (t)).

Соответственно поскольку достаточные координаты точно наблю­ даемы, задача расчета оптимального управления сводится к рас­ смотренной в п. 1 настоящей главы.

В качестве примера применения идеи достаточных координат рассмотрим управление линейным объектом, описываемым урав­ нением (361), при критерии оптимальности (362), когда измеряется вектор

у = С (t) X + г] (t).

175

Предполагается, что на управление и (t) не наложено жесткого ограничения, а начальное распределение х нормально.

Выше было показано, что при сформулированных условиях апостериорный закон распределения х (t) является нормальным. Следовательно, апостериорные математическое ожидание т (t) и дисперсионная матрица D (t) являются достаточными статисти­ ками закона распределения и полностью определяют будущую эволюцию поведения фазовых координат объекта. Нетрудно ви­ деть, что т (t) и D (t) удовлетворяют всем требованиям, предъяв­ ляемым к достаточным координатам. Координаты D (t) могут быть рассчитаны априорно согласно формуле (419), так как не связаны с управлением и (t) и измерениями (/ (t). Поэтому D (t), как извест­ ная априорно функция времени, может быть исключена из числа достаточных координат. Таким образом, управление и функция Веллмана являются функциями времени і и т (t).

Вывод уравнения в частных производных для функции Велл­ мана

( Т

IV0 (t, m) = min М I [ [х* (т) V (т) х (т) +

u ( x ) f - U /

т€ [С п

+и* (т) J (т) и (т)] dr 4 - X* (Т) Ах (Т) \m(t) — m

проводится с использованием уравнения (418) методом, изложен­ ным в п. I данной главы. При этом необходимо учесть, что нали­ чие в формуле (418) члена DC*R~X (у Cm) означает воздействие «белого» шума интенсивности DC* R ~ 1CD. В результате получим уравнение

(J; m) = min

(m*V (0 m + tr [D(t) V (01 +

 

at

u^U-

\

 

 

+

u*J (0 U+ [A (t)m + B (0 ul* dW°^m m)- +

 

tr

D (0 c* (0

R -1 (t) C (0

D

d W { t, m) 1)

 

dm dm* _ } ’

 

 

 

 

 

W0 (T , m) = m*Am + tr[D (T) Л].

Как и при решении задачи управления линейным объектом при точном измерении фазовых координат (см. п. 2 гл. IV), функция Веллмана ищется в виде квадратичной формы:

Wo (0

m) = ko (0 +

k\ (0 m +

m R 2 (0 m -

Здесь k0 (0;

&i (0 и Кг (0

имеют то

же содержание, что и

в формуле (368). Повторяя тот же ход решения уравнения Велл­

мана, что и в п. 2, гл. IV,

получим

 

«о (0

= — J - 1 В*Кгт,

(424)

176

Соседние файлы в папке книги из ГПНТБ