книги из ГПНТБ / Сейдж Э.П. Идентификация систем управления
.pdf3.2] |
МАКСИМУМ АПОСТЕРИОРНОЙ ВЕРОЯТНОСТИ |
71 |
чайные процессы w {t), v {t) и со (t) — некоррелированные между собой гауссовские белые шумы с нулевыми мате матическими ожиданиями и известными интенсивностями.
Составные части штрафной функции МАВ (3.2.62) и канонических уравнений (3.2.63) и (3.2.64) в данном случае имеют вид
- X l |
(t)~ |
- X I |
( f ) - |
-— x\ (1) xi (<)' |
|
a |
= X 2 |
(t) , f[x (*),*] = |
0 |
- |
e _ |
- X 3 |
(«)- |
0 |
G [х (г), t] :
Px {^) =
о
>*, (**)'
^a
_ .
W(t) = w(t), h[x(t),f]: I*i (t) + (0j
о |
|
|
[o>Y ie(t)i> |
|
, Twv(o = |
||||
» + т „ ( Ч |
1 |
|
0 ^o* |
---1 О |
|
H |
|||
, V- (i0) == Vx (to) = |
_____ |
оо |
|
и о |
|
|
|
|
|
|
1 |
|
|
1 |
Поучительно выписать канонические уравнения для рас сматриваемой конкретной задачи. Они выглядят так:
i |
1~ |
. |
/Л |
* „ «*»<*) |
, ,Л , |
*»(*> |
t ,Л |
|
|
21 |
^ 2а W |
(() + |
(t) |
|
(t) + ЧГа (t) |
|
|
4 = |
0, |
|
|
|
|
|
|
|
4 = |
0, |
|
|
|
|
|
|
|
4 |
= |
-у 1 |
lix (0 — |
(0 — 4. (01 + |
*^2(0 |
(0> |
|
|
4 |
= |
4х(t) Xi (t), |
|
|
|
|
|
|
Граничные условия |
запишутся |
следующим образом: |
||||||
|
|
|
(^о) — Vxt {to) [4i {к) |
Р*ч {to)], |
{tf) == 0) |
|
||
|
|
^2 (£o) — Va [4a (to) Pali |
|
^ { t f ) = 0, |
|
|||
^3(*o) = Vg [£3 {to) — Pelt |
*-3 {tf) = 0. |
72 ФУНКЦИИ Ш ТРАФ А В ЗА Д А Ч А Х ИДЕНТИФИКАЦИИ [ГЛ . 3
ДТКЗ явно нелинейна, и поэтому трудно надеяться на получение ее аналитического решения. Подробно выписав канонические уравнения, мы смогли понять, каким обра зом различные конкретные компоненты задачи, в част ности параметры априорного распределения, входят в ДТКЗ. В дальнейшем большое внимание будет уделено способам, которыми характеристики этого априорного рас пределения [VXl (t0), Va, Ve, цх, (t0), рд, pe] влияют на доступную для нас точность и быстроту идентификации параметров системы.
3.3. ИДЕНТИФИКАЦИЯ ПО КРИТЕРИЮ МАКСИМУМА АПОСТЕРИОРНОЙ ВЕРОЯТНОСТИ ПРИ НЕИЗВЕСТНЫХ ПАРАМЕТРАХ АПРИОРНЫХ РАСПРЕДЕЛЕНИЙ
Если параметры априорных распределений шумов объекта и измерений или каких-либо их составляющих неизвестны, решить сформулированную ДТКЗ для иден тификации системы не удается. Нередко неизвестные априори средние значения можно рассматривать как под лежащие идентификации неизвестные константы. Эти неизвестные постоянные добавляются к уравнениям объек та и наблюдений и к ДТКЗ, получаемой описанным в пре дыдущем разделе способом. Альтернативный подход ос нован на методах данного раздела. Неизвестные априор ные дисперсии, однако, приводят к значительно более существенным затруднениям, так как эти дисперсии вхо дят в неэкспоненциальную часть штрафной функции МАВ (3.2.21). Для обеспечения совместимости с иденти фикацией по методу МАВ удобно предположить, что апри орные параметры не меняются от шага к шагу и таковы, что по формуле Байеса для не зависящих от номера шага параметров априорного распределения можно написать
A[Z (kf) 1X (kf), pw,Vw, щ,, VY]
P [X (kf), fiw, Vw, Pv,Vv|Z(&/)] — |
----p [Z(kf)] |
X |
X P [X ( k f ) |Pw? Vw, Pv> Vw] p [pw] p [Vw] p [Pv] P [VvL (3.3.1)
причем считается, что априорные параметры независимы. Снова совместная плотность р [Z (fy)] не влияет на про ц е д у р у оптимизации, поскольку она явным образом не зависит от переменных состояния X (к) и априорных па
3.3] |
НЕИЗВЕСТНЫ Е АПРИОРНЫ Е РАСПРЕДЕЛЕНИЯ |
73 |
раметров juw, Vw, juv, Vv, которые являются существенным переменными при оптимизации апостериорной плотности. Поэтому оценка МАВ может быть определена максимиза цией безусловной плотности
Р [X (kf)i Z (Л/)) f^W, Vw, Цу, Vy] —•
= p[Z (kf) |X (kf), p,w, Vw, p.v, V y]p[X (kf) |fiw, Vw, цу, Vv] X
X p [fiw] P [Vw] p [f*v] P [Vv]. |
(3.3.2) |
Часто бывает удобно предположить, что априорные значе ния параметров распределены равномерно (Сейдж и Хьюза [122]), так что априорное распределение каждой компо ненты имеет вид
1
Р [Pioil — | |
max |
l |
0 |
— 1 Рш max ^ Ри> |
Piu mini |
min |
(3.3.3) |
в противном случае.
Предполагается, что все остальные априорные параметры распределены аналогичным образом. Допуская, что оцен ки априорных параметров таковы, что ограничения в вы ражениях равномерной плотности не нарушаются, оценки состояния, параметров системы и параметров априорных распределений определяются максимизацией выражения
Р [Z ( k f ) |X ( k f ) , jiw, Vw, fxv, Vvl p [X ( k f ) ] fiwj Vw, Цу, Vw]- (3.3.4)
При некоррелированных шумах объекта и измерений это выражение в точности совпадает с полученным в (3.2.21). Таким образом, необходимо выбором X(fey), fiw, Vw, Цу, Vv максимизировать
[detVx (/c0)]1/4 [d etrV wrT] [detVv]}(^ |
к°П |
|
X exp {— 0,5 [j x (&0) — Цх (k0) fv-i(ko)— |
|
|
Ч |
|
|
- 0 , 5 2 И А) — M-y — h [x (A:), fc] |^_x — |
|
|
— 0,5 2 flw(A) - |
|Kwf-i) • |
(3.3.5) |
k=k* |
VwJ |
74 ФУНКЦИИ Ш ТРАФ А В ЗА Д А Ч А Х ИДЕНТИФИКАЦИИ [ГЛ. 3
Эта штрафная функция метода МАВ получается для сле дующей модели формирования сигнала и наблюдений с гауссовскими белыми шумами w (к) и у (к):
х (к + 1) = |
<р [х (к), к) -f- Fw (к), |
(3.3.6) |
z{k) = |
h[x(fc),ft] + у (к) |
(3.3.7) |
с (неизвестными) параметрами априорных распределений
f*w = $ {W {к)}, |
Yw = |
var (w (к)}, |
Hv — $ (v (к)}, |
Уу = |
var (v (/с)} |
и (известными) параметрами априорных |
распределений |
|
|М&о) = |
$ {х (*о)}, |
|
Vx {к0) = |
var {х (к0)}, |
|
cov {w {к), v (/с)} = |
0, |
(3.3.9) |
cov (х (А’о), w {к)} — О, |
|
|
соv{x(A), v{k)} = |
0. |
|
Следует обратить внимание на то, что в этой формулировке неизвестные параметры, подлежащие оцениванию, обра зуют часть обобщенного вектора состояния X {к). Любые компоненты p,w, Vw, pv и Vv, которые известны заранее, считаются заданными и в максимизации штрафной функ ции (3.3.5) не участвуют. Максимизация (3.3.5) по пара метрам априорных распределений — стандартная задача матричного исчисления.
В результате получим
Yjiw{kf \kf) = к ^_к- f
FVW{kf |kf) Гт =
*/
2 x (/clfc/) — ф[ж{к — 1 \kf) , k — 1], *=M-1
(3.3.10)
2 ix(b\kf) -
f/c=/r„+i
—<p [x (к — 1 1kf), к — 1] — Гц№{k, |kf)) (i (A |kt) —
— ф[х(А — 1 1kf), к - 1] - ГД» {kf |kf)}1', (3.3.11)
3.3] ННИЗВЁСТНЫЕ АПРИОРНЫ Е РАСПРЕДЕЛЕНИЯ ?5
МАу |Ау) ==-p -L - S [JB(A) —h [X (Л J*/), A], (3.3.12)
/0 /С=Й„+1
Vv (fy 1A;) = j ., ■ 2 <*(*) — h lx (Л |Л,), ft] —
1 |
ft=Ar0+ l |
|
— £v (Ay1 kf)} {z (A) — h [x (А|Ay), A] — fiv (kf |Ay)}T, |
(3.3.13) |
|
где через x (A |Ay) обозначено решение задачи иденти фикации, сформулированной как задача сглаживания, получающееся путем максимизации (3.3.5) по X (Ау) с ис пользованием вместо параметров априорных распреде
лений их оценок r(iw (Ay |Ay), TVW(Ау |Ау) Гт, (tv (Ау |Ау),
Vv (Ау |Ау). Приближенные решения задачи сглаживания для класса сформулированных здесь задач даны в главе 9 книги Сейджа и Мелсы [127]. К сожалению, практиче ская реализация алгоритмов для х (А |Ау), объединенных с алгоритмами оценки параметров (3.3.10) — (3.3.13), может оказаться совсем не простой. Оценки параметров априорных распределений (3.3.10) — (3.3.13) будут ис пользованы при построении алгоритмов оценивания ме тодами градиента и стохастической аппроксимации в сле дующих двух главах. Обратимся теперь к формулировке задачи идентификации, для которой решение соответству ющей ДТКЗ может быть получен методами квазилинеа ризации и инвариантного погружения (главы 6, 7).
Удобнее минимизировать взятый с обратным знаком натуральный логарифм штрафной функции МАВ (3.3.5), что эквивалентно минимизации
/ |
= 0,51 х (А0) — цх (А0) f -1 |
+ |
|
|
|
|
|
|
кг 1 |
У%(*о) |
|
|
|
|
|
|
Ч- ОД 2 |
( IIz (к “Ь 1) |
Mv (к -Ь 1)] |
|
|
||
|
— h [х (А + 1), А + 1] I®, |
+ |
0,51|w (А) - |
nw(A) f |
|
+ |
|
|
|
Vy (л+1) |
|
|
V^r (я) |
|
|
+ |
0,5 In [det ГУ№(А) Гт ] + 0,5 In [det Vv (A + |
1)]}. |
(3.3.14) |
||||
Минимизация должна быть проведена при ограничениях, накладываемых моделью формирования сигнала (3.3.6)
76 ФУНКЦИЙ Ш ТРАФ А В ЗА Д А Ч А Х ИДЕНТИФИКАЦИИ 1ГЛ. 3
и порождаемых (3.3.7) условиях постоянства параметров априорных распределений:
х (к + |
1) = |
<р [х (к), к\ + Tw (к), |
(3.3.15) |
(Hw (А; + |
1) = |
M-w (к), |
(3.3.16) |
VW(A + |
1) = |
YW(A), |
(3.3.17) |
l*v (A: Jt-1) = |
цу (к), |
(3.3.18) |
|
Vv (A + |
l) = |
Vv (A). |
(3.3.19) |
К этой задаче можно непосредственно применить дискрет
ный принцип максимума или уравнения |
Эйлера — Ла |
|
гранжа. Определим гамильтониан: |
|
|
Н [х(/е), w (к),%(к + |
l),v w (к + 1), |
|
|
Sw (к + 1), yv (к |
1), Sv (к Jf- 1), |
Mw (к), Yw {к), |иу {к), Vv (к), к] = - i - 1ъ (к + 1) — (А:+ 1) — |
||
— % [х (к), w (к), к |
1] ||^-i(fc+i) + — 1w (А) — fiw (kfv-i(k) + |
|
+ |
In {del ГVw (к) Гт} + |
|
-1—— In {det Vv (k -j- 1)} -f- XT (k -f- 1) {ф [x (k), A:] -j- Tw (A:)} -|-
|
-f- Yw (k -j- 1) Цу/ (k) |
Sp (3W(k -f- 1) rV w (к) Гт} -f- |
||||
+ |
Yy |
+ 1) Mv (A:) + |
Sp (3V(A: + |
l)Vv(A + l)>, |
(3.3.20) |
|
где |
X, Yw и Yv — векторные, a S w и Sv — матричные мно |
|||||
жители |
Лагранжа. |
|
|
|
|
|
Канонические уравнения запишутся в виде |
|
|||||
:(к + 1 \к}) = ф I* (А: |kf), к] |
ЦТ |
(3.3.21) |
||||
|
|
дер [х (k\kf), /с] |
|
|||
- T V W{к\Щ)Г- |
|
|
X (к |kf) -1- I > w (к |kf), |
|||
|
|
Эх (к |kj) |
|
|
||
|
|
Эср [х (к |к^), к] |
X(к |А^) + |
|
||
к‘ (к + 1 1kf) = | |
|
| |
|
|||
|
|
дх (к |kf) |
|
|
||
|
|
dhT [х (к + |
1 |kf) , к + 1 ] |
v ^1(Л + 1 1Af^ X |
|
|
|
|
дх (к + |
1 |kf) |
|
|
|
X (z (к + |
1) — M'v (к |kf) — h [x (A: -f- 1 |kf), к -j- 1]}, |
(3.3.22) |
||||
3.3] |
НЕИЗВЕСТНЫЕ АПРИОРНЫ Е РАСПРЕДЕЛЕНИЯ |
77 |
||||
|
|
jliw (А + 1 1А/) = |
Mw (А| А/), |
(3.3.23) |
||
Yw (А + |
1 1А/) = |
Yw (А |ht) — Г |
9«р\х (к j kf), Ус] "1_1' Т |
|||
9х (ft |fty) |
%(A I kf), |
|||||
|
|
|
|
|
||
|
|
|
|
|
|
(3.3.24) |
|
Г V w (к + 1 1kf) Г т = r v w (А |kf) Г т , |
(3.3.25) |
||||
Sw (А + |
1 1kf) = 5 W(А |kf) - |
0,5 [Г\+ (A |k f) Г т ]-Х |
|
|||
|
|
ЭМ*- [x(ft| ft,), k]-'~u r |
1(A|A4>T(A| kf) X |
|||
— 0 ,5 rV w (A |Ay) Г |
|
|
||||
|
|
9x (ft |kf) |
|
|
|
|
|
|
dtp [x (ft |kf), ft] |
|
|
(3.3.26) |
|
|
|
X |
r V w (A: |kf) Г т , |
|||
|
|
9x (ft |kf) |
|
|
|
|
|
|
Цу(A + 1 1kf) = |
fiv (A|A;), |
(3.3.27) |
||
Yv(A + |
1 j kf) = |
Yv(A| Ay) + |
\уг (к\к{){г{к + 1) — pv(A| kf) — |
|||
|
|
— h [x (k'-\- 1 1к/), к -f- 1]}, |
(3.3.28) |
|||
|
|
Vv (A + |
l|A,) = Vv (A|A,), |
(3.3.29) |
||
Bv (A -j- 1 1kf) |
- Bv (A |kf) -)- 0,5Vv (A |kf) |
x |
|
|||
X {Z(k -f |
1) — juiv (A| kf) — h [x(A + |
1 ] kf), A + |
1]} X |
|||
X {Z (к + |
1) — Ду (A |kf) — h [x (A -f 1 1kf), к -j- 1]}т X |
|||||
|
|
X Yv1(A |kf) - |
0,5V;1(A |kf). |
(3.3.30) |
||
Для важного случая, когда шумы объекта и наблю дений коррелированы между собой, штрафная функция
(3.3.14) |
принимает вид |
|
|
|
|
|
||
J = 0,51х (А0) — цх (А0) |
+ |
0,5 J w (А0) — p w (А0) ||y-i((Co)+ |
||||||
|
kr |
i |
|
|
|
|
|
|
+ |
0,5 2 |
{ | У (A) |]y-4ft) + |
0,5 In [det Y (A)}}, |
(3.3.31) |
||||
где |
k—k0 |
|
|
|
|
|
|
|
|
|
Г [w (ft + 1) - |
|
(fc + 4)1 |
|
|
||
|
У (A) = |
|
] , |
(3.3.32) |
||||
|
_z (ft -P 1) — h [x (ft + 1), ft + |
|||||||
|
1] |
|
||||||
|
Y (ft) = |
r v w (fc + |
i ) r T |
r v w v (ft + |
i) |
(3.3.33) |
||
|
vvw (ft + 1) rT |
Vy(ft+ 1) |
|
|||||
|
|
|
||||||
78 ФУНКЦИИ Ш ТРАФА В ЗА Д А Ч А Х ИДЕНТИФИКАЦИИ (ХЛ. Й
Эта функция штрафа максимизируется при ограничениях
X (к + 1) = Ф [х (к), к] + Fw (к),
Pw {к Д- 1) = M-w {к), |
(3.3.34) |
|||
1Чу (к + |
1) = |
fiv (k), |
||
|
||||
Y (* + |
!) = |
Y (к). |
|
|
Используя теорию оптимизации, теми же методами, что и раньше, можно получить ДТКЗ. В общем случае формулы оказываются слишком громоздкими и поэтому здесь не приводятся. Для любой конкретной задачи фор мулировка ДТКЗ оказывается не представляющим прин ципиальных трудностей, но, возможно, и очень утомитель ным упражнением. Несколько примеров будет приведено в следующих четырех главах, где рассматриваются вы числительные методы, использующие эту ДТКЗ.
Пример 3.3.1. Рассмотрим простую систему с извест ным гауссовским начальным распределением
х (к -1- 1) = х {к),
в которой скалярный наблюдаемый сигнал искажен гаус совским белым шумом с нулевым средним и неизвестной дисперсией
z (к) = Н (к) х (к) -f- v (к), к = 1, 2, . . ., kf.
Другими словами, в этом примере речь идет о задаче оценки значения постоянного сигнала в присутствии адди тивного белого шума с неизвестными средним значением и дисперсией. Мы хотим идентифицировать х и VB, мак симизируя плотность
Р [X {kf), Z {к,) |VB] = p [Z {kf) |X {kf), Vv] p [X {к{) |ТД1.
Очевидно, что
<E{z (к) |x (к), Vv} =: H (/г) x (к),
xav{z(k)\x(k), Vv) = VB, var {x (k + 1) |x {k)} = 0,
3.3] НЕИЗВЕСТНЫЕ АПРИОРНЫ Е РАСПРЕДЕЛЕНИЯ 79
так что |
|
|
p [X (k f),Z(kf)\Vv] = |
|
|
_ |
1______ |
{— 0,51|х(0) ;.ixf - i ! X |
~~ (2я)1/г (detVx)1/,:! |
6ХР |
|
kS |
|
|
X П |
-----тг-г - ехР (— ° ’5F^ [z (А) — Н (А) х (А)]2}. |
|
Эквивалентная штрафная функция, подлежащая мини мизации, имеет вид
J = 0,51х (0) — цх f - i +
V X
kf
+ 0,5 2 Vv1 [z (к) — H (A) x (A)]2+ 0,5A, hi F„. fe=i
Для удобства допустим, что Vx = оо. Это эквивалентно предположению о полной априорной неопределенности относительно параметра х. Продифференцировав по каж дой из неизвестных величин х (к) и Vv и приравняв про изводные нулю, получаем
*/ |
! *1 |
|
х (kf I А,) = [ 2 |
Нт (к) Н (к) |
2 н т (A) z (к), |
|
kf |
|
К (А/1kf) = |
4 - 2 [2 (*) — H (A) x (A; I A/)]2. |
|
|
/ J£T=1 |
|
Для этого чрезвычайно простого примера оценку х уда
ется определить без знания Vv. Затем |
оценка х (kf |kf) |
используется для определения оценки |
(А/ |Щ). |
Желательно получить решение в |
последовательной, |
или рекуррентной, форме. Для рассматриваемого
простого примера |
последовательностный алгоритм иден |
тификации можно |
получить по индукции. Прежде всего |
в соответствии с |
(3.1.22) определим |
|
к1 |
М (kf) = М (kf, 0) = 2 Ит (А) И (А)
К=1
80 ФУНКЦИИ Ш ТРАФ А В ЗА Д А Ч А Х ИДЕНТИФИКАЦИИ [ГЛ . 3
и затем отметим, что
k/-i |
|
М (к,) = 2 Нт (/с) Н (к) + |
R T(kf) Н (kf) = |
й=1 |
|
|
= M(kf — 1) + НТ(А:/) Н (kf). |
С помощью леммы об обращении матриц получим |
|
М-1(kf) = М-1(kf - 1) - |
М-1(kf - 1) Нт (kf) х |
X [1 + Н (kf) М-Цк, - 1) Нт (А/)]-1Н (kt) М-1 (kf - 1). |
|
Объединяя формулы для двух последовательных шагов
оценивания |
fc,-i |
|
|
X(kf |kf) = M 1 |
|
||
(kf) |
2 н т (к) z (к), |
||
|
|
/с=1 |
|
х (kf - 1 1kf - 1) = 1УГ1 |
|
Ч |
|
(kf - |
1)2 |
Нт (к) z (к), |
|
|
|
ft=1 |
|
получим
х (kf |к/) = M 1(kf) M (kf — 1) x (kf — 1 1kf — 1) -f-
+ M_1(kf) R r (kf) z (kf).
Снова воспользовавшись леммой об обращении для М'1(kf), окончательно получаем следующее соотношение, в котором опущен индекс / и используется сокращенное обозначение х (к) = х (к |к):
1 1УГ1 (к — 1) Нт {к)
х (к) = х (к — ) -f-
1 + Н (к) М-1 (к — 1) Нт (к)
X [2 (к) — Н (к) X (к — 1)].
Точно так же можно получить последовательностную фор му записи для оценки Vv (к). Именно,
[г (к) — Н (к) х (к — 1)Р 1
К {к ) = - r [ ( ft- 1) ^ ( fc- 1) + 1 + Я (/с) М-1 (/с — 1)НТ (&) J '
Эти два алгоритма идентификации, или оценивания, реа лизуются совместно с эффективным в вычислительном
