книги из ГПНТБ / Сейдж Э.П. Идентификация систем управления
.pdf3.2] МАКСИМУМ АПОСТЕРИОРНОЙ ВЕРОЯТНОСТИ 61
где и (£) — винеровский процесс. Точно так же соотно шения (3.1.9) — (3.1.13) следует, вообще говоря, полу чить строгим образом с помощью стохастического анализа (Сейдж и Мелса [127]). Сделанное замечание относится и к другим предельным переходам, встречающимся в дан ной главе.
Будем обозначать последовательности х (к0), х(/с1),
. . ., х (kf) и z (kj), z (к2), |
. . ., z (kf) соответственно через |
||
X (kf) |
и Z (kf). Аналогично непрерывные реализации х (t) |
||
и z (<) на отрезке U0, tf] обозначаются через X |
(tf) и Z (tf). |
||
Через |
р [X (kf) |Z (kf)] |
и р [X (tf) |Z (£/)] |
обозначим |
условные плотности вероятности X относительно резуль татов измерений Z. В дальнейшем предполагается, что плотности р [х (к0)) и р [х (t0)] известны и являются нор мальными со средним рХо и ковариационной матрицей VXo.
Наилучшая оценка обобщенного вектора состояния х на рассматриваемом интервале времени зависит, вообще говоря, от критерия, используемого для определения наи лучшей оценки. В данном случае под «наилучшей оценкой» понимается оценка, определяемая путем максимизации по X условной плотности р [X |Z] на всем интервале наблюдений. Получающаяся оценка известна под назва нием байесовской максимально правдоподобной или оцен ки максимума апостериорной вероятности (Сейдж [116], Сейдж и Мелса [12 7]). В дальнейшем все выкладки будут проводиться для дискретного случая, а для непрерывного случая мы ограничимся лишь формулировкой оконча
тельных результатов. |
Байеса к р [Х(А^) |Z (kf)], по |
|||
Применяя |
формулу |
|||
лучим |
|
р [г (kf) \ x ( k f) ] P [ X ( k l)] |
|
|
Р [X (kf) |Z (&/)] |
(3.2.15) |
|||
р[Ъ (kf)] |
||||
|
|
|
||
Из (3.2.2) |
ясно, что |
при известном х (к) |
плотность |
|
р [ъ (к) |х(&)] |
является гауссовской, поскольку v (к) — га |
|||
уссовская величина. Поэтому при данном X |
(к}) |
|||
p[Z(kf)\X(kf)) =
exp { — §■(* (* )-h [x (к), /с])Т V;1 (k)(z(k) — h[x(k), /с])|
(2л)й/2(let [Vy (*)]V«
(3.2.16)
62 ФУН КЦИ И Ш ТРАФА В ЗАД АЧ АХ ИДЕНТИФИКАЦИИ [ГЛ . 3
Используя определение условной вероятности
р[о,Р1=р[а|Р]р[Р], |
(3.2.17) |
можно записать
Р[X (&/)] = р [х (&,)' X (kf — 1)] р [х (kf — 1) |X (kf — 2)]...
•••Р [х (hi) |х (&0)] р [х (&„)]. (3.2.18)
Так как w (к) — гауссовская марковская последователь ность, то последовательность х (к) также является мар ковской и
Р[х(& /)|Х(/с,— 1)] = p[x(kf)\x(kf — 1)]. (3.2.19)
Следовательно, р [Х(/с/)1 образована из гауссовских ком понент
ft/
Р [X (kf)] = р [х (А0)] П Р Iх (к) Iх (к — 4)1 (3.2.20) /С—
(где р [х (к) |х (к — 1)] — гауссовские плотности) и, со гласно (3.2.1), имеет среднее значение <р [х (к — 1), к — 1] и ковариационную матрицу
Г [х (к - 1), к — 1] Vw (к - 1) Гт [х (к — 1), к - 11.
р [Z (&/)] не зависит от х (к), и Z (к/) является известной величиной в процессе максимизации, который мы должны провести. Поэтому р [Z (к/)] можно рассматривать по от ношению к этой максимизации как нормировочную кон станту. После простых преобразований (3.2.15) в обозна чениях (3.2.16) и (3.2.20) можно переписать как
Р [X (kf) |Z (kf)] =
*/
kf
—2 l!x (*) — cp [ж(A: — 1),/с— l]||n-i(^D —
ft=fco+l
- 4 - и * 0) + м & о ) г у-х }, (3-2-21)
3.21 |
|
МАКСИМУМ АПОСТЕРИОРНОЙ ВЕРОЯТНОСТИ |
63 |
||||||
где |
предполагается *), |
что А не зависит |
от х (к) |
и |
|||||
|
|
|
Q (А) = Г [х (к), к] Vw (к) Гт [х (к), к]. |
(3.2.22) |
|||||
Отсюда |
ясно, что максимизация (3.2.21) относительно |
||||||||
X (kf) |
эквивалентна |
минимизации |
|
|
|
||||
J = -g -1х (/с°) “ Р* (*о) ty-i + |
|
|
|
|
|||||
|
|
|
kf-i |
|
|
|
|
|
|
+ 4 " S H * + l ) - h [ x ( A + l ) , A + l ] f х |
+ |
||||||||
|
|
Z |
k=/C„ |
|
|
|
^ |
y v '(,c+1) |
|
|
|
|
|
|
+ i |
2 |
iw (* )f w |
(3.2.23) |
|
|
|
|
|
|
|
fe=/f0 |
W |
|
|
Аналогично |
максимизация |
p[X(ify) |
|Z (i/)] |
эквива |
|||||
лентна |
минимизации |
|
|
|
|
|
|||
/ ' = |
4 |
- l * ( f o ) - | * * (to) fv- x + |
|
|
|
|
|||
|
|
4 |
|
|
VXo |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
+ |
4 * |
5 |
(1z (*) - |
h Iх W. *!1 1 1 ^ |
+ |
II (w (t) Ii;-1(0} dt |
(3.2.24) |
||
при ограничении, задаваемом дифференциальным урав нением (3.2.5). Соотношение (3.2.24) задает штрафную функцию метода наименьших квадратов, которая при правильном выборе априорных дисперсий и выполнении предположений о гауссовости х (к0), v (к) и w (к) эквива лентна штрафной функции максимума апостериорной вероятности.
Форма уравнения (3.2.23) такова, что напрашивается применение дискретного принципа максимума или дис кретных уравнений Эйлера — Лагранжа (Сейдж [116]). Гамильтониан задается формулой
Н [х (к), w (к), % (к + 1), А] =
= 4 -| .(A + l ) - S |
[*<*), W(A), к + l ] f v- 1(t+1) + |
|
+ ~2~I w (к) f -1 + |
(к + 1) ср [х (к), А] + |
|
+ |
№ (k + \)T[x(k),k]w(k), (3.2.25) |
|
*) Это справедливо, если Г не зависит от х и является само по себе полезным результатом.
G4 ФУНКЦИЙ Ш ТРАФА В ЗА Д А Ч А Х ИДЕНТИФИКАЦИИ [ГЛ. 3
в которой
д
X [x(ft), w(ft), ft -f 1]
= h {ф [х (к), А:] + Г [х (к), ft] w (к), к + 1} =
= h[x(ft + l), * + 1]. (3.2.26)
Канонические уравнения и граничные условия имеют вид
£(* + 11*,) |
ш |
|
|
|
9Х (к + 1) x(ft)=x(&\kf) |
I (к01ко) = |
V - [х (к0) — jlix (к0)], |
|
X(к |kf) = |
дН |
, *-(*/1*/) = о, |
|
||
|
дх (к) х(к)=х(к\К1) |
|
|
дН |
= 0. |
|
дуг (к) |
|
|
,w(ft)=w(fc) |
|
(3.2.27)
(3.2.28)
(3.2.29)
Этими каноническими уравнениями и соответствующими граничными условиями определяется нелинейная двух точечная краевая задача (ДТКЗ), решением которой яв ляется искомая оценка при фиксированном интервале сглаживания.
Довольно трудоемкие вычисления позволяют получить следующую развернутую запись канонических уравнений:
х (к + 1 1к,) = |
<р [х (к |kf), к] — |
|
|
|
|
— Г [х (ft |ks), к] Vw (ft) Гт [х (к |kf), ft] Ч^Х (ft [ ft,), |
(3.2.30) |
||||
jt(ft + i|ft,) = |
»F-14ft|ft/) + |
|
|
|
|
9hT [x {к + 1 I kf) ] . |
|
|
|
|
|
+ |
a; (a . i l , r v ; ( t + 1 ) l z ( 4 + 1 ) - |
|
|
||
|
— h [x(ft ф-1 1ft,), ft -j- 1]], |
(3.2.31) |
|||
где обозначено: |
|
|
|
|
|
9q>T [x (к I fc,), ft] |
9 [Г [x (* |k}), k] w (fc)]T |
|
|
||
чг = |
дх. {к |kf) |
9x (fc |kf) |
|
|
|
|
|
|
|||
w (ft) = - |
Vw (*)ГТ lx (k |kf), ft] Ч ^Х (ft |kf). |
(3.2.32) |
|||
|
|
|
|
||
Слагаемые в формулах для х (ft -(- 1 |
|ft,) и X (ft |
1 |
|ft,) |
||
содержат квадратичные относительно |
X выражения. |
При |
|||
использовании процедуры инвариантного погружения чле-
3.2] |
МАКСИМУМ АПОСТЕРИОРНОЙ ВЕРОЯТНОСТИ |
65 |
ны степени выше первой по X исчезают. Поэтому при ре шении методом инвариантного погружения можно поль зоваться эквивалентным выражением
dq>T [х (к|ftp, ft]
(3.2.33)
дх (ft |fty)
Эти уравнения необходимо решить при двухточечных граничных условиях
X(/с01А0) ------ |
[х (*0) - |хх(/с0)], X(к, |к,) = 0. |
(3.2.34) |
Двухточечную краевую задачу для непрерывного слу чая можно получить, устремляя к бесконечности плот ность точек фиксации в уравнениях (3.2.30) и (3.2.31) или применяя непрерывный вариант принципа максимума (Сейдж, [116]) для минимизации функции штрафа (3.2.24) при ограничении, задаваемом дифференциальным урав нением (3.2.5). При использовании последнего подхода вводится гамильтониан
H[x(t), w(/), X(t), t] =
= 4 иz (о - ь [x (о, t] rv;X(()+ 4 - иw (o fv-i (0+
4- %T (t) {f [x (t), t] + G [x (t), t] w (t)} (3.2.35)
и выписываются канонические уравнения
х == Д | -, |
М*о) = V ~ (0 [x (/o) — Их (*<>)], |
Х = |
= 0, |
дх. |
(3.2.36) |
ЭЯ = 0.
dvt
Проводя необходимые преобразования, получим двухто чечную краевую задачу
X = f [X (f), t] - G [x (t), t] 4!\w (t) GT [x (t), t] X(t), |
(3.2.37) |
||||
X = - , T.^ (0, t] y - i |
щ ^ |
_ |
h |x (f), *]} _ |
|
|
Эх (t) |
|
|
|
|
|
afT [x (t), |
c] |
a д т |
(t) g |
f* (*). 0 Y w (* )& т [x (0 . |
4 ) |
ax (t) |
M 0+ |
|
|
ax (t) |
M 0 |
|
|
(3.2.38) |
|||
|
|
|
|
|
|
3 Э. П. Сейдж, Дж. Л, Мелса
60 ФУНКЦИИ Ш ТРАФА В ЗА Д А Ч А Х ИДЕНТИФИКАЦИИ [ Г Л . 3
с начальными и конечными условиями
Ь(«'а) - - V'J (I) [х (t0) - |НХ («о)], к (//) = 0. (3.2.39)
Переменная состояния в этих формулах может и должна записываться в виде х (t \tf), чтобы подчеркнуть, что если найдено решение этой двухточечной краевой задачи, то тем самым получено решение задачи сглаживания, или оценивания, х по наблюдениям до момента tf. В последу ющих четырех главах мы будем заниматься решением двухточечной краевой задачи (3.2.37) — (3.2.39) для по лучения решения как задачи сглаживания х (t |tf), так и задачи фильтрации х (t \t). Представляет интерес свя зать принятые выше модели формирования сигнала и на блюдений с задачей идентификации. Совершенно такая же операция может быть проделана в дискретном случае.
Г ” Рассмотрим обобщенную задачу оценивания и иден тификации, в которой модель формирования сигнала имеет вид
х = f [х (t), a, t] + G [х (г), Ь, г] w (t) -f- с. (3.2.40)
Модель наблюдений записывается в виде
z (t) = h [х (t), d, t\ + e -J- v (t). |
(3.2.41) |
Здесь a, b, c, d и e — постоянные параметры, подлежащие идентификации. Поскольку они постоянны, справедливы дифференциальные уравнения
а = 0, b = 0, с = 0, (1 = 0, ё = 0. |
(3.2.42) |
Эта модель является достаточно общей, чтобы охватить значительное число возникающих при идентификации ситуаций: с может представлять неизвестное среднее значение шума на входе объекта; е — неизвестное сред нее значение ошибки наблюдений; b можно использовать для обозначения неизвестных параметров входного шума объекта; a n d — другие неизвестные параметры моделей формирования и наблюдения сигнала.
Определив обобщенный вектор состояния
хт = [хт ат Ьт ст dT ет], |
(3.2.43 |
3.2] МАКСИМУМ АПОСТЕРИОРНОЙ ВЕРОЯТНОСТИ G7
легко убедиться, что такая задача идентификации пол ностью укладывается в рамки модели (3.2.5) и (3.2.6), Для того чтобы, решая ДТКЗ (3.2.37) — (3.2.39), полу чить решение задачи идентификации по критерию мак симума апостериорной вероятности, необходимо, чтобы неизвестные случайные параметры обладали гауссовской плотностью распределения с известными средними зна чениями и дисперсиями. При невыполнении этих условий решение ДТКЗ тем не менее гарантирует получение оценки по методу наименьших квадратов с функцией штра фа (3.2.24).
Четыре вопроса, представляющие интерес при иден тификации, оказались не охваченными моделью (3.2.40) — (3.2.42):
1) задачи с неизвестной дисперсией ошибки измерений, 2) задачи, в которых хотя бы одна из помех (входной шум или шум измерений) отличается от белого шума,
3)задачи оценки зависящих от времени параметров и
4)задачи с коррелированными шумами на входе и выходе объекта.
Штрафные функции двух следующих разделов позво лят нам решать задачи идентификации с неизвестными дис персиями шума на выходе (т. е. ошибок измерений). За дачи с отличным от белого («цветным») шумом на входе Удается решить, расширяя вектор состояния таким обра зом, чтобы входной шум для расширенного вектора со стояния был белым. В случае «цветного» шума измерений можно применить многократное дифференцирование век тора наблюдений z с тем, чтобы в результате в продиффе ренцированном векторе наблюдений присутствовал уже белый шум. У Сейджа и Мелсы [127] можно найти под робное обсуждение задач с «цветными» входными и выход ными шумами.
Задачи с переменными параметрами можно исследо вать, представляя неизвестный параметр как случайный процесс, порожденный марковской моделью
a = Aa(0 + BTj(0, |
(3.2.44) |
где 1] (t) — гауссовский белый шум с известными средним значением и интенсивностью, а а(() — неизвестный пере менный параметр. Для осуществления идентификации
3*
68 ФУНКЦИИ Ш ТРАФ А В ЗА Д А Ч А Х ИДЕНТИФИКАЦИИ [ГЛ . 3
по методу максимума апостериорной вероятности необ ходимо, чтобы априорное распределение параметра а (t) было гауссовским с известными средним значением jna (£0) и дисперсией Уа (t0).
Наконец, имеется целый ряд задач идентификации, |
|||||
подобных задаче, схема которой приведена на рис. |
3.2.1, |
||||
|
когда |
входной сигнал, |
|||
|
искаженный |
дополни |
|||
|
тельной помехой, досту |
||||
|
пен наблюдению. Ясно, |
||||
|
что в |
этом случае как |
|||
|
дискретная |
модель |
|||
|
(3.2.1) |
— (3.2.4), |
так и |
||
|
непрерывная |
модель |
|||
|
(3.2.5) |
— (3.2.7) |
сохра |
||
|
няют силу, с тем лишь |
||||
Рис. 3.2.1. Простая задача |
изменением, |
что |
шум |
||
идентификации. |
объекта |
(т. |
е. входной |
||
|
шум) |
и |
расширенный |
||
вектор шума наблюдений должны рассматриваться как
коррелированные процессы, |
так что |
|
ё (w (к) vT (/)} = |
Vwv (к) 6К (к - ;), |
(3.2.45) |
Ш{w (0vT (т)} = |
*FWV (t) 6D (t — т), |
(3.2.46) |
4"wv (t) = |
lira 7\.Vwv (tk). |
(3.2.47) |
|
г^-f |
|
T j-o
В результате изменятся эквивалентные штрафные функ ции для задачи идентификации по максимуму апостери орной вероятности. Функция штрафа, соответствующая
(3.2.33), примет вид
j = -J-II х (&о) — Дох (&о) fv-l +
+ |
S I У ( |
I y I- |
й > |
()“ |
/ |
£i — ) |
(3.2.48) |
где |
й=/с0 |
|
w(k ф- 1) |
|
vw (к„) |
|
|
|
|
|
|
(3.2.49) |
|||
У(*) = |
z(k + |
1) — h lx (к + |
1), к 4- 1] |
||||
|
Vw (к ф -1) |
Vwv (к ф- 1)" |
|
||||
Y (к) - [Vvw (к + |
1) |
VT(ft + |
l) . |
(3.2.50) |
|||
3.2] МАКСИМУМ а п о с т е р и о р н о й в е р о я т н о с т и 69
Легко убедиться, |
что |
|
3 п (к) |
Sia (к) |
|
|
||||
|
|
|
|
|
|
(3.2.51) |
||||
|
|
Y-1 (к) = а^ {к) |
а22 (к) |
|
||||||
где |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
Еп (к) = [Yw (к + |
1) — Ywv {к + |
1) Vy1 (к + |
1) V™ {к + 1)] \ |
|||||||
|
|
|
|
|
|
|
|
|
|
(3.2.52) |
а12(к) = - |
Вп (к) vwv(к +1) v;1(к +1), |
|
(3.2.53) |
|||||||
В2» (к) = [Уу (ft + |
1) — Vvw (к + |
1) Vw1(к + |
1) Vwv (к + I)]"1. |
|||||||
|
|
|
|
|
|
|
|
|
|
(3.2.54) |
|
Для непрерывного случая функция штрафа (3.2.24) |
|||||||||
заменится |
на |
|
|
|
|
Ч |
|
|
||
|
|
|
|
|
|
|
|
|
||
|
/ ' = |
IIX (f0) — Их (*o)fv-i + |
^ 1у (*) |
|
(3.2.55) ’ |
|||||
|
|
|
|
|
х о |
|
(о |
|
|
|
где |
|
|
|
Г |
|
w (t) |
|
|
|
|
|
|
|
|
|
|
|
(3.2.56) |
|||
|
|
|
У ") — IZ(t)— h[x(t), «I |
|
||||||
|
|
|
|
|
||||||
|
|
|
|
Г |
^W |
(0 |
\ v |
( f) ' |
|
(3.2.57) |
|
|
|
Y W - |
1_ЧД№(() 4Tv(t) _• |
|
|||||
Так как |
|
|
|
|||||||
|
|
|
Sn (0 |
Sia (01 |
|
|||||
|
|
|
Y-MO |
(3.2.58) |
||||||
|
|
|
_s5(0 |
SaaWJ ’ |
||||||
где |
|
|
||||||||
|
|
|
|
|
|
|
|
|
||
|
Вц (t) = |
['Fw(0 — 'FWvW'Fv (0 ^vw(01 1’ |
(3.2.59) |
|||||||
|
a12 (0 = |
- En (0 'Fwv (t) V ? |
(t), |
|
(3.2.60) |
|||||
|
s 22 (t) = |
[4"v (t) - |
’Fvw (t) 'Fw1(t) *FWV (0Г\ |
(3.2.61) |
||||||
штрафную |
функцию |
(3.2.55) можно записать в виде |
||||||||
|
|
|
|
|
|
|
Ч |
|
|
|
j ' |
= 4 r их (t0) - |
их (to) f - i + |
4- 5<I z (o - |
h [x |
i2s“(f)+ |
|||||
|
6i |
|
|
|
Xp |
|
*0 |
|
|
|
|
|
|
V~ |
“ ; |
|
|
|
|||
+ |
2wT (<) a12 (t) [z (0 - |
h [X(t), t]1+ |
IIW(0 |||)l(,)} dt. |
(3.2.62) |
||||||
Минимизируя эту функцию штрафа при ограничении, задаваемом уравнением (3.2,5), непосредственным
70 ФУНКЦИИ Ш ТРАФ А В ЗА Д А Ч А Х ИДЕНТИФИКАЦИИ [ГЛ. 3
применением принципа максимума после несложных алгебраических преобразований можно получить кано нические уравнения (ДТКЗ)
х = |
f [£ (f), t] - |
G [х (t), t] {’Fw (t) - |
4TWV (t) WZ1(t) V vw(0} X |
||||
|
X GT [X (t), t] X(t) — G [X (t), t] Wwv (t) Tv1(0 |
x |
|||||
|
|
|
|
X {z(0 — h [x (0, <]}, |
(3.2.63) |
||
l = |
дЬ ax (t) |
|
(t) {Z (t) h [i (t), /]> - |
dx (t) |
k(t) -f- |
||
|
|
||||||
|
+ ahTM |
|
,f1- |
(*) ’P’vw (0 GT [X (t), t) %(t) - |
|
||
|
dx(t) |
|
|
|
|
|
|
|
d { l r {t)G |
[ x ( t ) , t ] } } |
(0 (2 (0 - h [ x ( 0 .« ] } + |
||||
|
дж (t) |
|
4TWV |
||||
|
|
|
|
|
|
||
9{»,T(O G [i(t),0[VwW -4 rwv(t)4r;1(t)4rvW(f)]GT [£(t),t]}. _ |
|||||||
4-------------------------------------- |
|
|
|
dx---------------------------------------(t) |
|
|
k[t). |
|
|
|
|
|
|
(3.2.64) |
|
|
|
|
|
|
|
|
|
Эти канонические уравнения нужно решать при двухто чечных граничных условиях
ь (to) = y io lx (0) - 11Х(0)1, l (tf) = 0. (3.2.65)
В зависимости от вычислительного метода, применяемого для решения ДТКЗ, получаемая оценка служит решением задачи фильтрации или сглаживания состояния системы и параметров.
Пример 3.2.1. Рассмотрим идентификацию параметра а и неизвестного среднего значения ошибки измерений е для системы первого порядка, показанной на рис. 3.2.1. Модели формирования сигнала и наблюдений принимают вид
хх = |
—ахх (t) |
-f- w (t), |
li (t) — %i (t) + v (t) + e, |
£2(t) = w (t) + 0) (t), |
|
причем используются |
уравнения |
|
|
a = ё = |
0 |
для задания ограничений, согласно которым неизвестные случайные параметры должны быть постоянными. Слу
