книги из ГПНТБ / Сейдж Э.П. Идентификация систем управления
.pdfГлава 3
ФУНКЦИИ ШТРАФА В ЗАДАЧАХ ИДЕНТИФИКАЦИИ
3.1.ВВЕДЕНИЕ
Вэтой главе будут исследованы некоторые функции штрафа, которые можно использовать в задачах иденти фикации. Под функциями штрафа для задач идентифика ции понимаются потери или штраф, связанные с недости жением абсолютно точной идентификации. К примеру, если истинное значение подлежащего определению пара
метра равно 0, а получаемая оценка равна 0, подходящей функцией штрафа может служить (0 -т-0)2. Собственно говоря, истинное значение параметра 0никогда точно не известно; именно это и является основной причиной воз никновения задачи идентификации. Следовательно, бо лее разумным является использование статистических
характеристик отклонения 0 от 0. В общем виде в случае векторного параметра 0 эта характеристика может быть записана в виде
|
|
|
ОО |
M = 8{C[Q{Z) | Z }= |
$ C[Q(Z)]p(Q\Z)dQ = |
||
|
|
|
— со |
ОО |
ОО |
ОО |
|
= 5 |
$ ... |
5 |
С [0 (Z)] р (01Z) <50! d02... dQN. (3.1.1) |
— СО — ОО |
— ОО |
|
|
Здесь С [0 (Z)] означает цену ошибки (штраф за ошибку). Ошибка определяется формулой
0J(Z) =- 0 — 0 (Z), |
(3.1.2) |
где 0 — истинное значение параметра и 0 (Z) — оценка параметра, основанная на некотором наблюдении Z. Фор мула (3.1.1) представляет условное математическое ожида ние штрафа за ошибку в оценке параметра и получается непосредственно применением основной теоремы о средних
52 ФУНКЦИИ Ш ТРАФА В ЗА Д А Ч А Х ИДЕНТИФИКАЦИИ [ГЛ. 3
значениях. Наиболее распространенными функциями цены ошибки являются квадратичная
С [0 (Z)] = II0 - 6 (Z) I = [0 - e (Z )fs [ 0 - е (Z)], |
(3.1.3) |
где S — неотрицательно определенная симметричная мат рица, и ступенчатая
1/е, |
II 0 ( 2) I > е , |
Q0(Z)1 = |
(3.1.4) |
О, |
10(2)1 < 8 . |
Минимизируя (3.1.1) оптимальным выбором 0 (Z) при квадратичной цене ошибки вида (3.1.3), легко прийти к
выводу, что наилучшей оценкой 0 (Z) является условное математическое ожидание
оо
0(Z) = ^ 0p(0|Z)d0. |
(3.1.5) |
Критерий (3.1.4) часто рассматривается при достаточно малом е, так что эквивалентной (3.1.4) становится функ ция штрафа
N |
|
С 10 (Z)] ------П * п 10, — Oi(Z)]. |
(3.1.6) |
i=l |
|
Подставляя (3.1.4) в (3.1.1) и переходя в полученном вы ражении к пределу при е, стремящемся к нулю, или непо средственно подставляя (3.1.6) в (3.1.1), получим штраф ную фун ;цию максимума апостериорной вероятности
Я — — р [0(Z)|Z], |
(3.1.7) |
когда необходимо выбором 0 (Z) минимизировать Я. Та
кая оценка 0(Z) называется оценкой максимальной апо стериорной вероятности (МАВ), поскольку эта оценка по лучается максимизацией условной плотности вероятности р[0| Z] и обычно находится из уравнения
дР (01Z) |
= 0. |
(3.1.8) |
|
90 |
|||
®=®MAB(z ) |
|
||
|
|
В дальнейшем мы будем часто использовать оценки МАВ.
3.1] |
ВВЕДЕНИЕ |
53 |
Более традиционной, чем штрафная функция максиму ма апостериорной вероятности, является штрафная функ ция максимального правдоподобия (МП); в этом случае максимизируется условная плотность вероятности наб людений относительно параметра 6. Оценка определяется из уравнения
д р (Z | 8)
(3.1.9)
ее ®=»МП<2)
при этом параметру 0 присваивается значение, при кото ром наиболее вероятно появление наблюдавшейся реали зации Z. Легко понять, что оценки МАВ и МП тесно свя заны, поскольку, согласно формуле Байеса,
Р (GIZ) = Р (Z 10) р (0)/р (Z). |
(3.1.10) |
Поэтому оценка МАВ есть оценка МП, в которой априор ная информация об оцениваемом параметре, содержащаяся в плотности вероятности р (0), используется для улучше ния оценки. В оценке МП не используются никакие апри орные знания о подлежащем оцениванию параметре 0.
Проиллюстрируем разницу между двумя подходами на простой задаче, которая нам еще понадобится впоследст вии. Рассмотрим идентификацию А-вектора состояния х(к), порождаемого линейной автономной моделью
х(Л + 1) = Ф(Л + 1,й)х(Л). |
(3.1.11) |
М-вектор наблюдений, производимых в присутствии шу ма, имеет вид
z (к) = Н (к) х (к) + v (к), |
(3.1.12) |
причем шум у (к) — последовательность гауссовских слу чайных величин с нулевым математическим ожиданием и таких, что
cov {V (к), V (;)} = Vv {к) 6К {к — j), cov {v (к), х (у)} = 0, (3.1.13)
где бк — символ Кронекера. Сначала рассмотрим задачу построения оценки х (к0) методом максимального прав доподобия, т. е. путем максимизации функции правдопо добия
Р [Z (kf) |х (&„)] |
(3.1.14) |
54 ФУНКЦИИ |
Ш ТРАФ А В ЗА Д А Ч А Х ИДЕНТИФИКАЦИИ [ГЛ. 3 |
||
выбором х (&„). Идентификация х (к0) подобным |
образом |
||
эквивалентна |
идентификации х (к) для к0 |
к ^ |
kf, так |
как х (к) порождается х (к0) в соответствии с (3.1.11).
Символ Z (к/) используется для обозначения |
всех z (к), |
|||||
к0 < |
к < А/. |
|
|
|
|
|
Для первых двух условных моментов имеем следую |
||||||
щие |
выражения: |
|
|
|
|
|
&(z (к) |х (Аэ)} = |
Н (к) х (&) = Н (к) Ф (к, к0) х (к0), (3.1.15) |
|||||
где |
|
var {г (к) |х(А:0)} = |
\ у (к), |
(3.1.16) |
||
|
|
|
(с- 1 |
|
|
|
|
|
|
|
|
|
|
|
Ф ( М о ) = П Ф ( с И , / ) . |
(3.1.17) |
||||
|
|
|
|
3=*о |
|
|
Функция правдоподобия, или |
условная |
плотность |
||||
Z (kf) |
относительно |
х (к0), является гауссовской и |
||||
p[Z(kf)\x(ka)\ |
И |
|
1 |
|
|
|
|
( 2 , л ) м <г Г ( le t V v ( к ) ] ' ' X |
|
||||
|
|
А=..о+1 |
|
|
|
|
Xexp {— 0,5 (z (к) — II (к) х (&)]т Уу1 (к) [ъ (к) —
-Н (к)х(к)]}}. (3.1.18)
Видно, что максимизация (3.1.18) эквивалентна ми нимизации штрафной функции метода наименьших ква дратов :
, |
ЪФ) Н (к) х (к) f S, |
(3.1.19) |
/ = 4- |
||
/£=*„+1 |
Vv (4 |
|
Эта минимизация должна производиться по х (к0), причем
х (к) = Ф (к, к0) х (к0). |
(3.1.20) |
Объединяя два предыдущих уравнения, дифференцируя по х (й'0) и приравнивая производную нулю, легко полу чить
Ht
*мп (*о) = М '1 (kf, Аг0) 2 фТ(^> *о) Нт(к) V ;1 (к) z (к), fc=Kvf'1
(3.1.21)
3 . 1] ВВЕДЕНИ Е 55
где
к/
М (к, , к 0) = 2 фТ (*, к0) Нт (к) Y ;1 {к) Н (к) Ф (к, к0).
к~кц-\-1
(3.1.22)
Для существования решения уравнения (3.1.21) М (А/, к0) должна быть обратимой.
Требование обратимости М (kf, к0) известно под назва нием условия наблюдаемости (Сейдж [116]).
Можно получить непрерывный вариант рассмотренной
задачи, сгущая точки фиксации так, чтобы к |
оо, kf Т —> |
|
1} , к0Т - у t 0 и |
кТ - > t . Используем определения |
|
F (t) = |
lim [Ф ((к + 1) Т, кТ) — 1]/Т, |
(3.1.23) |
|
kT-*t |
|
Н (t) = |
lim Н (кТ), |
(3.1.24) |
|
к->эо |
|
|
kT-+t |
|
4Fv (t) = |
lim TYv (kT). |
(3.1.25) |
|
Jf-*oo |
|
|
kT-+t |
|
Плотность распределения вероятности вида (3.1.18) не существует, так как становится бесконечномерной, но уравнение (3.1.19) сохраняет силу и превращается в пре деле при уменьшении шага фиксации в формулу
j ' = 4- |>И О - |
Н (0 х (0 « ;-г dt. |
(3.1.26) |
<0 |
V |
|
Разностное уравнение (3.1.11) заменяется дифференци альным
x = F (t)x(t), |
(3.1.27) |
которое следует использовать в качестве |
ограничения |
при минимизации (3.1.26). Записав |
решение (3.1.27) |
в виде |
|
х(*) = Ф (Мо)*(<о), |
(3.1.28) |
додставив это соотношение в (3.1.26), продифференцировав
56 ФУНКЦИИ Ш ТРАФ А В ЗАД АЧ АХ ИДЕНТИФИКАЦИИ [ГЛ. 3
его по х (t0) и приравняв результат нулю, получим
|
|
|
lf |
|
|
к (t0) = |
МГ1 (t„ to) 5 Фт (t, t0) HT(t) z (t) dt, |
(3.1.29) |
|
|
|
|
to |
|
где |
матрица |
|
|
|
|
|
ч |
|
|
M (t, |
to) = |
§ Фт (<, to) HT(0 'Fv1 (t) H (t) Ф (t, to) dt |
(3.1.30) |
|
|
|
to |
|
|
обратима, |
если система наблюдаема (Сейдж [116]). |
|||
В |
тех |
же |
обозначениях, использованных нами для |
|
определения оценки МП, на основе (3.1.10) можно полу чить выражение функции плотности вероятности для на хождения оценки МАВ. Поскольку р [Z (&/)] не зависит от переменной, по которой производится максимизация, то задача максимизации р [х (k0) |Z (А/)] полностью экви валентна максимизации безусловной совместной плот ности вероятности
ц[х,(/с0), Z(k/)] = p[Z(kf))x(k 0))p[x(ko)}. (3.1.31)
Очевидно, что для выполнения желаемой оптимизации необходимо большее количество статистической инфор мации. В частности, необходимо знание плотности (апри орной) распределения х (к0)- Предположим, что она яв ляется гауссовской со средним значением цХо и диспер сией VXo. Совместная плотность распределения, согласно
(3.1.18), примет вид
р [х (к 0), Z (к/)] =
|
|
1 |
|
|
|
|
r r exp {— 0,51x (ко) — цХо f x} X |
||
(2n)Nl'2 [det VXJ |
|
'ч> |
||
x |
hf |
1 |
exp {— 0,5! i (k) — |
|
П |
____ _____________i t - |
|||
Л |
0+г |
(2rt)M'a [det (*)]*/- |
|
|
|
|
H(A) Ф (к, k0) x (k0) f -i |
}• (3.1.32) |
|
|
|
|
Vy (ft) |
|
Максимизация |
этой функции |
цлотцости |
вероятности |
|
3.1] ВВЕДЕНИ Е 57
эквивалентна |
минимизации штрафной функции вида |
J = - т \ Ы к о ) - Ы Г , + |
|
Z |
VXo |
|
(3.1.33) |
Приравнивание нулю градиента по х (к0) этой штрафной функции метода наименьших квадратов приводит к сле дующему выражению для оценки:
ХМАВ (*о) — [Vxo + м (kf, к0)) 1 X
x [ v i V * . + S ®T(*,Ao)H(A)V;1(ft)Z(&)], (3.1.34)
/С=/С(гЬ1
где М {kf, к0) определяется формулой (3.1.22). Интересно вычислить дисперсии ошибок оценок МП
и МАВ, которые определяются формулами
var {хмп (к0)} = var {х (к0) — хМп (к0)} = М 1 (kf, к0), (3.1.35)
var {хмав(^о)} = var {х (к0) — хМАв (к0)} = [ ' + М (kf„ /с0)]-1. (3.1.36^
Видно, что дисперсия ошибки оценки (или идентификации) по методу МАВ меньше, чем по методу МП. Легко пока зать, что обе оценки — несмещенные. Эти утверждения основаны на предположении о правильном выборе пара метров априорного распределения, используемого для улучшения алгоритмов идентификации. Если априорное распределение выбрано ошибочно, оценка МП может ока заться лучше оценки МАВ. Полный анализ ошибок, во
просов выбора |
априорного распределения и связанных |
с этим вопросов |
чувствительности, читатель может найти |
в главах 6 и 8 книги Сейджа и Мелсы [127]. |
|
Выражение оценки МАВ в непрерывном времени легко получить, если уплотнить точки фиксации и использовать определения (3.1.23) — (3.1.25). Уравнение (3.1.33) примет
Sg ФУНКЦИИ Ш ТРАФ А В ЗА Д А Ч А Х ИДЕНТИФИКАЦИЙ £МГ. 3
ВИД
J = ~2 ~IIх (to) |
Мх0IL-1 “Ь |
|
|
||
|
ч |
Х |
0 |
|
|
|
|
|
|
|
|
|
+ I IIZ (О - |
н (t) Ф (t, to) X (to) I\ l-id t. |
(3.1.37) |
||
|
/. |
|
|
v v it) |
|
Оценка MAB теперь запишется в виде |
|
||||
ХМАВ (to ) = |
Ч |
+ М (t f , £0)] 1 + |
|
|
|
|
|
|
|
|
|
+ |
[ $ Фт (£, to) н |
(t) V ? (t) z (t) dt |
V x> XoJ, |
(3.1.38) |
|
|
^0 |
|
|
|
|
где M (tf, |
t0) |
определяется уравнением (3.1.30). |
|
||
Дисперсии ошибок двух непрерывных оценок равны |
|||||
var (хМц (£o)} = |
var {х (t0) — хмп (t0)) = M_1 (tf, t0), |
(3.1.39) |
|||
var { х м а в (t0)} = var (x (t0) — x Ma b (£<>)} = |
lVx,1 + M (tf, £„)] x. |
||||
|
|
|
|
|
(3.1.40) |
По-прежнему дисперсия ошибки оценки МАВ меньше, чем дисперсия ошибки оценки МП.
Может показаться, что эти линейные схемы построе ния оценок не применимы к задачам идентификации, ко торые часто нелинейны. Исключение составляет иденти фикация весовой функции линейной системы. Однако нелинейные задачи идентификации можно линеаризовать, как, например, в главе 6 (квазилинеаризация). В этом случае методы данного раздела применимы непосредст венно. Есть ситуации, в которых методы, рассмотренные в этом разделе, неприменимы. Они возникают при наличии неизвестных входных сигналов, управляющих поведе нием системы. Обратимся теперь к этой задаче и рассмот рим вопросы оценки динамики нелинейных систем.
3.2. ИДЕНТИ ФИКАЦИЯ ПО КРИТЕРИЮ МАКСИМУМА АПОСТЕРИОРНОЙ ВЕРОЯТНОСТИ
В этом разделе будет исследован байесовский подход, или метод максимума апостериорной вероятности (МАВ) в применении к обобщенным задачам оценивания, задачам идентификации. Мы покажем, что многие задачи иденти
3.2] |
МАКСИМУМ АПОСТЕРИОРНОЙ ВЕРОЯТНОСТИ |
59 |
фикации можно сформулировать как задачи оценивания по критерию максимума апостериорной вероятности. Бу дет показано, что при гауссовском априорном распределе нии оценка по максимуму апостериорной вероятности эквивалентна некоторой оценке по методу наименьших квадратов. Приводятся также развернутые формулировки соответствующих функций штрафа и двухточечных кра евых задач, для решения которых можно применить вы числительные методы глав 4—7.
Наибольшее внимание в этом разделе уделяется дис кретным моделям оценивания. Основные результаты будут затем переформулированы для непрерывных моделей.
Дискретные модели формирования сигнала и наблю дений задаются уравнениями *)
х (к + 1) = |
ф [х (к), |
к\ + Г [х (к), Л] w (к), |
(3.2.1) |
||||
|
z (к) = |
h [х (к), к] + |
v (к), |
|
(3.2.2) |
||
где х (к) — TV-мерный вектор |
состояния, ф [х (к), к] — |
||||||
TV-мерная вектор-функция, множество значений которой |
|||||||
охватывает |
все возможные |
входные сигналы, Г [х (к), /с] |
|||||
— TV X М-матрица, |
w (к) — М-мерный |
вектор |
входно |
||||
го шума, z (к) |
— Т?-мерный вектор наблюдений, h [х (к), &] |
||||||
— if-мерная |
вектор-функция, |
\(к) — ТТ-мерный |
вектор |
||||
помехи измерений. |
|
|
|
|
|
||
Через х (к) |
обозначен обобщенный вектор состояния |
||||||
в к-й точке |
фиксации х (tk) |
или х (кТк). |
В дискретных |
||||
моделях оценивания w (к) и v (к) предполагаются незави симыми марковскими последовательностями гауссовских независимых случайных величин с нулевыми средними значениями и такими, что
<g |
{w (к) wT (/)} = |
Vw (к) 6К (к — /), |
(3.2.3) |
8 |
{V (к) ут (/')} = |
Vv (к) бк (А - /), |
(3.2.4) |
где 6к (А — Д — символ Кронекера, a Vw (к) и Vv (к) — симметричные неотрицательно определенные ковариа ционные матрицы размерности М X М и R х R сооответственно.
*) Точная постановка задачи идентификации в такой форме будет дана ниже в этом разделе.
60 ФУНКЦИИ Ш ТРАФ А В ЗА Д А Ч А Х ИДЕНТИФИКАЦИИ [ГЛ. 3
Непрерывную модель оценивания часто выводят с по мощью не вполне строгого предельного перехода, так что
она |
получается |
непосредственно из |
дискретной |
модели |
||||
по |
мере |
сгущения точек фиксации, |
т. |
е. |
когда |
tk+1 |
— |
|
— tk = |
Тк (шаг |
фиксации) стремится |
к |
нулю, |
tk |
1. |
||
Эта непрерывная модель оценивания задается уравне ниями
X(0 = |
f [х (t), |
t] + G [х (t), t\w (0, |
(3.2.5) |
z{t) = |
h[x(t), |
t] + v(0> |
(3.2.6) |
в которых w (t) и v (t) считаются белыми гауссовскими шумами с нулевыми математическими ожиданиями, так что
ё М О wT (Т)} = |
(Оби (t - |
т), |
(3.2.7) |
Ш{V (0 vt (т)} = |
lFv (0 6D (t - |
т). |
(3.2.8) |
Связь дискретной и непрерывной моделей устанавлива ется следующими нестрогими предельными соотношениями:
f [X (0, 0 |
= |
lim -i- (<p [x (A), k] — x (A)}, |
(3.2.9) |
|
|
|
Tfe—0 |
1 к |
|
|
|
t f t |
|
|
G [x (0, 0 |
= |
Hm |
— (Г [x (k), A]}, |
(3.2.10) |
|
|
t*-*о |
k |
|
|
|
tk-^t |
|
|
h [x (0, 0 |
= |
lim |
h [x (A), A], |
(3.2.11) |
|
|
'rfr*0 |
|
|
(0 = |
lim |
Tk\y, (A), |
(3.2.12) |
|
|
|
tf* |
|
|
V,v (0 = |
lim7,*Vv (A). |
(3.2.13) |
||
|
|
tk-*t |
|
|
Отметим, что определяющее непрерывную модель диф ференциальное уравнение (3.2.5) записано в не вполне корректной форме и должно быть заменено стохастическим дифференциальным уравнением
dx(0 == f [ x(0, 0 & |
О [х (0> 0 du (О» |
(3.2.14) |
