книги из ГПНТБ / Сейдж Э.П. Идентификация систем управления
.pdfГ л а в а 5
ИДЕНТИФИКАЦИЯ С ИСПОЛЬЗОВАНИЕМ СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ
5.1.ВВЕДЕНИЕ
Вэтой главе представлен обзор методов стохастиче ской аппроксимации и их применений к решению задачи
идентификации. Мы в основном дадим физическое и эври стическое толкование стохастической аппроксимации вме сто строгих доказательств, которые можно найти в цити руемой литературе. Первыми исследованиями в области стохастической аппроксимации были работы Роббинса и Монро [112], Кифера и Вольфовица [75], Дворецкого [33] и Блума [19], Сакрисоном [130] написан интересный ин женерный обзор методов стохастической аппроксимации.
Алгоритм Роббинса — Монро является стохастиче ским аналогом обычного градиентного метода для отыска ния единственного корня уравнения
h(x) = 0. |
(5.1.1) |
Этот алгоритм имеет вид
х г+1 = xi — ХЪ ( Х % |
(5.1.2) |
где К* — последовательность вещественных чисел, на которые наложены определенные требования, обеспечи вающие сходимость алгоритма.
Втом случае, когда измерения h (х) искажены помехой
сконечной дисперсией
z = h (х) -{- v, |
(5.1.3) |
где v — помеха с нулевым математическим ожиданием, говорят, что h (х) есть функция регрессии z на х, так как для независимых х и v
оо
$ {z | x }= ^ zp (z |х) d'L = h (x). |
(5.1.4) |
Теперь алгоритм (5.1.2) уже неприемлем, так как h (х)
5*
132 |
СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ |
[ГЛ . 5 |
ненаблюдаема. Однако условное математическое ожидание определяется выражением (5.1.4), и стохастический алго ритм для отыскания корней уравнения регрессии (5.1.4) имеет вид
xi+1 = X1 — К1ъ (х4). |
(5.1.5) |
Здесь обозначение z (х») преследует цель подчеркнуть ите ративный характер алгоритма. Последовательность {х1} с вероятностью единица сходится к решению уравнения (5.1.1). Исследования Роббинса и Монро показали, что эта сходимость имеет место при выполнении трех условий:
|
ОО |
ос |
lim К 1— 0, |
2 if* = оо, |
2 ( К у < с * . (5.1.6) |
4-°° |
t=i |
i=i |
Таким требованиям удовлетворяет, например, простей шая последовательность
Ki = J T T - |
(5Л'7> |
Требуется также, чтобы функция регрессии h (х) по обе стороны от истинного решения была ограничена прямыми с конечным наклоном, для того чтобы не «проскочить» решение х. Таким образом, в одномерном случае
|h (х) |^ а |х — х | -f Ь (а, b 0). |
(5.1.8) |
Последнее ограничение не является слишком суровым.
Физическое |
толкование |
условий |
(5.1.6) будет |
дано |
в следующем |
разделе, в |
котором |
рассматривается |
ди |
намический вариант метода стохастической аппрок симации.
Кифер и Вольфовиц обобщили метод стохастической аппроксимации на отыскание экстремума унимодальной функции регрессии 0 (и).
Этот алгоритм представляет собой точный аналог детер минированной градиентной процедуры, которая, как из
вестно, использует алгоритм |
|
|
ui+1 = ul- K |
i dQ (u4) |
(5.1.9) |
|
in1 |
|
5.1] |
ВВЕД ЕН И Е |
133 |
При наличии помех |
наблюдается |
|
|
I = 0 (u) + I. |
(5.1.10) |
И детерминистский алгоритм (5.1.9) заменяется стоха стическим алгоритмом
Ц<+1 = и* - Ю dl {- Х . |
(5.1.11) |
du1 |
|
Условное математическое ожидание, взятое от обеих частей (5.1.11), приводит к алгоритму (5.1.9). В некото рых случаях прямое дифференцирование с целью полу чить dl (и*)/йш невозможно и используется приближе ние вида
|
dl (и1) |
__ I (иг + Аиг) — I (иг — Аиг) |
(5.1.12) |
||||
|
du* |
~ |
|
|
2Ли* |
|
|
|
|
|
|
|
|||
Так что алгоритм |
Кифера — Вольфовица |
записывается |
|||||
в форме |
|
|
|
|
|
|
|
Ui+i = |
|
L |
*(ц* + |
Aui) ~ |
\(ц* .- Aui)- 1. (5.1.13) |
||
|
|
|
|
2Диг |
J |
||
В этом случае условия сходимости имеют вид |
|||||||
Urn К 1= 0, |
lim Аи’ = 0, |
|
|
|
|||
|
3 ( ^ ) * < о о , |
|
к 1 |
(5.1.14) |
|||
2 К 1= ос, |
2 |
|
|||||
< |
|
||||||
1=1 |
г=1 |
|
|
|
|
Ди\ |
|
Имеется также ограничение типа (5.1.8). |
|
||||||
Основная |
идея |
|
стохастической |
аппроксимации состо |
|||
ит в том, что для любого алгоритма детерминированного типа существует его стохастический двойник. Следуя этой идее, Дворецкий [33] сформулировал обобщенный метод стохастической аппроксимации, который состоит в использовании аддитивной смеси детерминированного ал горитма 25 и случайной компоненты п
ati+1 = 25 (я1, ж2, . . . , х 1) + п1. |
(5.1.15) |
Можно показать, что алгоритмы Роббинса — Монро и Кифера — Вольфовица являются частными случаями алго ритма Дворецкого.
134 |
СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ |
[ГЛ . 5 |
Существуют различные способы увеличения скорости сходимости алгоритмов стохастической аппроксимации, ко торые, как мы видим, весьма близки к развитым в преды дущей главе градиентным методам. Быть может, проще всего поддерживать К1 постоянным до изменения знака наблюдаемой величины (z (хг) или I (и1)), изменяя затем К1 так, чтобы удовлетворить вышеупомянутым ограни чениям. Эту схему можно оправдать тем, что вдали от нуля функций h(x) или dQ(u)!du наиболее вероятны наблю дения одного знака, тогда как в близкой окрестности нуля знак наблюдений будет часто меняться.
Этот метод сводится к использованию
xi+1 = х1— К4 sign [z (х4)] |
(5.1.16) |
или |
|
u i+l = u i К1sign dl (иг) ' |
(5.1.17) |
du1 |
|
Такой подход значительно ускоряет сходимость для та ких функций регрессии, которые на бесконечности быстро стремятся к нулю, например, как h (х) = х ехр (— х).
Дворецкий [33] доказал, что если
var {z (х) |х} < Vv < оо
и если функция регрессии h (х) = Щ{z (х)| х} ограничена,
0<^Л|х — x|<(/&(x)-s^Z?|x — х|<^оо, |
(5.1.18) |
||||
и, кроме того, |
|
|
|
|
|
|х* — х К С = |
2з2 |
V/. |
(5.1.19) |
||
А (В — А) ) ’ |
|||||
|
|
|
|||
то последовательность |
|
АС2 |
|
|
|
Ю = |
|
|
(5.1.20) |
||
Vv + iA*C* |
|
||||
|
|
|
|||
достигает верхней грани |
|
|
|
|
|
var {(х4 - £)»> < y vT { f |
i) AiC, . |
(5.1.21) |
|||
Кроме близости к градиентным методам, существует
тесная связь между стохастической аппроксимацией и
6.1] |
ВВ ЕД Е Н И Е |
135 |
теорией оптимальной фильтрации. Например, хорошо известно, что решение задачи об отыскании наилучшей линейной оценки х при заданном наблюдении
z (ft) = Нх -ф- v (ft), |
(5.1.22) |
где v (ft) — белый шум с нулевым математическим ожи данием и единичной матрицей ковариации, дается фор мулой
i {к + 1) = X {к) + V - (к + 1) Нт [z (к + 1) — Нх {к)] =
= £ (ft) + V - (к) Нт [НУ? (к) Нт + |
I]-1 [Z (к + |
1) - Нх (к)], |
||
где |
|
|
|
(5.1.23) |
|
|
|
|
|
V - (к + 1) = |
V~ (к) - |
V - (к) Нт [Н V - (ft) Нт + |
I p H V - (к) |
|
или |
|
|
|
(5.1.24) |
|
|
|
|
|
V - (к + |
1) Нт = |
V - (к) Нт [H V - (к) Нт + |
1Г1. (5.1.25) |
|
Повторное использование (5.1.25) |
сразу же приводит |
|||
к соотношению |
|
|
|
|
V ? (к) Нт = V~ (0) Нт [ftHV - (0) Нт + 1]-\
так что при к-^-оо
V-г (/с)Нт ^ 4 V* (°)нТ tHVx (°) н1]'1. (5.1.26)
Как и ожидалось, при оценке константы дисперсия ошиб ки стремится к нулю. Таким образом, для больших к алго ритм фильтрации (5.1.23) имеет следующий асимптотиче ский вид:
x(ft + l) =
= х (ft) + T q rr v * (°) rT lH V x (0) HT1 - [z (к + 1) - H i (ft)].
(5.1.27)
Видно, что уравнение (5.1.27) является многомерным алгоритмом стохастической аппроксимации. Если пред положить, что Н — квадратная невырожденная матрица,
136 |
СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ |
[ГЛ . 5 |
то из (5.1.27) следует, что
X (к + 1) = * (k) + X f T lx + H ' l v (А + 1) — х'(&)].
Отсюда легко получить слабый закон больших чисел
*ft
^ ) = 4 - 2 н ~М£).
i= 1
Это краткое обсуждение (Хо [48]) взаимосвязи между стохастической аппроксимацией и теорией оптимальной линейной фильтрации показывает, что эти методы тесно связаны. Есть, однако, весьма существенное различие. В отличие от теории оптимальной фильтрации, в методе стохастической аппроксимации не используется информа ция об априорных распределениях. Другими словами, не метод стохастической аппроксимации, а теория опти мальной фильтрации позволяет выбрать оптимальную матрицу Кк Кроме того, методы оптимальной фильтрации дают возможность легко получать эффективные решения для систем с помехами, тогда как, используя стохасти ческую аппроксимацию, этого не так-то просто добиться.
Теперь перейдем к краткому обзору динамических алгоритмов стохастической аппроксимации и их примене ний к идентификации систем.
5.2. СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ
В четвертой главе отмечалось, что значения и, соот ветствующие экстремуму / = G (и), часто можно полу чить, используя следующую итеративную процедуру:
,t+i _ „1. К 1 d9 (и1) du1
В предыдущем разделе также было отмечено, что при на личии помех, когда наблюдается I = 0(u) -f- в, опти мальные значения и находятся в результате применения алгоритма
ui+l — ц! — ft} dl (и1)
5.2] СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ 137
где выбор К 1 ограничен несколькими неравенствами. В этом разделе мы хотим более основательно рассмотреть последнюю задачу, а также связать использование мето дов стохастической аппроксимации с решением задач идентификации. Таким образом, мы будем заниматься изучением динамического варианта рассмотренного выше алгоритма стохастической аппроксимации.
Необходимо найти управление |
и(/с) |
или u(t) и вектор |
||
параметров р, минимизирующие |
функционал |
|||
|
|
kf—l |
|
|
J = ё |бt [х (kf)] + |
0О[х (к0)1 + |
^ |
ГР Iх (/с)’ 1» (*)> 11 (*)> *]} |
|
при ограничениях |
|
|
|
(5.2.1) |
|
|
|
|
|
х (к + 1) = ф [х (к), |
р (к), и (к), |
£ (/с), к], |
Р (* :Jr 1) = Р (*)• |
|
|
|
|
|
(5.2.2) |
В непрерывном случае необходимо минимизировать
J = $1^1 [х (tf)] + 0О[X (t0)] +[^ ф [X (t), р (О, U (0, t] difj,
(5.2.3)
удовлетворив при этом ограничению в виде системы диф ференциальных уравнений
x = f[x(#), n(t), p(l), £ (t), t], P = 0. |
(5.2.4) |
Здесь £ (к) и £ (t) — случайные процессы. Используются функции штрафа и уравнения ограничений из раздела 4.3 (формулы (4.3.13) — (4.3.15) для дискретного случая и формулы (4.3.30) — (4.3.32) для непрерывного случая), с той лишь разницей, что учитывается наличие случайных процессов £ (к) или £ (t), отражающих входной шум и ошибку измерений и используется операция вычисления математического ожидания по реализациям £.
Поставленная задача является достаточно сложной задачей идентификации и оптимального управления ра зомкнутым объектом. В общем случае получить аналити ческое решение этой задачи чрезвычайно трудно. Часто
138 СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ [ГЛ . 5
оказывается, что рекомендации по управлению разомкну той системой не столь удобны, как рекомендации по управлению объектом с замкнутой обратной связью. В одном частном случае, когда система линейна, помехи аддитивны, функция штрафа квадратична по управле нию и состояниям и нет идентифицируемых параметров, справедлива теорема отделимости или принцип достовер ной эквивалентности, принадлежащий в теории оптималь ного управления Калману (см. Сейдж, [116]). В этом случае оптимальное управление в замкнутой системе сводится к использованию оптимального линейного регу лятора, на вход которого поступает выходной сигнал опти мального линейного фильтра. Возможности решения зада чи идентификации и управления стохастическим объек том будут изучены сначала для простых ситуаций, в том числе и для рассмотренных в предыдущем разделе. Найден ные закономерности будут использованы при исследо
вании более сложных задач. |
отыскания |
экстремума |
||
Сначала |
рассмотрим |
задачу |
||
(чаще всего |
минимизации) функции штрафа |
|
||
|
/ = |
% {О К |
« } , |
(5.2.5) |
где £ — это случайная величина с известной плотностью вероятности р (£). Для того чтобы минимизировать (5.2.5), положим
оо |
.6) |
|
/ = ^ е(и, S)p(g)d£, |
||
(5.2J |
— оо
оо
Аналитическое решение (5.2.7) часто оказывается невоз можным, поэтому попробуем воспользоваться итератив ным алгоритмом
л
(5.2.8)
где К1 — последовательность положительных чисел. Гра диент дВ/ди является случайным вектором и состоит из
5.23 СТОХАСТИЧЕСКАЯ а п п р о к с и м а ц и я 139
двух компонент: одной, связанной |
с |
зависимостью 0 |
от |
||||
и, и второй, |
возникающей из-за |
случайного |
шума |
£. |
|||
Удобно записать |
|
|
|
|
|
|
|
39 (ц\ I 1) |
g |
f |
aetuVc1) Р V |
gCey-l-v*, (5.2.9) |
|||
диг |
° |
( |
Эиг |
|
|
|
|
где v1 — представляет |
случайную |
компоненту |
градиента |
||||
и, по определению, имеет нулевое математическое ожи дание, что нетрудно увидеть, взяв математическое ожида
ние от левой и правой частей (5.2.9). |
Используя |
два по |
|
следних уравнения, получим |
|
|
|
и*+1 = и1 — К |
1[g (б1) + |
V *]. |
(5.2.10) |
Следует понимать, что фактически вычисления основаны на использовании (5.2.8). Однако в аналитических иссле дованиях удобнее опираться на формулу (5.2.10). Распо лагая последовательностью градиентов dQIdu1, i = 1, 2,..., мы надеемся, что для достаточно больших i ui+1 сходится к тому же пределу, что и и1, т. е.
lim ui+1 = lim и1.
i —*OQ |
i —*00 |
Переходя к пределу в (5.2.10), приходим к требованию
lim Я1 = 0, |
(5.2.11) |
i—*оо
так как в противном случае процесс, определяемый (5.2.10), не сойдется к какому-либо постоянному зна чению. Это справедливо, даже если g (0{) = 0, что озна чает, по крайней мере в среднем, равенство нулю d0/du. Но составляющая помехи v1 не нуль, и это уводит последо вательность и' от оптимальных значений. Естественно, последовательность К1 не должна слишком быстро схо дится к нулевому пределу, иначе g (0г) не «успеют» выве сти последовательность и1 в окрестность оптимального значения. Одновременно с этим средний эффект влияния помехи v1должен с увеличением i уменьшаться так, чтобы прошлые помехи не сказывались на ошибке вычислений.
В основополагающих работах по стохастической ап проксимации показано, что первое из этих требований
140 СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ [ГЛ . 5
математически выражается как
оо |
|
2 К1= ОО. |
(5.2.12) |
г— 1
Так как v1 имеют нулевое среднее, понятно, что
ОО
2 К Ч 1= 0. г=1
Для того чтобы устранить влияние помехи, необходимо потребовать выполнения неравенства
оо
2 (/0)2(к-)2< зо для всех у.
г—1
Можно показать, что это условие выполнено, если
оо
2 ( Я У О , |
(5.2.13) |
г= 1 |
|
а помеха v* имеет конечную дисперсию |
|
Vvi = уаг(у{)^ Ь < с > о . |
(5.2.14) |
Примером последовательности К*, удовлетворяющей тре бованиям (5.2.11) — (5.2.13), может служить последова тельность
Ю = k/i. |
(5.2.15) |
К сожалению, в теории стохастическойаппроксимации не имеется рекомендаций по выбору константы к, кроме тре бования ее положительности. Теория оптимальной филь трации, которая рассматривалась в главах 2 и 3, мы еще вернемся к ней в главе 7, утверждает, что выбор к опреде ляется относительной величиной входных шумов систе мы и ошибок измерений, причем в общем случае эта ха рактеристика должна быть представлена в матричной форме.
Ограничения на выбор К1не являются неожиданными, достаточно вспомнить о замечаниях предыдущего раздела,
