Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Сейдж Э.П. Идентификация систем управления

.pdf
Скачиваний:
75
Добавлен:
23.10.2023
Размер:
7.91 Mб
Скачать

Г л а в а 5

ИДЕНТИФИКАЦИЯ С ИСПОЛЬЗОВАНИЕМ СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ

5.1.ВВЕДЕНИЕ

Вэтой главе представлен обзор методов стохастиче­ ской аппроксимации и их применений к решению задачи

идентификации. Мы в основном дадим физическое и эври­ стическое толкование стохастической аппроксимации вме­ сто строгих доказательств, которые можно найти в цити­ руемой литературе. Первыми исследованиями в области стохастической аппроксимации были работы Роббинса и Монро [112], Кифера и Вольфовица [75], Дворецкого [33] и Блума [19], Сакрисоном [130] написан интересный ин­ женерный обзор методов стохастической аппроксимации.

Алгоритм Роббинса — Монро является стохастиче­ ским аналогом обычного градиентного метода для отыска­ ния единственного корня уравнения

h(x) = 0.

(5.1.1)

Этот алгоритм имеет вид

х г+1 = xi — ХЪ ( Х %

(5.1.2)

где К* — последовательность вещественных чисел, на которые наложены определенные требования, обеспечи­ вающие сходимость алгоритма.

Втом случае, когда измерения h (х) искажены помехой

сконечной дисперсией

z = h (х) -{- v,

(5.1.3)

где v — помеха с нулевым математическим ожиданием, говорят, что h (х) есть функция регрессии z на х, так как для независимых х и v

оо

$ {z | x }= ^ zp (z |х) d'L = h (x).

(5.1.4)

Теперь алгоритм (5.1.2) уже неприемлем, так как h (х)

5*

132

СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ

[ГЛ . 5

ненаблюдаема. Однако условное математическое ожидание определяется выражением (5.1.4), и стохастический алго­ ритм для отыскания корней уравнения регрессии (5.1.4) имеет вид

xi+1 = X1 — К1ъ (х4).

(5.1.5)

Здесь обозначение z (х») преследует цель подчеркнуть ите­ ративный характер алгоритма. Последовательность {х1} с вероятностью единица сходится к решению уравнения (5.1.1). Исследования Роббинса и Монро показали, что эта сходимость имеет место при выполнении трех условий:

 

ОО

ос

lim К 1— 0,

2 if* = оо,

2 ( К у < с * . (5.1.6)

4-°°

t=i

i=i

Таким требованиям удовлетворяет, например, простей­ шая последовательность

Ki = J T T -

(5Л'7>

Требуется также, чтобы функция регрессии h (х) по обе стороны от истинного решения была ограничена прямыми с конечным наклоном, для того чтобы не «проскочить» решение х. Таким образом, в одномерном случае

|h (х) |^ а |х — х | -f Ь (а, b 0).

(5.1.8)

Последнее ограничение не является слишком суровым.

Физическое

толкование

условий

(5.1.6) будет

дано

в следующем

разделе, в

котором

рассматривается

ди­

намический вариант метода стохастической аппрок­ симации.

Кифер и Вольфовиц обобщили метод стохастической аппроксимации на отыскание экстремума унимодальной функции регрессии 0 (и).

Этот алгоритм представляет собой точный аналог детер­ минированной градиентной процедуры, которая, как из­

вестно, использует алгоритм

 

 

ui+1 = ul- K

i dQ (u4)

(5.1.9)

 

in1

 

5.1]

ВВЕД ЕН И Е

133

При наличии помех

наблюдается

 

 

I = 0 (u) + I.

(5.1.10)

И детерминистский алгоритм (5.1.9) заменяется стоха­ стическим алгоритмом

Ц<+1 = и* - Ю dl {- Х .

(5.1.11)

du1

 

Условное математическое ожидание, взятое от обеих частей (5.1.11), приводит к алгоритму (5.1.9). В некото­ рых случаях прямое дифференцирование с целью полу­ чить dl (и*)/йш невозможно и используется приближе­ ние вида

 

dl (и1)

__ I (иг + Аиг) — I (иг — Аиг)

(5.1.12)

 

du*

~

 

 

2Ли*

 

 

 

 

 

 

Так что алгоритм

Кифера — Вольфовица

записывается

в форме

 

 

 

 

 

 

 

Ui+i =

 

L

*(ц* +

Aui) ~

\(ц* .- Aui)- 1. (5.1.13)

 

 

 

 

2Диг

J

В этом случае условия сходимости имеют вид

Urn К 1= 0,

lim Аи’ = 0,

 

 

 

 

3 ( ^ ) * < о о ,

 

к 1

(5.1.14)

2 К 1= ос,

2

 

<

 

1=1

г=1

 

 

 

 

Ди\

 

Имеется также ограничение типа (5.1.8).

 

Основная

идея

 

стохастической

аппроксимации состо­

ит в том, что для любого алгоритма детерминированного типа существует его стохастический двойник. Следуя этой идее, Дворецкий [33] сформулировал обобщенный метод стохастической аппроксимации, который состоит в использовании аддитивной смеси детерминированного ал­ горитма 25 и случайной компоненты п

ati+1 = 25 (я1, ж2, . . . , х 1) + п1.

(5.1.15)

Можно показать, что алгоритмы Роббинса — Монро и Кифера — Вольфовица являются частными случаями алго­ ритма Дворецкого.

134

СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ

[ГЛ . 5

Существуют различные способы увеличения скорости сходимости алгоритмов стохастической аппроксимации, ко­ торые, как мы видим, весьма близки к развитым в преды­ дущей главе градиентным методам. Быть может, проще всего поддерживать К1 постоянным до изменения знака наблюдаемой величины (z (хг) или I (и1)), изменяя затем К1 так, чтобы удовлетворить вышеупомянутым ограни­ чениям. Эту схему можно оправдать тем, что вдали от нуля функций h(x) или dQ(u)!du наиболее вероятны наблю­ дения одного знака, тогда как в близкой окрестности нуля знак наблюдений будет часто меняться.

Этот метод сводится к использованию

xi+1 = х1— К4 sign [z (х4)]

(5.1.16)

или

 

u i+l = u i К1sign dl (иг) '

(5.1.17)

du1

 

Такой подход значительно ускоряет сходимость для та­ ких функций регрессии, которые на бесконечности быстро стремятся к нулю, например, как h (х) = х ехр (— х).

Дворецкий [33] доказал, что если

var {z (х) |х} < Vv < оо

и если функция регрессии h (х) = Щ{z (х)| х} ограничена,

0<^Л|х — x|<(/&(x)-s^Z?|x — х|<^оо,

(5.1.18)

и, кроме того,

 

 

 

 

|х* — х К С =

2з2

V/.

(5.1.19)

А (В А) )

 

 

 

то последовательность

 

АС2

 

 

Ю =

 

 

(5.1.20)

Vv + iA*C*

 

 

 

 

достигает верхней грани

 

 

 

 

var {(х4 - £)»> < y vT { f

i) AiC, .

(5.1.21)

Кроме близости к градиентным методам, существует

тесная связь между стохастической аппроксимацией и

6.1]

ВВ ЕД Е Н И Е

135

теорией оптимальной фильтрации. Например, хорошо известно, что решение задачи об отыскании наилучшей линейной оценки х при заданном наблюдении

z (ft) = Нх -ф- v (ft),

(5.1.22)

где v (ft) — белый шум с нулевым математическим ожи­ данием и единичной матрицей ковариации, дается фор­ мулой

i + 1) = X {к) + V - + 1) Нт [z + 1) — Нх {к)] =

= £ (ft) + V - (к) Нт [НУ? (к) Нт +

I]-1 [Z +

1) - Нх (к)],

где

 

 

 

(5.1.23)

 

 

 

 

V - + 1) =

V~ (к) -

V - (к) Нт [Н V - (ft) Нт +

I p H V - (к)

или

 

 

 

(5.1.24)

 

 

 

 

V - +

1) Нт =

V - (к) Нт [H V - (к) Нт +

1Г1. (5.1.25)

Повторное использование (5.1.25)

сразу же приводит

к соотношению

 

 

 

V ? (к) Нт = V~ (0) Нт [ftHV - (0) Нт + 1]-\

так что при к-^-оо

V-г (/с)Нт ^ 4 V* (°)нТ tHVx (°) н1]'1. (5.1.26)

Как и ожидалось, при оценке константы дисперсия ошиб­ ки стремится к нулю. Таким образом, для больших к алго­ ритм фильтрации (5.1.23) имеет следующий асимптотиче­ ский вид:

x(ft + l) =

= х (ft) + T q rr v * (°) rT lH V x (0) HT1 - [z (к + 1) - H i (ft)].

(5.1.27)

Видно, что уравнение (5.1.27) является многомерным алгоритмом стохастической аппроксимации. Если пред­ положить, что Н — квадратная невырожденная матрица,

136

СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ

[ГЛ . 5

то из (5.1.27) следует, что

X + 1) = * (k) + X f T lx + H ' l v (А + 1) — х'(&)].

Отсюда легко получить слабый закон больших чисел

*ft

^ ) = 4 - 2 н ~М£).

i= 1

Это краткое обсуждение (Хо [48]) взаимосвязи между стохастической аппроксимацией и теорией оптимальной линейной фильтрации показывает, что эти методы тесно связаны. Есть, однако, весьма существенное различие. В отличие от теории оптимальной фильтрации, в методе стохастической аппроксимации не используется информа­ ция об априорных распределениях. Другими словами, не метод стохастической аппроксимации, а теория опти­ мальной фильтрации позволяет выбрать оптимальную матрицу Кк Кроме того, методы оптимальной фильтрации дают возможность легко получать эффективные решения для систем с помехами, тогда как, используя стохасти­ ческую аппроксимацию, этого не так-то просто добиться.

Теперь перейдем к краткому обзору динамических алгоритмов стохастической аппроксимации и их примене­ ний к идентификации систем.

5.2. СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ

В четвертой главе отмечалось, что значения и, соот­ ветствующие экстремуму / = G (и), часто можно полу­ чить, используя следующую итеративную процедуру:

,t+i _ „1. К 1 d9 (и1) du1

В предыдущем разделе также было отмечено, что при на­ личии помех, когда наблюдается I = 0(u) -f- в, опти­ мальные значения и находятся в результате применения алгоритма

ui+l — ц! — ft} dl (и1)

5.2] СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ 137

где выбор К 1 ограничен несколькими неравенствами. В этом разделе мы хотим более основательно рассмотреть последнюю задачу, а также связать использование мето­ дов стохастической аппроксимации с решением задач идентификации. Таким образом, мы будем заниматься изучением динамического варианта рассмотренного выше алгоритма стохастической аппроксимации.

Необходимо найти управление

и(/с)

или u(t) и вектор

параметров р, минимизирующие

функционал

 

 

kf—l

 

 

J = ё t (kf)] +

0О[х (к0)1 +

^

ГР Iх (/с)’ 1» (*)> 11 (*)> *]}

при ограничениях

 

 

 

(5.2.1)

 

 

 

 

х + 1) = ф [х (к),

р (к), и (к),

£ (/с), к],

Р (* :Jr 1) = Р (*)•

 

 

 

 

(5.2.2)

В непрерывном случае необходимо минимизировать

J = $1^1 (tf)] + 0О[X (t0)] +[^ ф [X (t), р (О, U (0, t] difj,

(5.2.3)

удовлетворив при этом ограничению в виде системы диф­ ференциальных уравнений

x = f[x(#), n(t), p(l), £ (t), t], P = 0.

(5.2.4)

Здесь £ (к) и £ (t) — случайные процессы. Используются функции штрафа и уравнения ограничений из раздела 4.3 (формулы (4.3.13) (4.3.15) для дискретного случая и формулы (4.3.30) (4.3.32) для непрерывного случая), с той лишь разницей, что учитывается наличие случайных процессов £ (к) или £ (t), отражающих входной шум и ошибку измерений и используется операция вычисления математического ожидания по реализациям £.

Поставленная задача является достаточно сложной задачей идентификации и оптимального управления ра­ зомкнутым объектом. В общем случае получить аналити­ ческое решение этой задачи чрезвычайно трудно. Часто

138 СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ [ГЛ . 5

оказывается, что рекомендации по управлению разомкну­ той системой не столь удобны, как рекомендации по управлению объектом с замкнутой обратной связью. В одном частном случае, когда система линейна, помехи аддитивны, функция штрафа квадратична по управле­ нию и состояниям и нет идентифицируемых параметров, справедлива теорема отделимости или принцип достовер­ ной эквивалентности, принадлежащий в теории оптималь­ ного управления Калману (см. Сейдж, [116]). В этом случае оптимальное управление в замкнутой системе сводится к использованию оптимального линейного регу­ лятора, на вход которого поступает выходной сигнал опти­ мального линейного фильтра. Возможности решения зада­ чи идентификации и управления стохастическим объек­ том будут изучены сначала для простых ситуаций, в том числе и для рассмотренных в предыдущем разделе. Найден­ ные закономерности будут использованы при исследо­

вании более сложных задач.

отыскания

экстремума

Сначала

рассмотрим

задачу

(чаще всего

минимизации) функции штрафа

 

 

/ =

% {О К

« } ,

(5.2.5)

где £ — это случайная величина с известной плотностью вероятности р (£). Для того чтобы минимизировать (5.2.5), положим

оо

.6)

/ = ^ е(и, S)p(g)d£,

(5.2J

— оо

оо

Аналитическое решение (5.2.7) часто оказывается невоз­ можным, поэтому попробуем воспользоваться итератив­ ным алгоритмом

л

(5.2.8)

где К1 — последовательность положительных чисел. Гра­ диент дВ/ди является случайным вектором и состоит из

5.23 СТОХАСТИЧЕСКАЯ а п п р о к с и м а ц и я 139

двух компонент: одной, связанной

с

зависимостью 0

от

и, и второй,

возникающей из-за

случайного

шума

£.

Удобно записать

 

 

 

 

 

 

39 (ц\ I 1)

g

f

aetuVc1) Р V

gCey-l-v*, (5.2.9)

диг

°

(

Эиг

 

 

 

 

где v1 — представляет

случайную

компоненту

градиента

и, по определению, имеет нулевое математическое ожи­ дание, что нетрудно увидеть, взяв математическое ожида­

ние от левой и правой частей (5.2.9).

Используя

два по­

следних уравнения, получим

 

 

 

и*+1 = и1 — К

1[g (б1) +

V *].

(5.2.10)

Следует понимать, что фактически вычисления основаны на использовании (5.2.8). Однако в аналитических иссле­ дованиях удобнее опираться на формулу (5.2.10). Распо­ лагая последовательностью градиентов dQIdu1, i = 1, 2,..., мы надеемся, что для достаточно больших i ui+1 сходится к тому же пределу, что и и1, т. е.

lim ui+1 = lim и1.

i —*OQ

i —*00

Переходя к пределу в (5.2.10), приходим к требованию

lim Я1 = 0,

(5.2.11)

i—*оо

так как в противном случае процесс, определяемый (5.2.10), не сойдется к какому-либо постоянному зна­ чению. Это справедливо, даже если g (0{) = 0, что озна­ чает, по крайней мере в среднем, равенство нулю d0/du. Но составляющая помехи v1 не нуль, и это уводит последо­ вательность и' от оптимальных значений. Естественно, последовательность К1 не должна слишком быстро схо­ дится к нулевому пределу, иначе g (0г) не «успеют» выве­ сти последовательность и1 в окрестность оптимального значения. Одновременно с этим средний эффект влияния помехи v1должен с увеличением i уменьшаться так, чтобы прошлые помехи не сказывались на ошибке вычислений.

В основополагающих работах по стохастической ап­ проксимации показано, что первое из этих требований

140 СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ [ГЛ . 5

математически выражается как

оо

 

2 К1= ОО.

(5.2.12)

г— 1

Так как v1 имеют нулевое среднее, понятно, что

ОО

2 К Ч 1= 0. г=1

Для того чтобы устранить влияние помехи, необходимо потребовать выполнения неравенства

оо

2 (/0)2(к-)2< зо для всех у.

г—1

Можно показать, что это условие выполнено, если

оо

2 ( Я У О ,

(5.2.13)

г= 1

 

а помеха v* имеет конечную дисперсию

 

Vvi = уаг(у{)^ Ь < с > о .

(5.2.14)

Примером последовательности К*, удовлетворяющей тре­ бованиям (5.2.11) — (5.2.13), может служить последова­ тельность

Ю = k/i.

(5.2.15)

К сожалению, в теории стохастическойаппроксимации не имеется рекомендаций по выбору константы к, кроме тре­ бования ее положительности. Теория оптимальной филь­ трации, которая рассматривалась в главах 2 и 3, мы еще вернемся к ней в главе 7, утверждает, что выбор к опреде­ ляется относительной величиной входных шумов систе­ мы и ошибок измерений, причем в общем случае эта ха­ рактеристика должна быть представлена в матричной форме.

Ограничения на выбор К1не являются неожиданными, достаточно вспомнить о замечаниях предыдущего раздела,

Соседние файлы в папке книги из ГПНТБ