книги из ГПНТБ / Сейдж Э.П. Идентификация систем управления
.pdf5.2] СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ 151
при ограничениях
О == - 2 (1 + Х го) V - + 2 (F + 1) V ~ + 1 + Л?о,
0 = ( ^ - l - 5 S r , o)F ~ + (F + l)F se + i |
0 = 2FVs ± l .
Теперь можно непосредственно воспользоваться только что построенными алгоритмами, а преобразуя три послед ние уравнения, легко получить
Т7 |
1 + ^ s o |
( 1 + Л ( 1 - Л |
|
* ^ 2 ( 1 + X J |
2F (Ж80 + 1 - F) (1 + X " ) • |
В этом выражении первый член соответствует той состав ляющей дисперсии ошибки, которая возникает, если F действительно равно —1. Вычислительная схема такова:
1)выбрать
2)получить реализацию F1 в соответствии с извест ным распределением вероятностей для F,
3)определить дУх/дЖ\0,
4)вычислить следующую итерацию,
'Л/ел — *Л/s К 1
|
|
|
|
a xl |
5) |
вернуться к пункту 2) и повторить вычисления. |
|||
На рис. |
5.2.2 |
показан |
характер |
сходимости X s0. Из |
рисунка, |
в частности, видно, что процесс сходится гораз |
|||
до медленнее, |
чем можно |
было бы |
ожидать при исполь |
|
зовании градиентного алгоритма. Усиление субоптималь ного калмановского фильтра всегда больше усиления оптимального фильтра с F — — 1, и коэффициент усиле ния тем больше, чем больше неопределенность в F. В этом примере не предпринималось никаких попыток оптимиза ции алгоритма с тем, чтобы обеспечить более быструю сходимость, что, вообще говоря, вполне возможно.
Полученные результаты относительно просто обобща ются на динамический случай. Рассмотрим минимизацию
152 СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ [ГЛ . 5
функции штрафа |
|
|
|
k,-i |
|
I = |
[ а ( к , ) ] + 0о [х(/с0)] + 2 Ф[х (*).«(*). S (А:), &]} |
|
|
|
(5.2.23) |
при разностном ограничении вида |
|
|
|
X (ft -|- 1) == <р [X (к), и (к), I (к), к], |
(5.2.24) |
где х (к) — вектор обобщенного все неизвестные параметры, а чайный процесс с известной
состояния, включающий £ (к) — векторный слу плотностью вероятности
Рис. 5.2.2. Усиление калмановского фильтра; пример 5.2.2.
р [£ (/с)]. Так же, как и в стационарном случае, можно выбрать какую-либо реализацию случайного процесса £*(ft) и поставить детерминированную задачу оптимизации. Опре делим гамильтониан
Я* = (р [х (к), и (к), £*(&), к] + *T (fc+ 1) q>[х (ft), u (ft), £*(*), fcl-
(5.2.25)
5.2] |
СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ |
153 |
Запишем канонические уравнения соответствующей двух точечной краевой задач i
дНг |
|
dlP |
= |
0, |
дТ11 |
|
|
д%(к + 1) = х ( М - 1), |
du (к) |
дх (к) |
= |
к(к), |
|||
^ (К) = — |
д9о \х (Лйр)] |
, X ( k f ) — |
ах (/с,) |
|
|
||
Э х (ко) |
|
|
|
|
|
||
|
|
|
|
|
|
|
(5.2.26) |
Вероятность |
равна P h i |
= |
1, |
2, . . .М. |
Таким образом, |
||
решение исходной стохастической задачи эквивалентно решению взвешенной последовательности задач с весо
выми коэффициентами |
P t. Необходимые |
условия для |
||||
задачи (5.2.23), (5.2.24) запишутся в виде |
|
|||||
дН |
|
|
|
м |
|
|
= * (* 1 -1 ), |
|
3 ? . ™ = ® |
||||
дк (к + 1 ) |
|
|||||
|
|
|
|
du (к) |
|
|
2 р > |
~ |
’•(*)] = |
0, |
|
||
м |
|
|
|
|
|
|
2 / . [ м * . ) + ^ |
] |
= о. |
||||
|
|
|
д&, [х (Ау)] ] |
Л |
||
|
|
|
|
dx(kf) |
J |
|
Осуществив формальный переход от дискретного распре деления P t к непрерывному распределению процесса £ (к), получаем запись уравнений стохастического принципа максимума для дискретной по времени задачи
Н= Ф [х (к), и (к), £ (к), к) +
+{к + 1)ф [х (к), и (к), £ (к), к],
д% (к + 1 ) = х (к + !)» $ { а„ (Л) } = °»
(5.2.27)
# { |
-*•<*>}- ° - |
|
|
а0/ [*(*/)] |
= 0. |
|
дх (к |
|
|
*/> |
) |
154 |
СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ |
tPJt. 5 |
Полученные результаты сразу же намечают схему исполь зования алгоритмов стохастической аппроксимации:
1)выбрать и* {к),
2)задаться х4 (к0),
3)в соответствии с распределением р [£ (А:)] получить
реализацию £4 (к),
4)решить разностное уравнение с начальным услови ем х1 (к0)
х4 (к + 1) = <р [х4 (к), и4 (к), g4 (к), к],
5)решить сопряженное уравнение с условием на
конце
9 0 , [х (А.)]
V (к) = |
|
|
дт |
9х4 ( к ) |
|
К (к + 1), |
|
V ' |
д х 1 ( к ) |
Эх4 ( к ) |
6) используя алгоритм стохастической аппроксима ции, определить новую итерацию управления
и1 |
г л |
9 Д 4 |
|
|
|
Ли |
{■ ; |
|
|
||
|
|
9и |
|
(5.2.28) |
|
|
|
|
ЛТ |
||
u4+1 = |
и4 — Кги |
1) |
|||
(k + |
|||||
|
|
9и4 |
9иг v |
' |
|
7) используя алгоритм стохастической аппроксима ции, определить новую итерацию начальных условий
х4+1 (к0) = X4 (/с0) — К х1 99» [хг (ко)] + к1 {ко) , (5.2.29)
9х4 (/£о)
8) вернуться к пункту 3) и повторить вычисления. Пример 5.2.3. Система описывается уравнением
х(к + 1) = х{к) + и (к) -f w(k),
% (ко) =
где w (к) — случайный входной процесс с известным рас пределением вероятностей. Попробуем выяснить свойства
5.2] |
СТОХАСТИЧЕСКАЯ |
АППРОКСИМАЦИЯ |
155 |
||
управления и (к), |
минимизирующего |
функционал |
|||
|
|
|
frf-1 |
|
|
|
/ = |
* { 4 - * » < * ,) + 4 - 2 |
**(*)}. |
||
|
|
|
fc=fc0 |
|
|
Определим гамильтониан |
|
|
|
||
Н = |
и2 (к) -|- % (к + |
1) [х (к) -|- и(к) |
w (/с)]. |
||
Стохастический принцип максимума приводит к следую щей системе канонических уравнений:
х (к + 1) = х (к) -j- и (к) -f- w (к), х (к0) = х0,
$ {и (к) + к (к + 1)} = 0, 8 {к (к f 1) - к i(k)} = О,
8 {к (к}) - х (kf)} = 0.
Легко показать, что решение |
этих уравнений имеет вид |
|
и (к) = — |
X (/со) |
’ |
kf — ко |
||
|
к- 1 |
|
X(к) = ж (*о)+ 2 |
Iu(k) + w(k)]. |
|
|
к=к„ |
|
Вместо того чтобы непосредственно решать систему кано нических уравнений стохастического принципа макси мума, воспользуемся алгоритмом стохастической аппрок симации. В данном случае сопряженное уравнение из пункта 5) имеет вид
^ |
^ |
Ч */) = *(*/)■ |
Это уравнение имеет решение к (к) = х (к,). Запишем алгоритм стохастической аппроксимации для итераций управлений
“ 1+I (к) = |
и* (к) - |
Ю |
== и1 (к) - |
КУ[и< {k) |
+ * (kf)]. |
Отсюда видно, что |
если |
начальное |
приближение бы |
||
ло выбрано |
постоянным, |
то и последующие |
итерации |
||
156 СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ [ГЛ . 5
управления от времени не зависят. Используя запись
= u (^) + |
^ (^ + ^) = |
u |
+ 1) + ^ (к,), |
|
получаем, что |
|
|
|
|
г&{т т д г ) |
= |
ui W |
^ |
(*/)}> |
[9м (к)) |
|
|
|
|
таг{ ^ } |
“ |
та ги ‘ <'['>1' |
|
|
так что дисперсия дН!ди1(к) постоянна для всех г:
var
Это также непосредственно вытекает из системы разно стных уравнений при постоянном гг:
к—1
|
X1(к) = |
X1 (к0) + |
2 |
[ц1 + |
wi (*))• |
|
|
|
|
|
|
|
к=к„ |
|
|
|
|
Для проверки |
достаточно подсчитать моменты |
|
||||||
|
|
|
|
kf—i |
|
|
|
|
<о {х1 (к/)} = |
xi (к0) -j- 2 |
ui> |
|
|
|
|||
|
|
|
|
к=к„ |
|
|
|
|
|
|
|
kf-l |
|
|
|
|
|
var {xl (к,)} = |
var | ^ |
^ (&)} = |
F* (&/)• |
|
|
|||
|
|
|
«=Jc0 |
|
|
|
|
|
Из того, |
что |
var {дН/ди1(к)} |
= const, |
видно, |
что |
|||
алгоритм |
стохастической |
аппроксимации |
н1+1 = |
— |
||||
— К1 (дН/ди*) сходится в том смысле, |
что Iim |
var н* |
= О, |
|||||
|
|
|
|
|
|
г—>х> |
|
|
если Я1 = 1/г. Однако если, как и в обычном градиентном методе, выбрать Ю = const, то
lim var {и1} = оо
i—*00
и алгоритм расходится. Это может поставить под сомнение результаты главы 4 по сходимости градиентных алго ритмов первого и второго порядков. Здесь проявляется
5.2] |
СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ |
157 |
основное отличие исследуемых подходов. В градиентных методах главы 4 на всех итерациях используется одна и та же реализация случайных компонент, тогда как для метода стохастической аппроксимации характерно то, что на каждом шаге получают новую реализацию случайной последовательности (к) в соответствии с известным ве роятностным распределением р [£7(А)]. Таким образом, в двух последних главах вопрос о сходимости ставится по-разному. Используя каждый раз новую реализацию, мы надеемся, что смещение оценок искомых параметров будет по всей видимости меньше, чем в случае, когда «про кручивается» одна и та же выборка случайных парамет ров. Дело просто в том, что использование разных реали заций увеличивает объем информации о системе, за которой ведется наблюдение. Конечно, во многих прак тических задачах доступно только одно наблюдение, и единственная полученная реализация затем вынужденно используется на каждом шаге итерационной схемы.
Решение непрерывной задачи сразу же вытекает из результатов, полученных для дискретной постановки. Необходимо минимизировать
/ — %|0О[х (£0)1 -j- 0/ [х (0)1
(5.2.30)
при ограничениях в форме дифференциальных уравнений
х = f [x(*),u(<), £(*),*]. |
(5.2.31) |
Определим гамильтониан (случайную величину)
Н = ф [х (0 ,и (г ), £(*),*] + A,T00f [x(t),u(t), £(*),*]• (5.2.32)
Запишем канонические уравнения и соответствующую двухточечную краевую задачу для стохастического прин ципа максимума
(5.2.33)
158 СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ [ГЛ . 5
В тех случаях, когда непосредственное решение уравне ний (5.2.33) затруднительно, можно воспользоваться про цедурой, основанной на идеях стохастической аппрокси мации:
1) |
выбрать начальное приближение х1(t0) и и1 (t), |
f. 2) |
получить реализацию (t), |
3)решить дифференциальное уравнение, описываю
щее движение системы (в прямом времени t0 ^ t< l t/)
х{ = f [х1 (^), u*(t), g4(i), t),
4)решить сопряженное уравнение с условиями на
конце (в обратном времени (£/ > t > t0)
i i |
дН |
Эср1 |
diiT V(t), |
|
д х * (t ) |
d x * (t ) |
д х { ( t ) |
|
ee,[x(i,)]. |
(5.2.34) |
|
|
|
||
|
эх (9 |
; |
|
5)определить новую итерацию управлений
ui+1(0 =и*(*) — t f i - i —
w |
w |
3 u ‘ ( t ) |
dilT
(5.2.35)
d u 1 (t )
здесь Klu удовлетворяют всем требованиям на коэффици енты в алгоритмах стохастической аппроксимации;
6) определить новую итерацию начальных условий
|
Xi+1 (to) = X* (to) — |
д б о [ х |
г (t0) ] |
(5.2.36) |
|
|
d x i |
- t f ( f o ) ; |
|||
|
|
|
(to) |
|
|
7) |
вернуться к |
пункту 2) |
и~ повторить |
вычисления |
|
с новой |
реализацией |
|
(t). |
|
|
(Нормальное введение в теорию стохастической аппрок симации на этом закончено. Ниже на нескольких примерах будет показано, как эти методы можно применить к иден тификации систем.
5.3] ИСПОЛЬЗОВАНИЕ СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ 159
5.3. ИСПОЛЬЗОВАНИЕ СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ ДЛЯ ПОСЛЕДОВАТЕЛЬНОГО ОЦЕНИВАНИЯ ДИНАМИКИ ЛИНЕЙНЫХ систем
В этом разделе будет проведено детальное исследование задачи идентификации матриц коэффициентов Ф и Г дис кретной линейной системы с постоянными коэффициентами
х{к + |
1) = Фх{к)+Ти>(к), |
(5.3.1) |
г {к) = |
Нх (к) -f v (к) — у (к) -f- v (к). |
(5.3.2) |
Будем предполагать входной процесс одномерным, так что Г — это вектор-столбец у. Пусть и выход системы одномерный, так что
Н = [1 0 0 . . . 0] = hT.
Свободные системы — отсутствие ошибок измерений.
Сначала будем считать, что на систему действует входной шум и отсутствуют ошибки измерений. Выход системы выбран скалярным прежде всего из-за того, что в слу чае отсутствия ошибок измерений для идентификации системы с одномерным выходом достаточно иметь N изме рений. Удобно определить У-мерный расширенный век тор измерений и, используя (5.3.1), (5.3.2), получить
z(l) |
ЬТФ |
л z(2) |
ИТФ2 |
|
х (0) = ЛФх (0), (5.3.3) |
_z (2V)_ |
_ьтФл,_ |
где |
|
Л = |
ЬТФ |
(5.3.4) |
|
|
T . t. N - 1 |
|
ЬХФ |
Точно так же найдем, что
2/(2) |
|
л 2/0) |
|
1 «: 5 |
L___ |
hT®2
ЬТФ3
х(0) = ^ Ф х (1 )= ^ Ф 2х(0)
_ h V +V
160 СТОХАСТИЧЕСКАЯ АППРОКСИМАЦИЯ [ГЛ . 5
и в общем случае |
|
|
|
|
|
|
у (N + |
к) = |
АФх (к). |
(5.3.5) |
|
Сформируем |
расширенную |
матрицу |
|
||
У (2N - 1) = |
[у (N) у (N + |
1) у (N + 2). . . у {2N - |
1)] = |
||
|
~У (1) |
2/(2) |
. . . |
y (N ) |
|
|
2/(2) |
1/(3) |
. . . |
2/(/V + l) |
(5.3.6) |
|
|
|
|
|
|
|
_j/2V) y ( N + l) |
_ _ _ |
y (2 N ~ l) |
|
|
Из уравнений (5.3.3), (5.3.5) и их очевидных обобщений получим
У (2N — 1) = ^ Ф ® , |
(5.3.7) |
где |
|
53 = [х (0) Фх(0) Ф2х (0 ).. .Ф * _1х(0)]. |
(5.3.8) |
Матрицу А часто называют матрицей наблюдаемости. Для того чтобы вектор состояния можно было восстано вить по последовательности наблюдений, эта матрица должна быть невырожденной. Матрица 53 называется матрицей идентифицируемости. Идентификация системы возможна, только если ее матрица 53 не вырождена (Ли, [87]). Из уравнения (5.3.7) можно определить оценку матрицы коэффициентов
Ф = Ф = А~1СУ (2N — 1) |
(5.3.9) |
которая является точной, так как входные помехи отсутст вуют. Однако мы существенно использовали то обстоя тельство, что передаточная матрица являлась N X N- матрицей. Поэтому нас, конечно, беспокоит строгость полученного результата, так как в действительности мат рицы А и 53 зависят от Ф. Эта трудность скоро будет устранена. Можно повторить рассуждения, которые при вели к уравнению (5.3.7), и, используя другую расширен ную матрицу данных §/• (2iV) и уравнение (5.3.3), полу чить следующий результат:
У {2N) = ^ Ф 253 == А Ф А ^ У (2N — 1). (5.3.10)
