Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Методы оптимизации в статистических задачах управления

..pdf
Скачиваний:
19
Добавлен:
20.10.2023
Размер:
8.04 Mб
Скачать

Для определения условий оптимальности управления и при­ дадим вектору и вариацию 6„.

Поскольку и является оператором от вектора измерений у, вариация б„ представляет изменение этого оператора, который в дальнейшем предполагается детерминированным.

Вариация функционала б;, заданного формулой (466), при изме­

нении и определяется выражением

 

 

 

 

 

 

 

81 = М |б*0 (7) +

 

 

6* (Г)}.

 

 

Введем вектор-функцию ф (t)

размерности

п +

1

такую, что

— Ы = -

{б*,, (7) +

дР[Тд х *т{р ] 8х (Г)} =

ф* (7) ЬХ (7).

(467)

Из формулы

(467) следует, что

 

 

 

 

 

 

 

 

Фо (Т) =

— 1;

 

 

 

 

(468)

 

 

dF [Т, ж(Т)]

,

,

0

П,

 

Фі (^) =

д - . <т\

> 1

— В

^

 

 

и, поскольку

при заданном значении лГ(0) вариация (0)

= 0,

то

 

 

 

 

 

 

 

 

 

 

 

8J

j

б*(0 +

ф*(0

d&x{t)

dt.

 

(469)

 

 

 

 

 

 

dt

 

 

 

 

Далее, из уравнений (463) и (465) следует, что

 

 

d&x (t)

=

f(x + 8x,

ы + би,

£,

t) — f(x,

и, l, t) =

 

dt

 

 

 

 

 

 

 

 

 

 

а/(х и s,

 

 

 

 

Ы)

gj

t)-\-s,

(470)

где f = (/о, f lt . . ., /„), e — вектор-столбец с элементами:

 

8х*

d2fj (х, и + Ѳ26и, I,

t)

ди

 

 

 

 

дх ди

 

 

 

 

\

бл;* d*fi (ж+

016х) и +

Ѳ26и, I,

t) 8х'

(471)

 

 

 

 

 

 

 

0 eg

Ѳ!, Ѳ2

1,

і = 0,

1,

2,

. . ., п.

 

Определим на интервале (0, 7) вектор ф (t) дифференциальным уравнением

3jü=_(äi*£jm )\w

(472)

 

с начальными условиями (468).

19?

Подставляя далее выражение (470) в формулу (469) и учитывая уравнение (472), получим:

т

—6J= j ф* (t) [f (х, и + 6 и, £, t) — / (X, и, I, t) + е] dt.

о

Зафиксируем управление и на интервале (0, т) и рассмотрим игольчатую вариацию управления [81 ], такую, что 8и = 0 вне интервала (т, т + Лт), где А т— бесконечно малая величина, и

и + би £ Н.

Тогда

 

 

 

" т + Д т

 

 

 

 

— 81 = — M8J = м \ м

JТ

Ф* (t) [/ (х, и +

8и, £, t) — ,

 

 

 

 

 

т

 

(473)

 

— f(x, и,

 

f) ] dt +

j е dt

 

 

через М

 

 

 

о

 

 

Здесь

обозначено

условное

математическое

ожидание

величины при

фиксированных наблюдениях

вектора

у (t) на интервале (0, т),

а через

М {•} — безусловное

матема­

тическое

ожидание.

 

 

 

 

 

 

Для объекта управления

 

 

 

 

 

X = / (X, и, f) + a (t) I (t),

где о (t) функция только времени, значение в, определяемое выражением (471), является бесконечно малой величиной более высокого порядка малости, чем первый член в уравнении (473),

иим можно пренебречь [141]. Для объекта управления

X = f (х, и, t) + о (х, t) I (t)

известен аналогичный результат для локального экстремума функционала при малых вариациях управления и (t).

Отсюда

с

точностью

до бесконечно малых величин первого

порядка

малости

можем

записать:

 

 

 

 

I

/т+Аг

 

 

 

 

 

— б/ = М \ м I

[ ф* (t) [/ (х, и -Т би, f) — / (х, и, £)] dt j X

 

 

 

X

 

 

 

 

U 0

Воспользуемся( \

понятием

 

стохастического

гамильтониана

Н (х, и,

ф,

t):

 

 

 

 

 

 

 

 

 

 

Н (х, и, ф,

t)

=

ф* (0 f (x, и, I,

t).

(474)

Окончательно получим

 

 

 

 

 

 

j-

/ т + Л т

 

 

 

 

 

81

= М ІЛІІ

j [Н (х,

и

8и, t) Н (х,

и,

£)] dt\^

198

Основываясь на методе оптимизации нелинейных систем, от­ метим, что неравенство

—б/ : О

будет выполнено, если условное математическое ожидание при заданной реализации уі будет меньше нуля (по крайней мере,

для всех реализаций уі, вероятность появления которых отлична от нуля), т. е.

(т + JД т [Н (х, и + бы, f)— Н (х, и, \ (475)

Применяя теорему о среднем значении интеграла при Ат і> О, получим:

М IН (х, и + 8и, т + а Ат) — Н (х, и, т + а Ат) |^Tj sg; О,

Х Д С \J

Устремляя далее Ат к 0, получаем окончательно

М j Н (х, и + 6«, t) |^ j М^Н (х, и, t) |^ j.

(476)

Существенной особенностью условия оптимальности (476) является зависимость функции Н от случайных функций ф (t), £ (t), X (t), что обусловливает трудности решения стохастической задачи оптимального управления. Частные случаи решения этой задачи будут рассмотрены в последующих параграфах.

В общем случае для определения и (yt, t) из условия (476) необходимо представить функции х (t), ф (t) в виде, позволяющем вычислить условное математическое ожидание от этих функций при известных значениях наблюдаемых функций на интервале времени (0, t).

Условие (476) выражает необходимое условие оптимального управления и и является основным содержанием стохастического принципа максимума: оптимальное управление обеспечивает мак­ симум условного математического ожидания функции Гамильтона при фиксированных наблюдениях.

Из формулы (472) следует, что, как и в детерминированной задаче оптимального управления, ф (t) определяется из системы

уравнений

дН

(477)

 

_

'

dt

дх

'

при конечных условиях (468). Рассмотрим частные случаи усло­ вия оптимальности (476).

Отметим прежде всего, что при свободном правом конце Т

шах М ~Н (х, и, ф, f)

= 0.

uCU

Уо.

199

Действительно, для оптимального управления вариация коор­ динат за счет вариации времени 67 может быть представлена в виде

8x(T) = - ^ r öT = f(x, и, I, 7)67.

Поскольку при управлении, обеспечивающем минимум I,

81 = М [—ф* (7) (7) ] > О,

то

М [ф* (7) f (х, и, I, 7) ] 67 < 0,

(478)

и при произвольной вариации 67 условие (478) может быть вы­ полнено только при

М [ф* (T)f (x, и, I, 7)] = 0.

Более того, поскольку уравнения для ф (t) и сопряженные,

то

ф* (t) 8х (і) = const.

Поэтому предыдущее условие выполняется для любого t Используя определение Н (х, гр, и, t), получаем

 

max М

ГН (х, и,

ф, Ф)| ,1

= 0,

 

 

(479)

 

и^и

L

 

 

 

 

 

 

Установим связь между стохастическим принципом максимума

и уравнением

Веллмана, выражающим

условия оптимальности

в статистических задачах.

 

 

 

 

 

 

На основании формулы (479) условие (475) может быть за­

писано в

виде:

 

" x - f Д х

 

 

 

 

 

 

 

щах М

и, ф,

t)

dt

= 0.

 

 

 

j «<*.

 

 

 

U

 

X

 

 

уі

 

 

 

 

х + Д х

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

Введем

функцию

текущих

фазовых

координат

и

времени

Ф [х (t), t], определяемую уравнением

 

 

 

 

 

 

- Ж Г = * ‘ №>

і = 1.

2 ,'. .

п.

 

(480)

Тогда,

используя

выражение

(474)

для функции

Н,

получим

 

| х + Д х

дф[* (t ) , t )]

 

 

 

 

 

 

max М

I XJ

[-(

d x

•/„(*, и,

О] dt

= 0.

дх

~dt

„ т + Д г

 

 

 

 

 

Отсюда

 

 

 

 

 

 

 

 

 

max М — ф [ X (т 4- Ат),

т + Ат] + ф [ X

(т), т] —

„ х + Д х

 

 

 

 

 

 

 

 

 

 

т + д х

 

 

 

 

 

 

 

 

— j /о (х, и, t) dt УІ

= о

 

 

 

 

 

 

X

 

 

 

 

 

 

2 0 0

или

т-{ Дт

minM ер [л: (т + Ат), т + Дт] + I / 0 (х, и, t) dt —-

д + Д т

 

'X

Т

 

Ф [* (t), t) их ( = О-

Так как ф [х (т), т] не зависит от управления на интервале (т, т + Ат), то

М ( ф [X (т), т][ х} min М | ф [X

(т + Ат), т + Дт] +

их+д, \

 

т + Д х

1

+ I fo (х, и, t) dt

= О.

Обозначим

W (ух, т) = ЛГ{ф ]х (т), т] х}.

Далее используем свойство условных математических ожида­ ний, состоящее в том, что предварительное усреднение при рас­ ширенном числе наблюдений не изменяет результата следующего усреднения, т. е.

М \ у Уо\ М {м [У yt+*~\ y Ü ‘

Из последних трех равенств следует условие:

W (ух0, т) = min М I W (УІ+&Х, т +

Ат) +

ux+hx

I

 

 

х+Дх

 

 

 

I /о (х, и, t) dt

уі '

(481)

Поскольку на основании

формулы

(480)

 

Ф [х (Т), T\ = F [Т, X (Г)]

и конечное значение для выражения (481) имеет вид

W (уі, Т) = min М [Т, X (Т)] ут),

т

“о

то уравнение (481) совпадает с уравнениями Веллмана [93].

201

2. Оптимизация управления линейным объектом по квадратичному критерию

Рассмотрим применение стохастического принципа макси­ мума к задаче определения оптимального закона управления ли­ нейным объектом:

 

 

=

Лх + Ви +

 

I,

X (0)

=

х°,

(482)

где х, и, g — векторы

размерности

п,

q

и

п

соответственно;

А и В — зависящие от времени

матрицы

размерности [п, п] и

ln,

q\.

является белым шумом, т. е.

 

 

Процесс I (t)

 

 

 

 

М U (*)]

=

0;

 

 

 

 

 

 

 

М U(*i) £* (*а)1 =

 

 

 

 

 

 

= Q( t i ) b( t 1—

ti),

 

 

 

где

Q (ti) — матрица

размерности

[п,

п].

 

 

 

 

Предположим, что управление и (t) осуществляется на основе

наблюдения вектора у (/) размерности г вида

 

 

 

 

у (t) = Сх (t) +

г) (і),

 

 

где С — матрица

размерности

[г, п].

 

 

 

 

 

Процесс г) (t)

является белым шумом, т. е.

 

 

 

 

М [г] (0 ]

=

0;

 

 

 

 

М bl ( t j

i f (^ )l =

R (^) 6 (tt —

Іг).

Управление и (t) определено на интервале (0, Т) и оптимально, если оно минимизирует квадратичный функционал

 

I

 

/ = М

(Т) Ах (Т) + \ и* (0 J (t) и (t) dt

(483)

где Л — положительная матрица размерности [п, п], J (t) — по­ ложительно определенная матрица размерности [q, q].

Согласно выражению (479) управление, обеспечивающее ми­ нимум функционала (483), определяется из условия

max М (х, ф, и, t)

= 0.

(484)

и а)

 

 

На основании определения функции Я для объекта (482) и функционала (479) имеем

Я (х, ф, и, f) = ф* (t) [Ах +

+ Ви + I (t)] + фо u*Ju.

(485)

2 0 2

Система уравнений для вектор-функции ф(^) из

системы (477)

и условий (468) запишется:

 

-£■ = _ Л* ф; ф (7) = — 2Ах (Т).

(486)

Рассмотрим случай, когда на и (t) не наложено ограничений. Покажем, что при этом максимум, определяемый формулой (484), является стационарной точкой условного математического ожи­ дания функции Н (ф, X, и, t). Для этого найдем управление из условия равенства нулю частной производной по векторфункции и {t):

-§^м {Н (*, ф, и,

(487)

Поскольку и (t) является физически осуществимым управле­ нием, т. е. зависит только от прошлых значений у (t), оно является не случайным по отношению к операции условного усреднения в формуле (487) и может быть вынесено за знак математического ожидания. Отсюда, выполняя дифференцирование выражения (487) при условии (485), получаем, что и (t) определяется соотно­ шением

и (*) = ~ В * М

(488)

Решение системы (486) при заданных конечных условиях ф (Т) может быть представлено в виде

ф (і) = W* (Т, t) ф (Г),

где W (t, т) — матрица импульсных переходных функций си­ стемы (486), удовлетворяющая системе дифференциальных урав­ нений

 

dW(i, т)

= AW (t, т);

 

 

dt

 

 

 

W (т, т) = Е,

 

где Е — единичная

матрица

размерности [п, п].

 

Следовательно,

с учетом

уравнений (486), можно записать:

и -

J-1B*W* (Т, f) AM ['*(7)1,$]

(489)

Отсюда следует, что оптимальное управление определяется

вкаждый момент времени оценкой значений фазовых координат

вмомент окончания управления.

Оценка конечного значения фазовой координаты может быть выражена для линейного объекта (482) через оценку текущего значения вектора х (t) на основе наблюдения у (t) на интервале

(О, О .

203

Обозначая

для

сокращения

записи

 

 

 

 

 

 

 

G (7, 0

= J~1B*W* (7, О Л;

 

 

 

 

 

 

 

м

 

=

х м

 

( 490)

и учитывая,

что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X (Т) — W (7, О X (0 +

} Г (Г, т) X

 

 

 

 

 

 

 

г

 

 

 

 

 

 

 

 

X [Вы (т) + I* (т)] dr\

 

 

 

 

 

 

 

 

 

4 І Г 0’

x > t ;

 

 

 

 

 

получаем

Af [и ( X ) l^]

= G(7, T )M [x (T )

Vo I’

 

 

 

 

 

 

 

 

 

 

 

 

 

М[х(Т)\у^ = W(T,

t)x(t) +

 

 

 

 

J W(T, T )

BG (T, T ) dxM\x{T) !

4

 

Решение этой системы линейных алгебраических уравнений

может быть представлено в виде

 

 

 

 

 

 

М

 

 

q - 1 (7 , t)

№ (7,

t)

X

( О ,

(491)

где д~г — матрица,

обратная

матрице

 

 

 

 

 

 

 

 

 

т

 

 

 

 

т)

 

 

 

q (T ,f)

= Е — J

W (Т , т) BG (7,

dr.

 

 

 

 

 

t

 

 

 

 

 

 

)

 

 

 

 

 

 

 

 

 

 

 

Подставляя выражение (491) в формулу (489) и учитывая

соотношение (490), получаем окончательно:

 

 

 

 

 

и (0 =

G (7,

f) q - 1 (7, i)

W (7,

t) x (t).

(492)

Связь и (t) с X

(t) может быть представлена в виде

 

 

 

и {t) =

J~1B*a (t) X (t),

 

 

 

 

(493)

где матрица a (t) размерности [п, п ] является решением дифферен­ циального уравнения типа Риккати.

Действительно, сравнивая выражения (493) и (492) и учиты­ вая формулы (489) и (490), получим

a (t) = W* (7, t) Л<7-1 (7, 0 W (7, t).

(494)

204

Преобразуем формулу (494). Для этого умножим выражение (494) на а (t), W * ' 1, W*, q (Т , t), А-1 и, используя выражение (490), получим

W (Т, t) а - 1 (t) W* (Т , і) =

т

= Л -1 — { W (Т, т) BJW* (Т, %) dr. t

Дифференцируя обе части этого выражения по t и умножая на а (t) слева и справа, получим

-jjj-a (t) = — аА А * а aBJ~1B*a.

(495)

Граничное условие для уравнения (494) определяется при t = T \

а (Т) = А.

При выводе уравнения (495) были использованы соотношения

JWJZlI L = — W (Т, t) А (0;

W (Т,

Т) = Е\

dt

 

 

 

dW* (Т, t) _

А* (t) W* (T,

t), W(T,

T) — E.

dt

 

 

 

Оценка текущих фазовых координат х (t) может быть опре­ делена решением уравнений Калмана, вывод которых приведен

в предыдущей

главе:

 

 

 

~

= А х +

В и +

DC*R-1 [у (t) Сх]\

(496)

 

X (0) =

М [X0];

 

 

dD = AD + DA* DC*R~1CD + Q;

(497)

 

dt

 

 

 

D ( 0 ) = M

{[x° -

X (*„)] [x° - X (/„)]*},

 

где D (t) — дисперсионная матрица оценки x (t).

3. Задача оптимизации при жестком ограничении управления

Рассмотрим применение стохастического принципа максимума к задаче определения оптимального управления и (t) линейным объектом

dx

в случае,

когда управление в каждой реализации

принадлежит

к замкнутой области U с фиксированной границей

 

 

и (0 6 U0.

(499)

Например, для скалярного управления условие (499) имеет вид

 

I и (і) I < U (t), где U > 0.

(500)

Пусть,

как и ранее, управление, минимизирующее функционал

 

I = М [х* (Т) Ах (Г)],

 

осуществляется на основе измерения вектора у

(і) размерности г

Поскольку

у = Сх +

г].

 

 

 

 

Н {х, ф,

и, t) = ф* (t)

[Ах+ Ви +

И;

5 = - Л * ф; Ф(Т’) = — 2Ах(Т),

(501)

 

управление должно

обеспечивать максимум

 

 

М |ф* (t) Ви (t)

 

при выполнении условия (500).

Очевидно, что максимум этой функции достигается на физи­

чески

осуществимом

управлении

 

 

 

 

и (0 = и (у*0,

t)

 

вида

 

 

 

 

 

и (t)

= U (t) sign В* ф (t),

(502)

где

 

 

 

 

 

 

ф (0 = Л4 [ф (f)

 

 

 

 

+ 1, если В *ф (/)

> 0 .

 

sign 5*ф (t) =

 

 

 

 

— 1, если B*ty(t)<<0.

Для

определения

ф (t) применим

метод дифференциальных

уравнений типа Калмана.

 

 

Введем вектор z (t) размерности 2п:

 

 

 

 

Ф (о

 

 

 

 

2(0

 

 

 

 

X (0

 

 

удовлетворяющий векторному уравнению

 

 

^

= а г + b u +

h (0.

 

206

Соседние файлы в папке книги из ГПНТБ