Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Методы оптимизации в статистических задачах управления

..pdf
Скачиваний:
8
Добавлен:
20.10.2023
Размер:
8.04 Mб
Скачать

включающему уравнения объекта (498) и систему уравнений (501),, при условиях:

z. (0) = х9.,

i = n +

\,

n + 2, . .

2n;

Zj (T) =

— 2Ax (tk),

j =

1,2, . .

n.

При этом

1 *

а ( і ) =

0

О

А

II

оц 0

в\; ll{t) = 1

На основании формул (496), (497), получаем уравнения для:

оценки z (і) на основе наблюдения вектора

у = Cj_z + г|,

где

С

СіН|о о ’

в виде

=

dz +

bu +

DClFT1 [у (0 — Схг];

(503)»

 

zi (0) =

х°г

 

і = п + 1,

п + 2,

. . ., 2п\

 

 

г, (Т) = —2Ах (Т), / ' = 1 , 2 , . . ., п

 

 

и

 

 

 

 

 

 

 

 

= aD + D a — DC\R~lCiD + Qu

 

 

где

 

о

 

 

 

 

 

 

Q i =

0

D =

 

 

 

 

0 Q

^xxfixx

 

 

 

 

 

 

 

 

 

В соответствии с принятыми обозначениями система (503)>

 

может быть представлена в виде

 

 

 

 

= _ л*ф +

 

(// — Сху,

(504)

-

 

 

Ф (Т) = - 2 А х ( Т ) ;

J

 

 

 

 

% = А х +

Bu +

D ^ R - 1 (у -

Сху,

(505)

»

 

 

 

X (0) =

М [je0].

 

 

 

 

 

 

 

Прежде всего отметим, что решение задачи в виде

 

 

ф (t) = —2W* (Г,

0 Ах (Т),

 

 

2 0 7 '

которое удовлетворяет уравнению (501), не может быть непосред­ ственно использовано для решения задачи, поскольку при этом необходимо в каждый момент времени вычислять конечное значе­ ние фазовой координаты х (Т) при оптимальном законе управления.

Поэтому нас интересует только физически осуществимое реше­ ние системы (504). Будем искать его в виде

ф (0 = —S (Т, t) lx (t) + В (01-

(506)

Подавляя выражения (506), (502) в формулу (504) и учитывая, что для решения (506)

Пцл SDXX

я используя уравнение (505), получим:

'dS

+ ЯЛ + A*S [X -+- В]

dt

 

+ 5

AB -4- BU sign BAp (t) = 0.

Для произвольного значения x (t)

~+ SA + A*S = 0.

Конечное значение S (T, T) для этого уравнения определяется из сравнения выражения (506) и уравнения (504):

Отсюда

5

(7,

Т)

=

2Л.

 

 

(Т, t) =

2W*

(Т,

t) AW

,

t).

5

Пусть далее

A t —-интервал

времени,

на

А

котором Б*ф (t)

не меняет знака. Тогда, приравнивая второе слагаемое в уравне­ нии для В (t) нулю и решая дифференциальное уравнение относи­

тельно В (t) при В (t +

At) =

0, получим:

 

t+At

 

 

 

В (t) = J

W (t,

т) BUdx sign В*ф (t).

(507)

Подставляя выражение (507) в формулу (506) и далее в фор­ мулу (502), получим:

t+At

0*ф (t) = — B*S (T , t) x{f)-\~. j W (t, х) В U dx sign B*ty(t)

( 508)

signß*op(^)=—sign B*S (T, t) X (t) -\~

t+At

-f } W (t, x) BU dx sign В*ф {t)

208

Отсюда следует,

что при

 

 

 

 

 

 

 

 

 

 

 

 

t+_M

 

 

 

 

 

 

 

 

I B*S (7, t)lc (О I

>

 

J B*S (7,

t) W (t, x) BU dx

справедливо

 

 

 

 

 

 

 

 

 

 

 

 

у

sign В * \ (t)

=

—sign B*S

(7 ,

 

t) x (f),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а при

 

 

 

 

 

t+ht

 

 

 

 

 

 

 

 

 

 

 

 

 

B*S (7,

 

 

 

BU dx

 

I B*S (T, t)x(t) | <

 

J

0

IT (f, г)

справедливо

 

 

 

 

 

 

 

 

 

 

 

 

 

sign B*ty =

—sign B*S (T ,

t) X

 

 

 

t+M

 

 

 

 

 

 

 

 

 

 

 

X

j

W (t,

x) BU dtsign В*ф (0-

 

Отсюда следует,

что

 

 

 

 

 

 

 

 

 

 

п р и

 

 

 

 

В *\із (0

= 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

B*Q J

W (t,

т)

BU dx >

0

 

и согласно выражению

(508)

 

 

 

 

 

 

 

 

 

 

f+A#

 

 

 

 

 

 

 

 

 

X (0 +

j W (t,

т) Bn

(x) dx

= 0.

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

Таким образом получаем, что при

Af —>0

 

 

и (t)

= — U (t) sign B*S (T,

t) X (t);

(509)

при At = T t,

и (t)

определяется

выражением

(509) при

 

 

 

 

 

 

т

 

 

 

 

 

 

 

 

B*S (Т ,

t) x ( t ) \ >

j B*S (7,

t) W (t, t)

BU dx

и удовлетворяет условию

т

X (t) + \ W (t, т) Bu (т) dx = 0

при

ß*S(T, 0 X (0 I < j ß*S (7, t) W {t, X) BU dx

14 A. M. Батков

209

4. Задача оптимизации управления при изопериметрическом ограничении типа неравенства

В п. 1 гл. V были получены условия оптимальности в случае, когда управление и (t) принадлежит замкнутой области.

Рассмотрим некоторое обобщение этой задачи. Предположим, что управление и (t) должно минимизировать функционал

 

 

I = М [F [*(Т)]}

(510)

при условиях

и (0 6

U и

дополнительном изопериметрическом

ограничении,

выражаемом

неравенством

 

 

М

J /о (х,

и,

t) dt

< см

(511)

или

 

U

 

 

 

 

 

 

 

 

 

 

 

 

 

 

J /о (х,

и,

t) dt

< с,

(512)

где см и с — заданные постоянные.

Математическое

ожидание

в формуле (511) берется по начальным условиям вектора фазовых координат х°, случайным возмущениям и ошибкам измерений.

Функция / 0 (х, и, t) предполагается дважды

дифференцируемой

по аргументам.

координату

х 0 (t)

Вводя, как и в формуле (465), фазовую

уравнением

 

 

Хд = /о (X, U, І), Хд (0) =

0,

(513)

преобразуем неравенства (511) и (512) к виду

 

 

М [х0 (Т) ] < см\

 

(514)

Хд (Т) < с.

 

(515)

Для учета этих ограничений в условиях оптимальности при­ меним метод перехода от замкнутой области изменения коорди­ наты Хд (Т), определяемой неравенствами (514) или (515), к откры­

той области [96]. Для этого введем координату Хд и функцию

X [х0 (71)] такую, что при изменении хд в неограниченной области функция X обеспечивает выполнение условий (514) или (515)

при любых допустимых значениях хд (Т).

В частности, для ограничения (514) функция % определяется

условиями:

 

 

 

М [Хд (Т)]

и

+- 0 при М [Хд(Г)] < см;

X [х'о (О] = '

охп

( 516)

 

 

См и дхп

0

при

М [Хд(Г)] см

в неограниченной области

изменения

х0 (Т).

210

Предполагая, что для учета ограничений рассматриваемого типа применим метод множителей Лагранжа, приведем задачу минимизации функционала (510) для ограничения (511) к задаче минимизации:

/ і = М [F [х {Т)]\ + ф0М [х0 (Т) ],

где фо — неопределенный постоянный коэффициент. Вариация функционала І г может быть представлена в виде

 

бІХ= М

SF [X (Т)]

 

 

ді[х'о(Т)]

 

 

 

 

6 х ( Т ) + ф о

дх'о (Т)

Sxo(T),

 

 

 

 

дх (Т)

 

 

 

 

где использовано определение (516).

 

 

 

 

 

Так как на вариацию 8хо (Т) не наложено ограничений,

она

является произвольной и условие 8 / ч >

0 может быть обеспечено

при

 

 

 

 

 

 

 

 

 

 

 

 

 

К

(Г)] = 0.

 

 

 

(517)

 

 

 

дх'о(Т)

 

 

 

 

 

 

Для рассматриваемой задачи выражение для стохастической

функции Гамильтона остается

аналогичным формуле (474),

т. е.

 

 

 

 

 

 

П

 

 

 

 

Н (ф, X, и, t) = ф*/ (х, и, I, /) = Е ф (X, и, I, О,

 

 

 

 

 

 

 

 

і=о

 

 

 

 

где х 0 удовлетворяет уравнению (513),

и условие оптимальности

для рассматриваемой задачи определяется выражением

 

 

 

 

max М

Н (х,

ф,

и, і)

=

0.

 

 

(518)

 

 

u(ZU

 

 

 

у' о

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Из

условия

(517) следует,

что

если

условие

(514) не

нару-

шается

д% 1Д (Г )]

 

формуле

(516)

не

равно

нулю,

и — Ц----- - согласно

 

дх0 (Т)

 

 

 

 

 

 

 

 

то фо =

0. Поэтому в этом случае при решении задачи ограничение

(514) не должно приниматься во внимание.

 

 

 

 

Если же условие (514) нарушается, то в соответствии с форму-

-

/сісч

dxUol7’)]

Л ,

/С1_Ч

лои

(516)

---- Ц-----— =

0 и фо в выражении (517) является про-

дх0 (Т)

извольной величиной. В этом случае в функцию Я (х, ф, ы, і)

добавляется слагаемое ф0/ 0 (*. и. 0- Таким образом, решение задачи минимизации функционала

(510) с ограничением типа неравенства (511) сводится к решению задачи без ограничения и проверки условия (511). Если оно не нарушается, по полученное управление и является решением задачи. Если условие (511) нарушается, задача решается снова

14 *

211

с введенным в функцию Н (х , и, ф, і) слагаемым ф0 / 0 (х, и, t)

иг[э 0 определяется из условия

М1х0 (Т) ] = см.

Применим изложенную методику к определению оптимального управления линейным объектом

Н Y

. = Ах + Ви + I, X (0) = х°,

обеспечивающего минимум функционала

I = М [х* (Т) Ах (Г) ]

при ограничениях на управление и (t) 6 U и

(0 J (0 и {t) dt < Сj a ,

(519)

где Л — положительная, a J (t) — положительно определенная матрица.

Заметим, что без учета ограничения (519) оптимальное управ­ ление, определенное в предыдущем параграфе, является релей­ ным и в одномерном непрерывном случае равно

и (t) = — U (t) sign B*S (Т, t) X (t)

в соответствии с формулой (509).

При этом

 

 

1

1

 

М J и* J

(t) u{t) dt = { / (t) и 2 (t) dt.

(520)

Очевидно, что если

 

 

1

t

 

J J

(t) U2 (t) dt <3 cM,

 

условие (519) может не учитываться, поскольку уравнение (520) определяет максимальный «расход» управления на интер­ вале (0, Т). Более того, рассматриваемая задача с учетом огра­ ничения (519) не имеет физического смысла, так как оно никогда не нарушается.

Поэтому поставленная задача имеет смысл только в том случае, когда

т

J J (t) U2 ( 0 dt > см.

о

212

При этом в соответствии с изложенной методикой ограниче­ ние (519) может быть заменено изопериметрическим ограничением со знаком равенства:

и* (t) J (t) и (t) dt см.

Функция Я (X, ф, и, f) в рассматриваемой задаче имеет вид

Я (х, ф, и, t) = г))0u*Ju + ф* (Ах + Ви -f \ (t))

или

 

Я (х, ф, и, 0 = Фо "* + і ч

 

X

 

 

 

 

 

 

 

X J

 

1

J-XB (t) + ip*Ах -щ- г)?BJ-lB*\p

(521)

 

 

2ф0

 

 

 

 

Подставляя выражение (521) в формулу (518) и замечая, что

ф0 << О при /о (х,

и,

t) >■ 0, получим, что оптимальное управле­

ние должно обеспечивать максимум квадратичной формы

 

шах М фо

 

 

2ф0

Ѵ -^ ’ф 0о}.

(522)

u(-U

(

 

 

 

 

При условии, что область U представляет собой (/-мерный па­ раллелепипед, такой, что

\ut \ ^ U

lt

і = 1, 2...........q,

 

составляющие вектора

и размерности

[q,

1 ] определяются неза­

висимо одна от другой.

Введем формальное представление нели­

нейного преобразования

векторов а

и

ß размерности [q, 1 ]:

 

а

=

sg ß,

 

 

(523)

которое означает, что

 

 

 

 

 

 

f

Pi

при |ß( | <

Ut;

(524)

 

 

 

 

 

 

Isign-ß, при I ßt-1> Ut.

С учетом представления (523) управление и (t), обеспечивающее максимум (522), определяется выражением

« (0 = ~ s g ^ - y - 1W ( 0 ,

где, как и ранее обозначено:

Ф (f) = М [ф ( * ) №

213

Для определения оценки ф (t) запишем систему дифферен­ циальных уравнений, аналогичную уравнениям (504) и (505):

^= — А*ф + D ^C *#"1 (у — сх);

dt

ѵ

**

7

(525)

Ф (Т) = - 2 Ajc (Г);

 

~ = А х - В sg 2^

J-'B (t) +

Dxxc*R^ (у -

сх);

*(0) =

М1х°].

(526)

Применим к решению этой системы уравнений приближенный способ, основанный на методе статистической линеаризации.

Для этого при решении системы уравнений (525) и (526) при­ мем, что

u(t)

где К — диагональная матрица размерности [q, q ] коэффициен­ тов статистической линеаризации

ki = kt (mi, D~)

для элементов (524) типа линеной зоны с насыщением, где mit D~

математическое ожидание и дисперсия оценки х. При этом система уравнений (525), 526) линеаризуется, и ее решение имеет вид

 

ф (*)

= - 5 (Г, t) X (t),

где

 

 

dt

+ SA +

A*S + S B - ^ - B * S = 0

 

"тО

с конечными условиями

5 (Г, Т) = 2А.

При этом оценка х (t) удовлетворяет уравнению

% = ( А + В 1^ - B * s ) x + DXXC*R-' (у - Сх), (527)

X (0) = М х \

Для определения дисперсии оценки D~ при нулевом математи­ ческом ожидании

М [х ( 0 1 = 0

214

имеем

 

D~ = М [х (t)x* (t)].

(528)

Дифференцируя уравнение (528) no f и используя формулу (527), получим

dD-~~ (t)

.

к i~i

\

 

- г -

= ( Л +

в ж

и ) " - (|) +

 

+ D: (t) (Л + В ^

ß*s)* + DC*R-'CD,

(529)

где D = M [(xx) (x x)*]

определяется уравнением

(497).

При получении уравнения (529) было использовано свойство опти­ мальных оценок X, по которому

М[{х х) X* ] = 0;

М[х (х х)* ] = 0,

равенство

у = Сх + т|,

где т] (t) — белый шум,, а также

М {[С (х — X) + т) ] X*} = - L CD.

Таким образом, приближенно закон оптимального управления определяется выражением

U(t) = + s g ^ - B * S ( T , t)x(t),

где фо <c 0 определяется из ограничения на интеграл от квадра­ тичной формы управления (519).

5.Условия оптимальности в игровой задаче

снеточными измерениями

Предположим, что объект управления описывается векторным дифференциальным уравнением

= / (*, и, ѵ, £, t), X (t0) = х°,

где X — вектор фазовых координат размерности п\ \ — вектор случайных возмущений размерности п\ и и ѵ —векторы упра­ влений объектом, имеющие различные цели управления.

Пусть управление и (t) стремится-минимизировать функционал

/ = М {J [и, и]}

(530)

-

\

215

на основе измерений вектора

У и У а (%, П и ) ,

а управление ѵ (t) стремится максимизировать функционал (530) на основе измерений

 

У ѵ ~ У ѵ (■ *-> Ла)>

 

где т]„, г]0 — случайные

векторы ошибок измерений

с извест­

ными статистическими

характеристиками.

двух лиц

Рассматриваемая задача является задачей игры

с неполной информацией. Существенно, что в общем случае игроки используют для управления различную информацию. В связи с этим даже при противоположных интересах игроки различным образом оценивают результат игры, и поэтому в общем случае игра имеет ненулевую сумму.

Будем считать, что управление

“ = и (Уи„ і)

оптимально и равно и0, если для оптимального управления ѵ = = ѵ0, где

V = V (Ущ, t),

другого игрока для всех t интервала управления справедливо неравенство

М [J [т, ко] К ,) [и, ко] I <}■ (531)

Аналогично для управления v (f), максимизирующего функци­ онал (530), можно записать:

М {J [ио, v \\ y tj

{J [uo, ко] Iyl,]-

(532)

Из выражений (531) и (532) следует, что условия оптимально­ сти для каждого управления могут быть выражены аналогично выражению (463) в форме стохастического принципа максимума при имеющейся в его распоряжении информации.

Таким образом, для управления и в соответствии с формулой

(479) имеем:

max М [Н (х,

ф,

и,

v0, t) | УІ0] = 0.

(533)

u(ZU

 

 

 

 

Аналогично для управления

ѵ

 

 

min М [Н (х,

ф, «о,

к, t)\yia] — 0.

(534)

Уравнения (533) и (534) образуют систему уравнений, совмест­ ное решение которых определяет оптимальные законы управления (стратегии) и0 и ѵ0.

216

Соседние файлы в папке книги из ГПНТБ