Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Методы оптимизации в статистических задачах управления

..pdf
Скачиваний:
8
Добавлен:
20.10.2023
Размер:
8.04 Mб
Скачать

где К 2 (0 определяется тем же дифференциальным уравнением (370), (371), которое было получено в аналогичной задаче с точ­ ными измерениями фазовых координат.

Таким образом, для выработки оптимального управления необ­ ходимо сначала получить оценку фазовых координат объекта т (t) согласно формуле (418), а затем в соответствии с выражением (422) сформировать и0 (/). Иначе говоря, блок управления разделился на блок оптимальной обработки результатов измерений и опти­ мальный линейный регулятор, совпадающий с оптимальным ли­ нейным регулятором, в соответствующей детерминированной за­ даче. Этот результат является содержанием теоремы разделе­ ния [156].

6. Оптимальное управление линейным объектом при неточном знании времени управления

Рассмотрим управление линейным объектом, описываемым уравнением (361), при квадратичном показателе качества (362).

Впроцессе управления измеряётся вектор

у(/) = С (t) X + 1] (t).

Начальное распределение вектора фазовых координат объекта предполагается нормальным. Особенностью рассматриваемой за­ дачи является отсутствие точной информации о моменте оконча­ ния управления Т. Имеются лишь априорные сведения о моменте окончания управления, которые уточняются в процессе управле­ ния путем наблюдения процесса

z(t) =

T + v(t),

..

(425)

где V (t) является нормально

распределенным

«белым» шумом

с характеристиками

 

 

 

Л4ѵ (t) — 0;

Mv ( t j V (t2) = S (t,) 6 (*!— f2).

Задача решается в предположении, что Т является случайной величиной с априорным распределением

Ро (Т) = ^1 а)\ (b — Т) ехр -

1 ( Т - \ і о)2 ]

(427)

2

d0 _

 

 

Закон распределения (427) будет в дальнейшем называться «усеченным» нормальным законом распределения. Заметим, что параметры р 0 и d0 усеченного нормального закона не являются математическим ожиданием и дисперсией случайной величины Т . Множитель Іг является нормирующим.

Случайные процессы І (t), г) (t), v (t), а также случайная величина Т считаются независимыми.

12 А . М . Б а т к о в

177

Предполагается, что момент окончания управления Т, прини­ мающий случайное значение в интервале [а, Ь], фиксируется

всистеме, т. е. для t^> Т процесс управления прекращается.

Вп. 4 настоящей главы было показано, что апостериорное распределение вектора х (t) является нормальным с характери­ стиками m (t) и D (t), удовлетворяющими уравнениям (418), (419). Апостериорная плотность распределения Т определяется выра­ жением

Я it, Т) = /21 (Т - а) 1 (Ь - Т) ехр { -

} , (428)

где /2— нормирующий множитель, а параметры ц (t) и d (t) удовлетворяют следующей системе дифференциальных уравнений:

(X - — [id

-j- zd

;

d = d2- ^ ;

(429)

Ц (0) = |x0;

d(0) =

d0.

Таким образом, апостериорный закон распределения Т яв­ ляется усеченным нормальным. Этот результат получен из урав­ нения для апостериорных вероятностей (411) при соответствующих задаче значениях параметров.

Поскольку «динамика» случайной величины Т отражается диф­ ференциальным уравнением

Т = 0,

то в формуле (411) следует положить / = 0, G = 0. Тогда, учи­ тывая формулу (425), на основании выражения (411) получим сле­ дующее уравнение относительно апостериорной плотности рас­ пределения q (t, Т):

dq(t, Т)

= Т

Т) Mt{z

Л 2 —

( г - Г ) 2

(430)

dt

 

 

4 S ( t )

 

Sit) .

Можно убедиться в том, что закон распределения (428) удовлет­ воряет уравнению (430).

'При выводе формулы (428) не было учтено, что, кроме выра­ жения (425), есть еще один источник информации относительно Т. Как указывалось выше, в каждый момент времени t известно, закончен ли в данный момент процесс управления. Условие, что процесс управления не закончен к моменту времени t {t >>а), означает, что Т >■ t. Следовательно, нижняя граница усечения случайной величины Т равна t. Это означает, что соотношение (428) справедливо при t <і а, а при произвольном моменте управ-

178

ления 0 <

t <

b можно записать следующее выражение для

Я V, Т):

q (t,

Т) = l (t)\ (Г — ä)\ (Т — t)\(b — Т) X

 

 

 

 

 

X exp

1 ( Т - и (0)21

(431)

 

 

2

d { t ) J ’

 

 

 

 

где (я (t) и

d (t)

удовлетворяют

уравнениям (429).

 

Поскольку апостериорная дисперсионная матрица D (t) фазо­ вых координат объекта и параметр d (t) закона распределения Т (431) могут быть рассчитаны априори согласно уравнениям (419), (429), то достаточными координатами в рассматриваемой задаче управления являются вектор m (t) и скаляр р (t). Таким образом, оптимальное управление и функция Веллмана зависят от аргу­

ментов t,

m, р : и0 (t,

пг, р) и W 0

(t, пг, р).

В связи с тем, что момент окончания управления Т является

случайной

величиной,

уравнение

Веллмана имеет определен­

ные особенности. Рассматривая полную группу несовместных со­

бытий t <3 Т < і + А и ^ + А < ' Т '

<

Ь, представим W 0 (t,

m, р)

согласно формуле полной вероятности:

 

 

 

 

 

 

 

Г 0 (t, m, р)

=

min (Р, [^ <

 

£ + А]

X

 

 

 

 

и

( т )

£ [ / (

 

 

 

 

 

 

 

 

 

 

x£[f, &]

 

 

 

 

 

 

 

 

X М J (х* (т) V (т) X (т) + и* (т) J (т) и (т)) dx +

 

 

 

+ X * (Т) Ах (Т) I t <3 Г < t + А, m (t) = m,

 

 

 

Р (t) = Р

-f

РД і -(- А

Г с

6]

X

 

 

 

 

X М } (х* (т) V (т) X (т) +

 

 

 

 

 

+ «* (т) J (т) и (т)) dx +

 

 

 

 

 

 

т

 

 

 

 

 

 

 

 

 

 

 

 

+ j (х* (т)

V (т) л; (т) +

и* (т) J (т) и (т)) dx+

 

 

 

t + A

 

 

 

 

 

 

 

 

 

 

 

+ X *

{Т) Ах (Т) I t + Д <

Т < b,

m (t)

пг,

р (t)

= р

(432)

В соотношении (432) под Pt [t <і Т

t

t

А]

понимается апо­

стериорная вероятность события t

■< Т с

+

А, которая с точ­

ностью до о (А) равна

Aq (t, T)\T=t

= Aq

{t,

t).

Аналогичный

смысл

вкладывается в

Pt [t

А <і Т

< Ь ] .

Указанные

апосте­

риорные вероятности согласно формуле (431) полностью опреде­ ляются значением р (t), причем при t < a, q (t, t) = 0.

12*

179

Несложные преобразования выражения (432) приводят к сле­ дующему соотношению:

W 0 (t, т, р) = min {Aq (t, t) [m*Am + tr (D (t) Л)] + U(ZU

+ А [m*V (t) m + tr (D (t), V (f)) + u*J (t) u] +

 

+ [1 — Aq (t,

t)) M {W0 (t +

A, m (t + A),

 

 

p (t -f

А) I m (t) = m, p

(t)

= p]}.

 

 

Теперь, применяя

описанную в и. I гл.

IV процедуру разло­

жения

W 0 (t + A, m (t +

A);

p (t + А))

в окрестности

точки

t + A,

m, p, получим

с

использованием уравнений

(418),

(429)

в пределе при. А —>0 следующее уравнение Веллмана:

 

 

 

dw0 (t т, ц) _

mjn ( ^

^ \т*Ат +

tr (D (/) Л)] -f-

 

 

0t

и (Z и

I

 

 

 

 

 

 

+ \m*V (t) т +

tr {D (t) V (/)) +

и*J {t) и] —

 

 

. -

q(i,t)W0 (t, m, p) +

[A(t) m + В (/) u f dW°{t^

^ +

 

 

+ 4 - tr ГD{t)C*{t)R-'(t)C{t)D{t)

d2W0 (t, m, p)

 

 

 

 

 

 

 

 

 

dm dm*

 

 

 

+

1

d2(t)

d*W0(t,m,ii)

 

 

(433)

 

2

S(t)

öpa

 

 

 

Уравнение (433) должно решаться при условии

 

 

 

W 0 (Ь, т,

р) = т*Ат + tr[D

(b) Л].

 

(434)

В связи со сложным характером зависимости q (/, t) от коор­ динаты р общего решения уравнения (433) найти не удается. Рассмотрим частный случай, когда отсутствуют измерения z (t), что равносильно S —>■оо. При этом р (t) — р 0 = const, d (t) = = d0 — const и согласно формуле (431)

q (t, t) = l (t) 1 (t a)

1 (b t) exp

1 Р-Цо)2]

(435)

2

d0 _

 

 

 

может быть рассчитано априорно. Величина р (t)

исключается

из числа достаточных координат и уравнение Веллмана (433)

принимает следующий

вид:

 

dW0 (t

от) _

mjn ( ^ ^ [m*Aт +

tr (D (t) Л)] f

0t

uflD'*

 

+ [m*V (t) m -f u*J (t) u] q (t, t) W0(t, m) +

 

-ИЛ ( t ) m ^ B ( t )

} +

— tr

D(t) C* (t) R-1 (t) C (i) D (/) d2r 0 (t, H l)

2 v

 

 

dm dm* j

180

При отсутствии жесткого ограничения на управление проце­ дура решения уравнения Веллмана не отличается от описанной в п. 2 гл. IV. При этом функция Беллмйна W 0 (і, т) представ- ■- ляется квадратичной формой по переменной т:

Wq (t, т) = ko (t) + kl (t) m + m K2 (t) m,

где k 0 (t), k ! (t) и K 2 (/) удовлетворяют системе уравнений

ko = — ± - k \ B J - 1B'kl +

+tr (DC*R~jCDK2) + tr (DV)

— q {t, t) (k0— tr (DA));

^436)

k x = A* k 1K^BJ^Bkx q (t, t) ki,

— K 2 = V + A*Ka + K 2A — .

— KzBJ-1B*K2 + q ( t , t ) ( A — Kz).

Поскольку функция Веллмана удовлетворяет условию (4341, то коэффициенты k 0, k x, имеют следующие значения при t — b:

ko (b) = tr

(D (b) Л); I

 

ki (Ь)

=

0;

-

(437)

К 2 (Ь)

=

А.

J

 

Из формул (436), (437) следует,

что

k x (t)

= 0.

j Согласно уравнению Веллмана оптимальное управление свя

зано с функцией Веллмана

следующим соотношением:

иО—

i_ j~lß* dw° В’ т)

2

dm

Подставляя выражение для W0 (t, т) в виде квадратичной формы и учитывая, что k x (і) = 0, получим:

и 0 — J~1B*K2m.

Пример. Рассмотрим задачу оптимального управления объектом второго порядка, описываемым дифференциальным уравнением

Хі

0 1

хх

+

0 и +

h

 

0 1

*2

1

§2

. Параметры критерия оптимальности (362) матрицы V, J, А предполагаются не зависящими от времени:

»11

»12

I ; J = 1 Л =

Хц

^22

»21

»22

1

Я2і

181

Согласно приведенному выше выражению оптимальное управление запи­

шется:

= — J~1B*K2m =

и0 ( t , т )

= — II 0.1 I

Ац ^12

I

 

kn k22

II m2

= — (£12mi + kntn3).

Здесь k12 (t), k22 (t) определяются согласно формулам (436), (437) из реше­ ния системы обыкновенных дифференциальных уравнений

Au fej2

А21 k22

Ац Аі 2 k2l A22

при условии

"ll

V12

0

0

Ац &12

An A12

0

1

 

V22

+

 

А21 я(M

+

0

0

U2l

1

0

А21 А22

0

0

An Al2

'

 

Я,ц — к11. ^12 А13

0

1

A21 A22

"h Q (t>

t)

Я21 ■^21

 

Au (b)

A12

(b)

Xu

 

 

A2i

(b)

k22

(b)

^21

^22

На рис. 40 показаны результаты моделирования на ЦВМ этой системы урав­ нений при следующих исходных данных:

 

6 =

10 с:

 

V =

0 0

> Л =

1 0

0 0

0 0

 

 

На рисунках приводятся серии графиков, соответствующие разным значе­ ниям а. Параметры [і0 и d0 априорного закона распределения величины Т вы­ браны такими, что этот закон близок равномерному в интервале [а, Ь]. Выделен­

ная кривая соответствует значениям коэффициентов kn (t), k12 (t), k22 (t) при

а = 7.

182

Рис. 41. Результат моделирования kq (t) при различных значениях а

ДЛЯ

— 0 , 1 , A.J2 —

А.2 3L —

^ 2 2 — 0 .

 

а — графики k tl (t);

б — графики

k l2 (/);

в — графики k 22 (t)

 

^ Цифрой 1 на рисунках отмечены графики коэффициентов при а = 10,

т. е.

j& случае точно известного момента окончания процесса управления Т =

10 с;

цифрой 2 — графики коэффициентов при а = 0, когда момент окончания управ­ ления равновероятен в интервале [0, 10 ] с.

Графики коэффициентов kn (t), k12 (t), k12 (t) при

для тех же условий, при которых построены графики рис. 40, представлены на рис. 41.

Изучение представленных на рис. 42—47 результатов показывает существен­ ную зависимость оптимального управления от априорных данных о моменте окон­ чания управления.

7. Оптимальное по быстродействию управление линейным объектом при точном измерении фазовых координат

Рассмотрим управление линейным объектом, который описы­ вается уравнением (361), с точки зрения оптимально быстрого до­ стижения некоторой заданной цели. К условиям, наложенным на объект, следует добавить, что вектор управления и принимает значения из некоторой замкнутой области V . В отличие от детер­ минированной задачи оптимального быстродействия, где конеч­ ной целью является достижение некоторой заданной области в фазовом пространстве объекта, в стохастической задаче опти­ мального быстродействия возможны следующие два варианта.

183

Во-первых, можно говорить о минимальном интервале вре­ мени, за которое априорное математическое ожидание заданной функции фазовых координат объекта достигнет заданной величины. Например, требуется выбрать управление и таким, чтобы за мини­ мальный интервал времени.

T = t k — t

(438)

перевести объект из состояния х, занимаемого в момент t и харак­ теризуемого неравенством

X* (О А (t) X (t) > Сх ( і ),

(439)

в состояние х (tk), которое описывается равенством

" '

M t {X * (4) л (4) X (4)} = с, (4),

(440)

где Л (t) —■симметричная положительно определенная матрица размерности [п, я]; С (t) — заданная функция времени.

Во вторых, можно говорить о минимуме математического ожи­ дания времени, за которое фазовые координаты объекта достигнут некоторой заданной области. При этом, если рассматривать ва­ риант, аналогичный только что описанному, то .необходимо вы­ брать управление и таким, чтобы априорное математическое ожи­ дание времени

T = M t {T\,

(441)

за которое объект из состояния х, характеризуемого неравенством (439), достигнет состояния х (4), описываемого равенством

 

X * (4) л (4) X (4) - с (4),

(442)

было минимальным.

 

:

В. Н. Новосельцевым 1 было высказано предположение о том,

что

минимальный интервал, определяемый в первом варианте, и

минимум математического, ожидания времени, вычисляемый во втором варианте, совпадают. Доказательство этого факта было бы весьма желательно, так как это дает определенные преимущества при решении этих задач. Однако уравнения Веллмана, записанные

для Т и Т, оказываются разными. Рассмотрим этот вопрос более подробно.

Решение задачи, определенной условиями (438)—(440), тесно связано с решением задачи минимизации математического ожида­ ния от квадратичной формы (440) в фиксированный момент 4>

когда требуется обеспечить

 

min M t \х* (4) Л (4) X (4)).

(443)

«■£ и

 

1 Новосельцев В. Н. «Оптимальные по быстродействию системы управления при наличии случайных помех». Труды ИФАК, II конгресс, т. 2, М., «Наука», 1965.

184

Введя функцию Веллмана

 

 

W (х,

t\ 4)

=

min M t \x* (tk) Л (4) X (tk)\Xit\,

(4 4 4 )

 

 

 

 

“€ и

 

 

запишем уравнение (363) в следующем виде:

 

а г

 

fair

 

, Ви)+ 1 t r rGQG; d2W

(445)

 

= min{^ (At-

д х д х *

 

 

и £ С/

 

 

/

с конечным условием: W = х* Л х при 2 = 4-

Очевидно, что время оптимального быстродействия будет

найдено,

если

из наименьшего tk, определяемого

из уравнения

 

 

W (х, 4 4 )

С (4), -

~

(446)

вычесть текущий момент

4

 

 

 

 

 

т

= 4 (X, t) — 4

 

(447)

что проиллюстрировано на рис. 42.

управление

uk (х,

4 4)>

При

таком

подходе

оптимальное

найденное по критерию (443) при замене параметра 4 на значение, полученное из уравнения (446), дает решение задачи оптималь­

ного стохастического

быстродействия

первого

типа:

и (х,

t) =-ик[х, 4

tk (x, 4].

(448)

Чтобы записать уравнение Веллмана для времени Т, заметим,

что

 

 

 

дТ _ dtk_

1.

дТ __ dtk

 

 

 

 

dt

dt

дх

âx

 

Функция

4

задается

неявным

образом

уравнением (446).

Введем для удобства функцию

 

 

 

 

 

 

W4 ( X , 4 4)

=

W ( X ,

4 4) -

С (4)

и разделим

уравнение (445) на производную

dWj,

dtk

Учитывая,

что

 

 

 

 

 

 

 

dW

 

 

 

dW

 

 

 

 

дТ_

дх*

дТ

 

dt

 

 

д х

d W i

d t + 1

 

dWj_’

 

 

dtk

 

 

dtk

 

 

запишем уравнение

 

 

 

— 1

дТ

min­ dT_

{Ax -f- Ви) -f-

 

"dt

uet;

д х *

 

 

 

 

 

 

d2W

 

+ ~ t r

GQG*

д х д х *

(449)

ÖW±

 

 

 

 

 

 

 

dtk

 

с граничным

условием

Т = 0, если

X * Л X = С {t).

 

 

 

 

Рис. 42. Определение ми­ нимального времени, при котором априорное мате­ матическое ожидание до­ стигает заданной величины

185

Соотношение (449) не имеет вид замкнутого уравнения для Т, так как матрица

d2W

дх дх*

^~ dwi

dtk

д2Т

не равна матрице j xdx*- Записью соотношения (449) ограничим

пока разбор задачи первого типа.

Для решения задачи второго типа, определенной условиями

(441), (442), введем величину

 

Т (х, t) = min Л4, \х, ,},

(450)

ufZM

 

дающую минимальное среднее время попадания в область (442) из точки X, занимаемой в момент t. Легко показать, что эта ве­ личина удовлетворяет уравнению

дТ_

= mm

дТ

(Ах -f- Ви) -(—

tr GQG*

д2Т

(451)

dt

и£ С/

дх*

 

 

дх дх*

 

с граничным условием Т = 0, если х* А х = С (t).

Сравнивая соотношение (449) с уравнением (451), приходится

сделать вывод, что Г и Г не абсолютно идентичны. Однако оба уравнения одинаково определяют управление в» зависимости от

дТ и В. В частности, если допустимая область U задается нера­

венствами I 1« 1, то из уравнений следует, что

 

 

 

и — —sign

В, ,

(452)

где sign относится к каждой компоненте вектора.

 

 

Однотипность функциональной

зависимости управления от

,

дТ

дает возможность применить одинаковую

процедуру

функции

 

получения решений в обоих случаях.

Рассмотрим последовательный процесс нахождения оптималь­ ного управления.

В том случае, когда управление определяется формулой (452), что представляет наиболее часто встречающийся случай, задача сводится к нахождению гиперплоскости переключения в фазовом пространстве объекта, описываемого уравнением (361). Эту задачу целесообразно решать методом последовательных приближений. За нулевое приближение к оптимальному решению примем гипер­ поверхность переключения соответствующей задачи оптимального

186

Соседние файлы в папке книги из ГПНТБ