Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Васильев Ф.П. Лекции по методам решения экстремальных задач

.pdf
Скачиваний:
16
Добавлен:
25.10.2023
Размер:
14.17 Mб
Скачать

П Р И Н Ц И П

МАКСИМ УМА

Л. С. ПОНТРЯГННА

[Гл. 3

л

л

л

 

= - 2 а, дк^ х^ ’П = £ а .ф, (Г) = £ ф,- (Г) ф7 (Л = (ф (Г ), Ф (Т )) •

/= 1

 

/= 1

/= 1

 

 

 

 

Так как #(л;, ф, и,

£) = (ф,

и) f°(x, и,

t) и яр (^)

выражается форму­

лой (8), то последнее равенство можно

переписать так:

 

 

' Г>(х(Т),и(Т),

Т) + ( f u(x (T ),u (T ),T ),

у ( Т ) - и ( Г ) ) =

0.

(15)

Условия

(14), (15)

при учете связи

x ( t ) = u ( t )

выражают

собой

известные

в классическом

вариационном

исчислении

условия

трансверсальности

для свободного и

соответственно подвижного

правого конца.

Таким образом, в случае У = £ п из принципа максимума сле­ дуют все основные необходимые условия, известные в классическом вариационном исчислении [68, 254]. Однако если V — замкнутое множество и У ф Е п, то соотношение (4 ) ,вообще говоря,не выпол­ няется. Более того, имеются примеры, когда и условие Вейерштрасса в этом случае не имеет места ([195], стр. 284). Принцип максимума, являясь естественным обобщением условия Вейерштрасса из классического вариационного исчисления, имеет то су­ щественное преимущество перед условием Вейерштрасса, что он

применим

для любого

частности, и замкнутого)

множества

V ^ E r и для более общих

задач. Заметим, что именно случай

замкнутого

множества

V ^ E r наиболее интересен в

прикладных

вопросах, поскольку значения оптимальных управлений чаще всего лежат на границе V.

Г л а в а 4

Динамическое программирование. Проблема синтеза

В этой главе остановимся на методе динамического програм­ мирования, часто используемом при численном решении задач оп­ тимального управления при наличии фазовых ограничений. Заме­ тим, что принцип максимума может быть сформулирован и для задач с фазовыми ограничениями, однако получающаяся при этом

краевая задача

будет иметь еще более сложный вид ([5, 27, 55, 101

141, 195] и др.),

и трудности при ее численном решении значитель­

но возрастают. Поэтому для численного решения таких задач ча­ сто бывает выгоднее использовать метод динамического програм­

мирования. Изложение этого метода

начнем с

простейшей схемы

Р. Веллмана [6, 14— 18, 27, 34, 54, 206,

234, 259],

затем опишем бо­

лее совершенную и удобную для практики схему Н. Н. Моисеева

[167— 169, 171].

§ 1. СХЕМА Р. ВЕЛЛМАНА. ПРОБЛЕМА СИНТЕЗА ДЛЯ ДИСКРЕТНЫХ СИСТЕМ

1. Рассмотрим следующую задачу оптимального управления: минимизировать функционал

 

 

J(u)

=

j7 ° ( * , и,

t).dt + 0 (x (T )),

 

(1)

 

 

 

 

^0

 

 

 

при условиях

x ' = f ( x , u , t ) ,

< ^ < 7 \

 

(2)

 

 

 

x (t)eG (t),

г0 < ; < 7 >

 

(3)

u —u (t)^ V (t), t0^\t^LT, u(t) кусочно-непрерывна

(4)

(подробное

описание

обозначений

см. в § 3.1;

множества S0(t0)

и Sj(T) из

(3.1.7— 10)

нам здесь удобнее включить в фазовые от-

раничения G(t), to^Lt^T)-, моменты t0, Т будем

считать

извест­

ными.

 

 

 

 

 

 

 

Для приближенного

решения этой задачи

разобьем

отрезок

Т на N частей точками

 

и,

приняв

эти точки в качестве узловых, интеграл в (1) заменим квадратур­ ной формулой прямоугольников, а уравнения (2) — разностными уравнениями с помощью простейшей явной схемы Эйлера [20]. В результате мы придем к следующей дискретной задаче опти­ мального управления: минимизировать функционал

182 ДИНАМ И ЧЕСКО Е ПРОГРАММИРОВАНИЕ. ПРОБЛЕМА СИНТЕЗА

Г

 

 

 

N—1

 

 

 

 

 

Л> ( * .

М о) =

2

(*;>

Щ) +

ф (Хц),

(5)

 

 

 

(=0

 

 

 

 

Ft(xlt «,) =

/°(хь ut,

/<)(ti+l — /J

 

при условиях

 

 

 

 

 

 

 

 

■^■i+1

(х,',

«,)--- ^i) f i.xit Uh

^i),

 

(6)

t = 0, 1

, ,

N — 1, a-0 = a' 6 G 0 ,

 

x.ea^G^),

i = o,

l

,

, tv,

(7)

 

 

 

 

 

 

 

. . ,

t f - 1 .

 

 

 

 

 

 

 

 

(8)

-Заметим, что задача

(5):— (8)

имеет также и самостоятельный

интерес и возникает при описании управляемых импульсных систем.

 

Если задать какие-либо дискретное управление

[ц ,]о = («о , «ь

....

uN-\) и начальное условие x0= x ^ G 0, то система

(6) однознач­

но определяет соответствующую дискретную

траекторию [ау] 0=

=

(х0= х , л'ь ..., xN). Зафиксируем некоторое

x e G 0

и через Д0(х)

обозначим множество управлений [«Jo, таких, что: 1) выполнены условия (8); 2) дискретная траектория X*Jo, соответствующая уп­ равлению [ы,]о и выбранному начальному условию х0= х , удов­ летворяет фазовым ограничениям (7). Управление [«Jo^Ao(x) и

соответствующую

траекторию [x j0

будем

называть

допустимыми

для выбранного начального состояния х.

Множество До{х) может

быть пустым или непустым. Если

До( х ) = 0

при всех A eG 0,

то

условия

(6) — (8)

несовместны и функционал (5)

определен

на

пустом

множестве.

Поэтому, чтобы задача (5) — (8)

имела смысл,

естественно требовать существования хотя бы одной

точки x e G 0,

для

которой

До(х )^ = 0 . Обозначим Х 0= .'{х ; x e G 0, До(х )^ = 0 }.

Тогда задача

(5) — (8)

может быть

сформулирована

совсем крат­

ко:

минимизировать

функционал

I0(x,

[«Jo)

при

[«JoeA 0(x)

и

х ^ Х 0. В результате мы пришли к уже известной нам задаче мини­ мизации функции n-\-Nr переменных х, «0, щ, ..., «w-i, и для ее решения можно использовать методы из гл. 2. Однако в практиче­ ских задачах число n-\-Nr обычно бывает столь большим, что не­ посредственное использование методов гл. 2, вообще говоря, силь-

.но осложняется. Вызывает трудности также и то обстоятельство, что множества Д0(х) и Х0, на которых минимизируется 10(ас, [« Jo), заданы неявно. Для преодоления этих трудностей используют ме­ тод динамического программирования, позволяющий свести задачу

(5) — (8) к последовательному решению более простых задач ми­ нимизации функций меньшего числа переменных.

2. Для изложения метода динамического программирован нам понадобятся следующие вспомогательные задачи: минимизи­ ровать функционал

§ п Схема Р. Веллмана. Проблема синтеза для дискретных систем 183

 

 

h

(х,

I« ,U

-

s ' F° (xh

щ) + Ф (XN)

 

 

(9)

при условиях

 

 

1

 

i = k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xc+l = F l (xl,

Ui),

i = k ,

k

+ \ ,

, N — 1,

xk =

x £ G k,

(10)

 

 

 

XieGt,

i =

k,

k + \

, . . . , N ,

 

 

 

 

(11)

[щ]к = (ик,

uk+u . . .

uN- i),

UieVi,

i = k , k

+

\ , . . . ,

N — 1,

 

 

 

 

 

 

 

 

 

 

 

 

 

( 12)

где

точка x

и целое

число k

фиксированы,

х

 

 

 

— 1.

Через Ak(x)

обозначим множество всех управлений

[iii]k, таких,

что: 1) выполнены условия (12); 2) соответствующая

траектория

[* » ] * = ( * * = * ,

xh+1,

xN)

из

(10) удовлетворяет фазовым ограни­

чениям (11). Нетрудно видеть,

что если ХоФ 0 ,

то Ак( х ) ф 0

хотя

бы при одном XI= Gk. Введем функцию

inf

I k (.х, [u jfe) = Bk (x),

k = 0 ,

1, ..., N— l называемую функцией Веллмана задачи

(5) — (8).

Покажем, что функция Веллмана удовлетворяет следующим рекуррентным соотношениям, называемым уравнением Веллмана:

Вк (*) = inf

[F°k (х, и) +

Bk+l {Fk (x, u))],

k = 0, 1, . . . , А/— 1,

 

“&Dk(x)

 

 

 

 

 

 

 

 

 

 

BN( x ) ^ Ф(х),

 

 

 

(13)

где Dh (х) — множество всех тех

для

которых существует

хотя бы одно управление [Ui]fe=

(uh, uk+u

...,

u^_i) е Д й(х) с ком­

понентой ик— и. Очевидно,

что множество Dk (x) и ДА(х)

оба пусты

или непусты одновременно,

и поскольку xk+l= F k (x,u),

то для не-

пустоты

этих множеств

необходимо

и

достаточно, ' чтобы

Ah+i (Fh(x, и ) ) ф 0 .

 

 

 

 

 

 

 

 

Справедливость

соотношения

(13) при k — N — 1

очевидным об­

разом

вытекает

из условия

 

B n (х ) з= ф (х)

и

представления

I n - i (x ,

[« Jat_ i) =

^ _ 1 ( х ,

и )

+ Ф (FN- i (х,

и ) ) , верного для любого

и £ D n —1 ( х ) = A ^ _ i ( х ) = { и : и £ V n u x n — F n i ( х , и ) £ G n , х £ G n i } .

Докажем

(13) при k,

0 ^ k < £ N — 1.

Для этого сначала убедимся в

том, что

 

 

 

 

 

 

 

B k (х) <

inf [F°(x,

и) +

Bk+l (Fk (х, а))].

(14)

 

 

“£Dk(x)

 

 

 

Возьмем.

произвольное

u £ D k {х)

(разумеется, предполагаем,

что

А г(х) Ф

0 ) . Тогда xk+i — F k (x, и) и Afe+i(xft+i)=£ 0 . По определе­

нию Ди- i(хк+1) = inf

7ft+i(xfc+1,

[u jft+i), для любого е > 0 найдет-

ся управление i«f]fc+16 A ft+i^+i),

такое, что Вк+1 (хш ) < / fc+1 (xfe+1,

184

ДИНАМ И ЧЕСКО Е

ПРОГРАММИРОВАНИЕ.

ПРОБЛЕМА

СИНТЕЗА

 

[Гл.

4

[ufjfc+1)'<

Bk+i (хк+1) + е. Поскольку [u jft =

(и, иЕк+и . . .

, u^-i) 6 Вк(х),

то Вк (х) <

4

(х, [и,]Л) =

F l {х,

и) + 4+1

(JCfc+1.

I«fjfe+i) <F°k(x,

и) +

+ Bk+l(xk+i) +

e, =

F°k(x,

и) +

Bk+i (Fk (x,

u)) + e. В силу произволь­

ности u £ D k {x)

и величины е > 0

отсюда

следует

 

неравенство

(14).

 

Теперь

покажем, что в (14) на самом деле знак

неравенства мож­

но заменить знаком равенства. По определению inf

1к (х,

[и*]*) =

 

Вк(х),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4 м

 

 

 

 

 

 

 

для

каждого

е > 0

найдется

такое

управление

 

[yf]fe 6.Д* (х),

что,

Но

 

 

 

 

 

Вк(х) 'С 4 (х > [^-’i ]*) ^

Вк (х) -f- е.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

поэтому

 

 

[ui]fe+i =

(wfe+i . •••. ^ - i )

6 Afc+i {Fk (x,

vk)),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ВI {x, v t ) - r B k+i(F k (x, ft)) <

F k (x, vt) +

4 + i (Fk (x, vk),

[uf]ft+i) =

 

 

 

 

 

 

 

 

— 4

(x >

 

 

'C Bk (x) + 8.

 

 

 

 

 

 

 

Так

как vk 6 Dk (x), то отсюда имеем

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

inf

[Fk (x,

u )+ B k+i(F k{x,

u ))]< B A(x) + e ,

 

 

 

 

 

 

 

 

u € D k (x)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

или

в силу

произвольности е > 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

inf

[Fft (х,

и) +

В к+1 (F k (х,

и))] < Вк (х).

 

 

( 1 5 )

 

 

 

 

u £ D k (x)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

>

Из

(14) — (15)

немедленно следует соотношение

(13).

 

 

 

 

 

Пользуясь уравнением Веллмана

(13), можно последовательно

определить

 

функции

В к (х)

 

и

их

 

области

определения

Хк,

k = N , N— 1,

...,

1,

0.

А именно B N(x) =

Ф (х ),

XNs=GN— известны.

Если известны Вк+i(x)

и Afc+i

( k ^ N — 1),

то

для

определения

Вк (х) нужно решить

задачу

минимизации

функции

ср (х,

 

и)

=

= F l(x ,u )+ B k+\{Fk (x,u)) переменных

и— (и1,...,

иг)

на известном

множестве

 

Dk (x) =

: « е 14,

Fk (x, и) e

4 +i},

Для

этого

могут

быть использованы методы глав 1, 2. Очевидно, функция

В к (х)

определена

в точке

х тогда

и

только

 

тогда,

когда

Dk (x) ф 0 .

Таким образом, при определении значений

В к(х)

одновременно

находится и область ее определения

 

 

 

 

 

 

 

 

 

 

 

 

X k =

{ x : x e G k, Dk (х) =£ 0 }

= { х : х 6 С?*, Ак ( х ) Ф 0 } .'

 

 

 

Так

как

Ак ( х ) ф 0

х о т я бы при одном

x e G *,

то ХкФ 0 ,

k = N ,

N - 1, ....

1„0.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Заметим, что для широкого класса задач оптимального управ­

ления знак inf в правой

части

(13)

можно

заменить на min. Об

этом говорит

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

§ Л

 

Схема Р.

Веллмана.

Проблема

 

синтеза для

дискретных систем

185

Т е о р е м а

1.

Пусть

множества Gk,

k = 0 , 1.......

N, замкнуты,

множества Vk, k =

0,

1...... N— l, замкнуты и ограничены,

и функции

Fk(x, и),

 

F k (x,u)

непрерывны по совокупности аргументов

(х, и)

при

xeG ft,

u<=Vk, 1г— 0,

1,

...,

N— 1,

Ф (х) — полунепрерывна

снизу

на множестве GN. Тогда:

1)

множества Xk, k = 0 ,

1, ...,

N, замкнуты,

множества Dk (x), 1г= 0,

1,

...,

N— 1,

замкнуты и ограничены равно­

мерно по х ^ Х к\2)

нижняя грань в правой части (13)

достигается

хотя бы при одном u— uk (x)<=Dk (x); 3)

функция В к (х)

полунепре­

рывна снизу на Хк,

k = 0,

1, ..., uV (см. определение 2.5.3).

 

 

 

 

Д о к а з а т е л ь с т в о .

По условию

GN= X N замкнуто, Ф (х) =

= B N(x)

полунепрерывна

снизу

 

на XN.

Сделаем

индуктивное

предположение:

пусть

 

Xk+i

 

замкнуто,

В к+\(х)

полунепрерывна

снизу на Xk+i при некотором

/г, O ^ k ^ N - l . Докажем,

что тогда

Хк замкнуто и на Хк справедливы все утверждения теоремы.

 

 

 

Так как Dh(х) =

: u e Vh, F h{x ,u )^ X h+i}sF / t,

a

Vh ограни­

чено, то Dh(x) ограничено равномерно по х ^ Х к.

 

 

 

 

 

 

Докажем замкнутость Dk (х) при любом фиксированном

х £ Xk

Пусть vme D k {x)

 

(m =

 

1,

2 , . . . ) , vm-+v(m ->оо).

Это

 

значит,

что.

vmEVk, F k (x, vm)£ X k+ i(m =

l, 2 , . . . ) . Из замкнутости

Vk,

X k+1 и

непрерывности F k (x,

v)

сразу имеем

 

 

 

 

 

 

 

 

 

 

 

 

 

 

v e Vk,

lim F k (x, v j

=

F k (x,

v) 6 Xk+i,

 

 

 

 

 

 

 

 

 

 

 

 

Г71— >oo

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t . e.

vE Dk (x). Замкнутость Dk (x)

доказана.

 

 

 

 

 

 

 

 

Покажем

замкнутость

 

Х к — { х : х 6 Gk,

Dk (х) Ф 0 ) .

Пусть

Ут£ Хк { т =

1, 2,

. . . ) ,

 

 

 

 

y(m -+ oo). Из

замкнутости

Gk следует,

что у £G k.

Если

 

мы еще

покажем,

что

Dk ( у )ф 0 ,

то

это

будет

означать,

что у в Хк,

и

замкнутость Хк будет доказана.

Так

как

Dk (У,п) Ф 0 . то

существует

 

такое

 

vmEVk,

что F k (ym,

vm) 6 X k+\

( m =

1,

2 , . . . ) .

В

силу

 

компактности

Vk из

последовательности

{цт }

можно

выбрать подпоследовательность {vmJ - ^ v ( z Vk (/г->-оо). По­

скольку

Xfc+i замкнуто,

Fk (х,

и) непрерывна,

то

lim F k (г/

 

vm ) =

= F k {у,

v) 6 Xk+i

т.

е.

v 6 Dk (у). Таким образом,

Г1-»оо

 

 

Л 1

'

П

Dk ( у ) ф 0 .

 

 

 

Далее, функция ср (х,

u) =

F°k (x, и) +

Bk+ i(F k (x, и))

при каждом

фиксированном х £ ,Х к

полунепрерывна

снизу по и £ Dk (х).

Это

сле­

дует из непрерывности Р°к (х,

и), F k (x,

и)

и полунепрерывное™ сни­

зу Вк+1 (х).

Поскольку

Dk (x) — замкнутое

ограниченное

множество,

то ср (х, и) при каждом

фиксированном х 6 Х к достигает

своей ниж­

ней грани на Dk (х) хотя

бы

в одной точке и = ик (х) 6 Dk (х) (см. уп­

ражнение 2.5.11,

теорему 6.1.1). Таким образом,

Вк (х) =

inf

ср(х, и) =

ср (х, ик (х)) в

силу

уравнения Веллмана

(13).

u £ D k (x)

 

 

 

 

 

 

 

 

 

Остается еще доказать полунепрерывность снизу Вк (х)

на Х к.

Пусть limB*. (г) =

lim Вк (ym),

г, х,

уп £ Х к у,п- > х ( т о о ) , Вк(ут) =

г-*х

186

Д ИНАМ И ЧЕ СКО Е ПРОГРАММИРОВАНИЕ.

ПРОБЛЕМА

СИНТЕЗА

[Гл. 4

=

Ф (Ут, uk (у,п))- Так *как

uk (ym) 6 Dk (ут) 6 Vk, то

в

силу

компакт­

ности Vk

последовательность {uk (ут)} (rn = 1, 2,

. . . )

имеет хотя бы

одну предельную точку v EVk. Можем считать,

что сама последова­

тельность

{uk (ym)}^ - v (т-4-оо). Поскольку F k (x,

 

и)

непрерывна,

X k+i

замкнуто и, кроме

того,

F k (ym, uk (ут)) 6

 

 

то lim F k [ут,

«ft (ym))=

Fk (*>v) € ^fe+1.

Это

значит,

что

и 6 Dk (х).

Тогда

 

 

 

 

 

 

 

■»

 

 

 

 

 

 

 

НшВ* (х) =

Пш Bk (ут) =

lim ф (ут, uk (ут)) >

ф (х,

v) >

 

 

z-*x

 

т->оо

 

m->oo

 

 

 

 

 

 

>

inf

ф (х, и) =

Bk (x). Полунепрерывность Вк (x)

на

 

доказана. А

u£.Dk (x )'

Приведенное доказательство сохраняет силу, если от Р°(х,и) потребовать лишь ее полунепрерывность снизу по (х, и ).

3.Предположим, что нам удалось найти функции Bk(x)

условий (13)

и, кроме того, пусть

также

известны функции

« i(x )E flfi(x ),

x&Xfc, k = 0 , 1,..., JV— 1,

на

которых достигается

нижняя грань в правой части (13). Тогда, оказывается, решение

задач

(5) — (8) и (9) — (12) выписываются

совсем просто. А имен­

но оптимальное управление

[ы{]0

и соответствующая траектория

[х{]0

для задачи

(5) — (8)

определяются следующим

образом:

сначала из условия

 

 

 

 

 

 

 

 

 

 

inf В0(х) =

В0(хо)

 

 

 

 

(16)

 

 

х € Х 0

 

 

 

 

 

 

 

находят х0 € Х 0, затем последовательно полагают

 

 

 

 

и о = и„ (хо), х , = F 0(х0, Wq),

= и х ( x l ) ,

Ха = F x ( х * ,

и \ ) , . . .

 

 

%ы ~

F h— 1(хм— i, Uni)

 

 

 

(17)

Оптимальное управление

и траектория

\x\\k

для

задачи

(9) —■

(12)

определяются аналогично

 

 

 

 

 

 

 

Xft — х, Uk ик (xk) , x^_j_i — F к (Xk, Uk) , •••

xN ~

F ni (xn—\,

Un—\).

 

 

 

 

 

 

 

 

 

(18)

Для доказательства .этих утверждений

введем вспомогательные

функции

 

 

 

 

 

 

 

 

Ri(x,

u) = 5 i+i(F i(x ,

u)) — B i (x )+ F ° (x , и),

i =

0,

1 , . . . ,

N — 1.

 

 

 

 

 

 

 

 

 

(19)

Очевидно, уравнение Веллмана (13)

тогда можно переписать в экви­

валентном виде

 

 

 

 

 

 

 

 

§ Ц

 

Схема Р. Веллмана. Проблема синтеза для дискретных систем

187

 

inf

Rk(x > и) ~

0,

k =

0,

1 , . . . ,

N — 1;

BN(x) =

Ф(х).

и 6D t W

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(20)

Кроме того, с помощью функций

(х,

и)

значение

функционала (9)

на любом управлении [щ]к 6 А* (х)

и х £

Xk выражается так:

 

 

 

 

 

 

h

(*,

[«/I*) =

" £ Ri (xi,

щ) +

Bk (x)

 

 

 

 

(21)

 

 

 

 

 

 

 

 

 

i=k

 

 

 

 

 

 

 

 

 

 

 

при

всех

& = 0,

1 , —

,

N — 1.

В самом деле, учитывая

равенство

Вм (х) 23 ф (х),

из (10),

(19)

имеем

 

 

 

 

 

 

 

 

 

 

N— 1

 

 

 

N—1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

^

Ri ixi,

Щ) =

\.Bi+\ ixi+\) — Bi {xj) +

F° (xh

щ)\ =

B n (xn) —

i=k

 

 

 

 

i—k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

ВЛ Х) +

£

F°i(xi,

щ ) = 1 А(х,

[ui]k) — Bk {x)l

 

 

 

 

 

 

 

 

i=k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

что равносильно

(21).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т е о р е м а

2. Пусть выполнены условия теоремы

1

и множе­

ство

G0

ограничено. Пусть найдены функции Bk(x) из (13) и их

области

определения

Xh,

а также

функции

 

u = u k (x),

x e X h,

k = 0 , l , ... ,N — 1,

на которых

достигается

нижняя

грань

в

уравне­

нии

(13)

(или (20)). Тогда

оптимальное управление [« * ]0 и тра-'

ектория

[хг]0

для задачи

(5) — (8)

определяются

соотношениями

(16),

(17).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Д о к а з а т е л ь с т в о .

Прежде всего заметим,

что существова­

ние

*о 6 Х 0, удовлетворяющего

условию

(16), следует

из

полуне­

прерывное™ снизу Во(х) на ограниченном

замкнутом

множестве

JfosGo. Далее, из определения щ(х), [ц*]0,

[x*J0

и эквивалентно­

сти записей уравнения Веллмана

(13)

и (20)

имеем

 

 

 

 

 

 

 

 

Ri (Х1

«г) = 0 ,

 

i = 0,

1, . . . ,

N — 1.

 

 

 

(22)

Возьмем

произвольные

х ^ Х 0,

управление

[г^]0е Д 0 (х)

 

с соответ­

ствующей траекторией {х,-]б из

(6). Так как Ui^Di(Xi), то из урав­

нения (20) и определения щ(х)

следует

 

 

 

 

 

 

 

 

 

 

 

inf

 

Ri [xt, и) =

Ri (х{,

щ (jcj)) =

0 < R i (xir щ),

 

 

(23)

 

 

“6£,(*£>

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i = 0, 1, . . . , N — 1.

 

 

 

 

 

 

 

С помощью формулы (21) при £ = 0 с у ч е т о м

соотношений (16),

(22),

(23)

получаем

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

188

ДИНАМ И ЧЕСКО Е ПРОГРАММИРОВАНИЕ. ПРОБЛЕМА

СИНТЕЗА

[ Г л . 4

 

 

N —1

 

 

 

(X, N o ) /o(-V'0 ,

= ^ [^i (Xit ^i)

Ui)]

-j-

,i=0

+

B0 ■—■B 0(Л'о)

0

для любых х £ Х 0 и [ы;]0 6 Д0(х). А

 

• Т е о р е м а -3. Пусть

известны В к {х),

х ^ Х к из (13), а также

функции ик (х), на которых достигается нижняя грань в уравне­

нии

(13) (или (20)).

Тогда

оптималные управления

 

 

и тра­

ектория

[-Vf]* для

задачи

 

(9) — (12)

определяются

формула­

ми

(18).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Д о к а з а т е л ь с т в о .

Возьмем

произвольное

управление

й е

Аи(х) и соответствующую траекторию

из

 

(10).

Очевид­

но, соотношения (22), (23) остаются справедливыми

и здесь при

всех

i— k, £ + 1 , ...,

N— 1. Поэтому

оптимальность

[щ\к

устанав­

ливается с помощью формулы

(21)

так же,

как в теореме 2.

^

 

Заметим, что

inf

I k (х ,

[щ]к) — I k (x,

[ и] к) =

Вк (х). Это сле­

дует

из формулы (21)

с учетом равенств

(22). Тем

самым

пока­

зано, что

функции

В к {х),

определяемые

из (13),

в

самом

деле

являются функциями Веллмана для задачи

(5) — (8).

 

 

 

 

4. В

теории оптимального управления и ее приложениях важ ­

ное место занимает так называемая проблема синтеза, заключаю­ щаяся в построении функции u= u(x,t), представляющей собой оптимальное управление при условии, что в момент t объект нахо­

дится в точке V фазового пространства. Такая функция u(x, t)

на­

зывается синтезирующей.

 

 

 

 

Теорема

3 показывает, что решение уравнения Веллмана

(13)

равносильно

решению проблемы

синтеза

для задачи

(5) — (8).

В самом деле, функция ик (х), на

которой

достигается

нижняя

грань в (13), является синтезирующей, так как если в момент k объект находится в точке х ^ Х к, то дальнейшее оптимальное дви­

жение объекта -определяется

условиями Xi+i — Fi(Xj, «,-(*,-)), i = k ,

ft+ 1, ..., N— \, xh= x , (если x

ф Хк,

то Вк{ х ) — 0 , т. е. движение

с соблюдением условий (10) — (12)

невозможно). Достаточные ус­

ловия существования синтезирующей функции для задачи (5) — (8) приведены в теореме 1.

5. В

практических задачах получить

явное

выражение для

функций

uk (x), на

которых достигается

нижняя

грань в уравне­

нии (13)

или (20),

часто бывает затруднительно,

да к тому же в

некоторых задачах указанная нижняя грань может вообще не до­ стигаться. Поэтому на практике часто приходится иметь дело с функциями uh(x), которые реализуют нижнюю грань в (13) или (20) лишь приближенно. Оказывается, при некоторых условиях такие функции ик (х) могут быть взяты в качестве приближенной синтезирующей функции для задачи (5) — (8).

£ 1\

Схема Р.

Веллмана.

Проблема

синтеза для

дискретных

систем 189

Т е о р е м а

4.

Пусть

функции

Bk (x),

x £ X k, k = 0,

1

N,

удовлетворяют

уравнению

Веллмана

(13),

и функции ukm (х) £ Dk (х),

m = 1, 2,

,

таковы, что lim Д£ (х, uini(x)) =

0. Пусть,

кроме того,

 

 

 

 

т-*оо

lim В 0 (хот) — inf В0(х).

Постро-

найдены точки хйп1d Х 0, для которых

 

 

 

 

 

т -*оо

 

х £ Х 0

 

следую­

им управление [w£„J0 и соответствующую

траекторию [х£т]0

щим образом:

 

 

 

 

 

 

 

 

и0т

Рцт (Лот) >?- -'-lml

ix 0nu

^om) >

и 1т

^1т {Х1т) > ••• >

 

 

 

X 'i\ m В j\ ; — 1 (.V д/— 1 t m , ^ Л '— 1 , ш ) *

 

 

Тогда последовательность [и£т]0 является минимизирующей для зада­

чи

(5) — (8), т.

е.

П т /0 (х0т,

[и/т]0) =

inf

inf /0 (jc,

[щ]0) =

&

 

 

 

т-»оо

 

 

 

 

 

х£Хо До(*)

 

 

 

 

 

Д о к а з а т е л ь с т в о .

 

Возьмем

 

произвольную

 

точку

х £ Х 0 и

произвольное управление

[и£]0 £ Л0 (х)

с

соответствующей траекторией

[*,]„ из (6). С помощью формулы (21)

при k — 0 .тогда имеем

 

h (xi No)

 

 

 

 

 

N —1

 

 

 

 

 

i (x im> u im )] "b

 

|/о!(ЛОт»

[u im]o)

^

 

 

(x i>

u i )

R

 

 

 

 

 

 

 

 

i=0

 

 

 

 

 

 

 

 

 

 

 

 

 

+

B0{x) — B0(x0m),

in]=

1,

2___

 

 

 

 

В этом равенстве можно перейти к

пределу

при т-^~ оо,

так как

правая часть по условию имеет предел. В

результате

получим

 

 

 

No) —lim/0(Xom, [u/m]о)

N—1

 

 

 

 

 

 

h i X,

 

 

 

 

Щ) +

 

 

 

 

 

ГП-*оо

 

 

 

 

 

i=0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+

B0 (x) — inf B0 (x) >

0,

 

 

 

 

 

 

 

 

 

 

 

 

 

x B X „

 

 

 

 

 

 

 

 

 

так

как

# £(x£,

u£) > inf

Я £(х£> и) =

0 в силу (13) или (20). Из

произвольности х е Х 0 и [ыг]6 6 Л0 (х)

следует

/0* >

lim/0 (х0т, [u£mJ0).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

т —>оо

 

С

другой

стороны,

/0 (х0т,

[uim]Q) >

/о,

 

in = 1,

2 , ------

Поэтому

П т /0 {хот, [^£т]о) =

/О-

А

 

 

 

 

 

 

 

 

 

 

 

 

 

ТП-*00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т е о р е м а

5.

Пусть

функции

£ f (x),

uim(x),

 

t'=&,

£ + 1 ,

N— 1, m = l , 2,

 

удовлетворяют

условиям

теоремы 4. Построим

управления

и соответствующие траектории [х,-,п]ь следующим

образом:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x km

х < ^km

^ km {x km )’

x k + i , m

В ^ ( х кт,

Ukm),

 

 

иА+1, m = u k + l , m (x k + l , m ),

■ ■ ■ , Xjifm = F ^ —i (Xjy—i, m ,

Mjv- I , * ) .

Соседние файлы в папке книги из ГПНТБ