![](/user_photo/_userpic.png)
книги из ГПНТБ / Васильев Ф.П. Лекции по методам решения экстремальных задач
.pdfП Р И Н Ц И П |
МАКСИМ УМА |
Л. С. ПОНТРЯГННА |
[Гл. 3 |
л |
л |
л |
|
= - 2 а, дк^ х^ ’П = £ а .ф, (Г) = £ ф,- (Г) ф7 (Л = (ф (Г ), Ф (Т )) •
/= 1 |
|
/= 1 |
/= 1 |
|
|
|
|
|
Так как #(л;, ф, и, |
£) = (ф, |
и) — f°(x, и, |
t) и яр (^) |
выражается форму |
||||
лой (8), то последнее равенство можно |
переписать так: |
|
|
|||||
' Г>(х(Т),и(Т), |
Т) + ( f u(x (T ),u (T ),T ), |
у ( Т ) - и ( Г ) ) = |
0. |
(15) |
||||
Условия |
(14), (15) |
при учете связи |
x ( t ) = u ( t ) |
выражают |
собой |
|||
известные |
в классическом |
вариационном |
исчислении |
условия |
||||
трансверсальности |
для свободного и |
соответственно подвижного |
правого конца.
Таким образом, в случае У = £ п из принципа максимума сле дуют все основные необходимые условия, известные в классическом вариационном исчислении [68, 254]. Однако если V — замкнутое множество и У ф Е п, то соотношение (4 ) ,вообще говоря,не выпол няется. Более того, имеются примеры, когда и условие Вейерштрасса в этом случае не имеет места ([195], стр. 284). Принцип максимума, являясь естественным обобщением условия Вейерштрасса из классического вариационного исчисления, имеет то су щественное преимущество перед условием Вейерштрасса, что он
применим |
для любого |
(в |
частности, и замкнутого) |
множества |
V ^ E r и для более общих |
задач. Заметим, что именно случай |
|||
замкнутого |
множества |
V ^ E r наиболее интересен в |
прикладных |
вопросах, поскольку значения оптимальных управлений чаще всего лежат на границе V.
Г л а в а 4
Динамическое программирование. Проблема синтеза
В этой главе остановимся на методе динамического програм мирования, часто используемом при численном решении задач оп тимального управления при наличии фазовых ограничений. Заме тим, что принцип максимума может быть сформулирован и для задач с фазовыми ограничениями, однако получающаяся при этом
краевая задача |
будет иметь еще более сложный вид ([5, 27, 55, 101 |
141, 195] и др.), |
и трудности при ее численном решении значитель |
но возрастают. Поэтому для численного решения таких задач ча сто бывает выгоднее использовать метод динамического програм
мирования. Изложение этого метода |
начнем с |
простейшей схемы |
Р. Веллмана [6, 14— 18, 27, 34, 54, 206, |
234, 259], |
затем опишем бо |
лее совершенную и удобную для практики схему Н. Н. Моисеева
[167— 169, 171].
§ 1. СХЕМА Р. ВЕЛЛМАНА. ПРОБЛЕМА СИНТЕЗА ДЛЯ ДИСКРЕТНЫХ СИСТЕМ
1. Рассмотрим следующую задачу оптимального управления: минимизировать функционал
|
|
J(u) |
= |
j7 ° ( * , и, |
t).dt + 0 (x (T )), |
|
(1) |
|
|
|
|
^0 |
|
|
|
при условиях |
x ' = f ( x , u , t ) , |
< ^ < 7 \ |
|
(2) |
|||
|
|
|
x (t)eG (t), |
г0 < ; < 7 > |
|
(3) |
|
u —u (t)^ V (t), t0^\t^LT, u(t) — кусочно-непрерывна |
(4) |
||||||
(подробное |
описание |
обозначений |
см. в § 3.1; |
множества S0(t0) |
|||
и Sj(T) из |
(3.1.7— 10) |
нам здесь удобнее включить в фазовые от- |
|||||
раничения G(t), to^Lt^T)-, моменты t0, Т будем |
считать |
извест |
|||||
ными. |
|
|
|
|
|
|
|
Для приближенного |
решения этой задачи |
разобьем |
отрезок |
||||
Т на N частей точками |
|
и, |
приняв |
эти точки в качестве узловых, интеграл в (1) заменим квадратур ной формулой прямоугольников, а уравнения (2) — разностными уравнениями с помощью простейшей явной схемы Эйлера [20]. В результате мы придем к следующей дискретной задаче опти мального управления: минимизировать функционал
182 ДИНАМ И ЧЕСКО Е ПРОГРАММИРОВАНИЕ. ПРОБЛЕМА СИНТЕЗА
Г
|
|
|
N—1 |
|
|
|
|
|
Л> ( * . |
М о) = |
2 |
(*;> |
Щ) + |
ф (Хц), |
(5) |
||
|
|
|
(=0 |
|
|
|
|
|
Ft(xlt «,) = |
/°(хь ut, |
/<)(ti+l — /J |
|
|||||
при условиях |
|
|
|
|
|
|
|
|
■^■i+1 |
(х,', |
«,)--- ^i) f i.xit Uh |
^i), |
|
(6) |
|||
t = 0, 1 |
, , |
N — 1, a-0 = a' 6 G 0 , |
|
|||||
x.ea^G^), |
i = o, |
l |
, |
, tv, |
(7) |
|||
|
|
|
|
|
|
|
. . , |
t f - 1 . |
|
|
|
|
|
|
|
|
(8) |
-Заметим, что задача |
(5):— (8) |
имеет также и самостоятельный |
интерес и возникает при описании управляемых импульсных систем.
|
Если задать какие-либо дискретное управление |
[ц ,]о = («о , «ь |
|
.... |
uN-\) и начальное условие x0= x ^ G 0, то система |
(6) однознач |
|
но определяет соответствующую дискретную |
траекторию [ау] 0= |
||
= |
(х0= х , л'ь ..., xN). Зафиксируем некоторое |
x e G 0 |
и через Д0(х) |
обозначим множество управлений [«Jo, таких, что: 1) выполнены условия (8); 2) дискретная траектория X*Jo, соответствующая уп равлению [ы,]о и выбранному начальному условию х0= х , удов летворяет фазовым ограничениям (7). Управление [«Jo^Ao(x) и
соответствующую |
траекторию [x j0 |
будем |
называть |
допустимыми |
||||||
для выбранного начального состояния х. |
Множество До{х) может |
|||||||||
быть пустым или непустым. Если |
До( х ) = 0 |
при всех A eG 0, |
то |
|||||||
условия |
(6) — (8) |
несовместны и функционал (5) |
определен |
на |
||||||
пустом |
множестве. |
Поэтому, чтобы задача (5) — (8) |
имела смысл, |
|||||||
естественно требовать существования хотя бы одной |
точки x e G 0, |
|||||||||
для |
которой |
До(х )^ = 0 . Обозначим Х 0= .'{х ; x e G 0, До(х )^ = 0 }. |
||||||||
Тогда задача |
(5) — (8) |
может быть |
сформулирована |
совсем крат |
||||||
ко: |
минимизировать |
функционал |
I0(x, |
[«Jo) |
при |
[«JoeA 0(x) |
и |
х ^ Х 0. В результате мы пришли к уже известной нам задаче мини мизации функции n-\-Nr переменных х, «0, щ, ..., «w-i, и для ее решения можно использовать методы из гл. 2. Однако в практиче ских задачах число n-\-Nr обычно бывает столь большим, что не посредственное использование методов гл. 2, вообще говоря, силь-
.но осложняется. Вызывает трудности также и то обстоятельство, что множества Д0(х) и Х0, на которых минимизируется 10(ас, [« Jo), заданы неявно. Для преодоления этих трудностей используют ме тод динамического программирования, позволяющий свести задачу
(5) — (8) к последовательному решению более простых задач ми нимизации функций меньшего числа переменных.
2. Для изложения метода динамического программирован нам понадобятся следующие вспомогательные задачи: минимизи ровать функционал
§ п Схема Р. Веллмана. Проблема синтеза для дискретных систем 183
|
|
h |
(х, |
I« ,U |
- |
s ' F° (xh |
щ) + Ф (XN) |
|
|
(9) |
|||
при условиях |
|
|
1 |
|
i = k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
xc+l = F l (xl, |
Ui), |
i = k , |
k |
+ \ , |
, N — 1, |
xk = |
x £ G k, |
(10) |
||||
|
|
|
XieGt, |
i = |
k, |
k + \ |
, . . . , N , |
|
|
|
|
(11) |
|
[щ]к = (ик, |
uk+u . . . |
uN- i), |
UieVi, |
i = k , k |
+ |
\ , . . . , |
N — 1, |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
( 12) |
где |
точка x |
и целое |
число k |
фиксированы, |
х |
|
|
|
— 1. |
||||
Через Ak(x) |
обозначим множество всех управлений |
[iii]k, таких, |
|||||||||||
что: 1) выполнены условия (12); 2) соответствующая |
траектория |
||||||||||||
[* » ] * = ( * * = * , |
xh+1, |
xN) |
из |
(10) удовлетворяет фазовым ограни |
|||||||||
чениям (11). Нетрудно видеть, |
что если ХоФ 0 , |
то Ак( х ) ф 0 |
хотя |
||||||||||
бы при одном XI= Gk. Введем функцию |
inf |
I k (.х, [u jfe) = Bk (x), |
|||||||||||
k = 0 , |
1, ..., N— l называемую функцией Веллмана задачи |
(5) — (8). |
Покажем, что функция Веллмана удовлетворяет следующим рекуррентным соотношениям, называемым уравнением Веллмана:
Вк (*) = inf |
[F°k (х, и) + |
Bk+l {Fk (x, u))], |
k = 0, 1, . . . , А/— 1, |
||||||
|
“&Dk(x) |
|
|
|
|
|
|
|
|
|
|
BN( x ) ^ Ф(х), |
|
|
|
(13) |
|||
где Dh (х) — множество всех тех |
для |
которых существует |
|||||||
хотя бы одно управление [Ui]fe= |
(uh, uk+u |
..., |
u^_i) е Д й(х) с ком |
||||||
понентой ик— и. Очевидно, |
что множество Dk (x) и ДА(х) |
оба пусты |
|||||||
или непусты одновременно, |
и поскольку xk+l= F k (x,u), |
то для не- |
|||||||
пустоты |
этих множеств |
необходимо |
и |
достаточно, ' чтобы |
|||||
Ah+i (Fh(x, и ) ) ф 0 . |
|
|
|
|
|
|
|
|
|
Справедливость |
соотношения |
(13) при k — N — 1 |
очевидным об |
||||||
разом |
вытекает |
из условия |
|
B n (х ) з= ф (х) |
и |
представления |
|||
I n - i (x , |
[« Jat_ i) = |
^ _ 1 ( х , |
и ) |
+ Ф (FN- i (х, |
и ) ) , верного для любого |
и £ D n —1 ( х ) = A ^ _ i ( х ) = { и : и £ V n — u x n — F n —i ( х , и ) £ G n , х £ G n — i } .
Докажем |
(13) при k, |
0 ^ k < £ N — 1. |
Для этого сначала убедимся в |
|||
том, что |
|
|
|
|
|
|
|
B k (х) < |
inf [F°(x, |
и) + |
Bk+l (Fk (х, а))]. |
(14) |
|
|
|
“£Dk(x) |
|
|
|
|
Возьмем. |
произвольное |
u £ D k {х) |
(разумеется, предполагаем, |
что |
||
А г(х) Ф |
0 ) . Тогда xk+i — F k (x, и) и Afe+i(xft+i)=£ 0 . По определе |
|||||
нию Ди- i(хк+1) = inf |
7ft+i(xfc+1, |
[u jft+i), для любого е > 0 найдет- |
||||
ся управление i«f]fc+16 A ft+i^+i), |
такое, что Вк+1 (хш ) < / fc+1 (xfe+1, |
184 |
ДИНАМ И ЧЕСКО Е |
ПРОГРАММИРОВАНИЕ. |
ПРОБЛЕМА |
СИНТЕЗА |
|
[Гл. |
4 |
|||||||||||||||
[ufjfc+1)'< |
Bk+i (хк+1) + е. Поскольку [u jft = |
(и, иЕк+и . . . |
, u^-i) 6 Вк(х), |
|||||||||||||||||||
то Вк (х) < |
4 |
(х, [и,]Л) = |
F l {х, |
и) + 4+1 |
(JCfc+1. |
I«fjfe+i) <F°k(x, |
и) + |
|||||||||||||||
+ Bk+l(xk+i) + |
e, = |
F°k(x, |
и) + |
Bk+i (Fk (x, |
u)) + e. В силу произволь |
|||||||||||||||||
ности u £ D k {x) |
и величины е > 0 |
отсюда |
следует |
|
неравенство |
(14). |
||||||||||||||||
|
Теперь |
покажем, что в (14) на самом деле знак |
неравенства мож |
|||||||||||||||||||
но заменить знаком равенства. По определению inf |
1к (х, |
[и*]*) = |
|
Вк(х), |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 м |
|
|
|
|
|
|
|
|
для |
каждого |
е > 0 |
найдется |
такое |
управление |
|
[yf]fe 6.Д* (х), |
что, |
||||||||||||||
Но |
|
|
|
|
|
Вк(х) 'С 4 (х > [^-’i ]*) ^ |
Вк (х) -f- е. |
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
поэтому |
|
|
[ui]fe+i = |
(wfe+i . •••. ^ - i ) |
6 Afc+i {Fk (x, |
vk)), |
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
ВI {x, v t ) - r B k+i(F k (x, ft)) < |
F k (x, vt) + |
4 + i (Fk (x, vk), |
[uf]ft+i) = |
|
||||||||||||||||||
|
|
|
|
|
|
|
— 4 |
(x > |
|
|
'C Bk (x) + 8. |
|
|
|
|
|
|
|
||||
Так |
как vk 6 Dk (x), то отсюда имеем |
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
inf |
[Fk (x, |
u )+ B k+i(F k{x, |
u ))]< B A(x) + e , |
|
|
|
|
|||||||||||
|
|
|
|
u € D k (x) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
или |
в силу |
произвольности е > 0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
inf |
[Fft (х, |
и) + |
В к+1 (F k (х, |
и))] < Вк (х). |
|
|
( 1 5 ) |
|||||||||||
|
|
|
|
u £ D k (x) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
> |
|
Из |
(14) — (15) |
немедленно следует соотношение |
(13). |
|
|
|
|
|||||||||||||||
|
Пользуясь уравнением Веллмана |
(13), можно последовательно |
||||||||||||||||||||
определить |
|
функции |
В к (х) |
|
и |
их |
|
области |
определения |
Хк, |
||||||||||||
k = N , N— 1, |
..., |
1, |
0. |
А именно B N(x) = |
Ф (х ), |
XNs=GN— известны. |
||||||||||||||||
Если известны Вк+i(x) |
и Afc+i |
( k ^ N — 1), |
то |
для |
определения |
|||||||||||||||||
Вк (х) нужно решить |
задачу |
минимизации |
функции |
ср (х, |
|
и) |
= |
|||||||||||||||
= F l(x ,u )+ B k+\{Fk (x,u)) переменных |
и— (и1,..., |
иг) |
на известном |
|||||||||||||||||||
множестве |
|
Dk (x) = |
{и : « е 14, |
Fk (x, и) e |
4 +i}, |
Для |
этого |
могут |
||||||||||||||
быть использованы методы глав 1, 2. Очевидно, функция |
В к (х) |
|||||||||||||||||||||
определена |
в точке |
х тогда |
и |
только |
|
тогда, |
когда |
Dk (x) ф 0 . |
||||||||||||||
Таким образом, при определении значений |
В к(х) |
одновременно |
||||||||||||||||||||
находится и область ее определения |
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
X k = |
{ x : x e G k, Dk (х) =£ 0 } |
= { х : х 6 С?*, Ак ( х ) Ф 0 } .' |
|
|
|
||||||||||||||||
Так |
как |
Ак ( х ) ф 0 |
х о т я бы при одном |
x e G *, |
то ХкФ 0 , |
k = N , |
||||||||||||||||
N - 1, .... |
1„0. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
Заметим, что для широкого класса задач оптимального управ |
|||||||||||||||||||||
ления знак inf в правой |
части |
(13) |
можно |
заменить на min. Об |
||||||||||||||||||
этом говорит |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
§ Л |
|
Схема Р. |
Веллмана. |
Проблема |
|
синтеза для |
дискретных систем |
185 |
||||||||||||||||
Т е о р е м а |
1. |
Пусть |
множества Gk, |
k = 0 , 1....... |
N, замкнуты, |
|||||||||||||||||||
множества Vk, k = |
0, |
1...... N— l, замкнуты и ограничены, |
и функции |
|||||||||||||||||||||
Fk(x, и), |
|
F k (x,u) |
непрерывны по совокупности аргументов |
(х, и) |
||||||||||||||||||||
при |
xeG ft, |
u<=Vk, 1г— 0, |
1, |
..., |
N— 1, |
Ф (х) — полунепрерывна |
снизу |
|||||||||||||||||
на множестве GN. Тогда: |
1) |
множества Xk, k = 0 , |
1, ..., |
N, замкнуты, |
||||||||||||||||||||
множества Dk (x), 1г= 0, |
1, |
..., |
N— 1, |
замкнуты и ограничены равно |
||||||||||||||||||||
мерно по х ^ Х к\2) |
нижняя грань в правой части (13) |
достигается |
||||||||||||||||||||||
хотя бы при одном u— uk (x)<=Dk (x); 3) |
функция В к (х) |
полунепре |
||||||||||||||||||||||
рывна снизу на Хк, |
k = 0, |
1, ..., uV (см. определение 2.5.3). |
|
|
|
|||||||||||||||||||
|
Д о к а з а т е л ь с т в о . |
По условию |
GN= X N замкнуто, Ф (х) = |
|||||||||||||||||||||
= B N(x) |
полунепрерывна |
снизу |
|
на XN. |
Сделаем |
индуктивное |
||||||||||||||||||
предположение: |
пусть |
|
Xk+i |
|
замкнуто, |
В к+\(х) |
полунепрерывна |
|||||||||||||||||
снизу на Xk+i при некотором |
/г, O ^ k ^ N - l . Докажем, |
что тогда |
||||||||||||||||||||||
Хк замкнуто и на Хк справедливы все утверждения теоремы. |
|
|
||||||||||||||||||||||
|
Так как Dh(х) = |
{и : u e Vh, F h{x ,u )^ X h+i}sF / t, |
a |
Vh ограни |
||||||||||||||||||||
чено, то Dh(x) ограничено равномерно по х ^ Х к. |
|
|
|
|
|
|||||||||||||||||||
|
Докажем замкнутость Dk (х) при любом фиксированном |
х £ Xk |
||||||||||||||||||||||
Пусть vme D k {x) |
|
(m = |
|
1, |
2 , . . . ) , vm-+v(m ->оо). |
Это |
|
значит, |
что. |
|||||||||||||||
vmEVk, F k (x, vm)£ X k+ i(m = |
l, 2 , . . . ) . Из замкнутости |
Vk, |
X k+1 и |
|||||||||||||||||||||
непрерывности F k (x, |
v) |
сразу имеем |
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
v e Vk, |
lim F k (x, v j |
= |
F k (x, |
v) 6 Xk+i, |
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
Г71— >oo |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
t . e. |
vE Dk (x). Замкнутость Dk (x) |
доказана. |
|
|
|
|
|
|
|
|||||||||||||||
|
Покажем |
замкнутость |
|
Х к — { х : х 6 Gk, |
Dk (х) Ф 0 ) . |
Пусть |
||||||||||||||||||
Ут£ Хк { т = |
1, 2, |
. . . ) , |
|
|
|
|
y(m -+ oo). Из |
замкнутости |
Gk следует, |
|||||||||||||||
что у £G k. |
Если |
|
мы еще |
покажем, |
что |
Dk ( у )ф 0 , |
то |
это |
будет |
|||||||||||||||
означать, |
что у в Хк, |
и |
замкнутость Хк будет доказана. |
Так |
как |
|||||||||||||||||||
Dk (У,п) Ф 0 . то |
существует |
|
такое |
|
vmEVk, |
что F k (ym, |
vm) 6 X k+\ |
|||||||||||||||||
( m = |
1, |
2 , . . . ) . |
В |
силу |
|
компактности |
Vk из |
последовательности |
||||||||||||||||
{цт } |
можно |
выбрать подпоследовательность {vmJ - ^ v ( z Vk (/г->-оо). По |
||||||||||||||||||||||
скольку |
Xfc+i замкнуто, |
Fk (х, |
и) непрерывна, |
то |
lim F k (г/ |
|
vm ) = |
|||||||||||||||||
= F k {у, |
v) 6 Xk+i |
т. |
е. |
v 6 Dk (у). Таким образом, |
Г1-»оо |
|
|
Л 1 |
' |
П |
||||||||||||||
Dk ( у ) ф 0 . |
|
|
||||||||||||||||||||||
|
Далее, функция ср (х, |
u) = |
F°k (x, и) + |
Bk+ i(F k (x, и)) |
при каждом |
|||||||||||||||||||
фиксированном х £ ,Х к |
полунепрерывна |
снизу по и £ Dk (х). |
Это |
сле |
||||||||||||||||||||
дует из непрерывности Р°к (х, |
и), F k (x, |
и) |
и полунепрерывное™ сни |
|||||||||||||||||||||
зу Вк+1 (х). |
Поскольку |
Dk (x) — замкнутое |
ограниченное |
множество, |
||||||||||||||||||||
то ср (х, и) при каждом |
фиксированном х 6 Х к достигает |
своей ниж |
||||||||||||||||||||||
ней грани на Dk (х) хотя |
бы |
в одной точке и = ик (х) 6 Dk (х) (см. уп |
||||||||||||||||||||||
ражнение 2.5.11, |
теорему 6.1.1). Таким образом, |
Вк (х) = |
inf |
ср(х, и) = |
||||||||||||||||||||
— ср (х, ик (х)) в |
силу |
уравнения Веллмана |
(13). |
u £ D k (x) |
|
|
||||||||||||||||||
|
|
|
|
|
|
|||||||||||||||||||
|
Остается еще доказать полунепрерывность снизу Вк (х) |
на Х к. |
||||||||||||||||||||||
Пусть limB*. (г) = |
lim Вк (ym), |
г, х, |
уп £ Х к у,п- > х ( т о о ) , Вк(ут) = |
г-*х
186 |
Д ИНАМ И ЧЕ СКО Е ПРОГРАММИРОВАНИЕ. |
ПРОБЛЕМА |
СИНТЕЗА |
[Гл. 4 |
||||||||
= |
Ф (Ут, uk (у,п))- Так *как |
uk (ym) 6 Dk (ут) 6 Vk, то |
в |
силу |
компакт |
|||||||
ности Vk |
последовательность {uk (ут)} (rn = 1, 2, |
. . . ) |
имеет хотя бы |
|||||||||
одну предельную точку v EVk. Можем считать, |
что сама последова |
|||||||||||
тельность |
{uk (ym)}^ - v (т-4-оо). Поскольку F k (x, |
|
и) |
непрерывна, |
||||||||
X k+i |
замкнуто и, кроме |
того, |
F k (ym, uk (ут)) 6 |
|
|
то lim F k [ут, |
||||||
«ft (ym))= |
Fk (*>v) € ^fe+1. |
Это |
значит, |
что |
и 6 Dk (х). |
Тогда |
||||||
|
|
|
|
|
|
|
■» |
|
|
|
|
|
|
|
НшВ* (х) = |
Пш Bk (ут) = |
lim ф (ут, uk (ут)) > |
ф (х, |
v) > |
||||||
|
|
z-*x |
|
т->оо |
|
m->oo |
|
|
|
|
|
|
> |
inf |
ф (х, и) = |
Bk (x). Полунепрерывность Вк (x) |
на |
|
доказана. А |
u£.Dk (x )'
Приведенное доказательство сохраняет силу, если от Р°(х,и) потребовать лишь ее полунепрерывность снизу по (х, и ).
3.Предположим, что нам удалось найти функции Bk(x)
условий (13) |
и, кроме того, пусть |
также |
известны функции |
« i(x )E flfi(x ), |
x&Xfc, k = 0 , 1,..., JV— 1, |
на |
которых достигается |
нижняя грань в правой части (13). Тогда, оказывается, решение
задач |
(5) — (8) и (9) — (12) выписываются |
совсем просто. А имен |
|||||||
но оптимальное управление |
[ы{]0 |
и соответствующая траектория |
|||||||
[х{]0 |
для задачи |
(5) — (8) |
определяются следующим |
образом: |
|||||
сначала из условия |
|
|
|
|
|
|
|
|
|
|
|
inf В0(х) = |
В0(хо) |
|
|
|
|
(16) |
|
|
|
х € Х 0 |
|
|
|
|
|
|
|
находят х0 € Х 0, затем последовательно полагают |
|
|
|
|
|||||
и о = и„ (хо), х , = F 0(х0, Wq), |
= и х ( x l ) , |
Ха = F x ( х * , |
и \ ) , . . . |
||||||
|
|
%ы ~ |
F h— 1(хм— i, Un—i) |
|
|
|
(17) |
||
Оптимальное управление |
и траектория |
\x\\k |
для |
задачи |
(9) —■ |
||||
(12) |
определяются аналогично |
|
|
|
|
|
|
|
|
Xft — х, Uk — ик (xk) , x^_j_i — F к (Xk, Uk) , ••• |
xN ~ |
F n—i (xn—\, |
Un—\). |
||||||
|
|
|
|
|
|
|
|
|
(18) |
Для доказательства .этих утверждений |
введем вспомогательные |
||||||||
функции |
|
|
|
|
|
|
|
|
|
Ri(x, |
u) = 5 i+i(F i(x , |
u)) — B i (x )+ F ° (x , и), |
i = |
0, |
1 , . . . , |
N — 1. |
|||
|
|
|
|
|
|
|
|
|
(19) |
Очевидно, уравнение Веллмана (13) |
тогда можно переписать в экви |
||||||||
валентном виде |
|
|
|
|
|
|
|
|
§ Ц |
|
Схема Р. Веллмана. Проблема синтеза для дискретных систем |
187 |
||||||||||||||||||
|
inf |
Rk(x > и) ~ |
0, |
k = |
0, |
1 , . . . , |
N — 1; |
BN(x) = |
Ф(х). |
||||||||||||
и 6D t W |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(20) |
Кроме того, с помощью функций |
(х, |
и) |
значение |
функционала (9) |
|||||||||||||||||
на любом управлении [щ]к 6 А* (х) |
и х £ |
Xk выражается так: |
|
|
|||||||||||||||||
|
|
|
|
h |
(*, |
[«/I*) = |
" £ Ri (xi, |
щ) + |
Bk (x) |
|
|
|
|
(21) |
|||||||
|
|
|
|
|
|
|
|
|
i=k |
|
|
|
|
|
|
|
|
|
|
|
|
при |
всех |
& = 0, |
1 , — |
, |
N — 1. |
В самом деле, учитывая |
равенство |
||||||||||||||
Вм (х) 23 ф (х), |
из (10), |
(19) |
имеем |
|
|
|
|
|
|
|
|
|
|
||||||||
N— 1 |
|
|
|
N—1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
^ |
Ri ixi, |
Щ) = |
\.Bi+\ ixi+\) — Bi {xj) + |
F° (xh |
щ)\ = |
B n (xn) — |
|||||||||||||||
i=k |
|
|
|
|
i—k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
~ |
ВЛ Х) + |
£ |
F°i(xi, |
щ ) = 1 А(х, |
[ui]k) — Bk {x)l |
|
|
|
|||||||||||
|
|
|
|
|
i=k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
что равносильно |
(21). |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
Т е о р е м а |
2. Пусть выполнены условия теоремы |
1 |
и множе |
||||||||||||||||||
ство |
G0 |
ограничено. Пусть найдены функции Bk(x) из (13) и их |
|||||||||||||||||||
области |
определения |
Xh, |
а также |
функции |
|
u = u k (x), |
x e X h, |
||||||||||||||
k = 0 , l , ... ,N — 1, |
на которых |
достигается |
нижняя |
грань |
в |
уравне |
|||||||||||||||
нии |
(13) |
(или (20)). Тогда |
оптимальное управление [« * ]0 и тра-' |
||||||||||||||||||
ектория |
[хг]0 |
для задачи |
(5) — (8) |
определяются |
соотношениями |
||||||||||||||||
(16), |
(17). |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Д о к а з а т е л ь с т в о . |
Прежде всего заметим, |
что существова |
|||||||||||||||||||
ние |
*о 6 Х 0, удовлетворяющего |
условию |
(16), следует |
из |
полуне |
||||||||||||||||
прерывное™ снизу Во(х) на ограниченном |
замкнутом |
множестве |
|||||||||||||||||||
JfosGo. Далее, из определения щ(х), [ц*]0, |
[x*J0 |
и эквивалентно |
|||||||||||||||||||
сти записей уравнения Веллмана |
(13) |
и (20) |
имеем |
|
|
|
|
||||||||||||||
|
|
|
|
Ri (Х1 |
«г) = 0 , |
|
i = 0, |
1, . . . , |
N — 1. |
|
|
|
(22) |
||||||||
Возьмем |
произвольные |
х ^ Х 0, |
управление |
[г^]0е Д 0 (х) |
|
с соответ |
|||||||||||||||
ствующей траекторией {х,-]б из |
(6). Так как Ui^Di(Xi), то из урав |
||||||||||||||||||||
нения (20) и определения щ(х) |
следует |
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
inf |
|
Ri [xt, и) = |
Ri (х{, |
щ (jcj)) = |
0 < R i (xir щ), |
|
|
(23) |
||||||||||
|
|
“6£,(*£> |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
i = 0, 1, . . . , N — 1. |
|
|
|
|
|
|
|
||||||||
С помощью формулы (21) при £ = 0 с у ч е т о м |
соотношений (16), |
(22), |
|||||||||||||||||||
(23) |
получаем |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
188 |
ДИНАМ И ЧЕСКО Е ПРОГРАММИРОВАНИЕ. ПРОБЛЕМА |
СИНТЕЗА |
[ Г л . 4 |
|
|
|
N —1 |
|
|
|
/о (X, N o ) /o(-V'0 , |
= ^ [^i (Xit ^i) |
Ui)] |
-j- |
,i=0
+ |
B0 ■—■B 0(Л'о) |
0 |
для любых х £ Х 0 и [ы;]0 6 Д0(х). А |
|
|
• Т е о р е м а -3. Пусть |
известны В к {х), |
х ^ Х к из (13), а также |
функции ик (х), на которых достигается нижняя грань в уравне
нии |
(13) (или (20)). |
Тогда |
оптималные управления |
|
|
и тра |
||||||||
ектория |
[-Vf]* для |
задачи |
|
(9) — (12) |
определяются |
формула |
||||||||
ми |
(18). |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Д о к а з а т е л ь с т в о . |
Возьмем |
произвольное |
управление |
||||||||||
й е |
Аи(х) и соответствующую траекторию |
из |
|
(10). |
Очевид |
|||||||||
но, соотношения (22), (23) остаются справедливыми |
и здесь при |
|||||||||||||
всех |
i— k, £ + 1 , ..., |
N— 1. Поэтому |
оптимальность |
[щ\к |
устанав |
|||||||||
ливается с помощью формулы |
(21) |
так же, |
как в теореме 2. |
^ |
||||||||||
|
Заметим, что |
inf |
I k (х , |
[щ]к) — I k (x, |
[ и] к) = |
Вк (х). Это сле |
||||||||
дует |
из формулы (21) |
с учетом равенств |
(22). Тем |
самым |
пока |
|||||||||
зано, что |
функции |
В к {х), |
определяемые |
из (13), |
в |
самом |
деле |
|||||||
являются функциями Веллмана для задачи |
(5) — (8). |
|
|
|
||||||||||
|
4. В |
теории оптимального управления и ее приложениях важ |
ное место занимает так называемая проблема синтеза, заключаю щаяся в построении функции u= u(x,t), представляющей собой оптимальное управление при условии, что в момент t объект нахо
дится в точке V фазового пространства. Такая функция u(x, t) |
на |
||||
зывается синтезирующей. |
|
|
|
|
|
Теорема |
3 показывает, что решение уравнения Веллмана |
(13) |
|||
равносильно |
решению проблемы |
синтеза |
для задачи |
(5) — (8). |
|
В самом деле, функция ик (х), на |
которой |
достигается |
нижняя |
грань в (13), является синтезирующей, так как если в момент k объект находится в точке х ^ Х к, то дальнейшее оптимальное дви
жение объекта -определяется |
условиями Xi+i — Fi(Xj, «,-(*,-)), i = k , |
|
ft+ 1, ..., N— \, xh= x , (если x |
ф Хк, |
то Вк{ х ) — 0 , т. е. движение |
с соблюдением условий (10) — (12) |
невозможно). Достаточные ус |
ловия существования синтезирующей функции для задачи (5) — (8) приведены в теореме 1.
5. В |
практических задачах получить |
явное |
выражение для |
|
функций |
uk (x), на |
которых достигается |
нижняя |
грань в уравне |
нии (13) |
или (20), |
часто бывает затруднительно, |
да к тому же в |
некоторых задачах указанная нижняя грань может вообще не до стигаться. Поэтому на практике часто приходится иметь дело с функциями uh(x), которые реализуют нижнюю грань в (13) или (20) лишь приближенно. Оказывается, при некоторых условиях такие функции ик (х) могут быть взяты в качестве приближенной синтезирующей функции для задачи (5) — (8).
£ 1\ |
Схема Р. |
Веллмана. |
Проблема |
синтеза для |
дискретных |
систем 189 |
|||
Т е о р е м а |
4. |
Пусть |
функции |
Bk (x), |
x £ X k, k = 0, |
1 |
N, |
||
удовлетворяют |
уравнению |
Веллмана |
(13), |
и функции ukm (х) £ Dk (х), |
|||||
m = 1, 2, |
, |
таковы, что lim Д£ (х, uini(x)) = |
0. Пусть, |
кроме того, |
|||||
|
|
|
|
т-*оо |
lim В 0 (хот) — inf В0(х). |
Постро- |
|||
найдены точки хйп1d Х 0, для которых |
|||||||||
|
|
|
|
|
т -*оо |
|
х £ Х 0 |
|
следую |
им управление [w£„J0 и соответствующую |
траекторию [х£т]0 |
||||||||
щим образом: |
|
|
|
|
|
|
|
|
|
и0т |
Рцт (Лот) >?- -'-lml |
ix 0nu |
^om) > |
и 1т |
^1т {Х1т) > ••• > |
||||
|
|
|
X 'i\ m — В j\ ; — 1 (.V д/— 1 t m , ^ Л '— 1 , ш ) * |
|
|
Тогда последовательность [и£т]0 является минимизирующей для зада
чи |
(5) — (8), т. |
е. |
П т /0 (х0т, |
[и/т]0) = |
inf |
inf /0 (jc, |
[щ]0) = |
& |
||||||||||
|
|
|
т-»оо |
|
|
|
|
|
х£Хо До(*) |
|
|
|
|
|||||
|
Д о к а з а т е л ь с т в о . |
|
Возьмем |
|
произвольную |
|
точку |
х £ Х 0 и |
||||||||||
произвольное управление |
[и£]0 £ Л0 (х) |
с |
соответствующей траекторией |
|||||||||||||||
[*,]„ из (6). С помощью формулы (21) |
при k — 0 .тогда имеем |
|||||||||||||||||
|
h (xi No) |
|
|
|
|
|
N —1 |
|
|
|
|
|
i (x im> u im )] "b |
|||||
|
|/о!(ЛОт» |
[u im]o) |
^ |
|
|
(x i> |
u i ) |
R |
||||||||||
|
|
|
|
|
|
|
|
i=0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
+ |
B0{x) — B0(x0m), |
in]= |
1, |
2___ |
|
|
|
|
|||||||
В этом равенстве можно перейти к |
пределу |
при т-^~ оо, |
так как |
|||||||||||||||
правая часть по условию имеет предел. В |
результате |
получим |
||||||||||||||||
|
|
|
No) —lim/0(Xom, [u/m]о) |
N—1 |
|
|
|
|
||||||||||
|
|
h i X, |
|
|
|
|
Щ) + |
|
||||||||||
|
|
|
|
ГП-*оо |
|
|
|
|
|
i=0 |
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
+ |
B0 (x) — inf B0 (x) > |
0, |
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
x B X „ |
|
|
|
|
|
|
|
|
|
|
так |
как |
# £(x£, |
u£) > inf |
Я £(х£> и) = |
0 в силу (13) или (20). Из |
|||||||||||||
произвольности х е Х 0 и [ыг]6 6 Л0 (х) |
следует |
/0* > |
lim/0 (х0т, [u£mJ0). |
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
т —>оо |
|
• |
||
С |
другой |
стороны, |
/0 (х0т, |
[uim]Q) > |
/о, |
|
in = 1, |
2 , ------ |
Поэтому |
|||||||||
П т /0 {хот, [^£т]о) = |
/О- |
А |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
ТП-*00 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т е о р е м а |
5. |
Пусть |
функции |
£ f (x), |
uim(x), |
|
t'=&, |
£ + 1 , |
|||||||||
N— 1, m = l , 2, |
|
удовлетворяют |
условиям |
теоремы 4. Построим |
||||||||||||||
управления |
и соответствующие траектории [х,-,п]ь следующим |
|||||||||||||||||
образом: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x km |
х < ^km |
^ km {x km )’ |
x k + i , m |
— В ^ ( х кт, |
Ukm), |
|
||||||||||
|
иА+1, m = u k + l , m (x k + l , m ), |
■ ■ ■ , Xjifm = F ^ —i (Xjy—i, m , |
Mjv- I , * ) . |