книги из ГПНТБ / Осипов В.М. Математические основы кибернетики. Начала вариационного исчисления и элементы теории оптимального управления учеб. пособие
.pdf- 73 -.
мичность полета мевду двумя пунктами, то время Г Ht должно быть фиксировано заранее.
Рассмотрим такую задачу. Требуется выбрать управление it [і ! так, чтобы за данное время Т управляемый объект перешел из начального состояния Х° в такое состояние, что одна из фазо вых переменных, например, Х,(і] в момент t- Г (т . е . Х,(ТІ) приняла бы максимально возможное, a другие координаты фикси рованное значение. Такая задача возникает в теории космичес-
. кого управляемого полета. При расчете закона управления раке той, выводящей искусственный спутник земли на заданную орби ту, требуется , чтобы на заданной высоте в заданный момент вре
мени .горизонтальная скорость |
была максимальной, а вертикаль |
|
ная скорость равнялась нулю. |
В данной задаче |
требуется, что- |
ббы одна фазовая координата - |
горизонтальная |
скорость (обоз |
начим её |
через |
) |
в момент |
Г была максимальна. |
Иногда |
не требуется |
фиксировать |
другие координаты. Число рас |
|
смотренных постановок задач оптимизации можно было бы увели |
||||
чить. Все эти |
внешне |
различные |
задачи в математическо'1. отно |
шении оказываются тесно связанными мевду собой и треб; ..' ана логичных методов исследования. Более того, одни из них могут быть сведены к другим. В частности отметим, что в этом смысле наиболее общей задачей оптимального управления оказывается задача об оптимизации фазовой координаты. Действительно, рас смотрим вадачу с интегральным критерием оптимальности:
Требуется |
выбрать |
управление U(*•)£• U |
объектом, описывае |
||||
мым системой |
уравнений |
|
|
|
|
||
4 |
ZÂ (*,,••• |
; a |
..L'm.t) |
( с = I , |
2 |
. . . . п ,1 |
|
так, |
чтобн |
функционал |
|
|
|
|
|
|
|
3 = /Л |
Iх, |
, - Хп ; |
Ц ... Um |
• |
tjc/t |
|
|
о |
|
|
|
|
|
|
|
- 74 |
- |
|
принимал экстремальное |
значение. |
|
||
Введем новую фазовую координату |
|
|||
J to |
fa,.- |
х„; |
U,,...Um; t)dt, |
x„f/(Q>-0 |
s |
|
|
|
|
Тогда к системе |
уравнений' можно прибавить ещё одно |
|
||
X./,„zJofa.--v"i |
Ui |
Um ; £ ) , |
|
а задача определения экстремума интеграла сводится к задаче
оптимизации /'п+ /) - ой |
координаты xntl(Tlt |
т . е . |
Задача об оптимизации некоторой функции от конечного значения координат
<р[ф)гхг{Т), |
-XntrjJ |
также монет быть сведена к задаче об оптимизации конечного зна чения одной координаты, если функция Ф - дифференцируема. С этой целью введем новую координату
Возьмем производную по с
Если теперь к заданной системе уравнений объекта добавить |
|
полученное дифференциальное уравнение для координаты xn*t |
, |
то задача сводится к оптимизации конечного значения координаты
SC„f/ |
т . е . JC„+, (Tj . Отметим |
также, |
что задачи оптимиза |
||
ции с интегральными |
ограничениями |
типа |
|
||
|
/ |
Ff«,,... |
,Х„ . U,,...Unit) |
Л * Л |
|
|
могут |
быть сведены к обычной |
задаче |
оптимизации с огра |
ничением типа неравенств на конечное значение новой координа ты, зс (Tj <• Л . Для этого достаточно добавить к систе-
- 75 -
ме ещё одно уравнение
= Fix,,--- ССп ; U,, • Um ; І J
Наконец, задача о максимальном быстродействии также являет ся частным случаен; задачи о минимизации одной координаты, действительно, присоединяя к.системе уравнение
убеждаемся, |
что минимизация времени означает минимизацию ко |
|||||
ординаты X„tl |
„ ири этом конечные |
значения остальных коорди |
||||
нат |
заданы, |
а время Т |
не должно |
быть фиксированным. |
||
|
Таким образом, весью широкий класс задач сводится к |
|||||
задаче об оптимизации одной координаты в момент t |
- Т , при |
|||||
чем |
Т |
может быть как фиксированным так и свободным. |
||||
Весьма |
вижко |
подчеркнуть |
следующее |
обстоятельство, |
ІХУШ на |
управление не накладывать никаких ограничений, т . е . областью допустимых управлений считать все пространство, то задача об оптимизации одной координсты в принципе может быть решена методами классического вариационного исчисления. Искомое управление в этом случае получается в виде непрерывной и глад кой функции времени как решение уравнений оіілсрь. і- .летим, что задачи оптимального управлеішя с отсутствием ограничений на управление называются задачами с открытой областью управ
ления. Цели же на управляющие |
параметры |
наложены ограниченны |
||
типа неравенств |
|
|
|
|
y>.{U,,Ui,...UmJ$0 |
|
(i-/,2,...^J |
||
или более простого |
вода |
|
|
|
г<- ь U; |
£ J. |
Д" - |
f. 2, . .. m |
J, |
то область допустимых управлений оказывается замкнутой т . е . вкдичае':' в с сон не .'о.;ъки вкутргьже точки, но JJ іу»нпци
|
- |
76 |
- |
|
|
|
с/. (и,,...щМо[ѵиш |
ui-ßi |
|
и |
и£ = л£ (it |
m/] |
, a это |
означает, что управление |
U |
как |
точка |
m -мерного |
эвкли |
дова пространства может находиться как внутри области, так и
на её |
границах, |
за пределы же границ области |
ока выйти |
не |
может. |
Наличие |
замкнутой области управления |
вносит-весьма |
су |
щественные коррективы в характер изменения управляющих пара метров. Окѳз' іается, как правило, управляющие параметры s про цессе управл =іия большую часть времени находятся на границахобласти управления, причем переход с одной границы на другую осуществляется мгновенно, т . е . управление как функция времени оказывается кусочно-непрерывной.. Кусочно-непрерывные управле ния в принципе не могут быть получены аз классических уравнении Эйлера, которые в этом классе функций просто не существуют. Таким образом, задачи с замкнутой областью управления не мо- • гут , вообще говоря, решаться методами крассического вариаци онного исчисления. А поскольку реальные задачи управления всег да, как правило содержат ограничения, то и получается , что реальные т . е . наиболее важные задачи оптимального управления не могут быть решены методами классического вариационного ис числения. Потребовался поиск новых неклаесических неводов оп тимизации. Наиболее важное значение имеют два метода: привдиѳ максимума Понтрягина и метод динамического программирования Беллм>ліа.
|
- |
ft - |
Ш . |
ОРИНЦШ МАКСИМУМА ИОНТРііГША |
|
I . |
Предварительные соображения |
|
Мы уже знаем, что |
весьме широкий круг задач оптимально |
го управления сводится к задаче об оптимизации одной коорди- ЙЭТЫП Нам удобней, однако, рассмотреть несколько более общую задачу об оптимизации линейной функции конечных значений всех координат т . е . величины
где |
Сх - |
нехоторые |
постоянные. |
|
|
|
Введем |
п - мерные векторы: х(Т/-[x,(r},Xi(Tj,... |
x„(Tj] |
и |
|||
С ' (cf., |
Сц,... |
С/7 J |
' |
Вектор x(Tj |
есть г очевидно, |
ко |
нечное состояние объекта, т . е , конечная точка траектории |
х(і). |
|||||
Величину |
S |
можно трактовать как скалярной произведение |
||||
вектора |
X (Т) |
ж вектора |
С |
: |
|
|
5 = {с, ж (г))
т. е . как проекцию вектора х(Т) на вектор С . Требование максимума (или минимума) величины S означает,
таким образом, что мы стремимся перевести систему как можно "дальше" в направлении вектора С (или же как можно"дальше" э азиравлании веатора - С ) „ В самой общем случае', на конечное фазоЕое состояние объекта
лТовс на зодохензе конечной точки фазовой траектории в прост ранстве) могут быть наложены различные ограничения. Эти огра ничения могут быть сформулированы как требование перевода объекта из начального фиксированного состояния на некоторое
- |
78 - |
|
множество фазового пространства, |
описываемого системой равенств |
|
л нерьвенств. |
|
|
В самой общей постановке |
задача |
может быть сформулированы |
так. |
|
|
Из множества допустимых управлений найти таксе управ ление U(tJ, которое бы переводило объект &І ТОЧКИ ЗС(%>)*& на 4ліксироь& . юе замкнутое множество фазового пространства к притом так, гобьі функционал
в заданный |
момент |
времени t = Т принимал минимальное ( ш |
мак |
|||
симальное) |
значение. |
|
|
|
||
Будем предполагать, что время управления |
T-t0 |
фиксировано. |
||||
Позднее |
мк увидим, |
что в тех задачах, где |
время |
заранее |
ке |
|
задано |
(например, |
в задаче о максимальном |
быстродействии} ло- |
лучаются совершенно аналогичные результаты. Ш. рассмотрим част ный случай нашей основной задачи, а именно, будем считать, что ка положение конечной точки фазовой траектории не наложе но никаких ограничений, т . е . правый конец траекторий -^зооодвн
и, следовательно, множество, |
яа которое мы переводим |
объект, |
||
занимает все фазовое пространство. Отсутствие ограничений |
|
|||
означЕет, |
что концы кривых SC,(i)\x;(cj\. .. xn(ij |
при І- T |
||
\Х<Ш |
ixJiJ |
могут скользить |
по вер- |
|
|
|
He путать с правым концом |
||
|
|
фазовой траектории, |
кото |
|
|
|
рый Moser оказаться |
в лю |
|
|
|
бой точке фагового зрост- |
||
|
|
ранстна'. J |
|
|
Рис .14
Результаты, которые мы получим при рассмотрении этой задачи ^..-ду,-. полностью аналогичіш результатам, получаемым при ре шении общей задачи, отличаясь от последних лишь s деталях, касающихся граничных условий, и вмести с теы допускают бо лее простые доказательства.
2.Вывод принципа максимума для задачи со свободным правым концом траектории
Итак, сформулируем згдачу оптимальном управления со свободным правым концом фазовой траектории.
Задан объект, описываемый системой дифферинциалынис уравне ний П -го порядка
X, fa,-- Хп ; U,, . Um : àj ( L = 1, Z... п ) i Требуется найти такое управление і/ЛУаз «олое-ти допустимых, которое ou переводило объект из заданного НІ.ЧЬЛЫІОІЧЭ состоя
ния |
x(é,/s |
X ' |
jj некоторое заранее |
нсфиксирона*иое |
конеч |
|||
ное |
состояние х(Т)ъь |
фиксированное |
время |
T-t„ |
, |
причем ' |
||
так, |
что величина |
|
|
|
|
|
|
|
|
|
|
|
Сххк(Т)- |
(С,сс(т>) |
|
|
|
принимала минимальное (или максимальное ) значение. |
|
|||||||
Для решения |
этой |
задачи |
з;*ышем величину S |
a вад^ |
интегра |
|||
ла |
|
г |
|
п |
|
|
|
|
"to
и найдем условия экстремума этого функционала п^и условиях і. Эзо задачь Jiat'paKÄ. Составляем всоомшательнкіі аункнионал
- 80 -
г
|
|
•é, |
|
r |
C u |
|
|
i U |
|
|
|
|
|
|
|
|
•6. |
іч |
|
|
|
|
|
|
|
где |
|
|
Ai |
- множители Лагранжа (функции |
времени). |
|
||||||
Система |
уравнешй) |
Эйлера имеет вид |
(имеем |
П неизвестных |
||||||||
функций |
SCк и |
/77 функций |
UK |
|
) |
|
|
|
|
|||
|
|
(у |
|
1.2, ...пJ |
|
(К |
- |
і,2, |
...m). |
|
|
|
К этим уравнениям мы должны добавить |
условия |
трансверсальнос |
||||||||||
ти. Для рассматриваемого случая |
, когда правке |
концк |
XK(é) |
|||||||||
( |
К |
= 1, |
2 ... п) |
скользят по |
вертикальной |
прямой,ати |
ус |
|||||
ловия |
имеют вид |
|
|
|
|
|
|
|
|
|||
что |
даег |
|
Л)(т)--С; |
( |
|
|
2 . . . |
л |
>. |
|
||
|
|
|
|
|
|
|
Итак мы получили решение ѵюшей задачи в виде дьух систем уравнений
И |
п |
|
|
|
О/- |
|
|
|
^Яі-Ягт |
~° |
( « = і ѵ 2 . . . . т ) , |
|
i-.l <7iS« |
|
|
Зашгаем пергую систему, как систему уравнений Эйлера, з каяо-
щіческой |
форме. |
Введем пункцию Гамильтона |
и канонические пе |
||||||
ременные |
Р. |
|
( |
/ = I , |
2 |
. . . . П |
) |
|
|
|
H |
(t. |
X, |
P,UУ |
|
= - F*'* j |
Pj X; |
• |
|
|
|
P |
Fl |
|
|
J |
|
|
|
|
• |
* |
|
* J |
' |
с • |
|
|
|
для нашего функционала |
о |
имеем |
|
|
- Ol -
//=- -ІЯІЪ + l * J T * ICjXj+ІЛ: xj -->Äl fi
Введем новое обозначение |
Я- - |
У£ |
, |
тогда P. - Q + ¥• |
||
n |
|
|
n |
|
|
|
H(i,x, % и ) - £ ft/é |
= |
У у* |
xL |
|
|
|
Функции времени Ч,і_(і}(і-і,2--п)ъсчъ |
теже множители Лаграика. |
|||||
Они отличаются от канонических переменных |
Р± постоянными Ci |
|||||
и, следовательно, имеют тот же физический |
смысл, |
что и Р- , |
||||
т . е . являются импульсами |
сил действующих |
внутри |
нашей физичес |
кой системы и определяющих |
направление движения. |
Функция Га |
||
мильтона |
H имеет |
смысл |
полной энергии системы |
(или мощно |
сти) . |
|
|
|
|
Система |
уравнений |
Эйлера теперь запишется так |
|
m)
Мы получили эти уравнения на основе правил классического ва риационного исчисления икавадось бы, не имеем здесь никакой новой шфдрыаадш. Однако эвд не так. Обратим внимание на груп пу последних условий а,, ,
&ущ частная производная от некоторой функции по какой-то пе ременной обращается в нуль, то это значит, что при некоторой аначении этой переменной функция либо имеет экстремум (/7?і/і или !Т)ах), либо точку перегиба с горизонтальным участком. Пока жем, что рассматриваемые условия есть условия экстремума функ-
- 82 -
ции Гамильтона по переменным U1r Ui ,... Up> , т . е . го управлщощнм параметрам. Вернемся к нашей задаче. Запишем • уравнения, объекта более компактно
Х'=/і |
(Х,, Хг r..X„ ; U,,Ut,...Urn |
, t h/i(X,U,iJ |
fL*f,i |
|||
X - |
фазовый вектор, |
a |
U |
- |
вектор управления. |
|
Нам нужно перевести |
объект |
из начального состояния х * в |
некоторое заранее не фиксированное конечное состояние аа фикси
рованное время |
T-t0 , причем так, чтобы доставить экстремум |
|
функционалу |
„ |
|
S--2cKxK(T) |
(с,х.(т)) |
|
|
Кг/ |
|
выбирая надлежащим образом |
управляющие функции <-*і(і/,- Um it) ( |
которые принадлежат некоторой области допустимых управлений. Предположим, что мы нашли оптимальное управление U ' , кото
рое |
минимизирует |
функционал |
S |
(или максимизирует). Подстав |
ляя |
U в систему уравнений |
объекта и решая её, мы найдем оп |
||
тимальную траекторию х(і) |
и оптимальное значение конечного |
|||
состояния х(Т). |
Возьмем другое |
управление |
тогда движение объекта будет происходить п. другой траектории отличающейся о? оптимальной "is-величину (функцию) $х , т . е . x + &х , но, очевидно,
dÉj *S'xi - ft-(x +Jx , Ü+ Л/, é J (i - 1,2...П ) ,
a также |
|
|
|
ü+du, t)-£(£,û, |
ij U « /,*..- -n) |
|
Лс -- f |
[x + éx, |
|||||
Умножши ode |
стороны этого |
равенства |
na fi и просуммируем |
|||
Î. ъ foi |
= t |
%lh (x'fe.J*fu> |
|
tJ] |
||
4 -/ |
I'/ |
|
|
|
|
|
Уаноаам теперь обе части последнего равенства на dX я л*ю»ія- |
||||||
тегрируек s |
пределах от |
tc |
до Т |
: |
|