![](/user_photo/_userpic.png)
книги из ГПНТБ / Шахнович, А. Р. Математические методы в исследовании биологических систем регулирования
.pdfГлава 1-2
ТЕОРИЯ ОПТИМАЛЬНОГО У П Р А В Л Е Н И Я
Определение динамических характеристик объекта (его ма тематической модели) является первым этапом исследования си стемы.
Однако, как известно, динамическая система включает в себя не только объект, н о й управляющее устройство, устройство обрат ной связи и т. д.
Исследованию динамики биологических систем регулирования методами классической теории автоматического управления по священо значительное количество работ, среди которых можно отметить монографию Ф. Гродинза (1966).
Останавливаться подробно на этом направлении в рамках настоящей книги не представляется возможным.
Пусть в результате решения задачи идентификации математи
ческая модель динамического объекта представлена |
нелинейным |
дифференциальным уравнением |
|
і = і (и, ж, t), |
(1-2-1) |
где X — регулируемая величина (координата пространства со стояний); и — управляющее воздействие или управление; t — время.
Методы получения математической модели объекта |
приведены |
в главе 1-1. Выбор функционала, характеризующего |
требования |
к качеству, представляется серьезной самостоятельной задачей, основные аспекты которой рассмотрены ниже. Теперь мы подошли вплотную к формулировке основной задачи теории оптимальных систем (Фельдбаум, 1963).
Пусть существует динамическая система, математическая мо дель которой (1-2-1).
Положение управления характеризуется точками некоторой области управления U, которая определяется любым множеством
некоторого |
r-мерного |
евклидова |
пространства Ет. |
|
||||||
Задание |
и = (и' ... |
ит) |
£Е U |
равносильно |
заданию |
системы |
||||
числовых |
параметров |
и' ... иг. |
|
|
|
|
|
|
||
В приложениях особо важен случай, когда U — замкнутая |
||||||||||
область |
пространства |
Ег. |
В частности, |
U' |
может |
быть |
кубом в |
|||
г-мерном |
пространстве |
и1 , |
... ит |
|
|
|
|
|
|
|
|
|
I и? I < |
1; / = |
1, 2 |
... г. |
|
|
|
||
Физически |
это значит, |
что эти управляющие |
функции |
не могут |
||||||
иметь значений больших, чем 1; и (t) ЕЕ U, |
где и (t) |
— векторная |
||||||||
функция, определенная |
на интервале t0 |
^ |
t ^ |
tv |
|
|
20
В зависимости от характера поставленной задачи на управле
ние и (t) накладываются различные условия (кусочной |
непрерыв |
|||||||
ности, |
кусочной дифференцируемое™ |
и т. д.). |
|
|
|
|
||
Допустимым управлением называется такое, которое удовлет |
||||||||
воряет |
этим условиям (обычно кусочно-непрерывное). |
|
|
|||||
Можно сказать, что допустимое |
управление |
и (t) tQ |
t |
t1 |
||||
переводит точку в фазовом пространстве из положения х0 |
в поло |
|||||||
жение |
хх, если соответствующее |
ему решение |
х (t) |
уравнения |
||||
1-2-1, |
удовлетворяющее |
начальному |
условию |
х (£„) = х0, |
опре |
|||
делено на всем отрезке t0 |
t t± |
и проходит в момент t1 |
через |
|||||
X l (h) = а^. |
|
|
|
|
|
|
|
|
Тогда формулировка основной задачи такова: в фазовом про |
||||||||
странстве X даны две точки: х0, хг. |
Среди всех допустимых |
управ |
||||||
лений |
u(t), переводящих |
точку из положения х0 |
в xlt найти такое, |
для которого функционал, характеризующий требования к каче ству, принимает экстремальное значение
J = ^f(x(t),u(t))dt.
и
Таким образом, для решения оптимальной задачи необходимо:
—получить математическую модель;
—выбрать функционал, характеризующий требования к ка честву системы,
—выбрать граничные условия,
—выбрать подходящий метод теории оптимальных систем. Выбор критериев качества определяется целями управления,
зависящими от конкретного класса систем. Эти проблемы не рас сматриваются в теории оптимальных систем, но мы здесь на них кратко остановимся.
Цель управления можно рассматривать как достижение эк стремума некоторой величины /-критерия оптимальности.
В общем случае критерий оптимальности зависит от ряда па раметров:
—задающего воздействия,
—выходной величины,
—внешнего воздействия,
—управления,
—времени.
Аналитическая форма записи критерия оптимальности представ ляет собой функционал. Наиболее общий вид функционала
/ {х*, X, z, и, t) = min.
Конкретный |
вид функционала определяется классом опти |
мизируемой системы. |
|
Так, для задач линейного программирования функционал имеет |
|
п |
|
вид / = ^СІХІ= |
min (где CT — весовой коэффициент). |
і—1 |
|
21
Д ля подавляющего большинства динамических задач функцио нал представляется в интегральном виде.
т
J = ^ G (у, х, z, и, t) dt,
о
где G (у, X, z, и, t) — функция оценки. По значению функционала можно определить не только экстремальное значение, но и оценить ухудшение работы системы по величине отклонения / — J ext- Классификация критериев оптимальности возможна по разным признакам.
Критерии могут относиться к длительности переходного про цесса. Подобный критерий используется в задаче оптимального быстродействия и имеет вид
г
J = ^dt.
о
Здесь функция оценки есть единица. .
Критерии могут относиться к переходным процессам или установившимся значениям. Приемлемое представление о качестве переходного процесса дает так называемый обобщенный интег ральный критерий
Оі = 0
так как здесь ограничено длительное существование отклонения и производных. На практике обычно ограничиваются первыми дву- мя-тремя членами суммы функции оценки.
Для оценки установившегося состояния достаточно приемле мым является критерий вида
т
хІрНв = lim -т=-\ x2(t)dt.
о
В качестве примера критерия минимального отклонения процесса X (t) от некоторой заданной величины x*(t) можно рассмотреть функционал
оо
J = ^ {а (х* - х) 2 + W } dt.
о
При решении оптимальных стохастических задач параметры функ ции оценки представляют собой случайные процессы. Поскольку экстремальное значение критерия есть величина детерминиро-
22
паиная, то критерии записывают в виде
т
J = MJ^G (х, и, t) dt},
о
где M — математическое ожидание.
При выборе функционала для решения конкретной оптималь ной задачи целесообразно руководствоваться следующими тре бованиями:
1)наилучшее качество работы системы должно соответство вать экстремуму функционала;
2)функционал должен обладать одним «глобальным» экстре мумом;
3)функция оценки функционала должна быть достаточно про стой и аналитической;
4)для выбранного функционала должно существовать опти мальное управление.
Задача |
считается решенной, |
если |
получен алгоритм и = |
|
= / (х{), |
і |
= 1, п, который дает точное решение задачи или прибли |
||
женное |
решение при оцененной |
сверху |
ошибке. |
|
Аналитические выражения могут быть получены лишь для про |
||||
стейших |
|
случаев. |
|
|
Рассмотрим подробнее динамическое программирование. Рас
смотрим задачу об управлении |
динамическим |
объектом, |
моделью |
|||
|
|
|
dx |
-2. . |
— |
га-мер |
динамики которого является |
у р а в н е н и е - ^ - = f(x, и), х |
|||||
ный вектор, |
и — m-мерный вектор, |
и ЕЕ U. |
|
|
|
|
Требуется |
минимизировать |
функционал |
|
|
|
|
|
т |
|
|
|
|
|
|
/ = \ |
G[x(t),u{t)]dt, |
|
|
|
|
здесь Т — фиксировано. |
|
|
|
|
|
|
В основе метода динамического программирования |
лежит |
|||||
принцип оптимальности Беллмана, |
сформулированный |
для ши |
рокого круга детерминистических и стохастических' систем, бу
дущее |
поведение |
которых |
определяется их состоянием в данный |
|
момент и не зависит от предыстории (Беллман, 1960). |
||||
Рассмотрим в фазовом пространстве состояний траекторию |
||||
точки |
X : х0 |
хг |
-*- х2. Второму участку соответствует вторая |
|
часть |
функционала |
|
||
|
|
|
т |
|
|
|
|
J |
G[x(t),u(t)]dt. |
|
|
|
h |
|
Этот участок может рассматриваться как самостоятельная траек тория, и она будет оптимальной, если этот функционал минимален.
23
Теперь можно сформулировать принцип оптимальности Белл - мана так: «Второй участок оптимальной траектории — всегда
оптимальная траектория». |
|
|
|
Это означает, |
что если хх |
— состояние системы в |
момент |
tx, то независимо |
от того, как |
система в это положение |
попа |
ла, ее оптимальным последующим движением будет траектория
Этот принцип достаточно общий и справедлив как для непре рывных, так и для дискретных систем. Этот принцип оптимально сти кажется на первый взгляд тривиальным, но на самом деле это не так.
Выводом из этого принципа является правило — нужно до биваться не локального успеха, а конечного. Это правило ис пользуют, например, бегуны на длинные дистанции. Они никогда не бегут на каждом этапе с максимальной скоростью, а экономят вна чале силы, чтобы не выдохнуться к концу. Или, иначе говоря,
добиваются минимального значения функционала |
/ на всем ин |
|||||||||
тервале t0, |
Т. |
|
|
|
|
|
|
|
|
|
Можно |
дать другую |
формулировку |
принципа |
оптимальности: |
||||||
«Оптимальное |
управление не зависит |
от «предыстории» |
системы |
|||||||
и определяется ее состоянием в данный момент времени». |
||||||||||
Эти рассуждения можно проследить на простом |
примере: |
|||||||||
уравнение |
первого |
порядка |
|
|
|
|
|
|||
|
|
|
|
|
dx |
, , |
, |
|
|
|
|
|
|
|
|
-зг = /і (*.")• |
|
|
|||
Здесь х,и |
не вектора, а просто |
функции, и необходимо найти |
||||||||
закон |
управления, |
при котором |
|
|
|
|
|
|||
|
|
|
|
|
т |
|
|
|
|
|
|
|
|
|
J = |
^ G1(x,u)dt |
+ |
q>1[x(T)] |
|
|
|
|
|
|
|
|
и |
|
|
|
|
|
будет |
минимальным (t0 |
= О, Т |
— фиксировано). При |
решении |
||||||
задач |
с |
помощью |
динамического |
программирования |
систему |
прежде всего приводят в дискретную форму. Это, с одной стороны,
необходимо .для решения |
задачи на машине, а с другой — мето |
|
дика проще в дискретной форме. Интервал [О, Т] разбиваем на N |
||
равных участков длиной |
(N — /с)Д и будем рассматривать лишь |
|
дискретные |
значения х = |
х (к), и — и (к);, к = 0,1, ... N соответ |
ственно t = |
0, 1Д, ...(N |
— 1) A, ІѴД = Г. Тогда дифференциаль |
ное уравнение можно приближенно заменить дифференциально-раз
ностным уравнением х (к + 1) = |
х (к) |
+ / \х (к), |
и (к)]. Началь |
||
ное условие остается |
прежним: х (0) = |
[х](=о — |
#(0)- |
||
Интеграл приближенно |
заменяем |
суммой |
|
||
|
J V - 1 |
|
|
|
|
/ = |
2 |
G[x(k),u(k)] + |
q>lx(N)]. |
(1-2-2) |
|
|
71=0 |
|
|
|
24
Задача теперь состоит в определении последовательности дис кретных значений управляющего воздействия и : и (0), и (1) ...
...u(N—1), минимизирующих сумму 1-2-2, т. е. нужно найти ми нимум сложной функции многих переменных. Метод дает возмож ность свести эту операцию к последовательной минимизации функ ции одного переменного.
Для решения задачи используется прием, называемый «по пятным движением», начиная от последней точки оптимальной траектории x (Т) к началу х (0).
Рассмотрим момент времени t = (N — 1)Д. Будем считать, что все
и(і) )
определены и известно x (N — 1) Д. По принципу оптимальности неизвестное и [(N — 1)Д] влияет лишь на те члены 1-2-2, кото рые относятся к этому участку
JN-i = G [x l(N — 1)], и [(N - 1)]} + ф lx(N)),
но из уравнения объекта можно видеть, что если
x [N] = x IN - 1] + / [x (N - 1), |
и (N - 1)], |
то можно найти и (N — 1), минимизирующее /уѵ-і, так как оно входит в оба уравнения. Обозначші искомое минимальное значение min JN-I = Sjv-i
Sn-JLx (N•— 1)] = min/лг-і \u (N — 1)] = min {G [x (N —
- 1 ) , 'u(N-l)} |
|
+ |
q>\x(N-i) |
|
+flx(N |
-l)tu.(N |
|
-i)]]}. |
||||||||
Здесь нужно минимизировать только по и (N — 1). |
|
|
||||||||||||||
Выполнив |
эту |
операцию, |
запомним |
iSjv-i [я (N — 1)] |
и |
получен |
||||||||||
ное |
значение |
и* (N |
— 1). |
Перейдем |
к предыдущему интервалу |
|||||||||||
N — 2. |
Здесь |
|
все |
будет |
зависеть от и (N — 2) и и (N |
— 1), но |
||||||||||
все, |
на что влияет и (N — 1),уже найдено, т. е. остается аналогич |
|||||||||||||||
ная |
процедура |
|
для и (N — 2), |
так как |
|
|
|
|
||||||||
|
J |
N |
. . 2 = |
|
G[x{N |
- |
2), |
u{N |
- |
2)] +G{[x |
(N - |
1), |
||||
|
|
|
|
|
|
u(N |
|
|
|
+f[x(N)]}. |
|
|
|
|||
Переходя аналогичным образом к N— |
3, N — 4 ... |
2,1 |
и 0 ин |
|||||||||||||
тервалам, |
получим |
рекуррентную |
формулу |
|
|
|
||||||||||
|
SN^k |
|
[x (N |
— k)].= |
|
min |
\G [x (N |
— к), и (N — к) |
+ |
|||||||
|
+ |
£ N _ m |
[x (N |
- к ) |
-Vf |
lx |
(N |
- |
к), и (N |
- |
к)]]}. |
25
Одновременно в процессе минимизации определяются и запоми наются значения
и* (N -к) = и* [x (N - к)].
Так мы последовательно подходим к значению и* (0), которое тре буется вначале. Такова вычислительная процедура. Она все же
весьма |
громоздка для сложных систем, так как нужно |
находить |
||||
и запоминать iSjv-d- и J7jv_jt- |
|
|
|
|
||
Попробуем теперь |
ввести |
непрерывный |
аналог |
этой |
процеду |
|
ры: |
|
т |
|
|
|
|
|
|
|
|
|
|
|
dx |
|
Iй |
|
|
|
|
-^- |
= / (х, и, t), |
J = \ |
G (х, u,t) dt, |
minJ = |
S(x°,t0). |
По принципу оптимальности
min / = S [х (t), t]. [X, n
t = t' + At; т і п / ( + д , = S \x -\- Ax, t -\- At].
Вместо рекуррентного соотношения имеем
S [х, t] = min [G lx, и, t] At -|- S [.г', t']} + Ог (At).
u(t)<=U |
и (t) G U |
Уравнение Беллмана, из которого определяется значение опти мального управления:
4 £ - [ * , * ] = min {G[x(t),u(t)] |
+ (grààS (х, t) f[x(t), |
и(t),t]y}. |
(1-2-3)
Здесь S (x, t) — минимальное значение функционала; G (x, и) — функция оценки; / (х, и, t) — правая часть уравнения объекта:
gradS |
dS |
dS |
dS |
|
д х ! |
' д х 2 "•' |
дХп |
||
|
<> — скалярное произведение.
П р и м е р . Уравнение объекта (Фельдбаум, 1963)
|
dx\ |
, |
|
|
|
_ |
dX2 |
, |
2. |
|
|
dt |
— Il |
|
1 |
1 |
~2> |
d t |
— J2 — U |
' |
|
функционал |
|
—U X 1 |
~Г Х2> |
~ЙТ~ |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
/ |
= |
^ G (хъ |
х3) dt. |
|
|
|
|
Уравнение |
Беллмана |
|
|
|
|
|
|
|
|
|
dSdt |
= min {G (ХЪ |
Х2) |
+ |
- Ц - (uxi + |
+ |
ii2 } , |
||||
если |
|
|
|
|
дхі > о , |
|
|
|
||
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
d |
s |
|
|
|
|
26
то минимум {•} находим из условия
ди - О,
тогда оптимальное управление
U = |
1 |
;гХ |
|
dS |
|
2 |
х |
дх± |
dS |
||
|
|
1 |
|
|
Подставив это в уравнение Беллмана, получим уравнение в частных производных :
|
dS \ 2 |
~дГ ~~ G ^1' х*> + ~діТЖг — х* |
Ts |
|
4- дх% |
которое теперь необходимо решить, получить значения:
dS |
|
dS |
дхі |
' |
дх% |
граничные условия находятся из функционалов. |
||
Перейдем к принципу |
максимума. К сожалению, такой на |
глядной интерпретации принципа максимума Л. С. Понтрягина, как принципа оптимальности Беллмана, не существует. Суще ствует несколько выводов принципа максимума. Вероятно, це лесообразно привести его вывод из динамического программиро
вания, хотя Л . С. Понтрягин |
и его |
ученики Р. В . Гамкрелидзе |
||||
и В . Г. Болтянский вывели принцип |
максимума совершенно не |
|||||
зависимо в 1956 |
г. |
|
|
|
|
|
Введем в дополнение к нашей системе п порядка еще две коор |
||||||
динаты: |
|
|
|
|
|
|
|
х°:-^тг |
|
= fo = G(x,ui)'> |
|
Ы*„ = °; |
|
хп+і |
'• — |
1 |
— fn+i = 1; |
|
(ж7і+і)<=о = О- |
|
Тогда вместо |
-t' |
|
|
|
|
|
|
|
|
dS |
dS |
|
|
|
|
|
d t |
дхп+і |
|
|
Введем теперь обобщенную систему «п + |
2ь координат: |
|||||
|
S |
— |
(XQ, Х^ ... хп, |
x n + 1 ) , |
||
а также |
/ |
= |
(/о> / і |
••• int /n+l)> |
||
|
|
|
|
|
|
|
|
|
|
dS |
|
dS |
dS |
|
|
|
S.T! |
••• |
дхп |
3a;n + 1 |
27
Вспомним, что max (— X) — —min X, и перепишем теперь (1-2-3):
О = max JG (х, и, хп+1) ( - 1) - <grad £ •/> - |
(+ 1)} . |
Можно видеть, что это легко записать так:
О - max { < " * • / > }• «eu
Обозначим if-функцию Гамильтона, или гамильтониан
|
71+1 |
я |
= ор-/> = 2 %/7, |
где |
о |
•фіі fi — i-ö координаты |
векторов. |
О= тахН — принцип максимума, «eu
Оптимальное управление в любой момент времени максимизирует гамильтониан.
Процедура применения принципа максимума состоит в следую щем:
уравнение объекта |
X = |
АХ |
+BU; |
X |
(0), X (T); |
U <= U; ' |
|||
функционал |
|
|
|
т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
I |
= |
^ |
G(x,u,t)dt; |
|
|
|
|
|
|
|
|
о |
|
|
|
|
|
сопряженная система |
¥ = |
—А*^¥. |
|
|
|
|
|||
Гамильтониан |
H = |
(G-W} |
+ (АХ-W) |
+ |
(BU, |
¥>. |
|
||
Условие максимума |
|
|
|
|
|
|
|
|
|
3 { < Л Х , У > } |
|
Э.{<ДУ,У>}- |
9{<G,Y>} |
_ |
п |
||||
0(7 |
~^ |
|
dU |
|
' |
3J7 |
~ |
|
|
Оптимальное |
управление |
U* |
= f |
(X*). |
|
|
|
Основное практическое преимущество принципа максимума перед динамическим программированием состоит в том, что нет необходимости решать уравнение в частных производных, что яв
ляется достаточно сложным |
для систем произвольного порядка. |
||||||
В процедуре |
использования |
принципа |
максимума |
решается |
си |
||
стема сопряженных линейных уравнений Y = —A*W, что, ко |
|||||||
нечно, гораздо легче. |
|
|
|
|
|||
Определенную трудность представляет, однако, определение |
|||||||
граничных |
условий |
этой системы. |
|
|
|
||
Одним |
из |
путей |
преодоления этих |
трудностей |
является |
ис- ! |
|
пользование |
(для задач оптимального |
быстродействия), т. е. |
при |
||||
G (х, u, t) |
= |
1 итерационных |
методов. |
|
|
|
28
В основе итерационного метода (Eaton) лежат следующие геометрические положения. Пусть в 7г-мерном эвклидовом про странстве Rn: g (t) есть n-мерный вектор, изображающий положе ние цели, причем g (t) — непрерывно в интервале 0 ^ t ^ оо; V (t) есть /г-мерный вектор, характеризующий выход системы;
С/[о,(] — управляющая |
n-мерная векторная |
функция, |
принадле |
||||||||||
жащая |
ограниченному |
множеству |
&цъ,і), |
если |
| £/£ |
(т) | |
1; |
||||||
0 < т < / и |
Г,- (г) = 0 |
|
вне интервала [0, |
І\; |
S) — множество, оп |
||||||||
ределяемое |
равенством |
|
|
|
|
|
|
|
|
|
|
||
|
|
|
St = |
{V(t, |
CWtf(o,o е |
О»./)}, |
|
|
|
|
|||
где V (t, |
£/(<),()) — |
выход^системы в момент |
t при заданной |
функции |
|||||||||
управления |
Uqj). |
^(о,(°) G= Ц о , г ) — |
оптимальная |
управляющая |
|||||||||
функция, если V |
(t°, £/(0 ,н) |
— g (f) |
и не существует |
t' |
< |
f |
тако |
||||||
го , что |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
V |
(t', |
£/(„,,-)) = |
g ( О |
|
|
|
(1-2-4) |
для некоторой управляющей функции, принадлежащей Q(o,o- Проблема заключается в нахождении управляющей функции,
принадлея?ащей Q, которая совмещала бы выход системы V (tU) с целью g(t) (или соответственно х (t) и z (t) за минимальное время).
Необходимое условие оптимальности управления может быть записано в форме
/о |
|
|
|
'о |
|
|
|
Лу(х)1Г(х)ах,ц°\= |
|
|
max |
\ |
U (т) Y' |
(т) |
rfdx), |
где Y' (т) — транспонированная |
матрица |
Y (т); |
t° — наименьшее |
||||
время, при котором g (t) |
ЕЕ St; |
ц° |
— внешняя нормаль St« в точке |
||||
S (1°). |
|
|
|
|
|
|
|
Выражение оптимального управления имеет вид |
|
||||||
U* |
(т) = |
sign {Y' |
(t)i)}. |
|
|
||
Таким образом, геометрически задача сводится к |
определению |
минимального времени t°, для которого пересечение S, и g (t) не
пусто, а также г\° — внешней нормали St |
в точке g |
(t°). |
|
|
|
||||||
По |
известным |
значениям t° |
и т]° оптимальное |
управление |
|||||||
Z7(o,(°) |
может |
быть |
определено |
путем |
максимизации |
скаляр |
|||||
ного |
произведения |
по [ / ( о д Е й ц д . |
Этот |
итерационный |
ме |
||||||
тод является достаточно надежным для определения |
оптимального |
||||||||||
управления, переводящего систему в фазовом пространстве |
со |
||||||||||
стояний из исходного положения в конечное положение |
за |
мини |
|||||||||
мальное время. Идеи, |
лежащие в основе метода, были |
использо |
|||||||||
ваны |
Итоном |
при |
определении |
оптимального |
управления |
в |
ди |
||||
скретных системах. |
Определение |
оптимального |
управления |
и |
оп- |
20