Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Шахнович, А. Р. Математические методы в исследовании биологических систем регулирования

.pdf
Скачиваний:
0
Добавлен:
21.10.2023
Размер:
9.19 Mб
Скачать

Глава 1-2

ТЕОРИЯ ОПТИМАЛЬНОГО У П Р А В Л Е Н И Я

Определение динамических характеристик объекта (его ма­ тематической модели) является первым этапом исследования си­ стемы.

Однако, как известно, динамическая система включает в себя не только объект, н о й управляющее устройство, устройство обрат­ ной связи и т. д.

Исследованию динамики биологических систем регулирования методами классической теории автоматического управления по­ священо значительное количество работ, среди которых можно отметить монографию Ф. Гродинза (1966).

Останавливаться подробно на этом направлении в рамках настоящей книги не представляется возможным.

Пусть в результате решения задачи идентификации математи­

ческая модель динамического объекта представлена

нелинейным

дифференциальным уравнением

 

і = і (и, ж, t),

(1-2-1)

где X — регулируемая величина (координата пространства со­ стояний); и — управляющее воздействие или управление; t — время.

Методы получения математической модели объекта

приведены

в главе 1-1. Выбор функционала, характеризующего

требования

к качеству, представляется серьезной самостоятельной задачей, основные аспекты которой рассмотрены ниже. Теперь мы подошли вплотную к формулировке основной задачи теории оптимальных систем (Фельдбаум, 1963).

Пусть существует динамическая система, математическая мо­ дель которой (1-2-1).

Положение управления характеризуется точками некоторой области управления U, которая определяется любым множеством

некоторого

r-мерного

евклидова

пространства Ет.

 

Задание

и = (и' ...

ит)

£Е U

равносильно

заданию

системы

числовых

параметров

и' ... иг.

 

 

 

 

 

 

В приложениях особо важен случай, когда U — замкнутая

область

пространства

Ег.

В частности,

U'

может

быть

кубом в

г-мерном

пространстве

и1 ,

... ит

 

 

 

 

 

 

 

 

I и? I <

1; / =

1, 2

... г.

 

 

 

Физически

это значит,

что эти управляющие

функции

не могут

иметь значений больших, чем 1; и (t) ЕЕ U,

где и (t)

— векторная

функция, определенная

на интервале t0

^

t ^

tv

 

 

20

В зависимости от характера поставленной задачи на управле­

ние и (t) накладываются различные условия (кусочной

непрерыв­

ности,

кусочной дифференцируемое™

и т. д.).

 

 

 

 

Допустимым управлением называется такое, которое удовлет­

воряет

этим условиям (обычно кусочно-непрерывное).

 

 

Можно сказать, что допустимое

управление

и (t) tQ

t

t1

переводит точку в фазовом пространстве из положения х0

в поло­

жение

хх, если соответствующее

ему решение

х (t)

уравнения

1-2-1,

удовлетворяющее

начальному

условию

х (£„) = х0,

опре­

делено на всем отрезке t0

t t±

и проходит в момент t1

через

X l (h) = а^.

 

 

 

 

 

 

 

Тогда формулировка основной задачи такова: в фазовом про­

странстве X даны две точки: х0, хг.

Среди всех допустимых

управ­

лений

u(t), переводящих

точку из положения х0

в xlt найти такое,

для которого функционал, характеризующий требования к каче­ ству, принимает экстремальное значение

J = ^f(x(t),u(t))dt.

и

Таким образом, для решения оптимальной задачи необходимо:

получить математическую модель;

выбрать функционал, характеризующий требования к ка­ честву системы,

выбрать граничные условия,

выбрать подходящий метод теории оптимальных систем. Выбор критериев качества определяется целями управления,

зависящими от конкретного класса систем. Эти проблемы не рас­ сматриваются в теории оптимальных систем, но мы здесь на них кратко остановимся.

Цель управления можно рассматривать как достижение эк­ стремума некоторой величины /-критерия оптимальности.

В общем случае критерий оптимальности зависит от ряда па­ раметров:

задающего воздействия,

выходной величины,

внешнего воздействия,

управления,

времени.

Аналитическая форма записи критерия оптимальности представ­ ляет собой функционал. Наиболее общий вид функционала

/ {х*, X, z, и, t) = min.

Конкретный

вид функционала определяется классом опти­

мизируемой системы.

Так, для задач линейного программирования функционал имеет

п

 

вид / = ^СІХІ=

min (где CT — весовой коэффициент).

і—1

 

21

Д ля подавляющего большинства динамических задач функцио­ нал представляется в интегральном виде.

т

J = ^ G (у, х, z, и, t) dt,

о

где G (у, X, z, и, t) — функция оценки. По значению функционала можно определить не только экстремальное значение, но и оценить ухудшение работы системы по величине отклонения / — J ext- Классификация критериев оптимальности возможна по разным признакам.

Критерии могут относиться к длительности переходного про­ цесса. Подобный критерий используется в задаче оптимального быстродействия и имеет вид

г

J = ^dt.

о

Здесь функция оценки есть единица. .

Критерии могут относиться к переходным процессам или установившимся значениям. Приемлемое представление о качестве переходного процесса дает так называемый обобщенный интег­ ральный критерий

Оі = 0

так как здесь ограничено длительное существование отклонения и производных. На практике обычно ограничиваются первыми дву- мя-тремя членами суммы функции оценки.

Для оценки установившегося состояния достаточно приемле­ мым является критерий вида

т

хІрНв = lim -т=-\ x2(t)dt.

о

В качестве примера критерия минимального отклонения процесса X (t) от некоторой заданной величины x*(t) можно рассмотреть функционал

оо

J = ^ {а (х* - х) 2 + W } dt.

о

При решении оптимальных стохастических задач параметры функ­ ции оценки представляют собой случайные процессы. Поскольку экстремальное значение критерия есть величина детерминиро-

22

паиная, то критерии записывают в виде

т

J = MJ^G (х, и, t) dt},

о

где M — математическое ожидание.

При выборе функционала для решения конкретной оптималь­ ной задачи целесообразно руководствоваться следующими тре­ бованиями:

1)наилучшее качество работы системы должно соответство­ вать экстремуму функционала;

2)функционал должен обладать одним «глобальным» экстре­ мумом;

3)функция оценки функционала должна быть достаточно про­ стой и аналитической;

4)для выбранного функционала должно существовать опти­ мальное управление.

Задача

считается решенной,

если

получен алгоритм и =

= / (х{),

і

= 1, п, который дает точное решение задачи или прибли­

женное

решение при оцененной

сверху

ошибке.

Аналитические выражения могут быть получены лишь для про­

стейших

 

случаев.

 

 

Рассмотрим подробнее динамическое программирование. Рас­

смотрим задачу об управлении

динамическим

объектом,

моделью

 

 

 

dx

-2. .

га-мер­

динамики которого является

у р а в н е н и е - ^ - = f(x, и), х

ный вектор,

и — m-мерный вектор,

и ЕЕ U.

 

 

 

Требуется

минимизировать

функционал

 

 

 

 

т

 

 

 

 

 

 

/ = \

G[x(t),u{t)]dt,

 

 

 

здесь Т — фиксировано.

 

 

 

 

 

В основе метода динамического программирования

лежит

принцип оптимальности Беллмана,

сформулированный

для ши­

рокого круга детерминистических и стохастических' систем, бу­

дущее

поведение

которых

определяется их состоянием в данный

момент и не зависит от предыстории (Беллман, 1960).

Рассмотрим в фазовом пространстве состояний траекторию

точки

X : х0

хг

-*- х2. Второму участку соответствует вторая

часть

функционала

 

 

 

 

т

 

 

 

 

J

G[x(t),u(t)]dt.

 

 

 

h

 

Этот участок может рассматриваться как самостоятельная траек­ тория, и она будет оптимальной, если этот функционал минимален.

23

Теперь можно сформулировать принцип оптимальности Белл - мана так: «Второй участок оптимальной траектории — всегда

оптимальная траектория».

 

 

Это означает,

что если хх

— состояние системы в

момент

tx, то независимо

от того, как

система в это положение

попа­

ла, ее оптимальным последующим движением будет траектория

Этот принцип достаточно общий и справедлив как для непре­ рывных, так и для дискретных систем. Этот принцип оптимально­ сти кажется на первый взгляд тривиальным, но на самом деле это не так.

Выводом из этого принципа является правило — нужно до­ биваться не локального успеха, а конечного. Это правило ис­ пользуют, например, бегуны на длинные дистанции. Они никогда не бегут на каждом этапе с максимальной скоростью, а экономят вна­ чале силы, чтобы не выдохнуться к концу. Или, иначе говоря,

добиваются минимального значения функционала

/ на всем ин­

тервале t0,

Т.

 

 

 

 

 

 

 

 

Можно

дать другую

формулировку

принципа

оптимальности:

«Оптимальное

управление не зависит

от «предыстории»

системы

и определяется ее состоянием в данный момент времени».

Эти рассуждения можно проследить на простом

примере:

уравнение

первого

порядка

 

 

 

 

 

 

 

 

 

 

dx

, ,

,

 

 

 

 

 

 

 

 

-зг = /і (*.")•

 

 

Здесь х,и

не вектора, а просто

функции, и необходимо найти

закон

управления,

при котором

 

 

 

 

 

 

 

 

 

 

т

 

 

 

 

 

 

 

 

 

J =

^ G1(x,u)dt

+

q>1[x(T)]

 

 

 

 

 

 

 

и

 

 

 

 

 

будет

минимальным (t0

= О, Т

— фиксировано). При

решении

задач

с

помощью

динамического

программирования

систему

прежде всего приводят в дискретную форму. Это, с одной стороны,

необходимо .для решения

задачи на машине, а с другой — мето­

дика проще в дискретной форме. Интервал [О, Т] разбиваем на N

равных участков длиной

(N — /с)Д и будем рассматривать лишь

дискретные

значения х =

х (к), и — и (к);, к = 0,1, ... N соответ­

ственно t =

0, 1Д, ...(N

1) A, ІѴД = Г. Тогда дифференциаль­

ное уравнение можно приближенно заменить дифференциально-раз­

ностным уравнением х (к + 1) =

х (к)

+ / \х (к),

и (к)]. Началь­

ное условие остается

прежним: х (0) =

[х](=о —

#(0)-

Интеграл приближенно

заменяем

суммой

 

 

J V - 1

 

 

 

 

/ =

2

G[x(k),u(k)] +

q>lx(N)].

(1-2-2)

 

71=0

 

 

 

24

Задача теперь состоит в определении последовательности дис­ кретных значений управляющего воздействия и : и (0), и (1) ...

...u(N—1), минимизирующих сумму 1-2-2, т. е. нужно найти ми­ нимум сложной функции многих переменных. Метод дает возмож­ ность свести эту операцию к последовательной минимизации функ­ ции одного переменного.

Для решения задачи используется прием, называемый «по­ пятным движением», начиная от последней точки оптимальной траектории x (Т) к началу х (0).

Рассмотрим момент времени t = (N — 1)Д. Будем считать, что все

и(і) )

определены и известно x (N — 1) Д. По принципу оптимальности неизвестное и [(N — 1)Д] влияет лишь на те члены 1-2-2, кото­ рые относятся к этому участку

JN-i = G [x l(N — 1)], и [(N - 1)]} + ф lx(N)),

но из уравнения объекта можно видеть, что если

x [N] = x IN - 1] + / [x (N - 1),

и (N - 1)],

то можно найти и (N — 1), минимизирующее /уѵ-і, так как оно входит в оба уравнения. Обозначші искомое минимальное значение min JN-I = Sjv-i

Sn-JLx (N•— 1)] = min/лг-і \u (N — 1)] = min {G [x (N —

- 1 ) , 'u(N-l)}

 

+

q>\x(N-i)

 

+flx(N

-l)tu.(N

 

-i)]]}.

Здесь нужно минимизировать только по и (N — 1).

 

 

Выполнив

эту

операцию,

запомним

iSjv-i [я (N — 1)]

и

получен­

ное

значение

и* (N

— 1).

Перейдем

к предыдущему интервалу

N — 2.

Здесь

 

все

будет

зависеть от и (N — 2) и и (N

— 1), но

все,

на что влияет и (N — 1),уже найдено, т. е. остается аналогич­

ная

процедура

 

для и (N — 2),

так как

 

 

 

 

 

J

N

. . 2 =

 

G[x{N

-

2),

u{N

-

2)] +G{[x

(N -

1),

 

 

 

 

 

 

u(N

 

 

 

+f[x(N)]}.

 

 

 

Переходя аналогичным образом к N

3, N — 4 ...

2,1

и 0 ин­

тервалам,

получим

рекуррентную

формулу

 

 

 

 

SN^k

 

[x (N

— k)].=

 

min

\G [x (N

— к), и (N — к)

+

 

+

£ N _ m

[x (N

- к )

-Vf

lx

(N

-

к), и (N

-

к)]]}.

25

Одновременно в процессе минимизации определяются и запоми­ наются значения

и* (N -к) = и* [x (N - к)].

Так мы последовательно подходим к значению и* (0), которое тре­ буется вначале. Такова вычислительная процедура. Она все же

весьма

громоздка для сложных систем, так как нужно

находить

и запоминать iSjv-d- и J7jv_jt-

 

 

 

 

Попробуем теперь

ввести

непрерывный

аналог

этой

процеду­

ры:

 

т

 

 

 

 

 

 

 

 

 

 

dx

 

Iй

 

 

 

 

-^-

= / (х, и, t),

J = \

G (х, u,t) dt,

minJ =

S(x°,t0).

По принципу оптимальности

min / = S [х (t), t]. [X, n

t = t' + At; т і п / ( + д , = S \x -\- Ax, t -\- At].

Вместо рекуррентного соотношения имеем

S [х, t] = min [G lx, и, t] At -|- S [.г', t']} + Ог (At).

u(t)<=U

и (t) G U

Уравнение Беллмана, из которого определяется значение опти­ мального управления:

4 £ - [ * , * ] = min {G[x(t),u(t)]

+ (grààS (х, t) f[x(t),

и(t),t]y}.

(1-2-3)

Здесь S (x, t) — минимальное значение функционала; G (x, и) — функция оценки; / (х, и, t) — правая часть уравнения объекта:

gradS

dS

dS

dS

д х !

' д х 2 "•'

дХп

 

<> — скалярное произведение.

П р и м е р . Уравнение объекта (Фельдбаум, 1963)

 

dx\

,

 

 

 

_

dX2

,

2.

 

 

dt

— Il

 

1

1

~2>

d t

J2 — U

'

функционал

 

U X 1

Х2>

~ЙТ~

 

 

 

 

 

 

 

 

 

 

 

 

 

/

=

^ G (хъ

х3) dt.

 

 

 

Уравнение

Беллмана

 

 

 

 

 

 

 

 

dSdt

= min {G Ъ

Х2)

+

- Ц - (uxi +

+

ii2 } ,

если

 

 

 

 

дхі > о ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

d

s

 

 

 

 

26

то минимум {•} находим из условия

ди - О,

тогда оптимальное управление

U =

1

;гХ

 

dS

 

2

х

дх±

dS

 

 

1

 

 

Подставив это в уравнение Беллмана, получим уравнение в частных производных :

 

dS \ 2

~дГ ~~ G ^1' х*> + ~діТЖг — х*

Ts

 

4- дх%

которое теперь необходимо решить, получить значения:

dS

 

dS

дхі

'

дх%

граничные условия находятся из функционалов.

Перейдем к принципу

максимума. К сожалению, такой на­

глядной интерпретации принципа максимума Л. С. Понтрягина, как принципа оптимальности Беллмана, не существует. Суще­ ствует несколько выводов принципа максимума. Вероятно, це­ лесообразно привести его вывод из динамического программиро­

вания, хотя Л . С. Понтрягин

и его

ученики Р. В . Гамкрелидзе

и В . Г. Болтянский вывели принцип

максимума совершенно не­

зависимо в 1956

г.

 

 

 

 

 

Введем в дополнение к нашей системе п порядка еще две коор­

динаты:

 

 

 

 

 

 

 

х°:-^тг

 

= fo = G(x,ui)'>

 

Ы*„ = °;

хп+і

'• —

1

— fn+i = 1;

 

(ж7і+і)<=о = О-

Тогда вместо

-t'

 

 

 

 

 

 

 

 

dS

dS

 

 

 

 

 

d t

дхп+і

 

 

Введем теперь обобщенную систему «п +

координат:

 

S

(XQ, Х^ ... хп,

x n + 1 ) ,

а также

/

=

(/о> / і

••• int /n+l)>

 

 

 

 

 

 

 

 

 

dS

 

dS

dS

 

 

 

S.T!

•••

дхп

3a;n + 1

27

Вспомним, что max (— X) — —min X, и перепишем теперь (1-2-3):

О = max JG (х, и, хп+1) ( - 1) - <grad £ •/> -

(+ 1)} .

Можно видеть, что это легко записать так:

О - max { < " * • / > }• «eu

Обозначим if-функцию Гамильтона, или гамильтониан

 

71+1

я

= ор-/> = 2 %/7,

где

о

•фіі fi — i-ö координаты

векторов.

О= тахН — принцип максимума, «eu

Оптимальное управление в любой момент времени максимизирует гамильтониан.

Процедура применения принципа максимума состоит в следую­ щем:

уравнение объекта

X =

АХ

+BU;

X

(0), X (T);

U <= U; '

функционал

 

 

 

т

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I

=

^

G(x,u,t)dt;

 

 

 

 

 

 

 

о

 

 

 

 

 

сопряженная система

¥ =

А*^¥.

 

 

 

 

Гамильтониан

H =

(G-W}

+ (АХ-W)

+

(BU,

¥>.

 

Условие максимума

 

 

 

 

 

 

 

 

3 { < Л Х , У > }

 

Э.{<ДУ,У>}-

9{<G,Y>}

_

п

0(7

~^

 

dU

 

'

3J7

~

 

Оптимальное

управление

U*

= f

(X*).

 

 

 

Основное практическое преимущество принципа максимума перед динамическим программированием состоит в том, что нет необходимости решать уравнение в частных производных, что яв­

ляется достаточно сложным

для систем произвольного порядка.

В процедуре

использования

принципа

максимума

решается

си­

стема сопряженных линейных уравнений Y = —A*W, что, ко­

нечно, гораздо легче.

 

 

 

 

Определенную трудность представляет, однако, определение

граничных

условий

этой системы.

 

 

 

Одним

из

путей

преодоления этих

трудностей

является

ис- !

пользование

(для задач оптимального

быстродействия), т. е.

при

G (х, u, t)

=

1 итерационных

методов.

 

 

 

28

В основе итерационного метода (Eaton) лежат следующие геометрические положения. Пусть в 7г-мерном эвклидовом про­ странстве Rn: g (t) есть n-мерный вектор, изображающий положе­ ние цели, причем g (t) — непрерывно в интервале 0 ^ t ^ оо; V (t) есть /г-мерный вектор, характеризующий выход системы;

С/[о,(] — управляющая

n-мерная векторная

функция,

принадле­

жащая

ограниченному

множеству

&цъ,і),

если

| £/£

(т) |

1;

0 < т < / и

Г,- (г) = 0

 

вне интервала [0,

І\;

S) — множество, оп­

ределяемое

равенством

 

 

 

 

 

 

 

 

 

 

 

 

 

St =

{V(t,

CWtf(o,o е

О»./)},

 

 

 

 

где V (t,

£/(<),()) —

выход^системы в момент

t при заданной

функции

управления

Uqj).

^(о,(°) G= Ц о , г ) —

оптимальная

управляющая

функция, если V

(t°, £/(0 ,н)

— g (f)

и не существует

t'

<

f

тако­

го , что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

V

(t',

£/(„,,-)) =

g ( О

 

 

 

(1-2-4)

для некоторой управляющей функции, принадлежащей Q(o,o- Проблема заключается в нахождении управляющей функции,

принадлея?ащей Q, которая совмещала бы выход системы V (tU) с целью g(t) (или соответственно х (t) и z (t) за минимальное время).

Необходимое условие оптимальности управления может быть записано в форме

 

 

 

 

 

 

Лу(х)1Г(х)ах,ц°\=

 

 

max

\

U (т) Y'

(т)

rfdx),

где Y' (т) — транспонированная

матрица

Y (т);

— наименьшее

время, при котором g (t)

ЕЕ St;

ц°

— внешняя нормаль St« в точке

S (1°).

 

 

 

 

 

 

 

Выражение оптимального управления имеет вид

 

U*

(т) =

sign {Y'

(t)i)}.

 

 

Таким образом, геометрически задача сводится к

определению

минимального времени t°, для которого пересечение S, и g (t) не

пусто, а также г\° — внешней нормали St

в точке g

(t°).

 

 

 

По

известным

значениям

и т]° оптимальное

управление

Z7(o,(°)

может

быть

определено

путем

максимизации

скаляр­

ного

произведения

по [ / ( о д Е й ц д .

Этот

итерационный

ме­

тод является достаточно надежным для определения

оптимального

управления, переводящего систему в фазовом пространстве

со­

стояний из исходного положения в конечное положение

за

мини­

мальное время. Идеи,

лежащие в основе метода, были

использо­

ваны

Итоном

при

определении

оптимального

управления

в

ди­

скретных системах.

Определение

оптимального

управления

и

оп-

20

Соседние файлы в папке книги из ГПНТБ