
книги из ГПНТБ / Методы оптимизации в статистических задачах управления
..pdfП о с к о л ь к у
р (t, y\t, х) = Ö(у — х),
то
J dyq> It, у, и (/)] р (t, y\t, х) = ф U, Ху и (01. (358)
Согласно обратному уравнению Колмогорова для марков ского процесса х (t) (см. п. 4 гл. I) запишем:
др(т, |
y\t .x ) |
X, |
U) dp (т, y \ t , x ) |
|
dt |
|
dx |
- |
2 tr G(t)Q(t) G*(t) |
d2p ( t , у I t, x)~ |
|
dx dx* |
Подставляя последнее уравнение и уравнение (358) в фор мулу (357), после несложных преобразований, связанных с изме нением порядка дифференцирования по переменной х и интегри рования по переменным т, у, получим
|
|
|
|
|
Т |
со |
|
~ Ж = |
|
+ f* & х’ |
Ш |
I dt I dy X |
|||
|
|
|
|
|
t |
—03 |
|
X ф[т, у, |
и (т)]р(т, y\t, |
х ) + |
I dyk[T, у] X |
||||
х р ( Т , |
y\t, |
X ) + y t r |
G(OQ(f)G*(0 X |
||||
а2 |
T |
со |
|
|
|
|
|
J dt |
I dz/ф [т, у, |
и (т)] р(т, |
у I /, х) + |
||||
âxâx* |
*—со
dy4T, у]р(Т, y\t, х)
Используя выражение (356), получим уравнение
3W |
Ф |
(І, X, и) + f* (t, X, |
U)~^- + |
|||
dt |
||||||
|
|
|
|
|
||
|
|
|
|
|
< з м > |
|
где аргументы функций |
W, |
G, |
Q для краткости опущены. |
|||
Таким образом, потери |
W, |
которые |
имеют место в системе |
на интервале времени [t, Т\ при произвольном управлении, удовлетворяют уравнению (359), а потери W0 в оптимальной
157
системе— уравнению (353). Сравнивая формулы (353) с (359), устанавливаем, что
+ 2"tr |
Ф (*, |
X, и0) + |
/*(*, |
X, u0) ^ f - + |
|
|
GQG* |
д2Г 0 |
q>(t, |
X, |
u) + f*(t, X, u ) ~ |
+ |
|
|
dx dx |
GQG |
dzW |
(3601 |
||
|
|
+ |
d x d x * |
при произвольном допустимом законе управления и С U. Нера венство (360) представляет собой достаточное условие оптималь ности управления и0.
2. Оптимальное линейное управление
Рассмотрим применение метода динамического программиро вания на примере управления линейным объектом при квадра тичном критерии качества.
Пусть объект управления описывается линейным дифферен
циальным уравнением |
|
X = А (/) X + В (t) и + G(t) I, |
(361) |
где X — вектор выходных координат п измерений; и — вектор управлений q измерений; £ — вектор возмущающих воздей ствий т измерений со статистическими характеристиками, опи сываемыми формулой (343); А (t), В (t), G (t) — матрицы пере менных коэффициентов соответствующих размерностей.
Требуется минимизировать квадратичный функционал
т
I Іх* (т) V (т) X (т) +
|
|
|
|
о |
|
|
|
|
|
|
|
+ |
и* (т) / (т) и (т) ] dx + |
X* (Т) Ах (DJ, |
|
(362) |
|||
где V (т), |
/ |
(т) — симметричные |
положительно |
определенные |
|||||
матрицы переменных коэффициентов размерностей |
[п, |
п] |
и [q, q] |
||||||
соответственно; А — симметричная |
положительно |
определенная |
|||||||
матрица постоянных коэффициентов размерности [п, |
п]. |
потери |
|||||||
В |
п. П |
данной главы показано, |
что минимальные |
||||||
W о (t, |
х) на интервале |
управления |
|
U, Т] удовлетворяют урав |
|||||
нению Веллмана (353), (354), где |
в соответствии |
с |
форму |
||||||
лами (361) |
и (362) |
|
|
|
|
|
|
||
|
|
|
Ф (t, X, |
и) = x*V (t) X + u*J (t) u\ |
|
|
|||
|
|
|
%(T, |
x) = x*Ax\ |
|
|
|
|
|
/ (t, X, и) = А (t) X + В (t) u.
158
Таким образом, оптимальное управление должно быть опре делено решением уравнения Веллмана
— |
dW°dt |
Х> ~ m * n \ Х*Ѵ ( 0 . |
х + |
U*J ( 0 |
и + |
|
|
+ [A(t)x + B(t)u]*d- |
^ ^ + |
|
|
||
|
tr |
G(t)Q(t)G*(t) |
d2Wp(t,x) |
I) |
(363) |
|
|
|
|
|
дх dx* |
J ) |
|
при граничном |
условии |
|
|
|
|
|
|
|
W0 (Т, х) = |
х*Ах. |
|
(364) |
Предположим, что на управление не наложено жестких огра ничений, так что любая из компонент вектора и удовлетворяет условию —оо <; и{ <С°°, г = 1, 2, . . ., q. При этом предполо жении условие минимума по и произвольной функции а (t, х, и) запишется в виде системы q алгебраических уравнений:
да (t, к, и)
ди и—и о
= 0.
Применительно к уравнению (363) эта система принимает следующий вид:
и (t) + J* (t)] u0+ В* (t) - 0£ - x)-= о. |
(365) |
Учитывая симметричность матрицы J (t) и умножая выраже ние (385) на (t) слева, получим следующее выражение для
оптимального управления:
= |
(t)~W°^ |
. |
(366) |
|
Уравнение (366) дает функциональную связь оптимального |
||||
управления с функцией Веллмана W0 |
(t, |
х). После подстановки |
||
аналитического выражения для W0 (t, |
х) |
в формулу (366) опти |
||
мальное управление |
будет представлено |
функцией |
времени t |
и фазовых координат объекта х, что, как отмечалось выше, удобно при реализации управления в структуре с обратной связью.
Для нахождения W0 (t, х) подставим выражение (366) в фор мулу (363). Получим уравнение в частных производных:
_ д № ) = м ( і ) х - ± . ( X
X B(t) J-1(t)B* (t) |
d W 0 (t , X) ) + |
x*A* (t) |
d W 0 (t , X) |
|
|
|
dx |
d w 0 (t , X) |
dx |
1 |
G(t)Q(t)G*(t) |
(367) |
||
+ i - tr |
dx dx* |
159
Будем искать решение уравнения (367) в виде квадратичной формы:
Wq (t, х) = ko (t) + ki (t) X + х*К2 (t) X, |
(368) |
где k 0 (t) — скалярная функция, а k x (t) и К 2 (0 — соответственно вектор и матрица. После подстановки решения (368) в урав нение (367) и приравнивая в обеих частях уравнения членов, не зависящих от х, линейных по л: и квадратично зависящих от х, получим следующую систему обыкновенных дифференциальных
уравнений относительно функций k 0 (t), ki |
(t), K 2 (t): |
|
k (0 = - |
X k\ (t) В (t) J - 1(t) B' |
(t) ki (t) + |
+ |
tr [G (0 Q (0 G* (0 /C2 |
|
— k (t) ^ — K2{t)B{t)j^{t)B*(t) M O +
+(0 kl (0;
- Aa (0 = v (0 + Л* (0 /С* (0 + (0 Л (0 - ,
—(0 5 (0 У-1 (/) 5* (0 7C2 (t).
Начальные условия для полученной системы могут быть запи саны на основании формулы (364):
ko (Т) = 0; ki (Т) = 0; ІС2 (Г) = Л.
Нетрудно видеть, что функция (z1), удовлетворяющая линей ному однородному дифференциальному уравнению при нулевом
начальном условии, тождественно равна нулю. |
Отсюда сле |
дует, что |
|
W о (t, х) = k0 (t) + х*К2 (0 л, |
(369) |
где &о (^) и элементы симметричной матрицы К 2 (0 удовлетворяют системе обыкновенных дифференциальных уравнений
— k0 - t r |
[GQG*tf2]; |
|
(370) |
||
— К 2 = Ѵ + А*К2+ |
К 2А - K 2BJ - 'B*K2 |
||||
|
|||||
при начальных условиях |
|
|
|
|
|
ko (Т) = |
0; |
К 2 (Т) = |
Л. |
(371) |
Теперь в соответствии с формулой (366) оптимальное упра
вление |
(372) |
и 0 = ~ J - 1B*K2x. |
Таким образом, оптимальная стратегия является линейной функцией фазовых координат объекта, что характерно для задач оптимизации управления линейным объектом при квадратичном критерии качества.
160
Если случайные возмущения на входе объекта отсутствуют, следует положить Q (t) = 0. Заметим, что это не отразится на значении оптимального управления (372). Следовательно, опти мальный регулятор в стохастической задаче не отличается от регулятора соответствующей детерминированной задачи опти мального управления. Возмущения на входе объекта g (/) влияют лишь на значение функции потерь, которая при наличии помех имеет нерегулируемую составляющую k 0 (t).
Если матрицы А, В, V, J постоянны, то матрица К 2 (t) со гласно формуле (370) является решением матричного уравнения Риккати [142, 154]. Путем замены переменных матричное урав нение Риккати может быть сведено к линейному дифференциаль ному уравнению второго порядка.
Поскольку начальное условие для системы уравнений (370) задано на правом конце, целесообразно ее решать в «обратном времени», сделав замену независимой переменной:
т = T — t.
Тогда при условии постоянства матриц А, В, V, J система (370) принимает вид
%(т) = tr [GQG*K2 (т)];
К2 (т) = V + А*К2 (т) +
+ К 2 (т) А — Ко (Т) B J - lB*K2 (т); |
(373) |
ko (0) = 0;
К 2 (0) = Л ,
где
ko (т) = ko ( Т - т), К 2 (т) = К 2 ( Т - т).
Если Т —>°°, то при решении в обратном времени для опре
деления К 2 следует устремить т —>оо. При этом К 2 стремится к решению алгебраического уравнения
0 = V + А*Кг + КгА — K2BJ~1B*K2.
Таким образом, оптимальный регулятор
«о = — J~1B*K2x
является стационарным.
Возникает вопрос об устойчивости оптимальной системы. Согласно второму методу Ляпунова [64] система асимптотически устойчива, если существует такая функция ф (л:), называемая функцией Ляпунова, которая положительна и имеет строгий минимум в начале координат ф (0) = 0, а также существует
11 А. М. Батков |
161 |
полная производная по времени, вычисленная вдоль траекторий системы,
dty |
_ / |
dty \ * |
dx |
dt |
\ |
dx ) |
dt ’ |
отрицательная вне сколь угодно малой окрестности начала координат.
Проверим на устойчивость оптимальную стационарную си стему управления при отсутствии возмущающих воздействий на объект I (t). В этом случае Q = 0 и согласно формуле (373) k0 (t) = 0. Поэтому' согласно выражению (369)
Г 0 (jc) = х*К2х. |
(374) |
Отметим, что в рассматриваемом случае функция Веллмана не зависит от времени.
Функция Веллмана (374) удовлетворяет всем условиям тео ремы об асимптотической устойчивости и потому является функ
цией Ляпунова. |
Действительно, W 0 (0) = 0 |
и при любом х ф 0 |
Го (х) > 0, так |
как W'0 (х) характеризует |
оставшиеся потери, |
которые при X =h 0 отличны от нуля и положительны вследствие положительной определенности критерия качества (362). Таким образом, W0 (х) имеет строгий минимум в начале координат. Полная производная по времени функции Веллмана на фазовых
траекториях |
системы |
|
|
|
dW0 |
|
|
||
|
|
|
*-%>- = ( Ах+ Ви0)* |
|
|
||||
|
|
|
|
|
|
|
дх |
|
|
и согласно |
формуле |
(363) |
в рассматриваемом |
случае, |
когда |
||||
dW0 |
л |
о |
л |
|
|
|
|
|
|
—Qf- |
= 0 |
и Q = 0, удовлетворяет уравнению |
|
|
|||||
|
|
|
= (Ах + |
Вио)* |
|
[*Ѵ* + u0JuQ]. |
(375) |
||
Поскольку квадратичная |
форма |
в |
правой |
части |
уравне |
||||
ния |
(375) |
положительно определена, |
то d^(°- ■< 0 при |
х =£ 0. |
Существование функции Ляпунова для оптимальной стацио нарной системы в отсутствие помех доказывает ее асимптоти ческую устойчивость.
Безусловно, не всегда функция Веллмана является функцией Ляпунова оптимальной системы (при Т —» оо), так что проверка системы на устойчивость оказывается значительно более сложной задачей, чем рассмотренная выше. При наличии в системе случай ных возмущений необходимо пользоваться статистическими кри териями устойчивости систем [107]. Нетрудно показать, что при наличии случайных возмущений | (t) в рассмотренном выше при мере система асимптотически устойчива в среднем.
162
3. Оптимизация управления при неточных измерениях. Апостериорное распределение вероятностей вектора фазовых координат системы
До сих пор рассматривалась задача управления объектом в предположении наличия идеального измерителя в блок-схеме системы, показанной на рис. 38, т. е. когда фазовые координаты объекта точно известны в процессе управления. Более близок к задачам практики случай неполной информации о состоянии объекта управления. Предположим, что в процессе управления измеряется значение процесса
у (/) = h (t, х) + ц (/), |
(376) |
где у и h — векторы г измерений; т| (£) — нормально-распределен ный белый шум, являющийся вектором г измерений с харак теристиками
Мц (/) = 0;
Щ (/і) i f (t2) = R (tj) 6 (ti — tj .
Объект управления задан дифференциальным уравнением (342), где возмущающие воздействия имеют характеристики (343). Предполагается, что случайные процессы £ (t) и ц (t) некоррелированы.
Начальное состояние объекта управления считается случай ным и заданным плотностью распределения вероятностей век тора * в момент t = 0:
р (t, x)\t=o = Po (х). |
(378) |
Задача состоит в выборе управления, минимизирующего показатель (344). В отличие от рассмотренных в п. 1 и 2 гл. IV задач оптимального управления при точном измерении фазовых координат объекта х, когда управление и (t, х) является функцией времени t и текущего состояния объекта х, в случае измерений на фоне помех управление является функционалом относительно всех проведенных измерений до текущего момента времени:
и = и U, у (г), Tg [0, t]). |
(379) |
Соотношение (379) отражает тот факт, что оптимальное упра вление должно вырабатываться на основании всей располагаемой информации о состоянии объекта к моменту t. Поэтому блок устройства управления (см. рис. 39) должен быть инерционным устройством, учитывающим не только текущие, но и прошлые измерения. Вся располагаемая информация о текущем состоянии объекта может быть представлена не только в измерениях у (т), т g [0, t], но и в виде апостериорной плотности распределения вероятностей:
х) = р {t, х\ у (т), TglO, И). |
(380) |
11* |
ГбЗ |
Рис. 39. Блок-схема устрой ства управления
При таком представлении информации о состоянии объекта управляющее воздействие может рассматриваться как функционал относительно q (t, х):
и = и [t, q {t, х), —оо < х < о о ]. |
(381) |
Тогда блок выработки управления естественно |
разбивается |
на устройство обработки информации, вырабатывающее апосте риорную плотность вероятностей q (t, х), —оо < х < со, и регу лятор, формирующий управление по закону (381) (рис. 39).
Таким образом, задача обработки данных является неотъем лемой частью задачи оптимального управления при неточных наблюдениях.
Вопросам расчета апостериорного распределения вероятностей для непрерывного марковского процесса, линейной и нелинейной
фильтрации |
посвящен ряд работ [9, 53, 60, 93, 103, 105, 113, |
139, 140]. |
Однако в ранних работах были допущены ошибки |
вследствие пренебрежения членами второго порядка малости. Позднее результаты были уточнены и обобщены на более широкий класс марковских процессов. Здесь будет приведен вывод урав нения в частных производных для апострериорной плотности вероятностей q (t, х) марковского процесса х (t), при наблюде ниях у (і), заданных формулой (376). Как частный случай, будет получен результат Калмана по оптимальной линейной фильтрации.
Рассмотрим допредельную дискретную модель объекта упра вления и измерителя. Для этого вводится дискретное время tk —
— 4-1 + А» где А — малая величина, которая позднее будет устремлена к нулю. Согласно уравнению объекта (342) можно записать
|
*k |
|
|
*k |
|
|
X (4) = X (4_j) -f |
J |
/ [т, X (т), и (т)] dx-ф J |
G(t)£ (т) dx. |
|||
|
lk-i |
|
|
(k-i |
|
|
В соответствии |
со |
свойствами |
нормально |
распределенного |
||
«белого» шума | (і), |
описываемого уравнения_(343), |
процесс |
||||
|
l { t ) = J G (т) і (т) dx |
|
|
|||
|
|
|
t |
|
|
|
распределен также нормально и имеет характеристики |
||||||
|
|
M l (0 = 0 . |
|
|
||
M l (t) l* (t)= |
<+д |
Q (X) G* (t) |
dx- |
|
||
j G (T) |
(382) |
|||||
|
|
|
t |
|
|
|
M l |
(4) |
l* |
(tj) = 0 |
при / ф j. |
|
|
164
Таким образом,
lk
X ( 4 ) = X ( 4 - l ) + |
j / [т, X (т), и ( t ) ] |
dx + |
I ( 4 _ i) . |
||
|
*k-! |
|
|
|
|
Рассмотрим процесс 2 с дискретным временем, который опи |
|||||
сывается разностным |
уравнением |
|
|
|
|
^k-l |
~>~ / |
(4 -1> |
^к-1) ^ |
~4" X/t-l> |
(3 8 3 ) |
где индекс означает |
отсчет времени. Случайный |
процесс хь-і |
нормально распределен и имеет независимые значения. Плот
ность распределения процесса % в момент времени |
4-г |
зададим |
|||
выражением |
|
|
|
|
|
р (4-ь х) |
|
|
X |
|
|
|
|/ '( 2 я ) п | с й_ 1< г ^ 1е ; _ 1 | л |
|
|
||
X ехр |
â~X (G*_iQ*_iöft_i)_1x |
|
(384) |
||
где Gk_x =-- G (4_2); Qk_x =■■ Q (4_x). |
Нетрудно |
видеть, |
что про |
||
цесс с дискретным временем %k является допредельной |
моделью |
||||
процесса £ (/), а процесс zk — процесса х (t), |
так |
что |
|
||
1. |
і. ш. X* = |
I (4); |
|
|
|
|
Д - > 0 |
|
|
|
(385) |
1. |
і. т. zk = |
X (4),. |
|
|
|
|
|
|
д^о
где 1. і. ш. означает предел в среднем квадратическом.
Для построения дискретной модели измерений перейдем от
процесса у (t) к |
sk, где |
|
|
|
|
|
h |
= h (4. |
|
гк) + V*. |
(386) |
Здесь ѵА— нормально |
распределенный дискретный белый |
||||
шум с одномерной плотностью распределения вероятностей: |
|||||
Р Ун, ѵ) = V {2nY'\ Rk I |
exp |
(387) |
|||
где Rk = R (4). |
Таким образом, |
характеристики |
процесса ѵк |
связаны с соответствующими характеристиками (377) предельного процесса г) (I).
Поставим задачу расчета апостериорной плотности распре деления вероятностей процесса z в момент времени 4 ПРИ усло
вии известных наблюдений процесса st, 0 |
< і с k |
|
Р (4. Ч \ |
si> 0 < / < 4 ) |
= |
= |
q(tк, гк). |
(388) |
165
Рассмотрим п + /•-мерный вектор (z, s), составленный из век тора состояния объекта г и вектора измерений s. Этот вектор является марковским. Доказательство данного утверждения сво дится к проверке равенства
|
|
|
|
|
\ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р (4> |
4> |
4 |
I 4-1 . |
4 - 1 . |
4 - i . |
|
|
|||||
|
|
|
|
|
4-2» 4-2» 4 -2 . ■ • •) |
' |
|
|
||||||||
|
|
|
~ |
P {tki |
4 » |
|
4 |
I 4-1 . |
4 -1 > 4 - l) |
|
|
|||||
для |
любых tk > |
4-1 > |
4-2 > • |
• |
• |
Здесь |
и в |
дальнейшем под |
||||||||
Р ( 4 . |
4 . |
4 І 4 - і . |
4 -i> |
4-Т. |
4 -2 . |
4 - 2. s*_2; |
. . .) понимается ус |
|||||||||
ловная |
плотность |
распределения |
вероятностей |
вектора |
(z (4), |
|||||||||||
s (4) |
относительно |
событий |
|
z (t{) —■zit |
s (t() = s(-, i — |
k — 1, |
||||||||||
k — 2 , . . . |
|
|
условных вероятностей |
|
|
|||||||||||
Согласно формуле |
|
|
||||||||||||||
|
|
|
|
Р (4> |
4 . |
4 |
14-i> |
4 - i . 4-1 > |
|
|
||||||
|
|
4-2. 4 -2 . 4 - 2 '. |
• |
• •) |
= |
р (4. |
1^/г-1» ^k-Ъ |
|
||||||||
|
|
4-2. 4 -2 . |
4 -г ! |
• |
• •)р ( 4 14, |
^ki |
|
|
|
4-2. ^k-2> ^£-2» • • .)■
Поскольку вектор выходных координат объекта х является марковским процессом, то можно записать:
Р (4» |
4 14-і. |
4-і» 4-11 |
|
|
|
4-2. 4-2. 4-2; |
• • •) = |
Р (4> 4 | |
4-1. |
4-і)- |
(390) |
В соответствии с формулой (386) распределение вероятностей |
|||||
вектора s (4) при известном значении г (4) |
= 4 |
связано только |
с законом распределения шума измерений для абсолютно случай
ного процесса ѵ (4) |
и не зависит от знания |
г (/,) = zt, s (4) |
= st-, |
|||
i = k — \, k — 2, . . . |
|
|
|
|
|
|
Таким образом, |
|
|
|
|
|
|
|
p (4 14. 4 . |
4-1. 4-1. |
4-1 > |
|
||
4-2. 4-2. 4-2’. • • |
•) |
= P ( 4 14> 4)- . |
(391) |
|||
Подставляя выражения (390), |
(391) в формулу (389), получим-. |
|||||
( |
Р (4. |
4 . 4І |
4-1. 4-1. 4-1; |
|
||
|
4 -2 . 4 - 2 . 4 - 2 > |
• • •) |
|
|
||
= Р (4. 4 |
14-1. 4-і) |
Р (4 | 4. |
4) = |
( 392) |
||
|
Р (4. |
4 . 4 14-і> 4-1. 4 -і). |
||||
|
|
что и доказывает марковское свойство вектора (z, s).
166