
книги из ГПНТБ / Методы оптимизации в статистических задачах управления
..pdfбыстродействия в детерминированном варианте (при отсутствии шума £ (t):
< 4 5 3 >
с граничным условием Т = 0, если х* А х = С (t).
Первое приближение к оптимальной гиперповерхности, полу чаемое как геометрическое место точек в фазовом пространстве х, дает решение уравнение
Ш в = ° . <«4>
в котором Т 0 определяется при использовании гиперповерхности переключения, полученной из решения задачи (453). Процесс последовательных приближений заканчивается в том случае, когда при решении уравнения
|
ШВ= О |
(456) |
получается (і + |
1)-ая гиперповерхность, которая совпадает (в пре |
|
делах заданной |
точности) с гиперповерхностью, |
найденной на |
предыдущем і-м шаге.
Определение функций Тt возможно только в отдельных точках фазового пространства х приближенными методами.
Для получения Tt при решении задачи первого типа необхо димо, чтобы математическое ожидание M t {х* А х} было непре рывным во времени. Поэтому целесообразно использовать метод статистической линеаризазции.
Применение метода статистической линеаризации показывает, что первого приближения достаточно для получения практически неразличающихся результатов. При этом решение детерминиро ванной задачи (453) целесообразно проводить аналитически, так как использование метода статистической линеаризации пред полагает задание нелинейностей в аналитической форме. Кроме этого, гиперповерхности переключения стохастической и детерми нированной задач сближаются при удалении от начала фазового пространства и отличаются, по существу, только в окрестности начала, где шумы оказывают значительное влияние. Поэтому при ближения к оптимальному решению сводятся к изменению гипер поверхности переключения детерминированной задачи в окрест ности начала координат.
При решении задачи второго типа необходимо определить математическое ожидание времени попадания в область. Произ водя статистическое моделирование уравнений (361) при законах управления, определяемых по следовательными приближениями, получаем математическое ожидание времени попадания, которое используем для нахождения следующего приближения.
Для иллюстрации предлагаемого метода решения указанных задач оптимального быстродействия рассмотрим пример.
187
\
Пример. Предположим, что объект управления описывается системой диф ференциальных уравнений:
х2 |
-П (0) х± |
Ru + |
(0) |
где I (t) = I l lt l 2 1 вектор белых шумов е известной матрицей интенсивностей
0,5 0,15
Q = 0,15 0,05
Требуется выбрать управление и таким, чтобы математическое ожидание
М+ Ь2
за минимальное время достигло единицы, т. е. С (t) = 1.
Задача второго типа сформулируется следующим образом: требуется выбрать управление и таким, чтобы минимизировать математическое ожидание времени
достижения области, ограниченной |
эллипсоидом: |
|
|||||
|
л-» |
|
л 2 |
L |
|
|
|
|
-^2-+ |
|
|
|
|||
Согласно предлагаемой методике |
решим |
предварительно соответствующую |
|||||
детерминированную задачу: |
|
|
|
|
|
|
|
|
. |
( дТ |
I |
дТ |
Ц ; |
||
= min |
— |
||||||
I и I < 1 I &Х1 Х2 + 'дх. |
|
||||||
Т — 0, |
если |
—5- |
|
Ь2 |
= |
1. |
|
|
|
|
а2 |
|
|
|
|
Управление и находится по формуле |
|
|
|
|
|||
и = |
— sign |
дТ |
|
|
|||
дхг ' |
|
|
|||||
Для решения уравнения Веллмана предварительно фиксируем управление. |
|||||||
Пусть и — — 1. Определим функцию |
Т |
из |
уравнения |
||||
дТ |
Хі' |
дТ |
Я = —1; |
||||
dXl |
дх, |
|
|
|
|
||
Т = 0, |
если |
и |
|
Х<2 |
|
1. |
|
-у - 4- -TJ- = |
|||||||
|
|
|
а2 |
|
о2 |
|
|
Необходимая характеристическая система запишется следующим образом:
dXl _ |
dx%— dT. |
х2 |
R |
Первые интегралы рассматриваемого уравнения следующие:
Xl + l R - Сі:
RT = С2.
188
Рис. 43. Фазовая плоскость с оптимальной линией переключения детерминированной задачи
Если хг и х2 лежат на эллипсе, то Т — 0. Воспользовавшись этим, запишем;
|
|
|
|
|
С2 |
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
Ö3 |
|
|
ИЛИ |
|
|
|
|
|
|
|
|
|
|
|
а2 |
Т Г |
cfi |
/72 |
|
^2 |
2RC1 |
— 2R2 Ьг ± 2 R f |
R * ± . - 2 R ± - C 1 + a* |
|||
|
Подставляя в полученное выражение значения первых интегралов, получим |
||||||
функцию Т: |
|
|
|
|
|
||
Г= |
|
|
2Rxl |
а* |
R V- |
а* |
|
R |
R |
2R‘ |
|
ft2 + b2— 2Rxx• |
|||
на |
Для |
управления и = |
+ 1 находим |
Т по приведенной формуле, заменяя xt |
|||
—хг |
и х2 на |
—до |
определяют |
область |
в фазовом |
пространстве хѵ х2, |
|
|
полученные формулы |
характеризующуюся тем, что из нее без переключения знака управления можно оптимально быстро попасть в область, ограниченную эллипсом. Для а = Ь— = R = 1 эта область показана на рис. 43. Однако функция Т, полученная выше, не будет решением уравнения Веллмана во всей указанной области. Для этого должны выполняться условия:
дхдТ2 |
SaO для х2 0, |
||
дТ |
< |
для л:2^; 0. |
|
дх, |
|||
|
189
З н а к и р авен ств а в эт и х ф о р м у л а х о п р ед е л я ю т л и н и ю п ер ек л ю ч ен и я :
X sign хг; если | хх | |
а; |
0; если \х1 \<^а. |
|
Полученная линия переключения |
для |
конкретных значений параметров, |
показана на рис. 43. |
|
|
Запишем кратко уравнение линии |
переключения как |
|
£о (%. х2) = х2 + |
f (-Н) = 0, |
ауправление и определим формулой
и= — sign l 0 {xlt х2).
После того как детерминированная задача решена, необходимо проанализи |
|
|||||||||
ровать нелинейную систему (для |
дальнейшего |
примем R =* а = b = 1): |
|
|||||||
|
|
Х\ х2 + |
|
|
|
|
, |
* |
||
|
х2 = |
—sign |
(хѵ Х 2) |
+ l 2. |
|
|
||||
Для этого воспользуемся методом статистической линеаризации и запишем |
|
|||||||||
систему уравнений для математических |
ожиданий и дисперсий в виде: |
|
||||||||
|
|
|
т1 ~ |
|
|
|
|
|
|
|
|
тг = |
— М {sign іо |
(xlt х2)}; |
|
|
|||||
|
Du ~ 2D12 + |
Ѳп ; |
|
|
|
|||||
Ь 12 = D 22 + Ѳ12 — M {(xt — тх) sign Іо (хѵ х2)}\ |
|
|||||||||
b 22 = |
Ѳ22 — 2М {(х2 — т2) sign Іо (хг, |
х2)}; |
|
|||||||
|
|
ті (0) = |
х10; |
|
|
|
|
|||
|
|
т2 (0) = |
х20\ |
|
|
|
|
|||
Dn (0) = 0; |
D 12 (0) = |
0; |
D 22 (0) = |
0. |
|
|||||
Написанную систему следует решать до тех пор, пока сумма т\ + Dn + |
|
|||||||||
2 |
равной |
единице. |
Фиксация |
этого момента определяет |
|
|||||
+ m2 + D 22 не станет |
» |
|||||||||
функцию Т для начальных условий и составляет цель решения уравнений. Наи- |
||||||||||
более сложным моментом при решении уравнений является вычисление математи |
|
|||||||||
ческих ожиданий от нелинейных |
функций многих переменных: |
|
||||||||
Ф = |
М {signio |
[(*? + |
mx), |
(*2 + |
m2)]}; |
|
||||
ф = |
M {XJ sign |
jx® + |
tn2 -f- f0 (xj + |
ml)] } • |
|
190
Опустив промежуточные выкладки, запишем выражения для вычисления функций ф и ф:
+ С О
|
V 2л |
|
|
D, |
+ Щ |
|
VD, |
|
|
||
|
|
ѴЩГі |
1”‘а |
|
Ѵ2Щ |
|
|
||||
+ |
1^2 I О I /о ( щ + |
Ѵ ' Ѵ D j i ) | |
exp |
— - t - |
dp; |
|
|||||
|
__ |
-f-a |
|
|
w(n) |
|
|
|
|
|
|
ф: |
Vè i'HF |
|
|
exp — F-. du, |
|
||||||
V |
2 \ D I |
|
|||||||||
где |
|
|
|
D, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
F (x) = — |
[ exp — t2 dt-, |
|
|
|
||||||
|
|
|
л |
J |
|
|
|
|
|
|
|
|
(X |
D |
|
|
|
|
|
|
|
|
|
|
V \D \ |
12 |
|
|
|
|
|
|
|
|
|
|
|
Dn |
|
|
|
|
|
|
|
|
|
Известно, что |
|
|
|
|
|
|
|
|
|
|
|
M jx20 sign g0 [(х° + |
^ ) , |
(ж® + |
т г)] |
— D 22 |
+ |
Dn |
1 |
||||
|
|
|
0ф |
|
|
&p |
|
|
|
|
|
|
^ ~ ° 12 dm |
u " ~Ш[- |
|
|
|
||||||
Производную |
дер вычислим |
непосредственно: |
|
|
|
||||||
<3ф |
|
|
|
|
1 |
|
V |
|
|
|
dp., |
д т 2 |
|
ехр7 Т |
|
2Щ |
|
||||||
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
Ѳ „ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
а дер определим по формуле |
|
|
|
|
|
|
|
|
|
||
|
дер |
_ |
1 |
ф - D |
* |
|
|
|
|
||
|
дтх |
Dn |
|
|
|
|
|||||
|
|
12 дтч |
|
|
|
|
|||||
Таким образом, окончательно получим систему уравнений, пригодную для |
|||||||||||
моделирования на цифровой машине: |
|
|
|
|
|
|
|
|
|||
|
|
|
ті ~ т2< |
|
|
|
|
|
|
||
|
|
|
т2 = |
—ф; |
|
|
|
|
|
|
|
|
|
D n |
= 2£)12 + Ѳц ; |
|
|
|
|
||||
|
‘ DX2 ~ |
F)2 2 |
Ф “Ь 012» |
|
|
|
|
||||
|
0 2 2 - 0 2 2 |
|
|
2 ^ D ~ d m t ’ |
|
|
|||||
|
Щ (0) = |
x10; |
|
m2 (0) = |
x20; |
|
|
||||
|
D u (0) = |
0; D ia (0) = 0; |
D 22 (0) = 0. |
|
|
191
Моделирование уравнений будем проводить с начальными условиями х10, х2о, которые изображаются точками; расположенными на прямых, параллель
ных оси Xj = 0. Этим определим сечения функции Т (xj, х2) COnst в районе
линии переключения. Если минимум Т будет достигаться над линией переклю чения, то наш алгоритм управления оптимален, в противном случае координаты точек перегиба можно принять за новое приближение к линии переключения сто хастической задачи оптимального быстродействия. Кривые, показывающие те
чение процессов в системе, приведены |
на рис. 44 и 45. |
|
В момент t = 6 с выполняется равенство М {х*Ах} = 1, |
и решение .задачи |
|
на этом заканчивается. |
• |
|
На рис. 46 показано сечение функции Т (xlt х2) при х2 = |
-—2. Здесь видна |
|
разница между координатой принятой |
линии переключения |
при хг = —2, и |
координатой перегиба функции Т0, где теоретически должно происходить пере ключение согласно виду управления, получаемого из уравнения Веллмана.
|
|
г |
|
|
1 |
|
|
о |
Рис. 46. Сдвиг координаты ми |
Рис. 47. Первое приближение |
|
нимального значения |
функции |
к линии переключения стохасти |
по сравнению с положением де |
ческой задачи. При | хх | -> оо |
|
терминированной линии пере |
сливается с линией переключе |
|
ключения (х2 = |
1,8) |
ния детерминированной задачи |
192
Координаты минимума функции Т , получаемой с помощью детерминиропанного алгоритма оптимального быстродействия, в первом приближении можно расположить на кривой
І і (х і> Х'г) = х г + к ( х г) = О,
показанной на рис. 47. Кривую, задаваемую этим выражением, можно считать первым приближением к оптимальной линии переключения стохастической за
дачи |
оптимального |
быстродействия. Она значительно |
отличается |
от линии |
|
So (x i> |
x z) |
— 0 в |
окрестности начала координат и приближается |
к ней при |
|
I х { \ -> оо. |
Моделирование системы уравнений с новой |
линией переключения |
показывает, что в пределах точности применяемых вычислительных методов кри вую Іх = 0 можно принять за линию переключения стохастической задачи опти мального быстродействия. Результаты моделирования сведены в таблицу.
|
|
Значения |
первых двух итераций решения |
примера |
|
|
||
*2 |
X t = _2 |
|
Хі |
= —3 |
|
*1= —4 |
||
То |
Ті |
х г |
То |
г. |
X 2 |
То |
Ті |
|
|
|
|
||||||
1,2 |
1,52 |
1,46 |
1,2 |
2,21 |
2,11 |
1,2 |
2,84 |
2,64 |
1,4 |
1,47 |
1,42 |
1,4 |
2,15 |
2,06 |
1,4 |
2,77 |
2,54 |
1,6 |
1,46 |
1,40 |
1,6 |
2,11 |
2,02 |
1,6 |
2,74 |
2,46 |
1,8 |
1,47 |
1,43 |
1,8 |
2,10 |
2,00 |
1,8 |
2,74 |
2,46 |
2,0 |
1,58 |
1,50 |
2,0 |
2,12 |
2,01 |
2,0 |
2,79 |
2,65 |
2,1 |
1,85 |
1,78 |
2,2 |
2,16 |
2,05 |
2,2 |
4,75 |
4,51 |
|
|
|
2,4 |
2,38 |
2,26 |
2,4 |
4,95 |
4,72 |
|
Хі |
= -6 |
*2 |
Хі |
==—8 |
|
х г =: —10 |
|
Хг |
т 0 |
Т, |
То |
Ті |
Хг |
То |
Ті |
|
|
|
|
||||||
2,0 |
5,84 |
4,86 |
2,5 |
6,50 |
5,60 |
3,0 |
7,03 |
5,75 |
2,5 |
5,78 |
4,63 |
3,0 . |
6,44 |
5,31 |
3,5 |
6,99 |
5,51 |
2,9 |
5,77 |
4,40 |
3,4 |
6,43 |
5,15 |
3,9 |
6,98 |
5,30 |
3,2 |
5,80 |
4,40 |
3,7 |
6,45 |
5,24 |
4,2 ' |
7,00 |
5,46 |
3,5 |
5,88 |
5,40 |
4,0 |
6,49 |
5,83 |
4,5 |
7,05 |
6,15 |
8. Оптимальное быстродействие при неточном измерении фазовых координат
Если принять, что координаты объекта, описываемого уравне нием (361), вычисляются на основе измерения вектора:
у = Сх + т], |
(456) |
то формулировки задач оптимального быстродействия следует несколько изменить, а в блок управления ввести блок обработки данных (см. рис. 38).
13 А. М. Батков |
193 |
Рассмотрим несколько формулировок стохастических задач оптимального быстродействия при неточном измерении фазовых координат объекта.
Задачу оптимального быстродействия первого типа для объекта, задаваемого уравнением (361), сформулируем следующим образом: на основе измерения вектора у требуется выбрать управление и,
которое за |
минимальное время |
|
|
|
|
T = |
tk — |
t |
|
переводит |
объект из состояния |
х, |
соответствующего |
моменту t |
и характеризуемого неравенством |
|
|
||
|
M t\x*Ax} > |
Сф (і), |
(457) |
в состояние х (4) к моменту 4. которое характеризуется равен ством
M t {я* (4) Ах (4)( = Сх (4), |
(458) |
т. е. априорное математическое ожидание равно заданной функции. Задача оптимального быстродействия второго типа формули руется следующим образом: на основе измерения вектора у тре буется так выбрать управление и, чтобы априорное математиче
ское ожидание
f = М (Л , Т = 4 — 4
времени перехода из состояния х в момент t, характеризуемого
неравенством |
Сг (0, |
(459) |
М, \х*Ах\ > |
||
в состояние х (4) к моменту 4. |
характеризуемому |
равенством |
M tk {х? (4) Лх (4)} = Сх (4) |
(460) |
было минимально.
В условии (460) подразумевается апостериорное математиче ское ожидание.
При уравнениях объекта (361) и при условии, что априорное распределение начального состояния х 0 нормально, обработка измерений (см. п. 5 гл. IV) сводится к определению математи ческого ожидания и дисперсионной матрицы фазовых координат. Так как дисперсионная матрица вычисляется априорно и не зави сит от измерений, то воспользовавшись равенством
М |х*Лх| = х*Ах + М {е*Ле},
где X — апостериорное математическое ожидание, а е — ошибка измерений, поставленные задачи сведем к сформулированным ранее задачам (438)—(440) и (441)—(442) соответственно. Экви валентный объект, определяющий изменение апостериорных мате матических ожиданий задается уравнением (418):
X = Ах + Ви + г (t); X (0) = х 0, |
(461) |
194
где г (t) — «белый» шум с интенсивностью DC*R~1CD. Матрицы R и D вычисляются по формулам (337) и (419).
Вместо функции Сх (t), определенной в выражении (439), следует поставить функцию
С2 (t) = Сх (t) — М {е*Ле},
которая известна априорно.
Вусловиях неточного измерения фазовых координат объекта управления можно поставить задачу определения минимума мате матического ожидания времени, за которое апостериорная вероят ность попадания объекта в некоторую область L достигает задан ной величины р х.
Вэтом случае равенство
J р (х, X , D) dx = р х, |
(462) |
L |
|
где р (х, X, D) — апостериорная плотность распределения, опре-
деляет контур в пространстве оценок х, на котором вероятность попадания вектора фазовых координат объекта в область L равна р х. Задача сводится к определению управления, минимизирующего среднее время попадания фазовых координат объекта (461) в об ласть (462).
13
Г Л А В A V
ПРИМЕНЕНИЕ СТОХАСТИЧЕСКОГО ПРИНЦИПА МАКСИМУМА К ОПТИМИЗАЦИИ СИСТЕМ УПРАВЛЕНИЯ
1.Условия оптимальности управления
вформе стохастического принципа максимума
Как указывалось выше, общая задача оптимального управле ния сводится к определению вектора управления и размерности lq, 1] объектом
Xi ~fi(x, |
и, |
I, t), Хі (0) = |
x°i, i = 1, 2, . . |
n, |
(463) |
на интервале (0, |
T), |
где х = \хг, |
х 2..........хп\ — n-мерный |
век |
|
тор; I (/) — случайный процесс размерности п с известными ста |
|||||
тистическими характеристиками; |
х° — вектор, подчиняющийся |
||||
известному закону распределения; Д — ограниченные, |
непрерыв |
ные вектор-функции, дважды дифференцируемые по х и и. Управле ние и предполагается физически осуществимым оператором от
измеряемого вектора у размерности [г, 1 |
]: |
||
|
и — и (Д у (т)), т |
t, |
|
где у = у (х, г], t)\ |
ц — случайный процесс размерности г с из |
||
вестными статистическими |
характеристиками. |
||
Предполагается, |
что |
и принадлежит |
множеству U (и £ U) |
для каждой реализации вектора у (t) и является оптимальным,
если имеет место |
минимум |
функционала |
I: |
|
/ = М |
і 7 |
t) dt + F IT, |
1 |
(464) |
J / 0 (х, и, |
X (Т)) , |
|||
|
Іо |
|
J |
|
где операция математического ожидания М берется по начальным условиям х° и случайным воздействиям г] (t) и | (і).
В этой главе мы применим к решению описанной задачи прин цип максимума Л. С. Понтрягина в стохастическом варианте [81, 141 ].
Введем [81] координату х 0 |
уравнением |
|
|
||||
х 0 = /о (х, и, |
t), |
х 0 |
(0) = |
0 |
(465) |
||
и обозначим через X |
расширенный |
вектор |
фазовых |
координат |
|||
{хв, х\ размерности |
[п + 1 , |
1]. |
|
|
|
|
|
Тогда из выражения (464) |
следует |
|
|
|
|||
I = |
М \ х й (Т) + F(T, |
х(Т)]}. |
(466) |
196