
2567
.pdf
|
|
|
|
tf |
|
ˆ |
|
|
|
|
ˆ |
|
|
|
|
|
V t,x |
inf |
|
|
|
|
|
) |
|
. |
(3) |
||||||
|
|
|
|
,x( ),u( |
) d |
|
x(t |
f |
|
|||||||
|
|
u U;xˆ s(t, ,x,u) |
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
t |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Управление u* U - является оптимальным для x(t |
) x |
если и |
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
0 |
|
|
0 |
|
только если J(x*,u*) V(t |
,x ). Уравнение Hamilton-Jacobi-Bellman (HJB) |
|||||||||||||||
|
|
0 |
|
0 |
|
|
|
|
|
|
|
|
|
|
|
|
для оптимальной СУ ( ,J) с функцией стоимости V(t,x) имеет вид: |
||||||||||||||||
|
|
dV t,x*(t) |
|
|
* |
|
* |
(t) 0; |
|
|
|
|
|
(4) |
||
|
|
|
|
dt |
t,x |
(t),u |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где: u* - оптимальное управление; x* - оптимальная траектория вектора состояния.
Уравнение Риккати (RDE) для линейной квадратичной СУ с R t 0;
Q t 0:
E AT t E KA t Q t ES t E;S t B t R 1 t BT t . |
(5) |
Если RDE допускает такое решение E, что E tf Kf , то |
|
оптимальное управление обратной связи: |
|
u* t R 1 t BT t E t x t . |
(6) |
Рассмотрим пример «черного ящика» с двумя входами u1,u2 . Предположим, что игроки, формирующие управления u1,u2 , не общаются во время игры и следовательно, стратегия первого не известна второму и наоборот. Как определить оптимальные стратегии? Первый прямой путь: игрок 1 выбрал u10 , игрок 2 u20 : система примет u10,u20 и игроки получают более высокие затраты, чем ожидали. Игрок 2 думает: «Если бы я использовал u2* u10 , то я получил бы меньше затрат, потому что у игрока 1
нет информации относительно выбора игрока 2 и он не может изменить свой выбор». Игрок 2 не сожалеет об его решении, если и только если он выбирает стратегию, которая обеспечивает
J2 u1,u2 |
* |
u1 , где |
J2 u1,u2 - функционал качества |
|
0 curve u2 |
||
|
u2 |
|
|
игрока 2. Если отсутствует коммуникация между игроками, то игрок 1
также выбирает стратегию на линии J1 u1,u2 u1 0 curve u1* u2 , где
J1 u1,u2 - функционал качества игрока 1. Nash равновесие – пересечение кривых u2* u1 и u1* u2 . Предположим теперь, что у игроков есть другое
правило: первый игрок выбирает закон управления и объявляет об этом второму игроку; второй игрок выбирает управление, используя это знание u2* u1 . Игрок 1 знает, что, если он выбирает u1, Игрок 2 будет играть
311

