Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методы и системы оптимального управления. Ч. 2

.pdf
Скачиваний:
3
Добавлен:
24.11.2025
Размер:
720.19 Кб
Скачать

Из (64) следует:

 

n 1

0,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j 1,n.

(68)

j

 

n 1

f

(x,u,t)

 

 

 

ψi

i

 

 

,

 

 

 

dt

x

 

 

 

 

i 1

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выражения (68) имеют тот же вид, что и принцип максимума, следовательно, соотношение (60) можно записать в следующем виде:

maxH (x,u,t) 0.

(69)

U

 

Из (68) следует, что оптимальное управление достигает в каждый момент времени максимума функции Гамильтона. Таким образом, получены все условия принципа максимума.

Метод динамического программирования позволяет получить решение в виде уравнения в частных производных. Принцип максимума позволяет получить оптимальное управление в виде двухточечной краевой задачи для обычных дифференциальных уравнений, решение которых в некоторых случаях проще, чем решение уравнения Беллмана.

21

3. Аналитическое конструирование оптимальных регуляторов

Аналитическое конструирование оптимальных регуляторов (АКОР) – это синтез оптимального управления для объекта управления, описывающегося линейной моделью, и квадратичного функционала качества. Математическая модель имеет вид:

x A(t)x(t) B(t)u(t), x(t0) x0,

 

 

(70)

где А, В – матрицы; u принадлежит Uдоп.

 

 

 

Функционал качества имеет вид:

 

 

 

J 1 xT (tk )Rx(tk )

1

tk xT (t)Q(t)x(t) uT

(t)Г(t)u(t)dt

,

(71)

2

2

t0

 

 

 

где Q, R, Г – матрицы; u*(t) необходимо найти.

Структура оптимального управления определяется следующим образом. Сравнивая (70) и (71) с постановкой задачи динамического программирования на основе уравнения Беллмана, имеем:

f (x,u,t) A(t)x(t) B(t)u(t),

 

F (x,u,t) 1

[xT Q(t)x uT Г(t)u],

 

0

 

 

 

 

2

 

(72)

 

 

1

 

 

 

φ0

(x)

x

T

Rx.

 

2

 

 

 

 

 

 

 

 

 

Учтем такие свойства матриц, как произведение, дифференцирование и транспонирование.

Уравнение Беллмана для рассматриваемой задачи имеет вид:

max { φ(x, t) ( φ(x, t))T [A(t)x B(t)x]

u Uдоп t x

12[xT Q(t)x U T Г(t)u]} 0,(x, tk ) 12 xT Rx.

(73)

(74)

22

Тогда

 

 

 

 

 

 

 

 

u

 

 

(x,t)

n

(x,t)

B(t)u

1

u

T

 

 

(x,t) argmax

t

 

x

2

 

Г(t)u . (75)

 

 

 

i 1

 

 

 

 

 

 

 

i

 

 

 

 

Найдем максимум по уравнению в выражении (75). Дифференцируя по u выражения в квадратных скобках и приравнивая к нулю, получаем структуру оптимального управления:

u

 

(x, t) Г

1

B

T

(t)

(x, t)

.

(76)

 

 

 

t

 

 

 

 

 

 

 

 

 

Решение уравнения Беллмана (73) в данной постановке задачи ищем в следующем виде:

(x, t)

1

x

T

K(t)x,

(77)

2

 

 

 

 

 

 

где K(t) – неизвестная симметричная матрица.

Подставляя (77) в (73) и решая матричное уравнение в частных производных, получим уравнение в векторно-матричном виде для матрицы K(t), называемое уравнением Риккати:

Уравнение Риккати имеет вид:

K(t) KA AT K KBГ 1BT K Q,

(78)

где K(tk ) R.

Решая уравнение Риккати с учетом (76), можно получить оптимальное управление, которое имеет вид:

u (x,t) Г 1BT K(t)x(t).

(79)

Иногда вводят обозначение p = –K, тогда

p pA AT p pBГ 1BT p Q.

(80)

23

Данная постановка задачи АКОР определяет вид закона управления (79). Сложность решения задачи АКОР становится очевидной при решении матричного уравнения Риккати (78) или (80) в обратном времени.

Для упрощения решения задачи Красовский А. А. предложил использовать так называемый функционал обобщенной работы, отличающийся от функционала Летова-Калмана наличием в подынтегральной части дополнительного слагаемого:

 

 

 

 

J

1

x

T

(tk )Rx(tk )

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

(81)

 

1tk

 

T

 

T

 

 

 

T

 

 

[x

 

Q(t)x(t) u

 

(t)Г(t)u(t) uопт

(t)Г(t)uопт]dt.

 

2t

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

В этом случае уравнение Риккати превращается в линейное уравнение. В установившемся режиме дифференциальные уравнения превращаются в алгебраические.

Метод АКОР позволяет использовать так называемую теорему разделения при линейной стохастической модели процесса вида:

x(t) A(t)x(t) B(t)u(t) C(t) (t),

x(t0) x0(t),

(82)

где (t) – белый шум.

Математически доказывается, что оптимальная система управления состоит из последовательно соединенных оптимального фильтра (фильтра Калмана) и оптимального регулятора.

Пример.

Схема описывается векторно-матричным уравнением следующего вида: x Ax Bu, где:

0 a

 

 

 

0

 

 

x1

 

 

A 0 0

;

B b

; x

x

.

(83)

 

 

 

 

 

 

 

 

 

1

 

 

J0

 

1

 

 

T

Qx Гu

2

)dt.

 

(84)

2

(x

 

 

 

 

 

0

 

 

 

 

 

 

 

 

24

 

q1

0

 

 

P11

P12

 

 

Q

0

q

 

; P

 

P

P

.

(85)

 

 

 

2

 

 

 

21

22

 

 

u*

1

(P

x P

x

2

) Г 2BT Px.

(86)

Г

 

12 1

 

22

 

 

 

 

 

 

P P

 

 

 

P P

 

01

 

 

00

P P

 

 

 

 

11 12

 

 

 

11 12

 

 

 

 

 

 

 

 

 

 

11 12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P21P22

P21P22 00

 

 

10

P21P22

(87)

 

 

P P

 

0

1

 

 

 

P P

 

 

q 0

 

 

 

 

 

 

 

 

 

 

 

 

11 12

 

 

01

 

11 12

 

 

 

 

1

.

 

 

 

 

 

Г

 

 

 

 

 

 

 

 

 

 

P21P22

1

 

 

 

P21P22

 

q2

 

 

 

 

 

 

 

 

 

 

P(tk ) R 0.

 

 

 

 

 

 

 

 

(88)

 

 

 

 

 

P

 

P

 

b

P

 

q

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11

 

 

12 Г

22

1

b

 

 

 

 

 

 

 

 

 

 

P P

aP

P

P

 

;

 

 

(89)

 

 

 

 

 

 

 

 

 

 

12

 

 

 

21

 

 

 

 

11

 

 

12 Г

22

 

 

 

 

 

 

 

 

P

2aP

 

2P2

 

b

q .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

22

 

 

 

 

12

 

 

 

 

22 Г

 

 

2

 

 

 

 

 

 

Скалярные уравнения для p могут решаться аналитически или численно.

25

4. Оптимизация управления методами вариационного исчисления

Вариационное исчисление – раздел математики, в котором рассматриваются задачи исследования максимума или минимума функционала и определение функций, на которых эти максимум и минимум достигаются.

В отличие от принципа максимума и метода динамического программирования, методы вариационного исчисления, как правило, не дают требуемого решения в задачах с ограничениями. При этом необходимо учитывать основные понятия вариационного исчисления: функционал, непрерывность и линейность функционала.

tk

Например, для функционала J0 F0(x,u,t)dt каждой функции

t0

x(t) соответствует число J0.

Дифференциал функционала dJ0 – главная линейная часть функционала. Вариация функционала ∆J0 – бесконечно малое прираще-

ние. δJ0 = dJ0.

Решение задачи оптимального управления.

Рассмотрим пример вариационного исчисления для одной из задач. Такая задача рассматривалась ранее при выводе принципа максимума.

Объект управления задан в следующем виде:

x f (x, u, t),

(90)

x Rn, u Rm, m n,

 

где R – евклидово пространство, компонентами которого являются векторы.

Функционал качества имеет вид:

t2

F0(x,u,t)dt.

 

J0 0(x,t2)

(91)

t1

 

 

Здесь имеет место задача со свободным правым концом и заданным временем переходного процесса.

26

Заданы начальные условия:

 

 

 

x(t0) tk

,

(92)

t0 t1,

tk t2.

 

Решение задачи представим в виде алгоритма.

1.Образуем вспомогательный критерий качества прибавлением

к(91) правых частей уравнения (90) с некоторыми множителями,

составляющими вектор (t)

(t),...,

n

(t) T .

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

0

(x(t

2

)) t2

 

F (x,u,t) T (t)

 

f (x,u,t) x(t)

 

dt.

 

 

 

 

0

 

 

 

 

(93)

 

 

 

 

t1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Необходимо найти такое оптимальное управление, при котором обеспечивается минимум J0: u(t) Uдоп i , i 1,n – неопределен-

ные множители Лагранжа.

2. Введем скалярную функцию-Гамильтониан:

H (x,u, ,t) F (x,u,t) T (t) f (x,u,t).

(94)

0

 

3.Интегрируя по частям последнее слагаемое в правой части (93)

ис учетом (94), получим:

 

0

(x(t )) T (t )x(t ) T (t )x(t )

 

 

2

1

1

2

2

 

 

t2

H (x,u, 1t) T (t)x(t) dt.

(95)

 

 

 

 

 

t1

 

 

 

 

 

4. Найдем вариацию (полный дифференциал) критерия качества:

 

0(x(t2))

T (t

 

x(t

) T (t ) x(t )

 

)

 

x(t2)

2

 

2

1 1

 

 

 

0

 

 

 

 

 

 

 

 

 

t2

 

H (x,u, ,t)

T

 

 

 

 

 

 

x(t)

 

(t)

t

 

 

 

 

1

 

 

 

 

0

 

 

 

x(t) H (x,u, ,t)

u(t)

 

(96)

 

 

 

 

u(t) dt.

 

 

 

27

Для того чтобы исключить влияние вариаций x(t), вызванных вариациями u(t), на вариации критерия , выберем векторный множитель таким, чтобы коэффициенты при (t) и x(t2) обратились в ноль.

 

 

H (x,u, ,t) T

(97)

(t)

 

 

x(t)

 

;

 

 

 

 

 

 

 

(t

)

 

0(x(t2)) T.

(98)

2

 

 

 

x(t )

 

 

 

 

 

 

 

2

 

 

 

Система (97)–(98) называется сопряженной системой. При таком выборе λ уравнение (96) примет вид:

 

T

t2

H (x,u, ,t)

 

 

 

 

(t1) x(t1)

 

u(t)dt.

(99)

 

u(t)

 

 

t1

 

 

 

 

 

 

 

Выражение (99) называется первой вариацией критерия качества . При получении решения системы (90), π J0 δπ δJ0. Если

J0 достигает экстремума, то δJ0 = 0 для произвольных u(t). Так как в рассматриваемой задаче условие x(t1) задано, то вариация δx(t1) = 0,

следовательно, условие стационарности критерия качества J0

можно

записать в следующем виде:

 

 

 

 

H (x,u, ,t) 0,

t t ,t

2

.

(100)

u(t)

1

 

 

 

 

 

Уравнения (97)–(98) и (100) известны в вариационном исчислении как уравнения Эйлера-Лагранжа.

Таким образом, для определения оптимального управления необходимо решить двухточечную краевую задачу.

С учетом (90), (94) и (97)–(98) запишем систему уравнений:

28

x(t) f (x,u,t),

 

 

 

 

 

 

 

 

 

 

 

F0(x,u,t) T

 

 

f0(x,u,t) T

(101)

 

 

 

 

 

(t)

 

 

 

 

 

,

 

x(t2)

x(t2)

 

 

 

 

 

 

 

 

 

 

где

 

 

 

 

H

 

 

 

 

 

 

 

 

 

 

 

 

(102)

 

 

 

(t)

 

.

 

 

 

 

 

 

x

 

 

 

Оптимальное управление с учетом (100) определяется из следующего условия:

H

 

F (x,u,t) T

 

f (x,u,t) T

 

 

 

 

0

 

 

 

 

(t) 0.

(103)

u

x(t)

u

 

 

 

 

 

 

Имеется двухточечная краевая задача с n краевыми условиями

x(t1) = x1

на левом конце и n краевыми условиями (t

)

 

0(x(t2)) T

 

2

 

 

x(t )

 

 

 

 

 

2

 

на правом.

Для того чтобы критерий качества J0 достигал локального минимума, недостаточно выполнения (101), необходимо, чтобы вторая вариация этого функционала была неотрицательной для всех значе-

ний u(t), т. е. 2J0 и (t) 0 при условии (x(t) f (x1u1t)) 0. При сравнении полученного решения с результатом применения

принципа максимума видна аналогия в представлении результата (двухточечная краевая задача).

Определение оптимального управления линейными объектами с квадратичным функционалом методами вариационного исчисления производится следующим образом. Задача состоит в минимизации квадратичного функционала

t

 

J0 xT (tк)Rx(tк) к (xT (t)Q(t) uT (t)Г(t)u(t))dt.

(104)

t0

 

29

Система описывается уравнением вида:

x(t) A(t)x(t) B(t)u(t),

 

 

 

, t t

 

,

(105)

x(t

) x

,t

 

0

 

0

к

 

0

 

 

где x0, t0, tк заданы.

Предполагается, что матрицы R, Q, Г неотрицательные. Для определения оптимального управления используем результаты, полученные при рассмотрении предыдущего вопроса, которые в данном случае имеют вид:

 

 

 

 

 

 

 

H (x,u, ,t) xT (t)Q(t)x(t) uT (t)Г(t)u(t)

 

 

 

T

(t) A(t)x(t) B(t)u(t) ,

 

 

 

 

 

 

 

 

 

 

(106)

(t) H AT (t) 2Q(t)x(t),

 

 

 

 

x

 

(tк) 2Rx(tк),

 

 

H

 

 

T

 

 

 

B

(t) (t) 2Г(t)u(t) 0.

 

 

u

 

 

На основе условий (105), (106) применим описываемый в предыдущем пункте метод. Алгоритм решения задачи следующий. Из последнего выражения (106) следует, что оптимальное управление вычисляется по формуле:

u

 

 

1

Г

2

(t)B(t) (t).

(107)

 

2

 

 

 

 

 

 

 

 

Для решения двухточечной краевой задачи будем искать функцию λ(t) в следующем виде:

(t) 2P(t)x (t).

(108)

Здесь P(t) подлежит определению.

30