Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
14
Добавлен:
16.04.2015
Размер:
119.43 Кб
Скачать

Лекция 25. Принцип динамического программирования. Функция Беллмана.

Одним из подходов к построению оптимального управления является теория Р. Беллама, носящая название "динамическое программирование". Базовой идеей метода динамического программирования является так называемый принцип оптимальности: кусок оптимальной траектории также является оптимальной траекторией. Приведем наглядную интерпретацию этого принципа.

Рассмотрим нелинейную управляемую систему вида

x = f(t; x; u); t 2 [to; T ]; x(t0) = x0;

с критерием качества

ZT

J(u) = f0(t; x; u)dt ! min

t0

На рисунке 1 приведем график оптимальной траектории x¤(t) на отрезке [t0; T ] è

обозначим его траектория (1-2). Также, на рисунке 1 присутствует траектория (1-2'), отличающаяся от оптимальной траектории (1-2) участком 2' (на временном отрезке

[t1; T ]).

Ðèñ. 1

107

По отношению к приведенному рисунку принцип оптимальности можно сформулировать следующим образом: Участок 2 оптимальной траектории (1-2), сам по себе является оптимальной траекторией системы x = f(t; x; u), состояние кото-

ðîé ïðè x(t1) = x1.

Действительно, если допустить противное, то существует траектория 2', достав-

 

T

ляющая функционалу J(u) =

f0(t; x; u)dt значение меньшее, чем доставляет тра-

 

t1

ектория 2. Но тогда на [t0; T ]

оптимальной будет траектория (1-2'), а не (1-2), что

R

u( ), принимающих значение из множества U и определенных на промежутке времени

противоречит изначальной оптимальности траектории (1-2).

Обозначим через U (U содержится в Rr) множество значений, которые может

принимать управление

 

, а через U

обозначим множество измеримых функций

[a;¢b].

u(t)

e(a;b)

 

Формализуем приведенный выше принцип оптимальности в рамках задачи с за-

данным промежутком времени и со свободным правым концом. Управляемая система

имеет вид

 

 

 

 

 

 

 

 

 

x = f(t; x; u(t));

t 2 [t0; T ];

x(t0) = x0;

u(t) 2 U;

(1)

с критерием качества

 

 

 

 

 

 

 

 

 

 

T

 

 

 

 

 

 

 

 

J(u( )) = '(x(T )) +

f

 

t; x; u t

dt

!

min

(2)

¢

Z

 

0

(

( ))

 

u(¢)2U(t0;T)

 

t0

 

 

 

 

 

 

e

 

Пусть движение системы (1)-(2) происходит на временном отрезке t 2 [s; T ], òàê

÷òî t0 · s · t · T и начальное условие для x(t) в момент времени s имеет вид x(s) = x. Таким образом управляемая система имеет вид

x = f(t; x; u(t)); t 2 [s; T ]; x(s) = x;

(3)

с критерием качества

T

J

 

 

u

(¢)) =

'

x

T

 

Z

f

 

 

t; x; u t dt

!

min

(4)

 

1

(

 

(

(

 

)) +

 

0

(

( ))

u(¢)2U(s;T)

 

 

 

 

 

 

 

 

 

s

 

 

 

 

 

e

 

Минимальное значение функционала (4) зависит от начального момента s и начального положения x(s) = x. Допустимым управлением в такой постановке является

e

измеримая функция u(¢) 2 U[s;T ], такая, что любого s 2 [t0; T ] существует реше-

ние задачи (3)-(4). e

U[s;T ] функциональное пространство функций u(¢) на временном промежутке [s; T ]. То, что в качестве допустимого управления следует рассматривать

именно измеримые функции, будет рассмотрено ниже.

Определение 1. Функция Беллмана. Функцией Беллмана B(s; x) называ-

ется функция, равная минимуму функционала (4) на траекториях системы (3) по всевозможным допустимым управлениям

B(s; x) = min

0'(x(T )) +

T

f0(t; x; u(t))dt1

:

 

 

 

 

¢

@

 

A

 

e

s

 

u(¢)2U[s;T]

 

Z

 

 

108

Мы предположим что минимум в определении функции Беллмана достигается и соответствующее оптимальное управление обозначим через u(s; x; t), t 2 [s; T ].

Рассмотрим теперь произвольные моменты времени s è l, такие, что t0 · s · l · T . Формализует приведенный выше принцип оптимальности

 

 

B(s; x; ) = min

0'(x(T )) +

T f0(t; x; u(t))dt1

=

 

 

 

 

 

 

 

u(¢)2U[s;T]

@

 

 

 

 

Z

 

 

A

 

 

 

 

 

 

 

 

e

 

 

 

 

s

 

 

 

 

 

=

min

 

 

min

0'(x(T )) +

Z

l f0(t; x; u(t))dt +

T

f0(t; x; u(t))dt1

=

 

 

u(¢)2U[s;l] u(¢)2U[l;T]

@

 

 

 

 

 

 

Z

 

A

 

 

 

e

 

 

e

 

s

 

 

 

 

 

l

 

 

 

=

min

0

Z

l f0(t; x; u(t))dt +

min

0

 

T

f0(t; x; u(t))dt + '(x(T ))11

;

u(¢)2U[s;l]

 

 

 

u(¢)2U[l;T]

 

Z

 

 

 

AA

 

 

e

@s

 

 

 

 

e

@l

 

 

 

 

 

откуда

B(s; x) =

min

0 l

f0(t; x; u(t))dt + B(l; x(l))1

:

(5)

 

 

e

@s

 

 

 

A

 

 

 

 

u(¢)2U[s;l]

Z

 

 

 

 

 

 

Перепишем (5) в виде

 

 

 

 

 

 

 

 

 

min

0 l

f0(t; x; u(t))dt + B(l; x(l))

 

B(s; x)1

= 0:

(6)

e

@s

 

 

 

¡

A

 

 

 

u(¢)2U[s;l]

Z

 

 

 

 

 

 

 

Предположим теперь, что момент времени l весьма близок к моменту s, функция Беллмана B дифференцируема в точке (s; x), а управление u(s; x; t) непрерывно по t в точке t = s. Тогда

B(l; x(l)) = B(s; x) + µ

@B

(s; x) +

@B

(s; x)f(s; x; u(s; x; s))(l ¡ s) + o(l ¡ s):

 

 

@t

@x

Устремляя в (6) l ! s+0, äåëÿ íà (l¡s) и переходя к пределу, получаем равенство

min

µ

@B

(s; x) +

@B

(s; x)f(s; x; u) + f

(s; x; u)

= 0:

(7)

@t

@x

u2U

 

0

 

 

Таким образом локализовав исследование функции Беллмана с помощью принципа оптимальности мы перешли от операции взятия минимума по функциональному пространству e

U[s;l], содержащейся в (6) к операции взятия минимума по подмножеству

Uевклидова пространства, содержащейся в (7). Краевое условие для функции B(t; x) имеет вид

B(T; x(T )) = '(x(T )):

(8)

Уравнение (7) называется уравнением Беллмана и следует из условий оптимального управления и гладкости функции B. Иными словами, если решение задачи по-

строения оптимального управления в задаче (1)-(2) существует и обладает свойством гладкости, то тогда справедливы уравнения (7)-(8)

109

Соседние файлы в папке Лекции по ТУ