Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ответыОиАС_-_редактированные_коля2.docx
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
1.2 Mб
Скачать

8. Функция Беллмана, вывод функционального уравнения Беллмана.

Несмотря на почти очевидный, эвристический характер принципа оптимальности, он имеет своим следствием далеко не очевидное функциональное уравнение. Переходя к его выводу, предположим, что задача управления решена и найдено оптимальное управление U*(t) и соответствующая ему траектория движения объекта X(t). Минимальное значение критерия, соответствующее оптимальному управлению, обозначим символом:

Данная функция S(X0,t0), зависящая от начального состояния объекта X(t0)=X0 (зависимость значения критерия от конечного состояния, которое в задачах управления часто фиксировано, причем Xk=0 (задача стабилизации), не рассматривается) называется функцией Беллмана.

Выберем на оптимальной траектории две точки, соответствующие моментам t и t+t, где t – малая величина. В соответствии с принципом оптимальности участки оптимальной траектории от точек t и t+t до конечной точки tk являются оптимальными. Обозначим через S(X(t),t) и S( X(t+t), t+t) минимальные значения функционала (2), соответствующие этим участкам

Между этими величинами существует связь

. (3)

Подчеркнем, что при составлении уравнения (3) непосредственно учитывался принцип оптимальности Беллмана.

Учитывая малость величины t, представим

где Q1(t) – малая с большим порядком малости, чем t.

Функцию X(t+t) разложим в ряд Тейлора в окрестности точки t и, учитывая малость величины t, разложение представим в виде

X(t+t)=X(t)+(dx/dt)* t+Q2(t), или

X=X(t+t)-X(t)=(dx/dt)*t+Q2(t), (5)

где Q2(t) – совокупность последующих членов ряда Тейлора (векторные величины).

Далее предположим, что функция S(X,t) дифференцируема по своим аргументам. Это предположение ничем не обосновано, поскольку сама функция не известна. Если в последствии наше предположение не подтвердится, то все нижеследующие рассуждения несут только познавательный характер. Это обстоятельство вносит определенный элемент необоснованности в сущность непрерывного варианта метода динамического программирования в отличие от его дискретного аналога. Основываясь на предположении о дифференцируемости и учитывая представление (5), функцию разложим в ряд Тейлора

, (6)

где − вектор-столбец частных производных функции S по компонентам вектора X (градиент), вычисленных в точке (X(t),t), O3(t) – совокупность последующих членов ряда Тейлора.

Учитывая структуру приращения , подставим (4), (6) в (3):

. (7)

Здесь О4(t) – совокупность всех членов с порядком малости, большим, чем у .

Величина не зависит от управления U(t), так как представляет наименьшее значение функционала, полученное в результате подстановки в него оптимального управления, поэтому ее можно вынести из-под символа минимума и взаимно уничтожить с такой же величиной в левой части (7). Оставшееся выражение делим на и устремляем . В силу сделанных замечаний о порядке малости слагаемого О4(t) выполняется условие Производная также как и функция S, не зависит от управления и может быть вынесена за фигурные скобки. После проведения всех указанных операций соотношение (7) превращается в известное функциональное уравнение Беллмана

(8)

или в скалярной форме записи

. (9)

Уравнение Беллмана представляет собой дифференциальное уравнение в частных производных.