
- •Основные понятия вариационного исчисления: функционал, непрерывный функционал, линейный функционал, вариация функционала.
- •Основные понятия вариационного исчисления: функционал, сильный и слабый экстремум функционала, условия экстремума.
- •Формировка простейшей вариационной задачи классического вариационного исчисления. Вывод уравнение Эйлера. Вывод уравнение Эйлера. Основная лемма вариационного исчисления.
- •Функционалы, зависящие от высших производных: уравнение Эйлера - Пуассона, условие Лежандра.
- •Задачи на условный экстремум: метод множителей Лагранжа.
- •Вариационные изопериметрические задачи. Особенности их решения.
- •Функционалы, зависимые от многих функций: уравнения Эйлера, условие Лежандра.
- •Определение функции Гамильтона, вспомогательные переменные, их смысл.
- •Понятия игольчатой вариации управления, принцип максимума л. С. Понтрягина.
- •Применение принципа максимума к объектам с линейным вхождением сигнала управления, двухточечная краевая задача.
- •Вид управления оптимального по быстродействию, теорема об n-интервалах.
- •Структура управления оптимального по быстродействию, определение моментов переключения.
- •Структура управления оптимального по быстродействию, определение знака управления на первом интервале.
- •7. Принцип оптимальности, понятие функции Беллмана.
- •8. Функция Беллмана, вывод функционального уравнения Беллмана.
- •9. Функциональное уравнение Беллмана, техника определения оптимального управления в методе динамического программирования.
- •10. Техника определения оптимального управления в методе динамического программирования, достоинства и недостатки динамического программирования.
- •Вопросы по теории акор
- •1. Постановка задачи управления Летовым а. М., ее решение методом динамического программирования.
- •2. Постановка задачи акор для линейных многомерных объектов, вывод уравнения Риккати.
- •3. Постановка нелинейной задачи акор, метод степенных рядов в ее решении.
- •4. Критерий обобщенной работы, основная теорема Красовского а. А.
- •5. Основная теорема Красовского а. А., особенности применения метода синтеза систем управления по критерию обобщенной работы к линейным объектам.
- •6. Основные понятия адаптивного управления. Адаптивная система со стабилизацией частотной характеристики разомкнутого объекта.
8. Функция Беллмана, вывод функционального уравнения Беллмана.
Несмотря на почти очевидный, эвристический характер принципа оптимальности, он имеет своим следствием далеко не очевидное функциональное уравнение. Переходя к его выводу, предположим, что задача управления решена и найдено оптимальное управление U*(t) и соответствующая ему траектория движения объекта X(t). Минимальное значение критерия, соответствующее оптимальному управлению, обозначим символом:
Данная функция S(X0,t0), зависящая от начального состояния объекта X(t0)=X0 (зависимость значения критерия от конечного состояния, которое в задачах управления часто фиксировано, причем Xk=0 (задача стабилизации), не рассматривается) называется функцией Беллмана.
Выберем на оптимальной траектории две точки, соответствующие моментам t и t+t, где t – малая величина. В соответствии с принципом оптимальности участки оптимальной траектории от точек t и t+t до конечной точки tk являются оптимальными. Обозначим через S(X(t),t) и S( X(t+t), t+t) минимальные значения функционала (2), соответствующие этим участкам
Между этими величинами существует связь
.
(3)
Подчеркнем, что при составлении уравнения (3) непосредственно учитывался принцип оптимальности Беллмана.
Учитывая малость величины t, представим
где Q1(t) – малая с большим порядком малости, чем t.
Функцию X(t+t) разложим в ряд Тейлора в окрестности точки t и, учитывая малость величины t, разложение представим в виде
X(t+t)=X(t)+(dx/dt)* t+Q2(t), или
X=X(t+t)-X(t)=(dx/dt)*t+Q2(t), (5)
где Q2(t) – совокупность последующих членов ряда Тейлора (векторные величины).
Далее
предположим, что функция S(X,t) дифференцируема
по своим аргументам. Это предположение
ничем не обосновано, поскольку сама
функция не известна. Если в последствии
наше предположение не подтвердится, то
все нижеследующие рассуждения несут
только познавательный характер. Это
обстоятельство вносит определенный
элемент необоснованности в сущность
непрерывного варианта метода динамического
программирования в отличие от его
дискретного аналога. Основываясь на
предположении о дифференцируемости и
учитывая представление (5), функцию
разложим в ряд Тейлора
,
(6)
где
− вектор-столбец частных производных
функции S по компонентам вектора X
(градиент), вычисленных в точке (X(t),t),
O3(t) – совокупность последующих членов
ряда Тейлора.
Учитывая
структуру приращения
,
подставим (4), (6) в (3):
.
(7)
Здесь
О4(t)
– совокупность всех членов с порядком
малости, большим, чем у
.
Величина
не зависит от управления U(t), так как
представляет наименьшее значение
функционала, полученное в результате
подстановки в него оптимального
управления, поэтому ее можно вынести
из-под символа минимума и взаимно
уничтожить с такой же величиной в левой
части (7). Оставшееся выражение делим на
и устремляем
.
В силу сделанных замечаний о порядке
малости слагаемого О4(t) выполняется
условие
Производная
также как и функция S, не зависит от
управления и может быть вынесена за
фигурные скобки. После проведения всех
указанных операций соотношение (7)
превращается в известное функциональное
уравнение Беллмана
(8)
или в скалярной форме записи
.
(9)
Уравнение Беллмана представляет собой дифференциальное уравнение в частных производных.