
- •Глава 6. Оптимальное управление
- •6.1. Общие понятия
- •6.2. Вариационное исчисление в оптимальном управлении
- •6.3. Принцип максимума
- •6.3.1. Свойства функции Гамильтона на оптимальном решении
- •6.4. Динамическое программирование
- •6.5. Аналитическое конструирование регуляторов
- •6.5.1. Аналитическое конструирование регуляторов для линейных стационарных объектов управления
- •6.5.2. Аналитическое конструирование регуляторов для линейного стационарного объекта на основе критерия обобщенной работы
- •6.5.4. Аналитическое конструирование регуляторов для линейных стационарных объектов, подверженных возмущениям
- •6.5.5. Аналитическое конструирование регуляторов для линейных нестационарных объектов
- •6.5.6. Аналитическое конструирование регуляторов для линейных стационарных объектов с запаздыванием по каналу управления
- •6.5.7. Аналитическое конструирование регуляторов для дискретных линейных объектов
- •6.5.8. Аналитическое конструирование регуляторов для одного класса нелинейных объектов
- •6.6. Синтез субоптимальных по быстродействию автоматических систем
- •6.7. Оптимальное управление системами с распределенными параметрами
- •6.8. Линейная оптимальная фильтрация непрерывных систем
- •6.9. Синтез терминального управления линейным зашумленным объектом по критерию обобщенной работы
- •Запишем, что
- •Второе слагаемое при малом можно записать в виде
- •6.10. Дискретный алгоритм линейной фильтрации
- •6.12. Метод последовательных приближений для решения задачи синтеза оптимальных управлений
- •6.13. Синтез наблюдателей переменных состояния
- •Контрольные вопросы
6.12. Метод последовательных приближений для решения задачи синтеза оптимальных управлений
Пусть задана система
, (6.275)
причем фазовые координаты х1, …, хn и управления u1,…,un подчинены ограничениям вида
(6.276)
и задан функционал
,
(6.277)
где Т > 0 фиксированный момент времени. Возьмем управление u(x, t). Подставим его в (6.275) и построим решение полученной системы:
,
(6.278)
где х1 некоторая точка фазового пространства. Вычислим значение функционала (6.276) при управлении u = u(x, t). Тогда получим некоторую величину J(u, x1). Управление u0 (x, t) называется оптимальным, если оно доставляет величине J(u, x1) возможное наименьшее значение в каждой точке х1 и притом удовлетворяет ограничениям (6.276).
Рассмотрим метод последовательных приближений для отыскания оптимального управления u0 (x, t). Пусть u1 (x, t) некоторое допустимое управление. Подставив это управление в систему (1), найдем решение получившихся уравнений x = x(t, x1). Далее рассмотрим уравнение
,
(6.279)
где V1 – искомая функция.
Величина х в правой части уравнения (6.279) есть решение x(t, x1) упомянутой системы. Найдем решение уравнения (6.279) с начальным условием
при t
= T.
(6.280)
В результате
получим функцию
.
Пользуясь решением системы, исключим
вектор х1
из функции
.
Тогда получим функцию V1(x,
t).
Величина
Z = V1 – V(x, t)
является интегралом системы
(6.281)
При этом интеграл
принимает нулевое значение на любом
движении вида x
= x(t,
x1),
.
Пользуясь функцией V1,
построим управление u2
(x,
t)
так, чтобы оно удовлетворяло ограничению
(6.276) и доставляло функции
возможное наименьшее значение. Разумеется, что возможное наименьшее значение функции W1 (x, u1(x, t), t) не положительно, так как W1 (x, u1(x, t), t) 0.
С функцией u2 (x, t) поступим точно так же, как и с u1 (x, t). В результате этого получаются последовательности u1, u2, …, V1 (x, t), V2 (x, t) … .
Если процесс построения этих последовательностей оказывается возможным, то для любой точки х1 последовательность u1, u2, … будет минимизирующей:
,
так что
В общем случае этот метод остается методом минимизации функционала и сходимость его к оптимальному управлению имеет место, вообще говоря, лишь при выполнении ограничительных условий на правые части системы (6.275), на функции gj, входящие в (6.276), и на Р и f0 из (6.277). Построение последовательных приближений для систем с неограниченным временем еще более затруднительно. Действительно, пусть дан функционал
.
(6.282)
Допустимыми управлениями u (x, t) будем считать такие, при которых система (6.275) имеет асимптотически устойчивое нулевое решение, и выполняются условия (6.276). Пусть u1 (x, t) некоторое допустимое управление. Построим семейство решений х = х (t, х1) и функцию
.
(6.283)
Пользуясь семейством решений, исключим из (6.283) вектор x1, тогда получим функцию V1(x, t). Затруднительным является построение семейства решений и, следовательно, самой функции V1(x, t). С помощью функции V1(x, t) строим управление u2(x, t) так, чтобы оно доставляло функции
возможное наименьшее значение при условии выполнения ограничений (6.276), причем минимум ищется среди всех таких управлений, которые доставляют системе (6.275) нулевое асимптотически устойчивое решение. Если u2(x, t) построено, то, поступая с ним как с V1(x, t), найдем функцию V2(x, t) и т. д. Если процесс построения оказывается возможным, то в результате получим минимизирующую последовательность u1(x, t), u2(x, t),…, такую, что
, (6.284)
где Vk(x1,0) = J(uk, x1)..
Следовательно, u1, u2,… – минимизирующая последовательность для любой x1.
Пусть система регулирования некоторым заданным объектом описывается с помощью дифференциальных уравнений
(6.285)
Предположим, что управления u1 ,… , ur удовлетворяют некоторым ограничениям:
(6.286)
Будем рассматривать движения системы, определенные на промежутке 0,Т. Следовательно, управления будем считать кусочно-непрерывными функциями, заданными на 0,Т.
Предположим, что качество управления определяется с помощью функционала J:
(6.287)
и что задано начальное состояние системы
x = x0 при t = 0.
Требуется среди указанных выше управлений найти такое, которое доставляет функционалу J возможное наименьшее значение. Такое управление будем обозначать через u1(0),…, ur(0) и называть оптимальным. Для решения этой задачи введем в рассмотрение функцию V(x1,…, xn, t), являющуюся решением уравнения в частных производных
(6.288)
с граничными условиями
V = 0 при t = T. (6.289)
Существование функции V может быть установлено с помощью следующего рассуждения. Рассмотрим левую часть уравнения (6.288) как полную производную функции V, вычисленную в силу уравнений
Тогда уравнение (6.288) может быть записано в виде
(6.290)
Найдем решение уравнения (6.290) с начальными условиями
при
Обозначим это решение через
(6.291)
Подставляя (6.291) в (6.290) и интегрируя с учетом условия (6.289), находим
(6.292)
Разрешая равенство (6.291) относительно 1,…, n, получим
(6.293)
Подставляя (6.293) в (6.292), получим функцию V(t, x1,…, xn,), которая будет удовлетворять уравнению (6.288) при условии (6.289). Итак, будем считать, что такая функция построена.
Перейдем к решению задачи. Рассмотрим функционал
.
(6.294)
В функционале (6.294) полная производная от функции V берется в силу системы (6.285), следовательно,
откуда вытекает, что управления являются оптимальными по отношению к функционалу J и наоборот.
Проведем преобразования над функционалом J:
(6.295)
где
.
Из уравнений (6.288) следует, что первый, третий и четвертый члены под интегралом в формуле (6.295) исчезают, следовательно, окончательно имеем
.
(2.296)
Из (6.296) непосредственно вытекает, что оптимальное управление приближенно определяется формулами
.
(6.297)
Эти формулы содержат в себе приближенное решение проблемы синтеза оптимального управления для того случая, когда правый конец траектории остается свободным.
Рассмотрим теперь проблему синтеза асимптотически устойчивых оптимальных управлений. Предположим, что система (6.285) при любом выборе кусочно-непрерывных управлений, удовлетворяющих условиям (6.286), имеет положительные равновесия:
Будем считать это положение равновесия асимптотически устойчивым при u1 =…= u r = 0. Требуется выбрать управления u1, …, ur так, чтобы положение равновесия системы (6.285) было по-прежнему равномерно асимптотически устойчивым и чтобы функционал
(6.298)
имел наименьшее возможное значение, где f0 (x1, …, xn, t) есть положительно определенная функция x1, …, xn. Для решения поставленной задачи рассмотрим функцию V, являющуюся решением уравнения (6.298) и удовлетворяющую условию
при
.
(6.299)
Известно, что решение уравнения (6.288) с начальным условием (6.289) существует, причем V является отрицательно определенной функцией.
Рассмотрим функционал
.
(6.300)
Полная производная функции V в функционале (6.300) берется в силу системы (6.285). Если управления u1, …, ur делают положение равновесия равномерно асимптотически устойчивым, то функционал J вполне определен и может быть представлен в виде
,
так как V 0 при t + .
Произведя
преобразования над функционалом
,
получим
,
(6.301)
откуда находим, что оптимальное управление будет приближенно определяться формулами
,
(6.302)
где, как и выше
.
При управлении (6.302) положение равновесия системы (6.285) действительно будет равномерно асимптотически устойчивым, так как для этого управления
Следовательно,
(6.303)
Функция V является отрицательно определенной, имеет бесконечно малый высший предел, ее полная производная в силу системы (6.285) положительно определена. Следовательно, нулевое решение системы (6.285) равномерно асимптотически устойчиво при управлении (6.302). Управления (6.297) и (6.302) могут быть построены лишь в том случае, когда известна функция V. Эту функцию можно строить путем последовательных приближений. Это обстоятельство приводит к методу последовательных приближений для отыскания управлений (6.297) и (6.302).
Остановимся сначала на случае конечного интервала. Пусть f0 является полиномом степени l относительно x1, …, xn, а fs – линейные функции:
.
(6.304)
При этих условиях оказывается, что уравнение (6.288) имеет единственное решение V в виде полинома степени l, удовлетворяющее условию (6.289), причем определение функции V сведется к интегрированию линейных систем обыкновенных дифференциальных уравнений.
Если же в (6.304) rs заменить рядом относительно x1, …, xn, в котором разложение начинается с членов второго порядка, то функция V также определится единственным образом в виде ряда.
Остановимся подробнее на случае (6.304). Будем искать решение уравнения (6.288) в виде
.
(6.305)
Полагая в (6.288)
,
(6.306)
найдем
(6.307)
Для m = l имеем
.
(6.308)
Формы V (m) – удовлетворяют условиям
V (m) = 0 при t = T
Уравнения (6.307) и (6.308) получены путем подстановки в (6.288) выражений (6.305) и (6.306) и приравнивания слева и справа форм одинакового измерения. При этом частная производная заменена на полную, так как она относится только к коэффициентам форм. Из уравнений (6.307) и (6.308) вытекает, что коэффициенты искомых форм являются решениями неоднородных линейных дифференциальных уравнений с начальными условиями, заданными на правом конце при t = T, и, следовательно, определяются единственным образом.
Приведенные выше рассуждения позволяют дать метод последовательных приближений для определения функции V. Предположим, что задан полином V1, например V1 0. Построим последовательные приближения VN как решения уравнений
с начальными условиями
VN = 0, при t = T.
Следовательно,
(6.309)
Переменные x1,
…, xn
под интегралом в формуле (6.309) рассматриваются
как параметры, следовательно, интегрирование
относится лишь к функциям времени. Легко
видеть, что
равномерно
по отношению к
в любой ограниченной области изменения
переменных x1,
…, xn.
Положим
(6.310)
Ясно, что управления uiN (i = 1,…, r) сходятся при к управлению ui(0) (i = 1,…, r). Аналогичный метод последовательных приближений можно сформулировать для того случая, когда (6.305), (6.306) заменяются рядами относительно x1, …, xn, разложение которых начинается с членов не ниже второго порядка.
Рассмотрим теперь случай полубесконечного промежутка. Пусть
где
однородные формы степени m
относительно x1,
…, xn.
Будем считать, что
является положительно определенной
квадратичной формой.
Предположим, что нулевое решение системы
(6.311)
равномерно асимптотически устойчиво. Тогда существует квадратичная форма V(r), являющаяся отрицательно определенной и удовлетворяющая уравнению
(6.312)
Положим V1 = V(r), а приближение VN определим как ограниченное решение уравнения
Здесь x1, …, xn. следует рассматривать как параметры. При известных предположениях относительно сходимости рядов f0 и gs можно утверждать, что
при N
равномерно на всяком конечном интервале [0, T] в некоторой фиксированной окрестности положения равновесия, причем функция V здесь является отрицательно определенным решением уравнения (6.288). Отсюда вытекает, что последовательность управлений
,
где
,
можно рассматривать как последовательность
приближений для управлений (6.302).
Обратимся теперь к учету краевых условий и ограничений. Пусть требуется найти оптимальное управление по отношению к функционалу J среди всех тех управлений, для которых выполняются граничные и краевые условия
которые удовлетворяют ограничениям
Способ учета краевых условий и ограничений сводится к введению нового функционала
,
(6.313)
где Lj и K (j = 1,…, k; =1,…, ) – положительные величины, подлежащие определению. Функционал (6.313) можно представить в форме
(6.314)
Полная
производная функция
может быть представлена в виде
Рассмотрим функцию V, удовлетворяющую уравнению вида
(6.315)
и условию
V = 0 при t = T. (6.316)
Решение уравнений (6.315) при условии (6.316) можно искать в форме
где функция V0 удовлетворяет уравнению (6.288) и условию (6.279), а функции V1j и V2 удовлетворяют соответственно уравнениям
и краевым условиям
V1j = V2 = 0 при t = T, j = 1, …, k; = 1, …, .
Предположим, что
решение уравнения (6.135) при условии
(6.316) найдено. Обозначим через
(t,
L1,
…, Lk,
K1,
…, K),
i
= 1, …, r
управления,
доставляющие функционалу L
наименьшее возможное значение при
условии, что правый конец свободен и
ограничения не учитываются. Тогда это
управление также будет оптимальным и
по отношению к функционалу
.
(6.317)
Произведя преобразования над функционалом (6.317), получаем
oткуда вытекает, что
,
(6.318)
где
.
Подставим управление (6.308) в функционал L и будем выбирать величины (L1, …, Lk, K1, …, K), так, чтобы функционал L минимизировать. При этом в ряде случаев можно установить, что существуют такие последовательности величин (t, L1, …, Lk, K1, …, K), которые позволяют сколь угодно точно аппроксимировать решение задачи с учетом краевых условий и ограничений, если такое решение существует.
В приведенных рассуждениях величина Т считалась закрепленной, однако предлагаемый метод последовательных приближений пригоден также для решения задачи и в случае незакрепленного Т.
Заметим, что выше нигде не были оговорены свойства функций, входящих в дифференциальные уравнения. Можно считать, что эти функции удовлетворяют условиям, при которых существует решение дифференциальных уравнений, и их даже можно отнести для простоты к дифференцируемым, принимающим вещественные значения и заданным при всех значениях аргументов, входящих в них. Из формул (6.297), (6.298), (6.318) вытекает, что управления разрывны по отношению к фазовым координатам. Это обстоятельство может привести к тому, что движения не будут определены в классическом смысле на всем рассматриваемом промежутке. Для того чтобы избежать этого, необходимо принять соглашение о скользящих режимах либо в окрестности поверхностей разрыва ввести гистерезисные петли, которые позволят однозначно определить движения на всем рассматриваемом промежутке. Управления с петлями гистерезиса будут весьма мало отличаться от построенных оптимальных.
Заметим, что в некоторых случаях формулы (6.297) и (6.302) определяют оптимальные управления. Например, это всегда имеет место для линейных задач с линейным функционалом. В общем случае рассмотренное построение служит для определения второго приближения, если в качестве первого взято нулевое управление.