
- •Глава 6. Оптимальное управление
- •6.1. Общие понятия
- •6.2. Вариационное исчисление в оптимальном управлении
- •6.3. Принцип максимума
- •6.3.1. Свойства функции Гамильтона на оптимальном решении
- •6.4. Динамическое программирование
- •6.5. Аналитическое конструирование регуляторов
- •6.5.1. Аналитическое конструирование регуляторов для линейных стационарных объектов управления
- •6.5.2. Аналитическое конструирование регуляторов для линейного стационарного объекта на основе критерия обобщенной работы
- •6.5.4. Аналитическое конструирование регуляторов для линейных стационарных объектов, подверженных возмущениям
- •6.5.5. Аналитическое конструирование регуляторов для линейных нестационарных объектов
- •6.5.6. Аналитическое конструирование регуляторов для линейных стационарных объектов с запаздыванием по каналу управления
- •6.5.7. Аналитическое конструирование регуляторов для дискретных линейных объектов
- •6.5.8. Аналитическое конструирование регуляторов для одного класса нелинейных объектов
- •6.6. Синтез субоптимальных по быстродействию автоматических систем
- •6.7. Оптимальное управление системами с распределенными параметрами
- •6.8. Линейная оптимальная фильтрация непрерывных систем
- •6.9. Синтез терминального управления линейным зашумленным объектом по критерию обобщенной работы
- •Запишем, что
- •Второе слагаемое при малом можно записать в виде
- •6.10. Дискретный алгоритм линейной фильтрации
- •6.12. Метод последовательных приближений для решения задачи синтеза оптимальных управлений
- •6.13. Синтез наблюдателей переменных состояния
- •Контрольные вопросы
6.13. Синтез наблюдателей переменных состояния
Рассмотрим объект управления, возмущенное движение которого описывается уравнением
,
(6.319)
и одним из методов определен оптимальный закон управления
.
(6.320)
Традиционно существует проблема измерения переменных состояния, что умоляет результат синтеза оптимального закона управления в функции переменных состояния. Доступными измерению являются выходные переменные системы, связанные с переменными состояния соотношением
.
(6.321)
В связи с этим возникает задача наблюдения (восстановления, оценки) вектора x(t) по результатам измерения y(t) на интервале [t0, t].
Обозначим вектор
переменных состояния, полученных с
помощью какого-либо алгоритма наблюдения,
через
.
Рассмотрим некоторые алгоритмы
наблюдателей переменных состояния.
Наблюдатель полного порядка
Пусть простейший наблюдатель имеет модель
.
(6.322)
Если бы удалось
задать значение
равным Х(0),
то решение уравнения (6.322) точно совпадало
бы с решением (6.319).
Если
,
то возникает ошибка наблюдения
,
которая удовлетворяет уравнению
(6.323)
Если объект управления асимптотически устойчив, то ошибка наблюдения будет с течением времени уменьшаться
.
Если дополнить уравнение (6.322) составляющей, содержащей измеряемый вектор Y, то такой алгоритм наблюдателя можно записать в общем, виде:
.
(6.324)
Уравнения для определения матриц F, H, G могут быть получены разными способами.
В простейшем случае пусть система имеет один вход и один выход. Для данного случая можно воспользоваться методом передаточной функции
.
(6.325)
Преобразование Лапласа уравнений (6.319) при нулевых начальных условиях, имеет вид
,
где (рЕ А)–1В есть матричная передаточная функция.
Уравнение наблюдателя (6.324), преобразованное по Лапласу при нулевых начальных условиях, имеет вид
или
.
(6.326)
Подставляя в уравнение (6.326) уравнение (6.325), получим
.
(6.327)
Из условия (6.325) можно записать, что
.
(6.328)
Уравнение (6.328) можно трансформировать к виду
или
.
Если выбрать
и
,
(6.329)
то равенство будет выполняться.
На основании (6.324) и (6.329) представим уравнения наблюдателя состояния в виде
.
(6.330)
Для определения матрицы G воспользуемся уравнением модели ошибки
(6.331)
или
.
(6.332)
Уравнение показывает, что ошибка оценки состояния имеет ту же самую динамику, что и наблюдатель состояния исходя их характеристического уравнения:
.
(6.333)
Матрицу G обычно выбирают так, чтобы переходный процесс в наблюдателе закончился быстрее, чем переходный процесс в системе. Эмпирически установлено, что наблюдатель должен обладать быстродействием, в 2–4 раза превышающим быстродействие системы. Можно составить характеристическое уравнение
,
(6.334)
которое соответствует желаемому быстродействию.
Характеристическое уравнение (6.333) имеет вид
.
Из равенств
(6.335)
можно найти элементы матрицы G .
В матричной форме можно воспользоваться правилами размещения собственных чисел на основе задач модального управления, когда требуется для выражения
(6.336)
найти матрицу K,
которая позволила бы иметь матрицу
с набором желаемых собственных чисел.
Для этой цели выполняется преобразование
в форме Фробениуса – Калмана
к матрице S
со столбцами S1,
S2,
Sn,
строящимися по формулам
(6.337)
где n1, …, 1 – коэффициенты характеристического многочлена матрицы А:
pn + n1p n1 + … + 1p + 0.
Использование матрицы S позволяет записать уравнение (6.336) в форме
(6.338)
где
.
Элементы матрицы
вычисляются
(6.339)
и формируют строку
.
Это вытекает из условия, что произведения
и
S1AS
формируют матрицы собственных чисел
матриц
и А.
Матрица
состоит из единичных векторов.
Искомая матрица K находится
.
(6.340)
Применяя данный метод для расчета матрицы G наблюдателя, можно переписать уравнение (6.336) в виде
.
(6.341а)
Правая часть уравнения (6.341) подобна на матричное выражение для наблюдателя из выражения (6.333):
A GC,
что позволяет использовать рассмотренный метод размещения полюсов. Такой же результат можно получить, если использовать подстановку
.
(6.341б)
Тогда уравнение (12) перепишем в виде
(6.342)
или
,
где
.
Исключая G из последних соотношений, имеем
.
(6.343)
Наблюдатель, описываемый уравнениями (6.340), (6.342), (6.343), был получен Люенбергом и поэтому его часто называют наблюдателем Люенберга.
Обычно некоторые из переменных состояния доступны для измерения и, скорее всего, непосредственное измерение переменной будет более точным, нежели оценка переменной с помощью наблюдателя. Тогда размерность вектора состояний наблюдателя будет меньше на число измеренных координат (r) и такой наблюдатель называется редуцированным наблюдателем. Он описывается уравнениями
(6.344)
(6.345)
где V вектор состояний пониженного порядка (n – r). Матрицы N и определяются из уравнения
.
(6.346)
Необходимость этого равенства следует непосредственно из (6.344), если подставить (6.321а), (6.341б).
Матрица S находится из уравнения
, (6.347)
где L – произвольная матрица размера (n r) r.
Достаточно распространенный случай в практике Y X1.
В качестве примера рассмотрим объект управления
В соответствии с (6.344), (6.345) наблюдатель описывается уравнениями
На основе уравнений (6.346) и (6.347) запишем
или
Откуда
В результате запишем
при
11
< 0.
6.14. Экстремальное управление
Цель экстремального управления состоит в обеспечении оптимального, наилучшего в некотором смысле, статического режима работы объекта. Основным критерием оптимальности является обеспечение минимума или максимума заданной функции качества работы объекта при недостаточной априорной информации о характере ее изменений.
В качестве априорной информации может выступать только знание того, что функция качества имеет экстремум. При этом ни количество экстремумов, ни их положение, ни аналитическое выражение функции качества не известно. Таким образом, известно, что в фазовом пространстве существует некоторая изменяющаяся во времени поверхность
I = f(U1, U2, …, Un, t),
определяемая некоторой функцией качества и имеющая один или несколько экстремумов. Система экстремального управления должна вывести и удержать рабочую точку в глобальном экстремуме.
Под влиянием различных возмущающих воздействий экстремальная поверхность может смещаться или, как принято говорить, дрейфовать. Если закон дрейфа известен, то может быть использована следящая система, или система программного управления. При неизвестном законе дрейфа обе системы неспособны обеспечить цель управления и требуется специальная экстремальная система.
Системы экстремального
управления предназначены для стабилизации
координат объекта управления относительно
наперед неизвестных значений
,
,
…,
,
соответствующих экстремальному значению
функции I.
Можно считать, что
задачей экстремального регулятора
такой системы является поиск значений
,
организация движения координат U1,
U2,
…,Un
к экстремальным значениям и удержание
их в экстремальной рабочей точке. В
качестве примеров объектов с экстремальными
характеристиками можно назвать различные
топки, константные и выпарные установки
в химической промышленности, а также
отсадочные и флотационные аппараты.
Так, например, температура топки зависит как от количества сгораемого топлива, так и от количества и температуры подаваемого воздуха. При малом количестве воздуха не полностью сгорает топливо и соответственно снижается количество тепла. При избытке воздуха топливо сгорает полностью, но много тепла уходит на нагрев воздуха и уносится из топки вместе с воздухом. Можно найти такое оптимальное соотношение между количеством топлива и воздуха, когда КПД и температура в топке будут максимальными.
Объекты экстремального управления можно классифицировать по различным признакам, среди этих признаков можно выделить следующие:
число управляющих (оптимизирующих) параметров;
число экстремумов характеристики у объекта;
объём априорной информации об объекте;
инерционность объекта.
Если имеется один управляющий параметр, то экстремальный объект называется однопараметрическим. При большем количестве управляющих параметров – многопараметрическим. Инерционностью экстремального объекта часто пренебрегают, считая главным отслеживание дрейфа экстремума статической характеристики. В связи с этим экстремальные системы часто называют статическими самонастраивающимися системами.
Наиболее исследованы системы экстремального управления однопараметрическими объектами. Для данного класса систем достаточно полно разработаны методы поиска экстремума: измерение производной, запоминание производной, запоминание экстремума, периодический поисковый сигнал.
Метод измерения производной основан на том, что производная dI/dU меняет свой знак при прохождении экстремума. Для измерения производной dI/dU можно измерить dI/dt и dU/dt и затем найти их частное.
Метод запоминания экстремума заключается в использовании разности между текущими и экстремальными значениями функций качества для нахождения момента реверса системы. Для определения экстремального значения функции используется запоминающее устройство, включенное так, что на его вход поступают только положительные (для максимума) или только отрицательные (для минимума) приращения показателя качества. При достижении экстремума система продолжает двигаться в том же направлении. Разность становится отличной от нуля и система реверсирует. В момент реверса производится стирание информации, записанной в запоминающем устройстве.
Метод периодического поискового сигнала синхронного детектирования. Пусть состояние объекта характеризуется значениями I1 и U1 (рис. 6.10, а, б).
а б
Рис. 6.10. Состояние объекта при подаче поискового сигнала
При введении дополнительного синусоидального сигнала из рис. 6.10, б видим, что фаза входных и выходных колебаний сигналов сохраняется при подъеме до экстремального значения I2. При переходе через экстремальную точку в сторону U3 фаза выходного сигнала сдвинута относительно входного на 180. Это условие справедливо для всех U > U2. Таким образом, по сдвигу фаз можно определить направление движения к экстремуму.
Для многопараметрических объектов поиск экстремума значительно сложнее, чем для однопараметрических. Достаточно распространенным является градиентный метод:
,
где k длина шага в направлении градиента, знак определяет поиск минимума () и максимума (+).
Для всех рассмотренных методов поиска экстремальных значений характерны поисковые движения. Поскольку априорная информация об объекте является неполной, то необходимо оценивать устойчивость таких систем. Градиентный метод поиска экстремума обеспечивает устойчивость решения в окрестности экстремальной точки.
Распространенной моделью объекта экстремального регулирования является последовательное соединение безынерционного звена с экстремальной характеристикой с устойчивым инерционным апериодическим звеном первого порядка.
Исследование характера движения такой системы можно выполнить на основе метода припасовывания, или гармонической линеаризации. Если система в установившемся режиме имеет автоколебания, то необходимо исследовать устойчивость такого периодического решения рассмотренными ранее методами в разделе нелинейных систем. При синтезе экстремального управления следует также учитывать влияние помех, которые искажают результаты измерений выхода объекта, а также внешних возмущений, действующих на входы объекта совместно с управляющими воздействиями. Примем, что каждое измеренное состояние объекта, каково бы оно не было, должно быть так использовано для изменения управляющего воздействия, что в пределе выполняются условия
M{I(U, f, )} = min,
где f возмущение на входе; помеха на выходе.
Управляющее воздействие меняется в соответствии с алгоритмом:
где величина Uk изменяется при k = 0, 1, 2, … .
Задачи оптимизации по векторным функционалам качества
Рассмотрим решение таких задач на основе метода М. Е. Салуквадзе. Пусть движение системы описывается векторным дифференциальным уравнением
пространства состояния X(x1, …, xn), вектора допустимых управлений U(u11, …, um) и времени t , = [t0, T]. Пусть задан векторный функционал
I(u) = (x(t), u(t), t)
с компонентами
I(u) = (x(t), u(t), t), ( = 1, 2, …, k).
Предполагается, что все переменные и функционалы приведены к безразмерной форме.
Также заданы концевые значения x(t0) = x0, X(T) = XT, где Т не фиксировано.
С помощью рассмотренных ранее методов для каждого можно определить оптимальное по скалярному функционалу I(u) управление
U = U(X0, XT, t).
Здесь вектор U
имеет компоненты
.
При этом естественно получаются различные
периоды T1,
…, Tk
действия этих управляющих векторов U.
Вычислим значения вектора
I(u){I1(u1), I2(u2), …, Ik(u(k))},
где компоненты I(u) есть числа.
Рассмотрим квадрат евклидовой нормы:
.
Будем говорить, что управление U0(t, X0, XT) оптимизирует векторный функционал, если выполняется неравенство
R(U0) R(U)
для любого допустимого управления U. Такое управление назовём оптимальным по векторному функционалу.
При выборе управления U0 происходит некоторое ухудшение каждого отдельно взятого показателя качества системы I(u), однако это ухудшение распространяется по всему множеству показателей I(u) и является минимально возможным.