
- •Глава 2. Sdre-метод синтеза управляющих воздействий
- •§ 2.1. Постановка задачи
- •§ 2.2. Дифференциальная игра: общее решение
- •§ 2.3. Оптимальные стратегии дифференциальной игры
- •§ 2.4. Анализ устойчивости по Ляпунову
- •§ 2.6. Структура регулятора
- •§ 2.7. Существование sdre стабилизирующего управления
- •§ 2.8. Анализ локальной оптимальности дифференциальной игры
- •§ 2.9. Множество стабилизирующих управлений
- •§ 2.10. Выводы
Глава 2. Sdre-метод синтеза управляющих воздействий
§ 2.1. Постановка задачи
Проблема управления линейными объектами (Linear Quadratic Regulator, LQR) в различных постановках с квадратичными критериями качества с постоянными матрицами штрафа хорошо изучена, и разработанные алгоритмы математического конструирования регуляторов широко используются при решении практических задач. В основе синтеза оптимальных управлений лежат, в зависимости от задачи, дифференциальное или алгебраическое уравнения Риккати (Differential Riccati Equations, DRE; Algebraic Riccati Equations, ARE). Теоретические основы решения линейно-квадратических задач в ряде случаев могут быть применены при синтезе управляющих воздействий для нелинейных систем.
Одним из многообещающих и быстро развивающихся методов для проектирования нелинейных регуляторов является уравнение Риккати, параметры которого зависят от состояния объекта и матриц штрафа функционала качества (State Dependent Riccati Equations, SDRE). Впервые проблема управления нелинейными объектами с их эквивалентном представлением в виде линейных моделей (State Dependent Coefficient, SDC) с параметрами, зависящими от состояния, и функционалами, матрицы штрафа которых также зависят от состояния объекта, была сформулирована в начале 60-ых годов 20-го столетия [41]. Разработка предложенного метода была продолжена в работах [38, 39]. С конца 90-х годов метод привлекает все большее внимание со стороны ученых и практиков.
Преобразование исходного нелинейного дифференциального уравнения, которое описывает исходную систему управления, в систему с линейной структурой, но с параметрами, зависящими от состояния, и использование квадратичного функционала качества позволяют при синтезе управления осуществить переход от уравнения Гамильтона-Якоби-Беллмана к уравнению типа Риккати с параметрами, зависящими от состояния. Это и составляет основу SDRE-метода синтеза оптимальных нелинейных систем управления.
К концу первой декады 21-го столетия появилось не только многообразие опубликованных теоретических работ, но и примеры успешного использования SDRE-метода при построении систем управления подвижными объектами, производственными и экологическими системами. К этим примерам относятся решения задач управления искусственной человеческой поджелудочной железой, контроля положения космического корабля, химического реактора и многие другие.
В рамках 17-го Симпозиума IFAC по Автоматическому управлению в Космосе 2007 (Тулуза, Франция) была организована специальная секция, на которой обсуждалось состояние и перспективы развития теории и практики SDRE-метода проектирования управлением нелинейными объектами [22, 28, 37]. Работы, в которых рассматривались вопросы применения этого метода, можно увидеть и среди докладов 17 (2008, Сеул) и 18 (2011, Милан) конгрессах IFAC.
Несмотря на имеющиеся достаточно убедительные примеры применения SDRE-метода, остается множество проблем, связанных с ограничениями, накладываемыми на систему, неоднозначностью эквивалентных преобразований исходной системы, построение эффективных алгоритмов решений матричных уравнений Риккати с параметрами, зависящими от состояния, в темпе функционирования системы управления.
В данной книге задача управления нелинейным объектом, подвергающимся воздействию неконтролируемых возмущений, будет рассматриваться в более общем виде, а именно в ключе дифференциальной игры, что позволит обобщить ряд ранее опубликованных теоретических результатов. Это позволит получить достаточно конструктивные решения в ряде постановок задач управления. Такой класс задач принято относить к управлениям с гарантирующим результатом.
Пусть нелинейный управляемый и наблюдаемый объект описывается векторным дифференциальным уравнением
(2.1)
Здесь
−
интервал
;
−область
(открытое связанное множество)
,
содержащая начало;
−состояние системы;
,
−
область возможных начальных состояний
системы;
− выход системы;
−управление,
подлежащее нахождению;
−неизвестное
возмущение; матрицы
действительны и непрерывны. Предполагается,
что при всех
пары
и
являются управляемыми, пара
наблюдаемой. Кроме того, функции
будем предполагать достаточно гладкими,
чтобы через любые
проходило одно и только одно решение
(2.1)
и был бы единственный соответствующий
выход системы
.
Рассматривая
задачу синтеза закона управления, как
дифференциальную игру двух игроков
и
на
,
введем функционал
(2.2)
Матрицы
могут быть положительно полуопределенными;
матрицы
−
положительно определенные. Дополнительным
требованием является требование
детектируемости. Предположим, что пара
детектируема при всех
.
Требования к значениям параметров
матриц
будут определены далее.
Задача заключается
в построении для игроков
и
оптимальных стратегий с обратной связью,
реализуемых в темпе функционирования
объекта. Ограничения на управляющие
воздействия учитываются при назначении
матриц
и
.