- •7.5. Основные результаты раздела
- •8. Стохастические оптимальные системы
- •8.1. Метод динамического программирования
- •Достаточное условие оптимальности.
- •8.2. Синтез оптимальной системы при полной информации о состоянии
- •8.3. Синтез оптимальных систем управления при неполной информации
- •Наблюдатель Калмана - Бьюси
- •Наблюдатель при цветном шуме объекта
- •Наблюдатель при цветном шуме наблюдения
- •8.4. Стохастическая линейная оптимальная система управления при неполной информации. Принцип разделимости
- •8.5. Основные результаты раздела
- •9. Оптимальные дискретные системы
- •9.1. Синтез оптимальной линейной системы при квадратичном критерии
- •9.2. Стохастическая оптимальная линейная система при полной информации о состоянии
- •9.3. Наблюдатель (фильтр) Калмана
- •9.4. Стохастическая система управления при неполной информации
- •Приложение 1 п1. Функционал и его экстремумы
- •Приложение 2 п2. Матрицы. Дополнительные сведения
- •Характеристическая матрица, характеристические уравнения и собственные значения
8. Стохастические оптимальные системы
В стохастических системах управления невозможно предсказать ход протекания процесса по известным управлению и начальному состоянию, так как он зависит еще и от случайных воздействий. Поэтому возможности управления такими системами существенно зависят от информации, получаемой путем измерения и обработки выходной переменной. Задача синтеза стохастической оптимальной системы в общем случае ставится следующим образом. Задаются дифференциальные уравнения объекта, ограничения, краевые условия, уравнения наблюдения, критерий оптимальности и характеристики случайных воздействий и параметров. Требуется найти управление как функцию от измеренных значений выходной переменной на интервале .
Для решения стохастических задач оптимального управления разработаны методы синтеза, основанные на сведении стохастических задач оптимального управления к задачам оптимальной оценки состояния и синтеза детерминированной оптимальной системы управления.
8.1. Метод динамического программирования
Пусть объект описывается уравнением
, (8.1)
где – белый шум с характеристиками
;
, (8.2)
где – означает математическое ожидание величины, - дельта функция Дирака.
При условии, что и , требуется найти допустимое управление , при котором критерий оптимальности
(8.3)
принимает минимальное значение.
Итак, случайное воздействие является белым шумом и входит в уравнение объекта аддитивно; ограничение на правый конец траектории отсутствует, фазовый вектор измеряется полностью и без помех. В этой задаче является марковским процессом (так как случайное воздействие – белый шум), и все будущие состояния полностью определяются начальным состоянием и управлением . Поэтому оптимальное управление должно быть функцией только от текущего состояния и, может быть, времени для нестационарных систем. Здесь имеется в виду, что управление является допустимым, если функция кусочно непрерывна и принимает значения из .
Кроме того, предполагается, что уравнение
при каждом фиксированном имеет единственное решение на интервале . Функции , и предполагаются непрерывными.
Пусть в момент времени фазовый вектор принимает определенное значение. Обозначим значение функционала (8.3) при , указанном значении и некотором фиксированном управлении :
,
где - условное математическое ожидание величины а при реализации в.
Минимальное значение этого функционала
по определению есть функция Беллмана.
Представим функцию Беллмана в виде
или
. (8.4)
Используем свойство условного математического ожидания
.
Учитывая это свойство, можно записать
.
Подставив это выражение в (8.4) и используя принцип оптимальности, получим
Преобразуем последнее слагаемое
.
Следовательно,
(8.5)
Воспользуемся разложением в ряд Тейлора-Маклорена до членов второго порядка. При этом учтем, что при разложении скалярной функции от векторного аргумента x мы имеем
.
Тогда
Используем теперь уравнение (8.1) в приращениях
,
которое можно подставить в выражение для :
Заметим, что
,
где каждое слагаемое с очевидностью равно нулю по условию.
Кроме того, для анализа поведения рассмотрим уравнение диффузии ( - коэффициент диффузии)
с начальным условием , где - функция Дирака, которая устанавливает, что при начальная дисперсия распределения равна нулю. Решение этой задачи есть функция
,
т.е. нормальное распределение, дисперсия которого, как видно из формулы пропорциональна . Тогда в нашем случае .
Таким образом, вычисляя математическое ожидание от мы должны сохранить член (т.к. он ), а все члены, пропорциональные и , отбросить, т.к. они более высокого порядка малости, чем , и отбросить члены, линейные относительно (т.к. напоминаем ). Тогда можно записать
Подставив это в выражение (8.5), и перенося слева в выражение под знак min, получим:
(8.6)
Если для двухмерного случая положить
,
,
где , то
.
Это в точности равно выражению
,
где (или ) - след матрицы, равный сумме диагональных элементов итоговой матрицы.
Тогда, учитывая, что , можем записать
.
Подставив полученное выражение в (8.6) и разделив на , и устремив , получим
. (8.7)
Если множество открыто и минимум левой части уравнения (8.7) достигается во внутренней точке , то уравнение Беллмана можно представить в виде системы уравнений:
, (8.8)
. (8.9)