Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
TOP-5.doc
Скачиваний:
6
Добавлен:
01.04.2025
Размер:
2.68 Mб
Скачать

§4. Оптимальное управление стохастическими системами

Многие управляемые процессы, встречающиеся на практике, в той или иной мере подвержены влиянию случайных факторов. Рассмотренные ранее задачи оптимального управления были детерминированными, т.е. не учитывали воздействия неизвестных факторов случайного характера. В данном параграфе рассмотрим стохастические управляемые системы с точки зрения применения для них метода динамического программирования. По поводу применения других подходов в некоторых классах задач стохастического управления можно прочитать в книге [36].

Предварительно приведем некоторые необходимые понятия из теории вероятностей.

Определение 5.4. Случайным процессом называется совокупность случайных векторов, определенных на одном и том же вероятностном пространстве.

В данном параграфе мы будем рассматривать случайные процессы двух типов: белые шумы и марковские процессы.

Определение 5.5. Стационарный скалярный случайный процесс будем называть стандартным белым шумом, если он является гауссовским (т.е. любая конечная линейная комбинация , для всех i, является гауссовской случайной величиной) и имеет нулевое среднее значение и дельтообразную корреляционную функцию:

, . (5.59)

Здесь

– математическое ожидание величины при заданной ее плотности вероятности p (числовая характеристика , соответствующая среднему значению этой случайной величины при многократных реализациях),

– дельта-функция Дирака, которая для любой непрерывной функции удовлетворяет равенству

Напомним, что случайная величина имеет гауссовское (нормальное) распределение со средним значением (т.е. математическим ожиданием) и дисперсией , если функция плотности вероятности величины имеет вид:

.

Белый шум представляет собой случайный процесс, чрезвычайно быстро и с бесконечной амплитудой колеблющийся относительно своего среднего значения.

Многомерным обобщением стандартного белого шума является r-мерный вектор случайных функций , компоненты которого , – независимые гауссовские случайные процессы с характеристиками (5.59). Тогда для r-мерного стандартного белого шума вместо (5.59) имеем:

, , (5.60)

где E – единичная матрица.

Теперь мы можем перейти к марковским процессам.

Определение 5.6. Случайный процесс , принимающий значения из некоторого множества (фазового пространства) X, называется марковским или процессом без последействия, если для любых моментов времени из и любого имеет место следующее равенство для условных вероятностей:

. (5.61)

Равенство (5.61) означает, что для марковских процессов вероятности будущих значений полностью определяются последним измеренным состоянием процесса и не зависят от предшествующих состояний (отсутствие последействия). В зависимости от того, являются ли множества значений X и дискретными или непрерывными, различают дискретные марковские последовательности, или цепи Маркова (множества X и дискретны), непрерывные последовательности (множество дискретно, X – непрерывно), дискретные марковские процессы ( непрерывно, X – дискретно). Если же фазовое пространство X непрерывно, а аргумент t случайного процесса может принимать любые значения , то различают два типа марковских процессов: непрерывный (когда все реализации , , с вероятностью 1 – непрерывные функции времени) и чисто разрывный (реализации , – ступенчатые функции, причем моменты и амплитуды скачков – случайные величины).

Существуют и более сложные марковские процессы, являющиеся комбинациями вышеперечисленных.

Ввиду ограниченности объема настоящего пособия, сосредоточимся на непрерывных марковских процессах. Другие случаи можно найти, например, в [19, 36].

Как было сказано выше, непрерывные марковские процессы протекают непрерывно в фазовом пространстве X и во времени. Реализации таких процессов на любом временном интервале являются непрерывными функциями времени с вероятностью 1.

Рассмотрим сначала одномерный (скалярный) непрерывный марковский процесс. Поскольку мгновенное значение процесса – непрерывная случайная величина, то ее вероятностные свойства можно задавать плотностью распределения вероятностей . Аналогично, для описания совокупности мгновенных значений , , ..., используется многомерная плотность распределения . Одномерная плотность при всех t удовлетворяет условию нормировки

.

Многомерные (совместные) плотности, кроме того, удовлетворяют дополнительным условиям симметрии

(где – некоторая перестановка индексов 1, 2, ..., n), а также соотношению

(5.62)

Помимо этого, для марковских процессов справедлива формула об умножении вероятностей для совместной плотности распределения:

(5.63)

Формула (5.63) показывает, что для записи любой многомерной плотности распределения необходимо знать безусловную плотность и условную плотность распределения для любых t и . Функция здесь называется вероятностью перехода. Обозначим ее и будем рассматривать как функцию четырех переменных x, t, y, . Тогда, используя (5.62) и (5.63), можно получить равенство

, ,

которое называется уравнением Маркова или уравнением Смолуховского.

Локальные числовые характеристики случайного процесса (моменты различных порядков для приращения на малом интервале ) зададим соотношениями:

,

, (5.64)

, .

Такой марковский процесс называется диффузионным. Величины и , определяющие , называются коэффициентами сноса и диффузии. Наглядный смысл этих параметров иллюстрируется рис. 5.10, на котором изображены реализации диффузионного процесса , исходящие из точки x в момент времени . Прямая AB указывает направление смещения "центра тяжести" пучка реализаций при t, близких к . Угол между прямой AB и осью абсцисс задается коэффициентом сноса . Коэффициент диффузии при малых определяет скорость увеличения мгновенных значений относительно точек прямой AB, т.е. задает скорость расширения пучка реализаций, исходящих из точки .

Отметим, что условные средние в (5.64) могут быть вычислены интегрированием с вероятностью перехода. Например:

.

Вероятность перехода полностью определяет вероятностные свойства приращения случайного процесса при условии, что . Сама же эта функция может быть найдена с помощью системы дифференциальных уравнений:

, (5.65)

, (5.66)

первое из которых называется обратным уравнением Колмогорова и задает как функцию x и t, а второе – прямым уравнением Колмогорова или уравнением Фоккера-Планка и задает как функцию y и .

Эти уравнения являются линейными уравнениями в частных производных параболического типа. Для выделения их единственного решения нужно указать начальное (для (5.66)) и конечное (для (5.65)) условия, которым вероятность перехода должна удовлетворять при :

,

где используется формальное равенство

для дельта-функции. Кроме того, необходимо учитывать граничные условия. В случае неограниченного фазового пространства X достаточно потребовать ограниченности функции , а в силу условия нормировки должно выполняться и более сильное условие при , . Если же фазовое пространство X ограничено, то дополнительные условия в граничных точках определяются характером фазовых траекторий процесса вблизи этих граничных точек.

Безусловная плотность распределения удовлетворяет уравнению

. (5.67)

Чтобы получить его решение при , необходимо задать начальную плотность и учесть граничные условия. Если , то решение (5.67) представляет собой вероятность перехода , .

Если процесс является n-мерной вектор-функцией времени (фазовое пространство ), то в этом случае характеристики процесса (5.64) задаются вектором коэффициентов сноса с компонентами , , и матрицей коэффициентов диффузии , .

Перейдем теперь к рассмотрению стохастической управляемой системы. Пусть ее движение определяется системой обыкновенных дифференциальных уравнений

, (5.68)

где и – текущие значения вектора фазовых переменных и управлений, r-мерная вектор-функция случайных возмущений, действующих на объект, .

Уравнения типа (5.68), содержащие случайные функции в правой части, называются стохастическими дифференциальными уравнениями. Они обладают рядом специфических особенностей, отличающих их от обычных дифференциальных уравнений аналогичного типа с гладкими детерминированными функциями .

Зададим начальное состояние объекта:

. (5.69)

Мгновенные значения управляющих параметров будем выбирать из заданного множества :

, . (5.70)

В качестве допустимых управлений будем рассматривать измеримые по Лебегу на функции, удовлетворяющие условию (5.70), т.е. . Будем предполагать .

При этом вектор-функция такова, что на отрезке времени решение системы (5.68) существует и единственно при любых возможных начальных состояниях (5.69) и при любых допустимых управлениях (5.70) (см. §1 раздела 3). Решение системы (5.68), таким образом, будет случайным процессом, статистические характеристики которого определяются свойствами случайных функций .

Целевой функционал рассмотрим в виде

. (5.71)

Систему стохастических дифференциальных уравнений (5.68), описывающих динамику управляемого объекта, как показано в [19], можно представить в форме:

. (5.72)

с непрерывно дифференцируемыми по всем аргументам функциями a, в правой части.

Случайный процесс , , называется решением системы стохастических дифференциальных уравнений (5.72), удовлетворяющим начальному условию (5.69) и соответствующим управлению , если для любого справедливо следующее интегральное представление:

, (5.73)

где – гауссовский случайный процесс, такой что – стандартный белый шум с характеристиками (5.60). Этот процесс называется броуновским движением или винеровским случайным процессом. Его реализации с вероятностью 1 – непрерывные, хотя и нигде не дифференцируемые функции времени. Тогда является марковским процессом диффузионного типа с вектором коэффициентов сноса:

, , (5.74)

и матрицей коэффициентов диффузии:

. (5.75)

В правой части (5.73) присутствуют интегралы от случайных функций – стохастические интегралы. Для их задания можно, как и для обычных (нестохастических) интегралов, использовать формулы:

, (5.76)

. (5.77)

Здесь , .

Пределы в (5.76), (5.77) существуют и определение стохастических интегралов этими формулами корректно, если:

1) случайные функции и равномерно непрерывны в среднеквадратичном на отрезке , т.е.

равномерно по (аналогично для );

2) функции , интегрируемы с квадратом, точнее,

, ;

3) предел в (5.76), (5.77) понимается как среднеквадратичный (случайная величина называется среднеквадратичным пределом последовательности случайных величин , если при ).

Для поиска оптимального решения стохастических задач оптимального управления в качестве основного используется метод динамического программирования, подробно рассмотренный нами ранее (см. раздел 4 или §2 данного раздела). Изложим кратко его сущность применительно к стохастическому случаю.

Заметим сразу, что метод динамического программирования целесообразно использовать именно в тех случаях, когда управляемый процесс является марковским, т.е. когда будущие состояния системы (а точнее, их вероятности) полностью определяются текущими значениями вектора фазовых переменных.

Рассмотрим задачу оптимального управления, заданную условиями (5.69)-(5.72). Перепишем эти соотношения вместе:

, ,

,

, ,

.

Пусть – открытое множество, содержащее значение . Через обозначим замкнутое подмножество границы , такое, что с вероятностью 1 при любом начальном значении и при любом допустимом управлении .

Введем функцию Беллмана:

. (5.78)

Она равна минимальному значению критерия оптимальности (5.71) при условии, что процесс управления рассматривается на отрезке времени , , а начальные значения фазовых переменных (в момент времени t) равны . Минимум в (5.78) берется по всевозможным управлениям , , при условии, что эти функции принимают значения из допустимого множества U (допустимые управления). При этом фазовые переменные , , выступают в качестве параметра, поэтому управление, применяемое в каждый момент времени t, имеет вид позиционного (синтезирующего) управления:

.

Допустимое управление , доставляющее минимум правой части (5.78), является оптимальным синтезирующим управлением. Оптимальному управлению , , соответствует минимальное значение критерия оптимальности (5.71), причем

, (5.79)

. (5.80)

Основу метода динамического программирования составляет упоминавшийся ранее принцип оптимальности Беллмана, в соответствии с которым для любого функция удовлетворяет функциональному уравнению:

. (5.81)

Уравнение (5.81) позволяет получить дифференциальное уравнение для нахождения функции Беллмана. Для этого положим в (5.81) , где  – малое положительное число:

. (5.82)

В силу непрерывности реализаций диффузионного управляемого процесса приращение является малой величиной. Учитывая это, а также предполагая, что функция Беллмана непрерывно дифференцируема по времени и дважды непрерывно дифференцируема по фазовым переменным x, для функции можно записать разложение Тейлора:

(5.83)

где все производные функции Беллмана вычисляются в точке .

Запишем первое слагаемое в скобках правой части (5.82) в виде:

(5.84)

и подставим (5.83), (5.84) в (5.82). Далее произведем усреднение выражений, содержащих приращения , т.е. найдем их математическое ожидание. При этом считаем, что функция V и все ее производные в (5.83) являются константами, так как они зависят от , а математическое ожидание в (5.82) вычисляется при условии, что имеет известное фиксированное значение.

Средние значения приращений могут быть вычислены с помощью выражений (5.64). Действительно, полагая управление на малом интервале фиксированным и постоянным ( ), получаем, что при уравнение (5.72) определяет марковский процесс , для которого можно записать:

, (5.85)

где – вектор коэффициентов сноса этого процесса. Далее, воспользовавшись соотношением (5.74), можем найти компоненты этого вектора:

(5.86)

( ).

Аналогичным образом из (5.75) имеем:

, (5.87)

где

. (5.88)

С учетом (5.85)-(5.88) результат подстановки (5.83), (5.84) в (5.82) можно записать в виде:

(5.89)

где означает след матрицы .

Вынеся за знак минимума в правой части (5.89) слагаемые, не зависящие от управления , поделим это соотношение на  и перейдем к пределу при . В результате получим следующее дифференциальное уравнение для функции :

(5.90)

Уравнение (5.90) называется уравнением Беллмана (сравните с (4.10)).

Теорема 5.10. Пусть является решением уравнения (5.90) с граничным условием (5.80), причем , , функция V дважды непрерывно дифференцируема на Q и непрерывна на замыкании этого множества. Тогда:

a) для любого допустимого позиционного управления и начального значения ;

b) если – допустимое позиционное управление, для которого

при всех , то , т.е. управление оптимально.

Доказательство этой теоремы в полном объеме можно найти, например, в [36].

Таким образом, теорема 5.10 сводит проблему нахождения оптимального стохастического управления к двум задачам. Первая – это решение нелинейного уравнения второго порядка в частных производных (5.90) с граничным условием (5.80) и отыскание функции Беллмана. Если функция Беллмана найдена, тогда выражение в скобках в (5.90) становится известной функцией t, x, u. Вторая задача состоит в построении управления путем нахождения минимума в (5.90) при каждых . В результате получаем оптимальное синтезирующее управление .

Основная трудность при этом заключается в необходимости решения уравнения Беллмана, которое является уравнением с частными производными второго порядка параболического типа. Операция минимизации в (5.90) приводит к его нелинейности относительно компонент вектора частных производных ; характер этой нелинейности зависит от конкретного вида функций , , .

Пример 5.8. Пусть состояния рассматриваемой системы описываются стохастическим дифференциальным уравнением

,

где управление является двумерным вектором . При этом

, .

Задача состоит в максимизации критерия:

,

где G – заданная функция, .

Забудем на некоторое время об ограничениях, накладываемых на управления , . Тогда уравнение динамического программирования примет вид:

(5.91)

где и . Оптимальное управление получится, если максимизировать выражение в скобках, рассматривая его как функцию от . Произведя необходимые вычисления, получим:

, .

Предположим, что , , и найдем решение V уравнения (5.91), для которого , при . Тогда , . Из теоремы 5.10 будет следовать, что задача решена при ограничениях , . Если при этом окажется, что , то это будет означать решение исходной задачи при ограничениях , .

Чтобы получить явное решение, выберем функцию вида при . Будем искать функции V, , в следующем виде:

,

, .

Подставив эти выражения в (5.91) и проделав вычисления, получим:

, где .

Так как равенство выполнено для всех , то выражение в скобках равно нулю.

С помощью замены это уравнение сводится к линейному дифференциальному уравнению относительно h вида

,

решая которое, получаем:

,

откуда

.

В этом примере оптимальное управление постоянно, а является линейной функцией x. Если , то , что дает решение исходной задачи.

Из сказанного выше следует, что метод динамического программирования позволяет свести задачу построения оптимального управления к задаче решения некоторого нелинейного дифференциального уравнения – уравнения Беллмана. Поэтому при конкретном использовании данного метода первостепенную важность приобретает вопрос о практической возможности решения уравнения Беллмана.

Обычно это является сложной задачей. Универсальных методов здесь не существует, хотя в некоторых частных случаях и удается получить явный вид решения. На практике для решения уравнений Беллмана используют различные методы, каждый из которых применим лишь для определенного класса задач синтеза, характеризующегося специфическими особенностями уравнений динамики управляемого объекта, критерия качества, характера случайных воздействий и т.д.

Все эти методы условно можно разбить на три основные группы: точные, численные и приближенные [19]. Для точных методов характерны довольно жесткие требования к условиям задачи синтеза, которые не всегда выполняются на практике. Например, уравнение Беллмана допускает точное решение, когда выполнены следующие условия:

  1. уравнения динамики управляемого объекта линейны;

  2. в критерии качества (5.71) подынтегральные функции квадратичны;

  3. случайные воздействия на систему являются гауссовскими марковскими процессами либо белыми шумами;

  4. ограничесния на управления и фазовые координаты отсутствуют.

Получение точных решений задач синтеза представляет большой теоретический и практический интерес. Однако это удается сделать лишь в исключительных случаях.

Значительно большей универсальностью обладают численные методы решения уравнения Беллмана. Например, для параболических уравнений Беллмана, аналогичных (5.90), можно использовать различные методы конечных разностей (сеток). Однако численные методы нельзя считать вполне достаточными для практического решения задач синтеза. Так, они не позволяют получать решения уравнений Беллмана большой размерности. Кроме того, стандартные методы конечных разностей позволяют находить решение только в ограниченной области изменения аргументов функции Беллмана. В то же время многие задачи синтеза сводятся к задачам Коши, когда функция Беллмана определена в неограниченном фазовом пространстве. В этом случае для применения численных методов возникает необходимость в дополнительном исследовании априорных асимптотических свойств функции Беллмана на бесконечности. Помимо этого, известны трудности численного исследования зависимости решения от параметров задачи, а также другие проблемы в применении численных методов.

Приближенные методы решения уравнения Беллмана (и задач синтеза) основываются на асимптотическом разложении функции Беллмана и закона движения по степеням малого параметра, присутствующего в задаче. При этом метод построения приближенного решения существенно зависит от того, какой именно параметр можно считать малым: коэффициенты диффузии, величины управляющих воздействий, дисперсии неизвестных коэффициентов уравнений движения и др.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]