Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Методы оптимизации в статистических задачах управления

..pdf
Скачиваний:
19
Добавлен:
20.10.2023
Размер:
8.04 Mб
Скачать

14. Пример построения оптимальной последовательной процедуры определения экстремума функции

Рассмотрим пример выбора точек проведения экспериментов. Пусть имеется два тела, веса которых сг и с2 случайны, рас­ пределены по нормальному закону и имеют следующие параме­

тры распределения: ml, ml, Ѳ?і, Ѳ?2, Ѳ22. Имеется возможность производить дополнительные взвешивания тел с целью уточне­ ния значений веса. Требуется определить последовательность проведения взвешиваний из условия максимума среднего веса выбранного тела, если разрешено провести всего N взвешиваний.

Поставленная задача может приобрести больший практиче­ ский интерес, если весам тел поставить в соответствие размеры месторождений, а операциям взвешивания — процедуру дораз­ ведки.

Рассматриваемая задача является частным случаем задачи предыдущего параграфа. Максимизация производится на двух­ точечном множестве D = {1, 2}.

Функция

F (х) = c j t (х) + с2/ 2 (*),

где f x (л:) и / 2 (х) задаются следующим образом:

h (О = 1, fi (2) = 0;

М 1) = 0 , / а (2) = 1.

Пусть ошибка взвешивания тела 1 имеет дисперсию о!,

атела II — а\.

Врассматриваемом случае

ф (т^, т1?, Ѳи, ЭЙ, Ѳ22) = max {mf, т Л = 5 о ( т , Ѳ).

Используя соотношения (335) для і — I, определим S x {mN~l ,

0ЛГ-1):

S l (mN~1, Ѳ^-1) — max/Vf Гшах {пц +

m2 A/n^-1}"], (337)

*€ {1,2}

 

где

 

ѲѴ (x) at.+1

 

Am1

 

V f (X) & Ң х ) + о 2 (х)

Учитывая то, что 8k — центрированная случайная величина, преобразуем выражение (337) следующим образом:

J V - 1

зіѴ-1 ^ _

max M [m2

1 +

1 ■

Si (т'

ѳ*

 

 

 

 

*<={!; 2}

 

 

l~ max \rni~1

ЛГ—1

■Ami~l -

Aт%~\

0)] =

■m2

 

10*

147

= т?

1+ птах AI [max {mf

1—

 

 

*C{1; 2}

 

 

- rri2~l + Am?-1 - Am?-1,

0}].

( 338)

Анализируя соотношение (338), нетрудно увидеть, что точка

xN, максимизирующая

функцию «Sx (mN~l ,

Ѳ^-1),

не зависит

от mN~l и определяется однозначно Ѳ^-1. Причем максимум достигается при условии максимума дисперсии случайной вели­ чины Дш^-1 — Аm g - 1. Совершенно аналогично можно полу­

чить выражение для функции 5 3 (mN~2, Ѳ^-2):

S2 (mN~2, Ѳ'ѵ- 2) = max М [т?~2+

лг<=(1; 2)

+Ат ?-2+ Af [max {т?-2т ?-2 +

+Ат ?-1 — Аm g-1+ Ат?~2— Аmg~2, 0)j] —

=m g-2-f- M [max {m?~2m g-2-f

-(- Am ?-1— Am g-1 -j- Am?~2— Am g-2, 0)J.

Как и при нахождении 5 Х, точка xN л , максимизирующая S2, определяется матрицей Ѳ^-2 , причем максимум достигается при условии максимума дисперсии случайной величины

Am g -1 Am g-1 Am?-2 Amg-2.

Проводя далее аналогичные рассуждения, можно показать, что оптимальные точки проведения эксперимента х1, х2, . . ., xN могут быть получены из условия максимума дисперсии случай­ ной величины

■ A m ^ — Amg-f- A m ^ - 1 — Amg-1+ • • • + Am\— А m\.

Таким образом, задача выбора оптимальных точек экспери­ ментов свелась к выбору оптимального управления в следующей детерминированной задаче:

Ѳ 7 ( * г+1)/* ( * * + * ) Ѳ*

f (х1+1) Ѳ17 (* і+ 1 ) + а2 (X)

(339)

Требуется выбрать последовательность точек х1 из условия

максимума параметра DN. Характерной особенностью этой задачи является неоднозначность решения, которая обусловлена тем,

что параметр DN определяется только числом точек х1, при кото­ рых X1 = 1, но не зависит от последовательности чередования

148

точек x*l = 1 и xl = 2. Однако, исследуя оптимальную за­ дачу (339), можно показать, что одно из оптимальных решений будет получено, если на каждом k-м шаге выбирать точку наблю­ дения хк из условия максимума величины

/*(х )Ѳ * -Ѵ (* ) + о2 (х) '

Это свойство дает достаточно простой способ определения опти­ мальной точки наблюдения хк.

Такому способу выбора точки хк соответствует следующее толкование. На каждом шаге точка наблюдения хк выбирается так же, как она выбиралась бы, если k-e измерение было бы последним. В этом случае, как было показано выше, хк опреде­ ляется из условия максимума дисперсии

D [Ат*-1 — Ат%~г] =

efrVt(*)+ ѳ?2-у2(X) - ві гЧі (*) -

ѳ2ѴѴ2 (*)

~ /і W ѲіГ1 +

2/j (х) / 2 (X) Ѳ^-1 + ѲІ^ІІ(х) + с2 ( X ) '

В рассмотренном

примере оптимальная

стратегия такова,

что планирование каждого эксперимента производится в пред­ положении, что данный эксперимент последний. Это обстоятель­ ство существенно упростило реализацию оптимального правила.

Приведенный пример позволяет надеяться, что и в общей задаче (335) предположение о том, что настоящий эксперимент является последним, не приведет к большой потере эффективности метода. В соответствии с этим предлагается следующий квази­ оптимальный алгоритм минимизации функции в постановке задачи (335):

1. На основании априорных статистических характеристик вектора с определяем I «перспективных» точек, т. е. точек, подо­ зреваемых на экстремум (I — целочисленный параметр метода). Выбор перспективных точек z1, z2, . . ., zl производится эвристи­ ческим или каким-либо формализованным методом. Например, возможен метод случайного сканирования, т. е. замена случай­ ного вектора с детерминированным вектором математического

ожидания

т°.

Перспективные

точки вводятся для

упрощения

алгоритма.

С

их

помощью

процедуру

минимизации равен­

ства (335)

по

вектору х £ D предлагается

свести к

процедуре

минимизации на дискретном множестве z1,

z2, . . .,

zl.

2. Выбираем точку эксперимента на первом шаге из условия

минимума

по точке

эксперимента х1 £ D выражения

 

 

min М

т° +

Ѳ°/ (х1)бі

f(zl)

(340)

 

 

V f* (х1) Ѳ<7 (xij + öH*1)

149

Таким образом, выбор точки х1 сводится к решению сложной задачи стохастического нелинейного программирования. Суще­ ственно, что для ее решения не требуется производить экспери­ ментов с системой, т. е. вычислять значение F (х).

Эта задача существенно упрощается, если / = 2. В этом слу­ чае, аналогично примеру, рассмотренному в настоящем пара­ графе, точка X 1 , минимизирующая выражение (340), может быть определена из условия максимума дисперсии разности апосте­ риорных средних значений функции в точках z1 и z2. Отсюда следует, что точка х1 может быть определена из условия макси­ мума по X 1 С D выражения дисперсии

D [К (г1) — F (z2)] =

[/*

(X1) 9 ° ( f ( z i ) - / ( z 2))P

(341)

/ *

( X 1) Ѳ О Д Х О + О 2 (.X1)

 

 

Максимизация выражения (341) существенно проще, так как в нем отсутствует операция вычисления математического ожи­ дания.

3. После проведения первого эксперимента (выбора точки х1) производится уточнение статистических характеристик вектора с

и в соответствии с ним выбор новой системы I перспективных точек. Далее этот процесс повторяется.

Приведенный алгоритм был применен для минимизации ква­ дратичной функции одной переменной при различных диспер­ сиях ее параметров. В процессе применения алгоритма было принято I = 2. Перспективные точки г1 и z2 определялись из условия

z1

т2

Щ

2т3 + Р\

2т3 — Р,

где т 2 и т3— средние значения коэффициентов при х1 и х2 для минимизируемой квадратичной функции; р — параметр, опре­ деляющий смещение перспективных точек относительно точки экстремума (в данном случае было принято р = 1).

Эффективность метода определялась по методу Монте-Карло. Сравнение полученных результатов метода с результатами при­ менения стохастической аппроксимации при оптимальном выборе размера шага (см. п. 11, гл. Ill) показали, что квазиоптимальный метод оказывается более эффективным, чем метод стохастической аппроксимации, причем разница тем более заметна, чем больше степень неопределенности относительно второй производной мини­ мизируемой квадратичной функции.

в виде блок-схемы, показанной на рис. 38. Объект управления с выходными координатами, объединенными в вектор х, подвер­ гается внешнему воздействию г, шумовым возмущениям | и упра­ вляющему воздействию и. Управление и вырабатывается на основании располагаемой информации о состоянии объекта упра­ вления х. Эта информация содержится в измерениях у, которые в общем случае проводятся на фоне помех гр Это означает, что устройство управления должно вырабатывать управляющее воз­ действие совместно с обработкой данных о состоянии объекта.
Задание структуры системы управления здесь понимается как задание аналитического описания всех блоков с точностью до значений параметров. При проектировании системы такие параметры могут быть не конкретизированы в уравнениях изме­ рителя, блока обработки данных и регулятора.
Возможен иной подход к проблеме расчета оптимальной стохастической системы управления. Здесь изложен один из мето­ дов аналитического проектирования, который позволяет опреде­ лить структуру системы управления, а именно — стохастическое динамическое программирование.
Кроме того, в этой главе рассмот­ рен вопрос об оптимальной обра­ ботке данных, тесно связанный с задачей аналитического проек­ тирования стохастического управ­ ления.
Метод динамического програм­ мирования развит Веллманом и
другими авторами, которые рас­ Рис. 38. Блок-схема]системы управ­ сматривали математическое обо- ления
151

Г Л А В А IV

ПРИМЕНЕНИЕ МЕТОДА ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ

ВЗАДАЧАХ СТОХАСТИЧЕСКОГО УПРАВЛЕНИЯ

I. Оптимизация управления при точном измерении фазовых координат объекта

В предыдущих главах изложены методы приближенного рас­ чета стохастических систем управления. Применение этих мето­ дов позволяет выбрать близкие к оптимальным значения неко­ торых свободных параметров в системе при жестком задании ее структуры. Систему управления с обратной связью, работающую

вусловиях случайных воздействий и помех, можно представить

снование метода, его приложение к решению задач дуального управления и ряд других вопросов [12, 13, 17, 91, 101].

Изложим постановку задачи стохастического оптимального управления в случае точного измерения фазовых координат объ­ екта. Объект управления задан системой дифференциальных урав­ нений:

* = f{t, X, u) + G (t) g (0,

(342)

где X— вектор выходных координат объекта п измерений; и вектор управляющих воздействий q измерений; / (t, х, и) вектор-функция п измерения; G (t) — матрица переменных коэф­ фициентов размерности [п, т]\ | (t) — вектор т измерений воз­ мущающих воздействий на объект, представляющий собой нор­ мально распределенный «белый» шум с характеристиками

 

 

М \

) = 0;

 

 

 

M l (t,) l* (t2)

= Q (^ )6 ( t , - t2).

 

Задача

состоит в выборе такого управления и (т),

[0, Г]

из множества допустимых управлений V, которое минимизирует

показатель

/,

определяемый

выражением

 

/

=

М | | ф [т, X (т), и (т)] dx + X [Т, X (Т)]|.

(344)

Рассмотренный здесь нелинейный объект управления является наиболее типичным для практических задач. Однако в класс объектов, описываемых уравнением (342), не включены объекты, в которых интенсивность шумовых возмущений зависит от состоя­ ния объекта, в частности, объекты с мультипликативной помехой. Одна из задач этого типа будет рассмотрена в гл. V. Кроме того, в рассматриваемый класс объектов не включены объекты, у кото­ рых некоторые из фазовых координат представляют собой раз­ рывные случайные процессы [156]. Такие объекты представляют интерес, например, в задачах надежности.

Характер возмущений | (t) [см. формулу (343)], действующих на объект, таков, что вектор фазовых координат х (t) образует марковский процесс диффузионного типа (см. п. 4 гл. I).

Управление, как правило, реализуется в схеме с обратной связью. Это означает, что желательно найти управление как функцию текущих фазовых координат объекта:

и =

и (t,' X (t)).

(345)

Отсутствие в выражении

(345) зависимости от значений

век­

тора X (т) при т < і, т. е. безынерционный характер регулятора, следует из марковского свойства вектора х (і). Метод динамиче­ ского программирования позволяет определить оптимальное упра­ вление в виде функции фазового состояния объекта, что чрезвы­ чайно удобно при реализации проектируемой системы.

152

Перейдем к изложению метода динамического программирова­ ния. Пусть в момент времени t система находится в состоянии X (t) = X . Составляющая критерия оптимальности (344), связан­ ная с процессом управления на интервале времени [(, Т] при некотором управлении и (т, х (т)), т £ Н, Т ] оцениваются величиной

Wt = .М I |ф [т, X (т), и (т)] dx + Я [Г, х (Т) ] j х (t) = x j, (346)

которую в дальнейшем будем называть оставшимися потерями. Выражение (346) представляет собой условное математическое ожидание относительно текущего состояния вектора х (/). Остав­ шиеся потери (346) зависят от момента времени t, состояния

объекта х и принятого

закона управления и (т),

U, Т], т. е.

Wt = W

it, X , и (т), т elf, TU.

(347)

Минимальное значение Wt, достигаемое при оптимальном управлении, будет называться функцией Веллмана W0:

W0(t,

х) — min

W[t, X , и (т),

т б К, Г]] =

 

и (x)^-U

 

 

 

*(=[<■ П

 

 

= min М (

[ ф [т, X(т),

и (т)] dx -f к[Т,

х (Т)] | х (t) = х ]. (348)

u{t)£U I/

 

J

T £ l t , TI

В соответствии с принципом Веллмана в произвольный мо­ мент времени t управление должно выбираться таким, чтобы минимизировать оставшиеся потери. Оно не зависит от предше­ ствующих моменту t управлений и от пути достижения век­ тором X (т), X £ [0, t] состояния X в момент t. Этот принцип поло­ жен в основу вывода уравнения, которому удовлетворяет функция Веллмана W0 (t, х).

Предполагая кусочную непрерывность функции ф (т, х, и) по аргументам т, х, и и управления и (т, х) по аргументам т, х, представим функцию Веллмана (348) в следующей форме:

[ Ч А

 

W, (t,

х) — min М\

ф [т, X (т) и (т)] dx +

 

 

Ы(т)£С/ (

І

 

 

, т £ [< ,П

 

Т

 

 

 

+ I

ф [т,

X (т), и (т)] dx] dx + К[Т, х (Г)] \x(t) — x

А

А

 

 

= min

I ф [t, X , и fO]А + о (А) + М

и )£ U

I

153

+ min

м \ [ <р[т,

X

(т), и (т)] d t -{-Ä, [Г,

x(T)\x(t) = * ||,

и ( т ) £ и

U + Д

 

 

 

х^[;+д,г]

 

 

 

 

 

 

 

о(Л) А

(349)

где

 

 

 

 

 

lim- ѵ. ' == 0.

 

 

 

 

д->о

 

Процесс

усреднения

в

выражении (349)

можно производить

вдва этапа:

м| J <р [т, X (т), и (т)] dx + X [Т, X (Т)] I X (t) = *J =

= М ( fф [т, л: (т), и (т)] dx + Я, [Т , х (7)] | л: (t + Д) =

II t + A

=г/| (/)= д:| = М [W[t + А, у, и( т), т 6 V + А, T]]\x{f)= х).

(350)

Это соответствует применению обобщенного уравнения Мар­ кова для процесса х (t):

р (т, г \ и х) =

СО Idyp (т, г \ t

+

А, у)

p (t + А, у \ t, х)

 

 

•—СО

 

 

 

для / <« £ +

А << т.

 

 

 

 

Применяя соотношения (348), (350) к формуле (349), а также

полагая и (t)

= и, получим следующее выражение для функции

Веллмана:

 

 

 

 

 

 

Wо (t,

х) = min {ф(t,

X ,

и) А +

о (А) -)-

 

 

u£U {

 

 

 

 

+ min

M{№[^ + A,

у,

и (т),

т £ [*+

u(x)^U

т£ [ 1 + Д , Г ]

+А, 7’]] I л: (^) = л:}} = min (г1, х, и) Д +

+ о(А) + М {Г 0(* + А, у)\х(і) = х)\.

(351)

154

Для расчета а = М {W0 (і -f А, у)\х {t) = х) воспользуемся разложением функции W 0 (t -f Д, у) в ряд Тейлора в окрест­ ности точки х:

а = М \W0 {t -f Д, х) + {у — X)*

d2W0 (t + A, X)

 

 

дх

Ч о” tr {y~x){lj — x)* d W 0 (t + Д, X)

+ о(||г/— *||)|x(() = xj,

дх дх*

 

 

где Iу — *|| — норма вектора — х).

Согласно определению вектора коэффициентов сноса и ма­ трицы коэффициентов диффузии для марковского процесса можно записать:

М \(у — х) I * (t) = х] — с ((, х) А + о (А);

М [(у х) (у х)*\х (t) = х] = Ѳ (t, х) А + о (А).

Поскольку для рассматриваемого здесь объекта управления, системой уравнений описываемого (342), справедливы соотно­ шения

 

 

с (t,

х)

=

/ {t, X, и),

 

 

 

 

то

 

Ѳ (t, X)

=

G (/)

Q (t) G* (t),

 

 

 

 

 

 

 

 

 

 

 

 

a W0 (t -)—A, x) +

f* (t

 

dWa (t +

Д, X)

 

, X, u) ■

dx

 

 

 

 

 

G(0Q(0G* (0

 

 

 

 

 

+

2 tr

 

dxdx*

 

A + o(A).

(352)

 

 

 

 

 

d W 0 (t + Д,

X)

После подстановки выражения (352) в формулу (351) и про­

стейших преобразований получим

 

 

 

 

 

 

W0(t, x) — W0 (t +

Д, х)

_

m in (cp (t,

X,

и) +

 

 

 

д

 

 

 

u£U

 

 

 

 

 

 

 

 

 

 

дх

 

 

 

 

+

j tr

[G (t)Q (t) G* (t)

 

 

 

+

o(A)

 

В пределе при А —>0 получим уравнение Веллмана:

ЗГ 0 (t, X)

m in

ф ((, X, и) +

 

 

dt

 

 

u(-U (

 

 

 

 

 

dWü (t,

X)

 

+

/*(*,

и)

дх

 

 

1

 

 

^IF0(6 х)_

(353)

+ T tv

G(t)Q(t)G*(t)-

дх дх*

155

У р а в н е н и е В ел л м а н а и м еет оч ев и д н ое гр а н и ч н о е у сл ов и е:

W0 (Т, х) = 1 (Т, X).

 

(354)

Обозначим через и 0 оптимальное

управление в поставленной

задаче, тогда согласно

формуле

(353)

минимальные

потери

W0 (t, х) удовлетворяют уравнению

 

 

 

 

dW0 (t, X) =

фУ,

X, и0) -f

 

 

dt

 

 

 

 

 

+

X, щ)

dWp (t, X)

,

 

 

 

 

дх

+

 

+ У tr

G(t)Q(t) G* (t)

d2Wо {t, X) 1

(355)

d x d x *

Поставим задачу определения уравнения, которому удовле­ творяют потери при произвольном, не обязательно оптимальном управлении. Вывод, который приводится ниже, наглядно показы­ вает связь уравнения Веллмана с уравнением Колмогорова для марковского процесса х (t).

Согласно формулам

(346), (347)

можно записать:

 

 

 

W

It,

X, и (т), т 6 U, Т] ]

=

 

= М 1 1

ф

[т,

X

(т), и (т) ]

dr +

К [Г, X (Т)] I X (t) =

X

 

 

т

 

 

 

 

 

 

 

= J

dxM (ф [т,

л: (т),

и (х)]\х (t) =

 

 

 

t

 

 

 

 

 

 

 

 

=

*} +

М [Т,

X (T)]\x(t)

= х}; =

 

 

Т

 

со

 

 

 

 

 

 

=

I

dx

J

dz/ф [т, у, и (т) ] р (т,

y\t, х) +

 

 

t

— со

 

 

 

 

 

 

 

 

+

со

dyl IT,

у ] р ( т , у 11, X).

(356)

 

 

J

00

Дифференцируем полученное выражение для оставшихся по­ терь по переменной t:

со

7ІГ = — j d&<P У. “ (01Р У, У\ t, X) +

Т

со

 

+ Jdx J фф[т, у, и (т)] др{х’ а(1-1, х) +

 

t

—со

 

 

+ JdyMT, y f i E ^ l .

(357)

 

— СО

 

156

Соседние файлы в папке книги из ГПНТБ