![](/user_photo/_userpic.png)
книги из ГПНТБ / Коваленко И.Н. Полумарковские модели в задачах проектирования систем управления летательными аппаратами
.pdfстро разрастаются», и задание правила остановки с по мощью «дерева» становится весьма громоздким. В целях упрощения молено использовать следующий метод (при этом во многих важных случаях не сужаются возможно сти построения оптимальных решении). Определяют не которые функции фп= фп(ёь • ■■. &л)> а, останавливать ли процесс наблюдения на п-м шаге, решают лишь на осно вании значения ф„.
В этом случае правило остановки можно представить себе как некоторую систему барьеров для блуждающей частицы (рис. 1.6). Если блуждающая точка (п, ф„) по падает на один из барьеров при п—т, то это . означает, что процесс наблюдения заканчивается на /п-м шаге.
Понятно, что для любой последовательности наблю даемых случайных величин можно указать бесчисленное множество правил остановки. Каким же образом срав нивать эти правила и выбирать среди них оптимальные?
ДОПУСТИМ, ЧТО ДЛЯ Любого ПІ^гО II ЛЮбЫХ Л'і, ...., хп определена некоторая функция убытка у = уп{х\, •.., хп). Эта функция интерпретируются как убыток, который бу дет понесен в случае, если процесс наблюдения останов лен на п-м шаге и при этом первые п наблюдений при няли значения: |і=.ѵі,..., \ п —хп. Предположим, что нам известен вероятностный закон, управляющий образова нием случайных величин | ь | 2>..., .... Тогда, коль скоро задано правило остановки ѵ(£і,£2, • • •). в принципе молено вычислить среднюю характеристику
/(ѵ) = |
Л* [ У . « |
, , * . |
, . . (1. |
134) |
т. е. математическое |
ожидание |
значения |
процесса |
уп |
в момент остановки процесса наблюдений. |
|
|
Байесовский принцип оптимальности правила оста новки состоит в выборе такого правила остановки ѵ*, для которого
/ (v*)= min / (ѵ). |
(1. 135) |
V |
|
При этом обычно правила остановки, для которых нельзя придать смысл указанному выше математическому оншданию, исключаются из рассмотрения.
Правило V* называется оптимальным (байесовским) правилом остановки процесса наблюдения,
50
Иногда удобно вместо функции убытка задавать так называемую функцию пользы. В этом случае оптималь ным правилом остановки будет то, при котором /(ѵ) до стигает максимума.
Фундаментальную роль в теории оптимальных правил остановки играет система рекуррентных уравнений для минимального риска. Приведем эти уравнения, дав в об щих чертах схему их вывода.
Пусть используется некоторое правило остановки ѵ. Каждой возможной траектории случайной последова тельности (ёь Ъ, ■■■, Іп, ■• •) соответствует некоторое зна чение убытка у V(іі,. . ?ѵ), где ѵ=ѵ(£ь g2,...). Выше было отмечено, что оптимальное правило состоит в мини
мизации |
І(ѵ), т. |
е. математического ожидания этого |
убытка. |
|
теперь, что получены наблюдения |
Предположим |
||
|і = хі,..., |
£„= а'п. Тогда поведение после п-го наблюде |
ния должно быть таким, чтобы минимизировать условное математическое ожидание д(ѵ)(хь ..., хп) убытка при условии, что получены указанные наблюдения. Функция б(ѵ)(хь ..., хп) называется риском после п наблюдений.
Очевидно, вид этой функции зависит |
от |
правила оста |
новки V. Минимум данной функции по всем допустимым ѵ |
||
называется оптимальным риском |
и |
обозначается |
Q(м» ■• • I хп) • |
мы можем принять |
|
Получив п наблюдений лц,..., х„, |
одно из двух решений: сделать еще хотя бы одно наблю дение или сделать остановку. Допустим, что принято пер вое из этих решений. Тогда мы будем иметь н+1 наблю дений а'і, ..., хп, |„+і. Следуя после этих наблюдений оптимальному правилу остановки, мы понесем убыток, математическое ожидание которого равно Q(XI,:.., х „,
£п-и).
Риск после п наблюдений при условии, что будет сде лано еще хотя бы одно наблюдение и после этого будет применяться оптимальное правило остановки, равен
Qi (xv ...,xn)= M[Q(x1,...,xn, 5Я+1)| Ь = х ѵ ...,S„=x„]. (1. 136) Предположим, что принято второе решение: остановить
процесс |
наблюдений. |
Тогда будет |
понесен |
убыток |
||
Уп {Х\, ..., |
хп) . |
оптимальный риск? Если |
у п(хи ... |
|||
Чему |
же равен |
|||||
.., хп) < еі (хи ..., хп), |
то |
выгоднее сделать |
остановку |
|||
после п наблюдений, |
т. |
е. |
е(хь ..., |
хп) —уп{х\,..., хп); |
51
если же yn(xh ..., |
хп) > |
QI (х ь ..., х„), выгоднее сделать |
одно наблюдение, |
так |
что Q (xt, ..., ха) = QI (ху,..., х„) . |
Объединение этих двух случаев приводит к рекуррентной формуле для оптимального риска:
б (хх,..., х п)= min (уя (лу,.., х п), |
М [Q(лГц |
|
=х±,..., |
= х п\ ). |
(1.137) |
Зная Q(хі,..., х„+і) при всех х|1+ь мы можем по этой формуле вычислить g (хь .... х„).
Оптимальное правило остановки теперь определяется
очень просто: если получены |
п наблюдений- |
|і = хь ... |
.... !n = xn, вычисляем значения Qi = QI (хь ..., |
хп) и у» = |
|
= у п(хь ..., х„); если yn<Q\, |
обязательно делаем оста |
новку; если yn>Qu обязательно делаем еще хотя бы одно
наблюдение; если, наконец, |
y n —Qь оба решения — оста |
новка и продолжение |
наблюдений — равнозначны |
в смысле риска, и можно принять любое из них. Однако, любая рекуррентная формула требует неко
торых начальных условий: нужно каким-то образом за
дать Q (X I , |
Хдт), и тогда можно будет вычислить |
б(хь ..., х„) |
при всех n<N. Эффективный метод такого |
задания состоит в следующем.
Заранее ограничим число наблюдений некоторым N и будем’’выбирать оптимальное правило остановки ѵМ при этом ограничении. Отметив все введенные выше функции при данном ограничении индексом (N) вверху, получим:
e (W> |
. ,XN )= yN(x x, ... .XN). |
Таким образом, процесс вычисления Q(A/)(X), ..., х„) вполне определен. Правило остановки ѵ(УѴ) определяется, как и выше, функциями уп{хь ..., хп) и Q\w {xu ..., хп).
Заметим теперь, что для оптимального правила оста новки V
|
|
/ (v) =Q, |
где Q— частный случай |
хп) при п= 0. |
|
Далее |
/(v W ) = e W. |
52
Очевидно, QS^ QM Е сли при достаточно большом N
Q№—Q ^ e,
где е>0 — допустимое отклонение от оптимального риска, то вместо ѵ можно использовать vW.
Таким образом, следует лишь найти соответствую щее N, если, конечно, оно существует. Современная тео рия подобных вопросов изложена в книге [11]. Здесь же мы ограничимся следующим рассуждением.
Пусть |
|
|
Уп=Уп (хі, ..., |
хп) = Сп+у {Х\, ..., х„), |
|
где OSSY (,VI, ... , хп) ^ К . |
|
|
Тогда, если ß = /э (ѵ>А^), то |
|
|
ew |
- e < ß / C |
|
В то же время при любом я^О |
|
|
Следовательно, |
СЛ'+1 |
|
|
|
|
Q{N)—Q < ^ — K inf ж |
[£ /„ ]< -_ !_ /С2. |
|
t'Af+l |
л>0 |
Одг+і |
Таким образом, если Сп—уоо при я—>-оо, то по любому Б>0 найдется соответствующее значение N,
Несмотря на принципиальную простоту построения оптимального правила остановки, фактическое вычисле ние оптимального риска представляет собой трудную задачу. Поэтому представляет интерес рассмотрение слу чаев, когда построение оптимального правила остановки может быть осуществлено непосредственно. Один из та ких случаев рассматривается ниже. При выполнении определенных условий монотонности, как следует из леммы, которая будет приведена, возможно непосредст венное определение оптимального управления процессом.
Пусть имеется возможность наблюдать последова
тельность случайных величин |
£2>• • •, |
__ (Природа |
этих величин не играет никакой роли; |
в частности, это |
могут быть векторы многомерного пространства). Сов местный закон распределения этих случайных величин предполагается известным. Пусть, далее задана функция убытка Уп=Уп(х\,..., хп) (я^О), имеющая согласно предыдущему смысл убытка при остановке процесса на
53
п-ы шаге после получения наблюдений со значениями
і і = х\, • • ■>in —хп.
Лемма12. Пусть существует правило остановки V*(х'ь ,ѵ2, ...), обладающее следующими свойствами:
1. М[ѵ*] существует и конечно. |
|
||
2. Для любых |
О и х'і,..., х„ выполняется неравен |
||
ство |
|
|
|
|
■М[і/я+1 |
І/Н-і)1 ^ |
Уп [х 1>--чх п) |
при п |
(хѵ ...,х„,...) и неравенство |
||
|
^ |
Xn>^n+l)] |
Уп{ХѴ"> Xn) |
при |
V* |
|
|
3. Для некоторой константы К |
|
||
|
М [I Уп+1 |
ХП^) ’ Уп |
К |
при любых п, Хі , ..., хп. |
|
||
При |
указанных свойствах ѵ* является оптимальным |
правилом остановки среди всех правил остановки ѵ, для которых УИ[ѵ] конечно.
Заметим, что в соответствии с нашим основным опре делением, оптимальность правила остановки понимается в смысле минимизации функционала І(у) . Если же за дана функция пользы и указанный функционал надлежит максимизировать, лемма перефразируется симметричным
образом. |
Условие 2 леммы в этом |
случае заменится |
|||
следующим. |
|
|
|
|
|
2'. Для любых п^О |
и |
хп |
выполняется |
нера |
|
венство |
|
|
|
|
|
|
М \Уп+1 |
Х„, Ея+1)] -> Уп |
|
|
|
при |
(х^-.^Хп) и неравенство |
|
|
||
|
М [#л-к(-*1 >-"> х п>£л+і)] ■К Упіх 1>--->х п) |
|
|||
при /г > ѵ * О*!,..., |
|
|
|
|
|
Для доказательства леммы установим сначала |
сле |
||||
дующее |
утверждение, |
назвав |
его |
«свойством усекае- |
|
мости». |
|
|
|
|
|
1См. работы [16, 55, 56].
2В силу определения правила остановки выполнение неравенств *„,...) и п^2гѵ(хі,..., Хп,~.) не зависит от переменных .ѵп+ь
Обозначение М[уп + І ( |
х |
g„+i)] |
означает условное матема |
тическое ожидание i/n + i ( i i , . . . , i n , |
| п + і ) |
при (Іі,..., |„ ) = (*,,.... х п). |
54
Пусть V — произвольное правило остановки. Фикси руем некоторое УѴ^О и зададим правило остановки ѵ(ІѴ)
следующим образом. |
Если для последовательности х\, |
||
л'2 , .... хп, ... правило |
ѵ(*і,.... х„,...) |
то vW(xi,... |
|
..., хп,...) —V(х\,..., |
хп) ; если же ѵ(х,,..., х„,...) >N, |
||
то |
....... хѵ) = N. В этом случае |
называется усе |
|
ченным правилом остановки. |
|
||
Свойство возможности усечения. Пусть выполняется |
|||
условие |
3 леммы, а |
ѵ — произвольное заданное пра |
вило остановки, для которого М[ѵ]<оо. Тогда |/(ѵ) | <оо и для любого е > 0 можно указать такое N, что
/ Ю < / ( ѵ ) + £.
Таким образом, если правило остановки усекать до статочно далеко, математическое ожидание основного функционала г/ѵ претерпит от этого сколь угодно малое изменение.
Д о к а з а т е л ь с т в о . Введем символ Е(А) для обо значения случайной величины, принимающей значение «1» при происшествии события А и значение «О» в про тивном случае. Тогда, например, £(ѵ = 0) есть случайная величина, которая равна единице при ѵ = 0 и равна нулю при ѵ=т^0. В таком случае
/ М = 2 М \у^ Е{У-=ѣ)'
л=0
поэтому
} і Ш < І'Уі М [ ]уп\}Е-(ѵ= гі). п=*О
Если ѵ = 0, утверждение леммы выполняется очевид ным образом; поэтому предположим, что ѵ>0. В этом случае без ограничения общности можно считать, что у0 = 0, и предыдущая формула перепишется так:
11(ѵ) I < 2 м [| У , - У к- г0 2 |
2 м |
№ * -. ^ *-іП Е |
||
A=1 |
n=k ft“1 |
|
|
|
После изменения порядка суммирования |
||||
К (ѵ)| < 2 |
М b k - |
Ук-iW. 2 |
Е |
^ |
ft-1 n-=ft
55
О д н ак о, к ак л егк о |
ви д еть |
|
|
|
|
|
2 |
Е (ѵ= |
ѣ) = Е (ѵ А). |
|
|
|
|
n<=k |
|
|
|
|
|
|
Тогда |
|
|
|
|
|
|
I 7(v)| < |
2 M |
Ук-iW Е (У> А). |
|
|
||
|
й-1 |
|
|
|
|
|
Заметим теперь, что событие {ѵ^А} |
зависит |
только |
||||
от |і, £2, •••, ій-i. Это событие означает, что процесс |
на |
|||||
блюдения не остановлен после |
(А—1)-го шага. |
|
|
|||
Можно записать |
|
|
|
|
|
|
М Ilf/*—I/*—!І] Е (ѵ > |
k) = P (v > |
k) M [Iyk— |
IV > |
k\. |
||
Так как событие {v^A} зависит только oi gi,..., |
£j,_i, |
а при любых фиксированных значениях этих переменных условное математическое ожидание значения \уи—уи-і\ не больше К, то
Просуммировав по всем А, найдем
00
|/(ѵ )|< /с 2 Р(Ѵ> А)= /С М М <оо. ft-i
Таким образом, первое утверждение «свойства воз можности усечения» доказано.
Рассмотрим теперь правило остановки vN. Имеем
I (V")= |
2 М [г/„] Е (V= ѣ) + м [г/,] Е (ѵ> N ) . |
||
/і=0 |
|
|
|
|
|
со |
|
Вспомнив, что |
/ (ѵ) = |
^ |
М [у„] Е (ѵ= п), придем к еле- |
дующей формуле: |
/і=0 |
|
|
|
|
||
/ (ѵ) — / (ѵЛГ) = |
У |
м {Уп—Ум)\ Е{у = ѣ) = |
|
|
|
n=N |
|
= 2 |
2 |
M [(y*—y*-i)]Eb>=/i)= |
|
n=N A=;W+I |
|
56
= |
2 M |
~ |
х)] 2 Е tѵ="■)— |
k=N+l |
|
л»А |
|
- |
2 |
|
(1. 139) |
|
k~N + l |
|
|
Ha основании полученного выше результата послед нее выражение представляет собой остаток сходящегося ряда. Отсюда /(ѵл,)-ѵ/(ѵ).
Сформулируем теперь некоторую лемму (назовем ее «частной леммой»).
.Частная лемма. Пусть выполнены условия леммы.
Тогда для любого N справедливо неравенство |
|
|
/ (ѵ*лг) < / (УѴ) |
|
|
при любом правиле остановки ѵ. |
следует |
лемма. |
Докажем, что из частной леммы |
||
Пусть V — любое правило остановки с конечным |
значе |
|
нием М(ѵ]. Тогда при любом N 1(v*lV) |
(vN) . В то же |
время /(v*jV)-^/(v), I (vN)^-I (ѵ) . Отсюда /(ѵ * )^ /(ѵ ). Докажем частную лемму. Для простоты изложения
ограничимся случаем, когда | „ могут принимать лишь ко нечное число различных значений. Общее доказатель ство можно осуществить по тому же принципу, однако лишь с помощью абстрактной записи некоторых соотно шений, что усложнило бы понимание существа вопроса.
Допустим, что V — некоторое правило остановки, для
которого v ^ N , |
причем vN не совпадает с v*N. |
|
|||
Существуют |
две, не исключающие одна другую воз |
||||
можности. |
иметь |
место |
такой набор |
хД°) |
|
1. Может |
|||||
(n<N), что |
|
|
|
|
|
1 v:i!jv(x(°),...,4°),...) > л , |
а v(x(10),...,xj|°),...) = «. |
|
|||
2. Может |
иметь |
место |
такой набор лф0),..., |
х„<°) |
|
(iu^.N), что |
|
|
|
|
|
|
|
|
|
а V(я«»,'..., *ло,...) = д. |
|
Рассмотрим первую возможность. Определим новое решающее правило ц следующим образом:
!і(х(°),...,х(і°),...) = « + 1 ;
если (хѵ ...,хп) ф (JCJ0*,...,;:^), то
[г to,..., х„,...)=ѵ(*ЛГ) ta,...,
57
По формуле полного математического ожидания / (ѵ) = Р ц у ..., У - (л'і13>,..., x(riu>)J AI [;/„ (x(°)„... 4°>Л +
+ P (&,..., у Ф K o),..., |
A4 [ynI |
|
С другой стороны |
|
|
Ңф=р (Ui,•■Ü = W0)-••.40 ))M [y« + 1 W0)»■■- 40)) + |
||
-\-P (Un− 1 |
У Ф |
M [(/v I (У 5«) Ф (-^o..., Xn)]. |
Отсюда |
|
|
1 |
(V) = A I[^„+1I4 ° J,...,4 0J ) -- ^ (4 0)>-">40,)]X |
|
|
X^(Ui>-.y=(40)--->40)))- |
|
Ввиду того, что |
по условию 2 |
леммы последнее выражение меньше или равно нулю. Это означает, что если согласно правилу остановки ѵ процесс наблюдения останавливается раньше, чем это предписывается правилом остановки, определенным лем мой, то можно определить новое правило остановки, не худшее предыдущего и такое, что для рассматриваемого значения вектора наблюдений решение об
остановке принимается на один шаг позднее. Очевидно, эту процедуру можно осуществить для произвольного
вектора (4 0),--> 40))> Для которого
■ѵ(4°),...,л-<!°),...) = /і и ѵ*ЛГ(л'(0), ...,4 0)) > 0 .
Приходим к выводу, что, не увеличив значения /(ѵ), можно полностью исключить существование векторов указанного вида.
Рассмотрим теперь вторую возможность. Пусть суще ствуют векторы (4 0),.--, 4 °^ ’ Для которых
ѵ<*Л'>(40>,...,4°>,...)</і; ѵ (4°\...,4°> ,... ) > « + 1.
Выберем из них вектор, для которого п максимально (такой вектор найдется, поскольку по определению ѵ(*л,)(а'і, X2, . . . ) ^ N для любых хи х2, ...). Это означает,
чтov(40,,■••,40,’ = |
для любого 2 . |
|
По формуле полного математического ожидания |
||
/(ѵ )= р(и 1 ,...,у=(40),...,40)))Ж [р,,+1 |
(40)і...>Л(о)>£я+і)] + |
|
+я((у...,у Ф (4°>,..,40)))м Iу, I |
у ф (4°),...,4 0 ))]. |
58
Определим новое правило остановки р следующим образом:
если |
то |
|
|
р- (-U--., х я,...)= ѵ*^ {хѵ..., хп,.. .). |
(1. 140) |
Имеем |
|
|
|
/ 0 4 = Р ((У•••, У = (4 °*, - - -, 4 0))) уп(4 °\.... 4 °>) + |
+ Р (fe.•••.У ф (40)-•■.4 0)))М ІУѵК^,..., у ф (40),..., 4 «))]
Вычтя из этого выражения предыдущее, получим
/(^-/(v)=P(fe,...,y=(40),...,4°)))(yn(4°\...,4°>)-
М [У/і+і(4«),...,4>, Ui)])-
По условию 2 леммы /(р) —/(ѵ)<0.
Итак, правило остановки ѵ можно заменить правилом остановки р, для которого решение об остановке прини мается ранее. Последовательно применив эту процедуру нужное число раз, мы исключим и вторую возможность.
В результате придем к правилу остановки |
удовлет |
воряющему условию 2 леммы. |
|