Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Коваленко И.Н. Полумарковские модели в задачах проектирования систем управления летательными аппаратами

.pdf
Скачиваний:
9
Добавлен:
23.10.2023
Размер:
7.56 Mб
Скачать

стро разрастаются», и задание правила остановки с по­ мощью «дерева» становится весьма громоздким. В целях упрощения молено использовать следующий метод (при этом во многих важных случаях не сужаются возможно­ сти построения оптимальных решении). Определяют не­ которые функции фп= фп(ёь • ■■. &л)> а, останавливать ли процесс наблюдения на п-м шаге, решают лишь на осно­ вании значения ф„.

В этом случае правило остановки можно представить себе как некоторую систему барьеров для блуждающей частицы (рис. 1.6). Если блуждающая точка (п, ф„) по­ падает на один из барьеров при п—т, то это . означает, что процесс наблюдения заканчивается на /п-м шаге.

Понятно, что для любой последовательности наблю­ даемых случайных величин можно указать бесчисленное множество правил остановки. Каким же образом срав­ нивать эти правила и выбирать среди них оптимальные?

ДОПУСТИМ, ЧТО ДЛЯ Любого ПІ^гО II ЛЮбЫХ Л'і, ...., хп определена некоторая функция убытка у = уп{х\, •.., хп). Эта функция интерпретируются как убыток, который бу­ дет понесен в случае, если процесс наблюдения останов­ лен на п-м шаге и при этом первые п наблюдений при­ няли значения: |і=.ѵі,..., \ п —хп. Предположим, что нам известен вероятностный закон, управляющий образова­ нием случайных величин | ь | 2>..., .... Тогда, коль скоро задано правило остановки ѵ(£і,£2, • • •). в принципе молено вычислить среднюю характеристику

/(ѵ) =

Л* [ У . «

, , * .

, . . (1.

134)

т. е. математическое

ожидание

значения

процесса

уп

в момент остановки процесса наблюдений.

 

 

Байесовский принцип оптимальности правила оста­ новки состоит в выборе такого правила остановки ѵ*, для которого

/ (v*)= min / (ѵ).

(1. 135)

V

 

При этом обычно правила остановки, для которых нельзя придать смысл указанному выше математическому оншданию, исключаются из рассмотрения.

Правило V* называется оптимальным (байесовским) правилом остановки процесса наблюдения,

50

Иногда удобно вместо функции убытка задавать так называемую функцию пользы. В этом случае оптималь­ ным правилом остановки будет то, при котором /(ѵ) до­ стигает максимума.

Фундаментальную роль в теории оптимальных правил остановки играет система рекуррентных уравнений для минимального риска. Приведем эти уравнения, дав в об­ щих чертах схему их вывода.

Пусть используется некоторое правило остановки ѵ. Каждой возможной траектории случайной последова­ тельности (ёь Ъ, ■■■, Іп, ■• •) соответствует некоторое зна­ чение убытка у V(іі,. . ?ѵ), где ѵ=ѵ(£ь g2,...). Выше было отмечено, что оптимальное правило состоит в мини­

мизации

І(ѵ), т.

е. математического ожидания этого

убытка.

 

теперь, что получены наблюдения

Предположим

|і = хі,...,

£„= а'п. Тогда поведение после п-го наблюде­

ния должно быть таким, чтобы минимизировать условное математическое ожидание д(ѵ)(хь ..., хп) убытка при условии, что получены указанные наблюдения. Функция б(ѵ)(хь ..., хп) называется риском после п наблюдений.

Очевидно, вид этой функции зависит

от

правила оста­

новки V. Минимум данной функции по всем допустимым ѵ

называется оптимальным риском

и

обозначается

Q(м» ■• • I хп) •

мы можем принять

Получив п наблюдений лц,..., х„,

одно из двух решений: сделать еще хотя бы одно наблю­ дение или сделать остановку. Допустим, что принято пер­ вое из этих решений. Тогда мы будем иметь н+1 наблю­ дений а'і, ..., хп, |„+і. Следуя после этих наблюдений оптимальному правилу остановки, мы понесем убыток, математическое ожидание которого равно Q(XI,:.., х „,

£п-и).

Риск после п наблюдений при условии, что будет сде­ лано еще хотя бы одно наблюдение и после этого будет применяться оптимальное правило остановки, равен

Qi (xv ...,xn)= M[Q(x1,...,xn, 5Я+1)| Ь = х ѵ ...,S„=x„]. (1. 136) Предположим, что принято второе решение: остановить

процесс

наблюдений.

Тогда будет

понесен

убыток

Уп {Х\, ...,

хп) .

оптимальный риск? Если

у п(хи ...

Чему

же равен

.., хп) < еі (хи ..., хп),

то

выгоднее сделать

остановку

после п наблюдений,

т.

е.

е(хь ...,

хп) —уп{х\,..., хп);

51

если же yn(xh ...,

хп) >

QI (х ь ..., х„), выгоднее сделать

одно наблюдение,

так

что Q (xt, ..., ха) = QI (ху,..., х„) .

Объединение этих двух случаев приводит к рекуррентной формуле для оптимального риска:

б (хх,..., х п)= min (уя (лу,.., х п),

М [Q(лГц

 

=х±,...,

= х п\ ).

(1.137)

Зная Q(хі,..., х„+і) при всех х|1+ь мы можем по этой формуле вычислить g (хь .... х„).

Оптимальное правило остановки теперь определяется

очень просто: если получены

п наблюдений-

|і = хь ...

.... !n = xn, вычисляем значения Qi = QI (хь ...,

хп) и у» =

= у п(хь ..., х„); если yn<Q\,

обязательно делаем оста­

новку; если yn>Qu обязательно делаем еще хотя бы одно

наблюдение; если, наконец,

y n —Qь оба решения — оста­

новка и продолжение

наблюдений — равнозначны

в смысле риска, и можно принять любое из них. Однако, любая рекуррентная формула требует неко­

торых начальных условий: нужно каким-то образом за­

дать Q (X I ,

Хдт), и тогда можно будет вычислить

б(хь ..., х„)

при всех n<N. Эффективный метод такого

задания состоит в следующем.

Заранее ограничим число наблюдений некоторым N и будем’’выбирать оптимальное правило остановки ѵМ при этом ограничении. Отметив все введенные выше функции при данном ограничении индексом (N) вверху, получим:

e (W>

. ,XN )= yN(x x, ... .XN).

Таким образом, процесс вычисления Q(A/)(X), ..., х„) вполне определен. Правило остановки ѵ(УѴ) определяется, как и выше, функциями уп{хь ..., хп) и Q\w {xu ..., хп).

Заметим теперь, что для оптимального правила оста­ новки V

 

 

/ (v) =Q,

где Q— частный случай

хп) при п= 0.

Далее

/(v W ) = e W.

52

Очевидно, QS^ QM Е сли при достаточно большом N

Q№—Q ^ e,

где е>0 — допустимое отклонение от оптимального риска, то вместо ѵ можно использовать vW.

Таким образом, следует лишь найти соответствую­ щее N, если, конечно, оно существует. Современная тео­ рия подобных вопросов изложена в книге [11]. Здесь же мы ограничимся следующим рассуждением.

Пусть

 

 

Уп=Уп (хі, ...,

хп) = Сп{Х\, ..., х„),

где OSSY (,VI, ... , хп) ^ К .

 

 

Тогда, если ß = /э (ѵ>А^), то

 

ew

- e < ß / C

В то же время при любом я^О

 

Следовательно,

СЛ'+1

 

 

Q{N)—Q < ^ — K inf ж

[£ /„ ]< -_ !_ /С2.

t'Af+l

л>0

Одг+і

Таким образом, если Спуоо при я—>-оо, то по любому Б>0 найдется соответствующее значение N,

Несмотря на принципиальную простоту построения оптимального правила остановки, фактическое вычисле­ ние оптимального риска представляет собой трудную задачу. Поэтому представляет интерес рассмотрение слу­ чаев, когда построение оптимального правила остановки может быть осуществлено непосредственно. Один из та­ ких случаев рассматривается ниже. При выполнении определенных условий монотонности, как следует из леммы, которая будет приведена, возможно непосредст­ венное определение оптимального управления процессом.

Пусть имеется возможность наблюдать последова­

тельность случайных величин

£2>• • •,

__ (Природа

этих величин не играет никакой роли;

в частности, это

могут быть векторы многомерного пространства). Сов­ местный закон распределения этих случайных величин предполагается известным. Пусть, далее задана функция убытка Уп=Уп(х\,..., хп) (я^О), имеющая согласно предыдущему смысл убытка при остановке процесса на

53

п-ы шаге после получения наблюдений со значениями

і і = х\, • • ■>in —хп.

Лемма12. Пусть существует правило остановки V*(х'ь ,ѵ2, ...), обладающее следующими свойствами:

1. М[ѵ*] существует и конечно.

 

2. Для любых

О и х'і,..., х„ выполняется неравен­

ство

 

 

 

 

■М[і/я+1

І/Н-і)1 ^

Уп [х 1>--чх п)

при п

(хѵ ...,х„,...) и неравенство

 

^

Xn>^n+l)]

Уп{ХѴ"> Xn)

при

V*

 

 

3. Для некоторой константы К

 

 

М [I Уп+1

ХП^) Уп

К

при любых п, Хі , ..., хп.

 

При

указанных свойствах ѵ* является оптимальным

правилом остановки среди всех правил остановки ѵ, для которых УИ[ѵ] конечно.

Заметим, что в соответствии с нашим основным опре­ делением, оптимальность правила остановки понимается в смысле минимизации функционала І(у) . Если же за­ дана функция пользы и указанный функционал надлежит максимизировать, лемма перефразируется симметричным

образом.

Условие 2 леммы в этом

случае заменится

следующим.

 

 

 

 

2'. Для любых п^О

и

хп

выполняется

нера­

венство

 

 

 

 

 

 

М \Уп+1

Х„, Ея+1)] -> Уп

 

 

при

(х^-.^Хп) и неравенство

 

 

 

М [#л-к(-*1 >-"> х п>£л+і)] ■К Упіх 1>--->х п)

 

при /г > ѵ * О*!,...,

 

 

 

 

Для доказательства леммы установим сначала

сле­

дующее

утверждение,

назвав

его

«свойством усекае-

мости».

 

 

 

 

 

1См. работы [16, 55, 56].

2В силу определения правила остановки выполнение неравенств *„,...) и п^2гѵ(хі,..., Хп,~.) не зависит от переменных .ѵп+ь

Обозначение М[уп + І (

х

g„+i)]

означает условное матема­

тическое ожидание i/n + i ( i i , . . . , i n ,

| п + і )

при (Іі,..., |„ ) = (*,,.... х п).

54

Пусть V — произвольное правило остановки. Фикси­ руем некоторое УѴ^О и зададим правило остановки ѵ(ІѴ)

следующим образом.

Если для последовательности х\,

л'2 , .... хп, ... правило

ѵ(*і,.... х„,...)

то vW(xi,...

..., хп,...) —V(х\,...,

хп) ; если же ѵ(х,,..., х„,...) >N,

то

....... хѵ) = N. В этом случае

называется усе­

ченным правилом остановки.

 

Свойство возможности усечения. Пусть выполняется

условие

3 леммы, а

ѵ — произвольное заданное пра­

вило остановки, для которого М[ѵ]<оо. Тогда |/(ѵ) | <оо и для любого е > 0 можно указать такое N, что

/ Ю < / ( ѵ ) + £.

Таким образом, если правило остановки усекать до­ статочно далеко, математическое ожидание основного функционала г/ѵ претерпит от этого сколь угодно малое изменение.

Д о к а з а т е л ь с т в о . Введем символ Е(А) для обо­ значения случайной величины, принимающей значение «1» при происшествии события А и значение «О» в про­ тивном случае. Тогда, например, £(ѵ = 0) есть случайная величина, которая равна единице при ѵ = 0 и равна нулю при ѵ=т^0. В таком случае

/ М = 2 М \у^ Е{У-=ѣ)'

л=0

поэтому

} і Ш < І'Уі М [ ]уп\}Е-(ѵ= гі). п=*О

Если ѵ = 0, утверждение леммы выполняется очевид­ ным образом; поэтому предположим, что ѵ>0. В этом случае без ограничения общности можно считать, что у0 = 0, и предыдущая формула перепишется так:

11(ѵ) I < 2 м [| У , - У к- г0 2

2 м

№ * -. ^ *-іП Е

A=1

n=k ft“1

 

 

После изменения порядка суммирования

К (ѵ)| < 2

М b k -

Ук-iW. 2

Е

^

ft-1 n-=ft

55

О д н ак о, к ак л егк о

ви д еть

 

 

 

 

 

2

Е (ѵ=

ѣ) = Е (ѵ А).

 

 

 

n<=k

 

 

 

 

 

Тогда

 

 

 

 

 

 

I 7(v)| <

2 M

Ук-iW Е (У> А).

 

 

 

й-1

 

 

 

 

 

Заметим теперь, что событие {ѵ^А}

зависит

только

от |і, £2, •••, ій-i. Это событие означает, что процесс

на­

блюдения не остановлен после

(А—1)-го шага.

 

 

Можно записать

 

 

 

 

 

М Ilf/*—I/*—!І] Е (ѵ >

k) = P (v >

k) M [Iyk

IV >

k\.

Так как событие {v^A} зависит только oi gi,...,

£j,_i,

а при любых фиксированных значениях этих переменных условное математическое ожидание значения \уиуи-і\ не больше К, то

Просуммировав по всем А, найдем

00

|/(ѵ )|< /с 2 Р(Ѵ> А)= /С М М <оо. ft-i

Таким образом, первое утверждение «свойства воз­ можности усечения» доказано.

Рассмотрим теперь правило остановки vN. Имеем

I (V")=

2 М [г/„] Е (V= ѣ) + м [г/,] Е (ѵ> N ) .

/і=0

 

 

 

 

со

 

Вспомнив, что

/ (ѵ) =

^

М [у„] Е (ѵ= п), придем к еле-

дующей формуле:

/і=0

 

 

 

/ (ѵ) — / (ѵЛГ) =

У

м {Уп—Ум)\ Е{у = ѣ) =

 

 

n=N

= 2

2

M [(y*—y*-i)]Eb>=/i)=

n=N A=;W+I

 

56

=

2 M

~

х)] 2 Е ="■)—

k=N+l

 

л»А

-

2

 

(1. 139)

 

k~N + l

 

 

Ha основании полученного выше результата послед­ нее выражение представляет собой остаток сходящегося ряда. Отсюда /(ѵл,)-ѵ/(ѵ).

Сформулируем теперь некоторую лемму (назовем ее «частной леммой»).

.Частная лемма. Пусть выполнены условия леммы.

Тогда для любого N справедливо неравенство

 

/ (ѵ*лг) < / (УѴ)

 

 

при любом правиле остановки ѵ.

следует

лемма.

Докажем, что из частной леммы

Пусть V — любое правило остановки с конечным

значе­

нием М(ѵ]. Тогда при любом N 1(v*lV)

(vN) . В то же

время /(v*jV)-^/(v), I (vN)^-I) . Отсюда /(ѵ * )^ /(ѵ ). Докажем частную лемму. Для простоты изложения

ограничимся случаем, когда | „ могут принимать лишь ко­ нечное число различных значений. Общее доказатель­ ство можно осуществить по тому же принципу, однако лишь с помощью абстрактной записи некоторых соотно­ шений, что усложнило бы понимание существа вопроса.

Допустим, что V — некоторое правило остановки, для

которого v ^ N ,

причем vN не совпадает с v*N.

 

Существуют

две, не исключающие одна другую воз­

можности.

иметь

место

такой набор

хД°)

1. Может

(n<N), что

 

 

 

 

 

1 v:i!jv(x(°),...,4°),...) > л ,

а v(x(10),...,xj|°),...) = «.

 

2. Может

иметь

место

такой набор лф0),...,

х„<°)

(iu^.N), что

 

 

 

 

 

 

 

 

 

а V(я«»,'..., *ло,...) = д.

 

Рассмотрим первую возможность. Определим новое решающее правило ц следующим образом:

!і(х(°),...,х(і°),...) = « + 1 ;

если (хѵ ...,хп) ф (JCJ0*,...,;:^), то

[г to,..., х„,...)=ѵ(*ЛГ) ta,...,

57

По формуле полного математического ожидания / (ѵ) = Р ц у ..., У - (л'і13>,..., x(riu>)J AI [;/„ (x(°)„... 4°>Л +

+ P (&,..., у Ф K o),...,

A4 [ynI

С другой стороны

 

Ңф=р (Ui,•■Ü = W0)-••.40 ))M [y« + 1 W0)»■■- 40)) +

-\-P (Un− 1

У Ф

M [(/v I (У 5«) Ф (-^o..., Xn)].

Отсюда

 

 

1

(V) = A I[^„+1I4 ° J,...,4 0J ) -- ^ (4 0)>-">40,)]X

 

X^(Ui>-.y=(40)--->40)))-

Ввиду того, что

по условию 2

леммы последнее выражение меньше или равно нулю. Это означает, что если согласно правилу остановки ѵ процесс наблюдения останавливается раньше, чем это предписывается правилом остановки, определенным лем­ мой, то можно определить новое правило остановки, не худшее предыдущего и такое, что для рассматриваемого значения вектора наблюдений решение об

остановке принимается на один шаг позднее. Очевидно, эту процедуру можно осуществить для произвольного

вектора (4 0),--> 40))> Для которого

ѵ(4°),...,л-<!°),...) = /і и ѵ*ЛГ(л'(0), ...,4 0)) > 0 .

Приходим к выводу, что, не увеличив значения /(ѵ), можно полностью исключить существование векторов указанного вида.

Рассмотрим теперь вторую возможность. Пусть суще­ ствуют векторы (4 0),.--, 4 °^ ’ Для которых

ѵ<*Л'>(40>,...,4°>,...)</і; ѵ (4°\...,4°> ,... ) > « + 1.

Выберем из них вектор, для которого п максимально (такой вектор найдется, поскольку по определению ѵ(*л,)(а'і, X2, . . . ) ^ N для любых хи х2, ...). Это означает,

чтov(40,,■••,40,’ =

для любого 2 .

По формуле полного математического ожидания

/(ѵ )= р(и 1 ,...,у=(40),...,40)))Ж [р,,+1

(40)і...>Л(о)>£я+і)] +

+я((у...,у Ф (4°>,..,40)))м Iу, I

у ф (4°),...,4 0 ))].

58

Определим новое правило остановки р следующим образом:

если

то

 

 

р- (-U--., х я,...)= ѵ*^ ѵ..., хп,.. .).

(1. 140)

Имеем

 

 

/ 0 4 = Р ((У•••, У = (4 °*, - - -, 4 0))) уп(4 °\.... 4 °>) +

+ Р (fe.•••.У ф (40)-•■.4 0)))М ІУѵК^,..., у ф (40),..., 4 «))]

Вычтя из этого выражения предыдущее, получим

/(^-/(v)=P(fe,...,y=(40),...,4°)))(yn(4°\...,4°>)-

М [У/і+і(4«),...,4>, Ui)])-

По условию 2 леммы /(р) —/(ѵ)<0.

Итак, правило остановки ѵ можно заменить правилом остановки р, для которого решение об остановке прини­ мается ранее. Последовательно применив эту процедуру нужное число раз, мы исключим и вторую возможность.

В результате придем к правилу остановки

удовлет­

воряющему условию 2 леммы.

 

Соседние файлы в папке книги из ГПНТБ