Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Теория игр / Петросян_Теория_игр

.pdf
Скачиваний:
55
Добавлен:
13.02.2015
Размер:
6.14 Mб
Скачать

ния захвата, и область С={х, у: V(х, у, Г)=/} — зону нейтраль­ ного исхода.

Пусть х, уеА. По определению А при любом е>0 игрок Р об­ ладает такой стратегией и\ (•), что

K(x,y;u;0,v())<V(x,y,T)+E

при всех стратегиях v (•) игрока Е. Выбрав подходящим образом б>0, можно обеспечить выполнение неравенства

К (х, у; и,' (•), v (•))< V (х, у, Г)+е</.

Последнее означает, что стратегия и] игрока Р гарантирует ему /-встречу с игроком Е из начальных состояний х, у за время Т. В результате получаем следующее уточнение теоремы п. 4.5.

Теорема. Для любого фиксированного Т>0 все пространство делится на три неперескающиеся области А, В, С, обладающие следующими свойствами:

1) при любых х, уеА игрок Р обладает стратегией и', (•), кото­ рая гарантирует l-встречу с игроком Е на отрезке [О, Т] независимо от действий последнего;

2) для х, уеВ игрок Е обладает стратегией v\ (•), которая гарантирует избежание l-встречи с игроком Р на отрезке [О, 7] независимо от действий последнего;

3) если х, уеС и е>0, то игрок Р обладает стратегией и', (•), гарантирующей (1+е)-встречу с игроком Е за время Т независимо от действий последнего.

§ 5. НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ СУЩЕСТВОВАНИЯ ОПТИМАЛЬНОЙ ПРОГРАММНОЙ

СТРАТЕГИИ УБЕГАЮЩЕГО

5.1. Важным подклассом игр преследования являются игры, в которых оптимальная стратегия убегающего игрока является только функцией времени (так называемый регулярный случай).

Ограничимся рассмотрением игры преследования с предписан­ ной продолжительностью, хотя все результаты могут быть перене­ сены и на игры преследования по быстродействию. Пусть СТР (х) (СЕ(УУ) — множество достижимости игрока Р (Е) из начального состояния х (у) к моменту времени Г, т. е. множество тех позиций,

вкоторые может попасть игрок Р (Е) из начального состояния х (у)

вмомент Т, используя всевозможные измеримые программные управления и (/), (v (/)), /е[0, 7] при условии, что движение проис­

ходит в соответствии с системой x=f(x,

и) (y=g

(у, v)). Введем

в рассмотрение величину

 

 

 

Рт(хо, Уо)= max

min

p (x, у),

(5.1)

> 6 W

*6C,r<V

 

 

260

называемую иногда (см. [7, 39, 40]) гипотетическим рассогласовани­ ем множеств С\ (у0) и С£ 0) (см. пример 8 п. 2.6 гл. II).

Функция рт 0, у0) обладает следующими свойствами:

1°. Рт (х0, Уо)>0, рт 0, у0)\тшо = Р (хо, УоУ,

2°. рт 0, уо)=0, если С? (*о) => С | 0);

3°. Если V (х0, у0, Т) — значение игры Г (х0, Уо, Т) с предписан­ ной продолжительностью и терминальным выигрышем р (х (Т), у (Г)), то

У(х0,Уо, Т)^рт(х0,Уо).

Действительно, свойство 1° следует из неотрицательности функ­ ции р (х, у). Пусть Ср (хо) з С ? (уо). Тогда для любого у'е С\ (у0)

существует такое jc'eCj 0), что р (х', у')=0, {х'=уг), откуда полу­ чаем 2°. Свойство 3° следует из того, что игрок Е, выбирая направ­ ление движения на точку МеС| (у0),ДОЯкоторой

Рт (хо, Уо)= min р (х, М),

хеСЦхо)

всегда гарантирует получение выигрыша рт (х0, уо). Точка М назы­ вается центром преследования.

5.2. Пусть Г4 0, уо, Т) — дискретная игра преследования с ша­ гом 8 (S = tk+l — tk), предписанной продолжительностью Г, дискри­ минацией игрока Е и начальными состояниями х0, у0. Тогда справе­ длива следующая теорема.

Теорема. Для того чтобы для любых х0, Уо^И"

и

Т=дк,

к= 1, 2, ..., выполнялось равенство

 

 

РТ (ХО, УО)=УЯ\ Г, 0, УО, Т),

 

(5.2)

необходимо и достаточно, чтобы для всех х0, y0elC,

5>0

и Т=5к,

к= 1, 2, ..., имело место соотношение

 

 

Рт(х0,Уо)= max

min pT-s (x, у)

 

(5.3)

(Val Ts (хо, Уо, Т) значение игры Г6 0, у0, Т)).

Доказательство теоремы опирается на следующий результат.

261

Лемма. Для любых х0, y<>eR , Т^Ь

выполняется неравенство

Рт(х0, Уо)< max

min

pT-s(x, у).

 

yeC^tm) xeC'r(x0)

 

Доказательство. По определению функции рт имеем

 

max

min pT_s (х, y) =

 

уеС'^о)

дгбС«(д:о)

 

 

= max

min

max

 

min p (x, y).

уеС'ж0)

хеС1гй)

увС^Чу)

ieCj< (дс)

Для всех хе С? (х0) имеет место включение Cp~s (х) cz Ср (x0). Сле­

довательно, для любых хеСр

0), уеС~Е~6 (у)

 

 

 

min

p(x,y)^

min

p (х, у).

 

 

 

«CJ-'M

 

 

ieCTr(xo)

 

 

 

Тогда для всех хеСР

0), yeCsE(y0)

 

 

 

 

 

max

min

р (х, у)^

max

 

min р (x, у)

уеСт-Чу)

«с; - '**)

 

 

уеСт-'(у)

хеСЦхо)

 

И

 

 

 

 

 

 

 

 

 

 

min

max

min

р(х,у)^

max

min

p(x,y).

xeC^xo) yeCT-'(y) хпС^Чх)

 

 

уеС^Чу)

xeC^xo)

 

Таким образом,

 

 

 

 

 

 

 

 

 

max

min

рТ-ь (x, y)^

max

max

min

p (x, y)=

yeC^o)

xeC^(xo)

 

 

yeC^lyo)

yeC^fy)

хеСЦхо)

 

 

=

max

min p (x, y) = pT

(x0, yQ);

 

 

 

>eCjOo)

xeCTr(xo)

 

 

 

 

 

— лемма доказана.

Перейдем к доказательству теоремы.

Необходимость. Пусть выполняется условие (5.2) и не выпол­ няется условие (5.3). Тогда согласно лемме существуют такие <5>0,

хо, уо е R", ТО = 0, к0^1, что

ho (*o, Уо)< max

min pVo-a (л:, у).

(5.4)

yeC'^fyo)

хеС'^хо)

 

262

Пусть u° (•) — оптимальная стратегия игрока Р в игре Гг 0, у0, Т0) и на 1-м шаге игры игрок Е выбирает точку j*eCi(y0 ), Для которой

min рГо-г (х, у*)= max

min рГо_г (х, у).

(5.5)

Пусть х° (8) — состояние, в которое переходит Р на 1-м шаге при использовании стратегии м° (•), а й° (•) — оптимальная страте­ гия Е в игре Г« (х° (8), у*, Тй—8). Рассмотрим следующую страте­ гию v (•) игрока £ в игре rs 0, у0, Т0): в момент /=0 он выбирает точку у*, а начиная с момента t=8, игрок Е использует стратегию

z ° <•>•

Обозначим через й° (•) сужение стратегии и° (•) на отрезке [8, Г0]. Из (5.2), (5.4), (5.5) (согласно формуле (5.2) рт 0, у0) — значение игры Т{ (хо, уо, Т) находим

Ртй 0, у0

0 (), v (•); XQ, уо, Т0)=

=К(й°(.),;°(.);х°

(8), У, Т0-д) =

=Рто-Лх°(Ь),У*)>

min pTo-S(x,y*) =

 

 

 

xeC'r(xo)

= max

min

PT0-S(X, y)>pTQ (x0, y0).

уеС'г(уо)

xeC^lxo)

 

 

Полученное противоречие доказывает необходимость условия (5.3). Достаточность. Заметим, что условие (5.3) совместно с усло­ вием рт(хо, .Ио)|г-о=Р (хо, уо) показывает, что функция рт0, у0)

удовлетворяет функциональному уравнению для функции значения игры Fs (хо, уо, Т). Как следует из доказательства теоремы п. 2.2, это

условие является достаточным для того, чтобы рт(х0, Уо) было значением игры Гв 0, у0, Т).

5.3. Лемма. Для того чтобы в игре Г 0, уо, Т) существовала

оптимальная программная стратегия игрока Е (т. е. стратегия, являющаяся функцией только времени), необходимо и достаточно, чтобы

Val Г (ль, Уо, Т) = рТ (хо, уо).

(5.6)

Доказательство. Достаточность. Пусть v* (0, te[0, T] — допустимое управление игрока Е, переводящее точку у0 в некоторую

263

точку М такую, что

Рт (хо, у0) = min р (х, М).

хеСтг0)

Обозначим v* () = {ff, v* (/)}, где разбиение а отрезка [0, 7] состоит

из двух точек t0=0, tx

= T. Очевидно, v* (-)еЕ. Согласно теореме п.

3.4 гл. I v* ()еЕ — оптимальная

стратегия игрока

Е в игре

Г (х„, Уо, Т), если

 

 

 

 

Val Г (х0, уа, Т)=М

К (и (), ** (•); х0, у0, Т).

 

 

« ( ) 6 Р

 

 

Но это равенство следует из (5.6), поскольку

 

inf К (« (•), v* (); х0, уо, Т)=рг (хо, у0).

 

и()бР

 

 

 

 

Необходимость. Пусть в игре Г (х0, у0, Т) существует оп­

тимальная программная стратегия игрока Е, тогда

 

Val Г (хо, у0, Т)= sup

inf

К (и (•), v (•); х0, у0,

Т)=

 

»()6Б

и()еР

 

 

= max

inf

р (х (Г), у)=рт 0, у0).

 

Лемма доказана.

Теорема. Для того чтобы при любых х0, Уо^Л?, Т>0 в игре Г (х0, Уа, Т) игрок Е имел оптимальную программную стратегию,

необходимо и достаточно, чтобы для любых <5>0, х0, Уо^Я", Т^Ь выполнялось равенство

Рт(хо,Уо)= max

min рГ-г (*. у).

(5.7)

уеС'^о)

*еС'г0)

 

Доказательство. Достаточность. Из условия (5.7) соглас­ но теореме п. 5.2 следует соотношение (5.2), из которого предель­ ным переходом (см. теорему п. 3.7) получим

Рт (х0, у0) = Val Г (х0, уо, Т).

Отсюда согласно лемме п. 5.3 следует существование оптимальной программной стратегии игрока Е.

264

Необходимость условия (5.7) следует из теоремы п. 5.2, по­ скольку существование оптимальной программной стратегии игро­ ка Е в игре Г 0, у«, Т) влечет существование таковой во всех играх

Га 0, у0, Т), Т=8к, к^ 1, и справедливость соотношения (5.3).

§6. ОСНОВНОЕ УРАВНЕНИЕ

Вданном параграфе будет показано, что при определенных условиях функция значения дифференциальной игры удовлетворяет уравнению в частных производных, которое называется основным. Впервые в монографической литературе оно было рассмотрено

Р.Айзексом [1] и его часто называют уравнением АйзексаБел- лмана.

6.1.Используя теорему п.5.3, выведем уравнение в частных про­ изводных для функции значения дифференциальной игры. Будем предполагать, что для игры Г (х, у, Т) выполнены условия теоремы п. 5.3. Тогда функция рт(х, у) представляет собой значение игры

Г (х, у, Т) продолжительностью Т из начальных состояний х, у.

Пусть в некоторой области ft пространства Л" х Л" х [О, оо) функция рт(х, у) имеет непрерывные частные производные по

всем переменным. Покажем, что в этом случае функция рт (х,

у) в области ft удовлетворяет дифференциально-экстремальному уравнению

— -max £ — gi (у, «)-mm £ —// (х, «)=0,

(6.1)

01 veV

(_]

oyt

 

ueu ,_! OX,-

 

 

где функции ft (х, и), gt

(у, v), i= 1, ..., п, определяют закон движения

игроков в игре Г (см. (3.1), (3.2)).

выполняется в

некоторой

точке

Предположим,

что

(6.1)

не

(х, у, Г) eft. Пусть, для определенности,

 

 

дР

V д/

ч

V д'Р г <

\ п

 

— -max £ — gi (У, »)-max £ — ft (х, и)<0.

ОТ 6 у ,_, ОУх

 

ueV

iml

OXi

точке (х, у, Г)eft

Пусть veV таково, что

в

рассматриваемой

выполнено соотношение

 

 

 

 

 

 

V д

(

~\

V

д

<

\

h — gi(y. «)=max 2^ — gi (У, v).

Тогда при любом и е U в точке (х, у, Т) е ft имеет место неравенство:

265

£ - t £ f t ( y . 3 - l £ y i ( * . . i ) < 0 .

(6.2)

ST ~ dyt

~ Эх,'

 

Из непрерывной дифференцируемости функции р по всем перемен­ ным следует, что неравенство (6.2) вьшолняется и в некоторой окрестности S точки (х, у, Т). Выберем число 8>0 настолько малым, чтобы точка (т), у (т), T—x)eS при всех те[0, 8]. Здесь

т

х

х (т) = х + j Д * (0, и (0) А,

У (t)=y+\g(y (0, * (0) А

о

о

— траектории систем (3.1J, (3.2), отвечающие некоторому допусти­ мому управлению и (/) и v (t) = v соответственно и начальным усло­ виям х (0) = х, у (0)=у. Определим функцию

8Т \(х (т), у (т), Г-т)

. _ , 8yt |(х (т), , (т), Т-х)

-£?, у;(х(т),«(т)),т€[о,г].

Функция G (т) непрерывна по г, поэтому найдется число с<0 такое, что (7 (т)<с при те[0, 3]. Отсюда имеем

s

{G (т) е?г<с<5.

(6.3)

о

Нетрудно убедиться в том, что

dp

Afo^jW . T-x)

Из (6.3) получаем

Рг (*. У)~РТ-Й (х (8), у (8))^с8.

Отсюда в силу произвольности и (*) следует

Рт (х, у)< max

min рТ-з (х', у1),

у'бС'ж(у)

х'еС^х)

что противоречит (5.7).

 

Таким образом, мы показали, что в том случае, когда у игрока

Е в игре Г (х, у, Т) при любых х, у е R", Т> 0 существует оптималь­ ная программная стратегия, значение игры V (х, у, Т) (оно совпада-

266

ет с рт (х, у)

согласно

лемме п.

5.3) в

области пространства

R" х Я" х [0, оо), где существуют непрерывные частные производные

у этой функции, удовлетворяет уравнению

 

 

dV

"

dV

"

dV

 

—=max £

— gi (У. «)+min £

— ft (x> ")

(6-4)

при начальном условии V (x, у, Т)\Тш0=р (х, у). Предположим, что каким-то образом удается определить й, v, доставляющие max и min

8V 3V

в (6.4) как функции от х, у и —, —, т. е.

дх ду

(6.5)

Подставляя выражения (6.5) в (6.4), получаем

(6.6)

при условии

V(x,y,T)\T.Q=p(x,y). (6.7)

Таким образом, для определения V (х, у, Т) имеем задачу Коши для уравнения в частных производных первого порядка (6.6) при начальном условии (6.7).

Замечание. При выводе функциональных уравнений (6.4), (6.6) и доказательстве теоремы п. 5.3 мы не использовали конкретный вид функции выигрыша, поэтому теорема остается справедливой для любого непрерывного терминального выигрыша Я (Г), у (Г)). Однако в этом случае вместо величины рт (х, у) необходимо

рассмотреть величину

 

 

Нт (х, у)= max

min

H(x',yr).

Уравнение (6,4) также справедливо для значения дифференциаль­ ной игры с предписанной продолжительностью и любым терми­ нальным выигрышем, т. е. если в дифференциальной игре с пред­ писанной продолжительностью Г (х, у, Т) и терминальным выиг­ рышем Я (Г), у (Г)) у игрока Е существует оптимальная про­ граммная стратегия, то значение игры V (х, у, Т) в области про­ странства ЯпхДпх[0, оо), где существуют непрерывные частные производные, удовлетворяет уравнению (6.4) при начальном усло-

267

вии V (х, у, Г)|у=о=Я (х, у) или уравнению (6.6) с тем же началь­ ным условием.

6.2. Рассмотрим теперь игры преследования, в которых функция выигрыша равна времени до момента встречи. Предположим, для определенности, что терминальное многообразие ^является сферой р (х, у)=1, />0. Будем предполагать, что множества С£ (х) и С'Е (у) непрерывны по t в нуле равномерно относительно х и у.

Пусть имеет смысл величина

в (х, у, /)=max min t'„ (х, у; и (/), v (/)),

• м «ю

где t '„ (х, у; и (t), v (/)) — время сближения на / — расстояние иг­ роков Рта. Е, движущихся из начальных точек х, у при использова­ нии измеримых программных управлений и (t) и v (t) соответствен­ но. Предположим также, что функция в (х, у, /) непрерывна по совокупности аргументов.

Игру на быстродействие будем обозначать через Г (х0, у0). Так

же как это было сделано в § 4, 5, можно вывести необходимые и достаточные условия существования оптимальной программной стратегии игрока Е в игре преследования на быстродействие. Спра­ ведлива следующая теорема.

Теорема. Для того чтобы игрок Е при любых х0, y0eR" в игре

Г (XQ, уо) имел оптимальную программную стратегию, необходимо

и достаточно, чтобы при любом S>0 и любых Xu,yuetC выполнялось равенство

в (хо, Уо, l)=5+ max min в (х', у', I).

Для игры преследования по быстродействию уравнение (6.4) принимает вид

" дв

" дв

при начальном условии

0(x,y,t)Wy)-,=0. (6.9)

Здесь предполагается существование непрерывных частных произ­ водных первого порядка функции в (х, у, I) по х, у. Полагая, что каким-то образом можно определить и, v, доставляющие max и min

„ „ч

t

дв дв

- - ( 8в\ -

в (6.8) как функции

от х, у, —, —, т. е. и=и\х,

— 1, i> =

 

 

дх ду

\

дх)

268

4-Эперепишем уравнение (6.8) в виде

при условии

0(Х,У,1)\Р(*.У)-1=0-

(6.11)

Вывод уравнения (6.8) аналогичен выводу уравнения (6.4) для игры преследования с предписанной продолжительностью.

Обе задачи Коши (6.4), (6.7) и (6.8), (6.9) являются нелинейными относительно частных производных, поэтому при их решении воз­ никают значительные трудности.

6.3. Перейдем теперь к выводу уравнений характеристик для (6.4). Предполо­ жим, что функция V (х, у; Т) имеет непрерывные вторые смешанные производные на

всем пространстве, функции g, (у,

в), /( (х,

 

 

. . /

dV\

.

/

и) и функции и=и\х,

— I ,

 

v=v\y,

3Dимеют непрерывные первые производные по всем переменным, а множества U,

V имеют вид параллелепипедов am^um<Am, m=\,

..., к и c9<v9<<7f, q=\,

..., /, где

и=(щ, ..., uk)eU, »=(»i,..., vj)eV. Обозначим

 

 

 

 

 

 

dV

n dV

 

 

" dV

 

 

 

в (x. у, т)-—-

Z—Л

 

С*. «)- Z г- ft СУ. ")•

 

 

 

Функция В (х, у, Г)=0, поэтому беря частные производные по xj

хт получим

ВВ

8*V

"

8*V

 

*SV

df,

 

 

 

дхк

-

I r

r

/ r l

(_{дх,дхк

 

 

 

дТдхк

imldx,dxk

 

 

 

 

 

-Z п82-V* ' - Z — I Z -rfA-

 

 

 

,_,

8ytdxk

m-\

dUl»

\-l

dx>

' dx*

 

 

 

 

 

 

 

 

'

д (

8V

\

 

Xf

k"hn-

 

 

 

- Z - [ Т - г Ч Т Г ' 0 '

 

 

(612)

Для каждой фиксированной точки (х,_у, T)eR хЛ ж [0, оо) максимизирующее значение v и минимизирующее значение й в (6.4) лежат либо внутри, либо на границе интервала ограничений. Если это внутренняя точка, то

д ( " 3V \

д ( » dV

\

г- Z-/<

.-о. - 1 т б

--0-

Если же й (v) лежит на границе, то здесь могут представиться два случая. Исследуем

269

Соседние файлы в папке Теория игр