Теория игр / Петросян_Теория_игр
.pdfния захвата, и область С={х, у: V(х, у, Г)=/} — зону нейтраль ного исхода.
Пусть х, уеА. По определению А при любом е>0 игрок Р об ладает такой стратегией и\ (•), что
K(x,y;u;0,v())<V(x,y,T)+E
при всех стратегиях v (•) игрока Е. Выбрав подходящим образом б>0, можно обеспечить выполнение неравенства
К (х, у; и,' (•), v (•))< V (х, у, Г)+е</.
Последнее означает, что стратегия и] игрока Р гарантирует ему /-встречу с игроком Е из начальных состояний х, у за время Т. В результате получаем следующее уточнение теоремы п. 4.5.
Теорема. Для любого фиксированного Т>0 все пространство делится на три неперескающиеся области А, В, С, обладающие следующими свойствами:
1) при любых х, уеА игрок Р обладает стратегией и', (•), кото рая гарантирует l-встречу с игроком Е на отрезке [О, Т] независимо от действий последнего;
2) для х, уеВ игрок Е обладает стратегией v\ (•), которая гарантирует избежание l-встречи с игроком Р на отрезке [О, 7] независимо от действий последнего;
3) если х, уеС и е>0, то игрок Р обладает стратегией и', (•), гарантирующей (1+е)-встречу с игроком Е за время Т независимо от действий последнего.
§ 5. НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ СУЩЕСТВОВАНИЯ ОПТИМАЛЬНОЙ ПРОГРАММНОЙ
СТРАТЕГИИ УБЕГАЮЩЕГО
5.1. Важным подклассом игр преследования являются игры, в которых оптимальная стратегия убегающего игрока является только функцией времени (так называемый регулярный случай).
Ограничимся рассмотрением игры преследования с предписан ной продолжительностью, хотя все результаты могут быть перене сены и на игры преследования по быстродействию. Пусть СТР (х) (СЕ(УУ) — множество достижимости игрока Р (Е) из начального состояния х (у) к моменту времени Г, т. е. множество тех позиций,
вкоторые может попасть игрок Р (Е) из начального состояния х (у)
вмомент Т, используя всевозможные измеримые программные управления и (/), (v (/)), /е[0, 7] при условии, что движение проис
ходит в соответствии с системой x=f(x, |
и) (y=g |
(у, v)). Введем |
|
в рассмотрение величину |
|
|
|
Рт(хо, Уо)= max |
min |
p (x, у), |
(5.1) |
> 6 W |
*6C,r<V |
|
|
260
называемую иногда (см. [7, 39, 40]) гипотетическим рассогласовани ем множеств С\ (у0) и С£ (х0) (см. пример 8 п. 2.6 гл. II).
Функция рт (х0, у0) обладает следующими свойствами:
1°. Рт (х0, Уо)>0, рт (х0, у0)\тшо = Р (хо, УоУ,
2°. рт (х0, уо)=0, если С? (*о) => С | (у0);
3°. Если V (х0, у0, Т) — значение игры Г (х0, Уо, Т) с предписан ной продолжительностью и терминальным выигрышем р (х (Т), у (Г)), то
У(х0,Уо, Т)^рт(х0,Уо).
Действительно, свойство 1° следует из неотрицательности функ ции р (х, у). Пусть Ср (хо) з С ? (уо). Тогда для любого у'е С\ (у0)
существует такое jc'eCj (х0), что р (х', у')=0, {х'=уг), откуда полу чаем 2°. Свойство 3° следует из того, что игрок Е, выбирая направ ление движения на точку МеС| (у0),ДОЯкоторой
Рт (хо, Уо)= min р (х, М),
хеСЦхо)
всегда гарантирует получение выигрыша рт (х0, уо). Точка М назы вается центром преследования.
5.2. Пусть Г4 (х0, уо, Т) — дискретная игра преследования с ша гом 8 (S = tk+l — tk), предписанной продолжительностью Г, дискри минацией игрока Е и начальными состояниями х0, у0. Тогда справе длива следующая теорема.
Теорема. Для того чтобы для любых х0, Уо^И" |
и |
Т=дк, |
|
к= 1, 2, ..., выполнялось равенство |
|
|
|
РТ (ХО, УО)=УЯ\ Г, (Х0, УО, Т), |
|
(5.2) |
|
необходимо и достаточно, чтобы для всех х0, y0elC, |
5>0 |
и Т=5к, |
|
к= 1, 2, ..., имело место соотношение |
|
|
|
Рт(х0,Уо)= max |
min pT-s (x, у) |
|
(5.3) |
(Val Ts (хо, Уо, Т) — значение игры Г6 (х0, у0, Т)).
Доказательство теоремы опирается на следующий результат.
261
Лемма. Для любых х0, y<>eR , Т^Ь |
выполняется неравенство |
|||
Рт(х0, Уо)< max |
min |
pT-s(x, у). |
||
|
yeC^tm) xeC'r(x0) |
|
||
Доказательство. По определению функции рт имеем |
||||
|
max |
min pT_s (х, y) = |
||
|
уеС'^о) |
дгбС«(д:о) |
|
|
= max |
min |
max |
|
min p (x, y). |
уеС'ж(у0) |
хеС1г(хй) |
увС^Чу) |
ieCj< (дс) |
Для всех хе С? (х0) имеет место включение Cp~s (х) cz Ср (x0). Сле
довательно, для любых хеСр |
(х0), уеС~Е~6 (у) |
|
||||||||
|
|
min |
p(x,y)^ |
min |
p (х, у). |
|
||||
|
|
«CJ-'M |
|
|
ieCTr(xo) |
|
|
|
||
Тогда для всех хеСР |
(х0), yeCsE(y0) |
|
|
|
|
|||||
|
max |
min |
р (х, у)^ |
max |
|
min р (x, у) |
||||
уеСт-Чу) |
«с; - '**) |
|
|
уеСт-'(у) |
хеСЦхо) |
|
||||
И |
|
|
|
|
|
|
|
|
|
|
min |
max |
min |
р(х,у)^ |
max |
min |
p(x,y). |
||||
xeC^xo) yeCT-'(y) хпС^Чх) |
|
|
уеС^Чу) |
xeC^xo) |
|
|||||
Таким образом, |
|
|
|
|
|
|
|
|
|
|
max |
min |
рТ-ь (x, y)^ |
max |
max |
min |
p (x, y)= |
||||
yeC^o) |
xeC^(xo) |
|
|
yeC^lyo) |
yeC^fy) |
хеСЦхо) |
|
|||
|
= |
max |
min p (x, y) = pT |
(x0, yQ); |
|
|||||
|
|
>eCjOo) |
xeCTr(xo) |
|
|
|
|
|
— лемма доказана.
Перейдем к доказательству теоремы.
Необходимость. Пусть выполняется условие (5.2) и не выпол няется условие (5.3). Тогда согласно лемме существуют такие <5>0,
хо, уо е R", ТО = 8к0, к0^1, что
ho (*o, Уо)< max |
min pVo-a (л:, у). |
(5.4) |
yeC'^fyo) |
хеС'^хо) |
|
262
Пусть u° (•) — оптимальная стратегия игрока Р в игре Гг (х0, у0, Т0) и на 1-м шаге игры игрок Е выбирает точку j*eCi(y0 ), Для которой
min рГо-г (х, у*)= max |
min рГо_г (х, у). |
(5.5) |
Пусть х° (8) — состояние, в которое переходит Р на 1-м шаге при использовании стратегии м° (•), а й° (•) — оптимальная страте гия Е в игре Г« (х° (8), у*, Тй—8). Рассмотрим следующую страте гию v (•) игрока £ в игре rs (х0, у0, Т0): в момент /=0 он выбирает точку у*, а начиная с момента t=8, игрок Е использует стратегию
z ° <•>•
Обозначим через й° (•) сужение стратегии и° (•) на отрезке [8, Г0]. Из (5.2), (5.4), (5.5) (согласно формуле (5.2) рт (х0, у0) — значение игры Т{ (хо, уо, Т) находим
Ртй (х0, у0)Ж |
(и0 (), v (•); XQ, уо, Т0)= |
||
=К(й°(.),;°(.);х° |
(8), У, Т0-д) = |
||
=Рто-Лх°(Ь),У*)> |
min pTo-S(x,y*) = |
||
|
|
|
xeC'r(xo) |
= max |
min |
PT0-S(X, y)>pTQ (x0, y0). |
|
уеС'г(уо) |
xeC^lxo) |
|
|
Полученное противоречие доказывает необходимость условия (5.3). Достаточность. Заметим, что условие (5.3) совместно с усло вием рт(хо, .Ио)|г-о=Р (хо, уо) показывает, что функция рт(х0, у0)
удовлетворяет функциональному уравнению для функции значения игры Fs (хо, уо, Т). Как следует из доказательства теоремы п. 2.2, это
условие является достаточным для того, чтобы рт(х0, Уо) было значением игры Гв (х0, у0, Т).
5.3. Лемма. Для того чтобы в игре Г (х0, уо, Т) существовала
оптимальная программная стратегия игрока Е (т. е. стратегия, являющаяся функцией только времени), необходимо и достаточно, чтобы
Val Г (ль, Уо, Т) = рТ (хо, уо). |
(5.6) |
Доказательство. Достаточность. Пусть v* (0, te[0, T] — допустимое управление игрока Е, переводящее точку у0 в некоторую
263
точку М такую, что
Рт (хо, у0) = min р (х, М).
хеСтг(х0)
Обозначим v* () = {ff, v* (/)}, где разбиение а отрезка [0, 7] состоит |
||||
из двух точек t0=0, tx |
= T. Очевидно, v* (-)еЕ. Согласно теореме п. |
|||
3.4 гл. I v* ()еЕ — оптимальная |
стратегия игрока |
Е в игре |
||
Г (х„, Уо, Т), если |
|
|
|
|
Val Г (х0, уа, Т)=М |
К (и (), ** (•); х0, у0, Т). |
|
||
|
« ( ) 6 Р |
|
|
|
Но это равенство следует из (5.6), поскольку |
|
|||
inf К (« (•), v* (); х0, уо, Т)=рг (хо, у0). |
|
|||
и()бР |
|
|
|
|
Необходимость. Пусть в игре Г (х0, у0, Т) существует оп |
||||
тимальная программная стратегия игрока Е, тогда |
|
|||
Val Г (хо, у0, Т)= sup |
inf |
К (и (•), v (•); х0, у0, |
Т)= |
|
|
»()6Б |
и()еР |
|
|
= max |
inf |
р (х (Г), у)=рт (х0, у0). |
|
Лемма доказана.
Теорема. Для того чтобы при любых х0, Уо^Л?, Т>0 в игре Г (х0, Уа, Т) игрок Е имел оптимальную программную стратегию,
необходимо и достаточно, чтобы для любых <5>0, х0, Уо^Я", Т^Ь выполнялось равенство
Рт(хо,Уо)= max |
min рГ-г (*. у). |
(5.7) |
уеС'^о) |
*еС'г(х0) |
|
Доказательство. Достаточность. Из условия (5.7) соглас но теореме п. 5.2 следует соотношение (5.2), из которого предель ным переходом (см. теорему п. 3.7) получим
Рт (х0, у0) = Val Г (х0, уо, Т).
Отсюда согласно лемме п. 5.3 следует существование оптимальной программной стратегии игрока Е.
264
Необходимость условия (5.7) следует из теоремы п. 5.2, по скольку существование оптимальной программной стратегии игро ка Е в игре Г (х0, у«, Т) влечет существование таковой во всех играх
Га (х0, у0, Т), Т=8к, к^ 1, и справедливость соотношения (5.3).
§6. ОСНОВНОЕ УРАВНЕНИЕ
Вданном параграфе будет показано, что при определенных условиях функция значения дифференциальной игры удовлетворяет уравнению в частных производных, которое называется основным. Впервые в монографической литературе оно было рассмотрено
Р.Айзексом [1] и его часто называют уравнением Айзекса—Бел- лмана.
6.1.Используя теорему п.5.3, выведем уравнение в частных про изводных для функции значения дифференциальной игры. Будем предполагать, что для игры Г (х, у, Т) выполнены условия теоремы п. 5.3. Тогда функция рт(х, у) представляет собой значение игры
Г (х, у, Т) продолжительностью Т из начальных состояний х, у.
Пусть в некоторой области ft пространства Л" х Л" х [О, оо) функция рт(х, у) имеет непрерывные частные производные по
всем переменным. Покажем, что в этом случае функция рт (х,
у) в области ft удовлетворяет дифференциально-экстремальному уравнению
— -max £ — gi (у, «)-mm £ —// (х, «)=0, |
(6.1) |
|||||
01 veV |
(_] |
oyt |
|
ueu ,_! OX,- |
|
|
где функции ft (х, и), gt |
(у, v), i= 1, ..., п, определяют закон движения |
|||||
игроков в игре Г (см. (3.1), (3.2)). |
выполняется в |
некоторой |
точке |
|||
Предположим, |
что |
(6.1) |
не |
|||
(х, у, Г) eft. Пусть, для определенности, |
|
|
||||
дР |
V д'Р / |
ч |
V д'Р г < |
\ п |
|
— -max £ — gi (У, »)-max £ — ft (х, и)<0.
ОТ „6 у ,_, ОУх |
|
ueV |
iml |
OXi |
точке (х, у, Г)eft |
|
Пусть veV таково, что |
в |
рассматриваемой |
||||
выполнено соотношение |
|
|
|
|
|
|
V д'Р |
( |
~\ |
V |
д'Р |
< |
\ |
h — gi(y. «)=max 2^ — gi (У, v).
Тогда при любом и е U в точке (х, у, Т) е ft имеет место неравенство:
265
£ - t £ f t ( y . 3 - l £ y i ( * . . i ) < 0 . |
(6.2) |
|
ST ~ dyt |
~ Эх,' |
|
Из непрерывной дифференцируемости функции р по всем перемен ным следует, что неравенство (6.2) вьшолняется и в некоторой окрестности S точки (х, у, Т). Выберем число 8>0 настолько малым, чтобы точка (х (т), у (т), T—x)eS при всех те[0, 8]. Здесь
т |
х |
х (т) = х + j Д * (0, и (0) А, |
У (t)=y+\g(y (0, * (0) А |
о |
о |
— траектории систем (3.1J, (3.2), отвечающие некоторому допусти мому управлению и (/) и v (t) = v соответственно и начальным усло виям х (0) = х, у (0)=у. Определим функцию
8Т \(х (т), у (т), Г-т) |
. _ , 8yt |(х (т), , (т), Т-х) |
-£?, у;(х(т),«(т)),т€[о,г].
Функция G (т) непрерывна по г, поэтому найдется число с<0 такое, что (7 (т)<с при те[0, 3]. Отсюда имеем
s
{G (т) е?г<с<5. |
(6.3) |
о
Нетрудно убедиться в том, что
dp
Afo^jW . T-x)
Из (6.3) получаем
Рг (*. У)~РТ-Й (х (8), у (8))^с8.
Отсюда в силу произвольности и (*) следует
Рт (х, у)< max |
min рТ-з (х', у1), |
у'бС'ж(у) |
х'еС^х) |
что противоречит (5.7). |
|
Таким образом, мы показали, что в том случае, когда у игрока
Е в игре Г (х, у, Т) при любых х, у е R", Т> 0 существует оптималь ная программная стратегия, значение игры V (х, у, Т) (оно совпада-
266
ет с рт (х, у) |
согласно |
лемме п. |
5.3) в |
области пространства |
|
R" х Я" х [0, оо), где существуют непрерывные частные производные |
|||||
у этой функции, удовлетворяет уравнению |
|
|
|||
dV |
" |
dV |
" |
dV |
|
—=max £ |
— gi (У. «)+min £ |
— ft (x> ") |
(6-4) |
при начальном условии V (x, у, Т)\Тш0=р (х, у). Предположим, что каким-то образом удается определить й, v, доставляющие max и min
8V 3V
в (6.4) как функции от х, у и —, —, т. е.
дх ду
(6.5)
Подставляя выражения (6.5) в (6.4), получаем
(6.6)
при условии
V(x,y,T)\T.Q=p(x,y). (6.7)
Таким образом, для определения V (х, у, Т) имеем задачу Коши для уравнения в частных производных первого порядка (6.6) при начальном условии (6.7).
Замечание. При выводе функциональных уравнений (6.4), (6.6) и доказательстве теоремы п. 5.3 мы не использовали конкретный вид функции выигрыша, поэтому теорема остается справедливой для любого непрерывного терминального выигрыша Я (х (Г), у (Г)). Однако в этом случае вместо величины рт (х, у) необходимо
рассмотреть величину |
|
|
Нт (х, у)= max |
min |
H(x',yr). |
Уравнение (6,4) также справедливо для значения дифференциаль ной игры с предписанной продолжительностью и любым терми нальным выигрышем, т. е. если в дифференциальной игре с пред писанной продолжительностью Г (х, у, Т) и терминальным выиг рышем Я (х (Г), у (Г)) у игрока Е существует оптимальная про граммная стратегия, то значение игры V (х, у, Т) в области про странства ЯпхДпх[0, оо), где существуют непрерывные частные производные, удовлетворяет уравнению (6.4) при начальном усло-
267
вии V (х, у, Г)|у=о=Я (х, у) или уравнению (6.6) с тем же началь ным условием.
6.2. Рассмотрим теперь игры преследования, в которых функция выигрыша равна времени до момента встречи. Предположим, для определенности, что терминальное многообразие ^является сферой р (х, у)=1, />0. Будем предполагать, что множества С£ (х) и С'Е (у) непрерывны по t в нуле равномерно относительно х и у.
Пусть имеет смысл величина
в (х, у, /)=max min t'„ (х, у; и (/), v (/)),
• м «ю
где t '„ (х, у; и (t), v (/)) — время сближения на / — расстояние иг роков Рта. Е, движущихся из начальных точек х, у при использова нии измеримых программных управлений и (t) и v (t) соответствен но. Предположим также, что функция в (х, у, /) непрерывна по совокупности аргументов.
Игру на быстродействие будем обозначать через Г (х0, у0). Так
же как это было сделано в § 4, 5, можно вывести необходимые и достаточные условия существования оптимальной программной стратегии игрока Е в игре преследования на быстродействие. Спра ведлива следующая теорема.
Теорема. Для того чтобы игрок Е при любых х0, y0eR" в игре
Г (XQ, уо) имел оптимальную программную стратегию, необходимо
и достаточно, чтобы при любом S>0 и любых Xu,yuetC выполнялось равенство
в (хо, Уо, l)=5+ max min в (х', у', I).
Для игры преследования по быстродействию уравнение (6.4) принимает вид
" дв |
" дв |
при начальном условии
0(x,y,t)Wy)-,=0. (6.9)
Здесь предполагается существование непрерывных частных произ водных первого порядка функции в (х, у, I) по х, у. Полагая, что каким-то образом можно определить и, v, доставляющие max и min
„ „ч |
t |
дв дв |
- - ( 8в\ - |
|
в (6.8) как функции |
от х, у, —, —, т. е. и=и\х, |
— 1, i> = |
||
|
|
дх ду |
\ |
дх) |
268
4-Эперепишем уравнение (6.8) в виде
при условии
0(Х,У,1)\Р(*.У)-1=0- |
(6.11) |
Вывод уравнения (6.8) аналогичен выводу уравнения (6.4) для игры преследования с предписанной продолжительностью.
Обе задачи Коши (6.4), (6.7) и (6.8), (6.9) являются нелинейными относительно частных производных, поэтому при их решении воз никают значительные трудности.
6.3. Перейдем теперь к выводу уравнений характеристик для (6.4). Предполо жим, что функция V (х, у; Т) имеет непрерывные вторые смешанные производные на
всем пространстве, функции g, (у, |
в), /( (х, |
|
|
. . / |
dV\ |
. |
/ |
|||
и) и функции и=и\х, |
— I , |
|
v=v\y, |
|||||||
3Dимеют непрерывные первые производные по всем переменным, а множества U, |
||||||||||
V имеют вид параллелепипедов am^um<Am, m=\, |
..., к и c9<v9<<7f, q=\, |
..., /, где |
||||||||
и=(щ, ..., uk)eU, »=(»i,..., vj)eV. Обозначим |
|
|
|
|
|
|||||
|
dV |
n dV |
|
|
" dV |
|
|
|
||
в (x. у, т)-—- |
Z—Л |
|
С*. «)- Z г- ft СУ. ")• |
|
|
|
||||
Функция В (х, у, Г)=0, поэтому беря частные производные по xj |
хт получим |
|||||||||
ВВ |
8*V |
" |
8*V |
|
*SV |
df, |
|
|
|
|
дхк |
- |
I r |
r |
/ r l |
(_{дх,дхк |
|
|
|
||
дТдхк |
imldx,dxk |
|
|
|
|
|
||||
-Z п82-V* ' - Z — I Z -rfA-— |
|
|
|
|||||||
,_, |
8ytdxk |
m-\ |
dUl» |
\-l |
dx> |
' dx* |
|
|
|
|
|
|
|
|
|
||||||
' |
д ( |
• 8V |
\ |
|
Xf |
k"hn- |
|
|
|
|
- Z - [ Т - г Ч Т Г ' 0 ' |
|
|
(612) |
Для каждой фиксированной точки (х,_у, T)eR хЛ ж [0, оо) максимизирующее значение v и минимизирующее значение й в (6.4) лежат либо внутри, либо на границе интервала ограничений. Если это внутренняя точка, то
д ( " 3V \ |
д ( » dV |
\ |
г- Z-/< |
.-о. - 1 т б |
--0- |
Если же й (v) лежит на границе, то здесь могут представиться два случая. Исследуем
269