
Л. Петросян Теория игр
.pdfVal Tf» (JCO, y0, T)= max Val Г J» (x0, yfr T). |
(3.6) |
В силу непрерывности по t функции С'Е (у) и выполнения условия |
|||
С°Е(У)=У |
второе слагаемое в (3.5) стремится к нулю при и-»оо. |
||
Обозначим его через е^ (и). Из (3.5), (3.6) получаем |
|
||
|
Val Г?» (х0, у* T)>Val Г|» (х0, у\\ |
Г)-е, (л). |
(3.7) |
В силу непрерывности функции Vairf"^, |
Уо, T) из (3.7) имеем |
||
неравенство |
|
|
|
Val Г?» (*о, Л, 7>Val Г J- (x0, y0, Г)-в, (и)-в, (и), |
(3.8) |
||
где Б2 (п)-»0 при и-+оо. Переходя в (3.8) |
к пределу при |
и-»оо |
(что возможно на основании лемм п. 3.3, 3.4 и теоремы о су |
|
ществовании предела у монотонной ограниченной последовате |
|
льности), получаем |
|
Urn Val Г ?» (JKO, у0, Т) > lim Val ГfОс, у0, Т). |
(3.9) |
Из леммы п. 3.3 вытекает противоположное неравенство. Следова тельно, оба предела в (3.9) совпадают.
3.6. Утверждение теоремы п. 3.5 доказано в предположении, что последовательность разбиений интервала [0, 7]
<т„={/0=0</!<...</„= Т), |
п=\,..., |
удовлетворяет условию tj+l — tj=TI2",j=0, |
1,..., 2"— 1. Утверждения |
тесрегы г. 3.5 и лемм п. 3.3, 3.4 справедливы для всякой последова тельности <7„ измельчающихся разбиений интервала [0, 7], т. е.
такой, что о„+1 з а„ (это означает, что разбиение an+i получается из а„ добавлением новых точек)
у((т„)=max (f,+i-/,)-* 0.
/л-юо
Рассмотрим теперь такие любые последовательности разбиений интервала [0, 7] {<т„} и {ап}.
Лемма. Имеет место равенство
lim Val Г?» (х0, Уо, 7) = lim Val rf- (JC0, y0, T),
п-»со |
л-юо |
гдех0, y0eR", T<co.
250
Доказательство проведем от противного. Допустим, что ут верждение леммы неверно, и предположим для определенности, что выполняется неравенство
lim Val Г?» (х„, Уо, Т)> lim Val Г(я (х0, у0, Т)..
л-*оо |
л-»ао |
Тогда согласно теореме п. 3.5 имеем
lim Val Г? (х0, у0, Т) > lim Val rf» (х0, Уо, Т).
Л-+0О |
Л-»00 |
Отсюда найдутся натуральные числа ти щ такие, что выполнено неравенство
Val Г pi (х0, у0, 7)>Val rf-i (JC0, у0, Т).
Обозначим через Ъ разбиение интервала [О, Т\ точками, принад
лежащими как разбиению |
crm], так и разбиению а'п. Для него |
выполняется неравенство |
' |
Val Т\ (х0, Уо, 7)<Val rf-i (х0, у0, Т)<
<Val Грч (х0, Уо, 7)<Val Г? (х„, Уо, Г).
Откуда
Val Г* (хо, уо, 7)<Val Г? (х0, у0, Т).
Это противоречит (3.3), следовательно, сделанное предположение неверно и утверждение леммы справедливо.
3.7. Теорема. При всех х0, у0, Т< оо в игре Г (х0, у0, Т) суще ствует ситуация е-равновесия для любого е>0. При этом
Val Г (JCO, уо, Т) = lim Val Г ? (х0, у0, Т), |
(3.10) |
я-»оо
где {а„} — любая последовательность измельчающихся разбиений
интервала [0, 2].
Доказательство. Зададим произвольно выбранное число е>0 и покажем, что найдутся такие стратегии и, (•) и «, (•) игроков Р и Е соответственно, что для всех стратегий и (-)еР и v QeE выполняются неравенства
К (хо, уо, ив (•), v ())-Е^К |
(х0, уо, Щ (•), v, |
(•))< |
<К (хо, уо, и (•),«.(•)) + «• |
(311> |
В силу теоремы п. 3.5 найдется такое разбиение а интервала [0, Т\,
251
что |
|
|
|
|
|
|
Val Tf (x0, Уо, 7)-lim Val Г ? (x0, y0, |
T)<° |
|
||
|
|
n-+cc |
|
2 |
|
|
lim Val ГГ» (JCO, Уо, 7)-Val Г Г (x0, y0, |
T)<° |
|
||
|
Л-ЮО |
|
|
2 |
|
Положим |
м'() = (ст, au,), ve () = (er, b^, где a^, b^ — оптимальные |
||||
стратегии |
игроков P"u |
Е соответственно в играх |
Г J (х0, уо, Т) |
||
иГ1(хь,л,7). |
|
|
|
|
|
Тогда справедливы соотношения: |
|
|
|
||
|
К (х0, у0, и (•), v 0)<Val Г? (дсь, Уо, Т)< |
|
|
||
|
< lim Val Г5» (х0, уо, 7)+-,«(•)еЕ; |
|
(3.12) |
||
|
л-»оо |
2 |
|
|
|
|
* (хо, Уо, и (•), «' ())^Val Г Г (х0, уо, Т)> |
|
|||
|
>lim Val ГГ» (хо, уо, 7) -- , ы ()еР. |
|
(3.13) |
||
|
л-»оо |
2 |
|
|
|
Из (3.12), (3.13) и теоремы п. 3.5 имеем |
|
|
|
||
-'-<К (хо, уо, и |
(•), v (•))-Urn Val ГГ" (х0, у0, Т)<- |
(3.14) |
|||
|
2 |
и-»сс |
|
2 |
|
Из соотношений (3.12)—(3.14) следует (3.11).
В силу произвольности б из (3.14) следует (3.10). Теорема до казана.
3.8. Замечание. При доказательстве теоремы существования нигде не был использован специфический вид выигрыша р (х (7), у (Т)). Существенной является лишь непрерывная зависимость вы игрыша от реализованных траекторий. Поэтому теорема п.3.7 оста ется справедливой, если вместо р (х (7), у (7)) рассмотреть любой непрерывный функционал траекторий х (/), у (t). В частности, таким
функционалом может быть min p (x (t), у (*)), т. е. минимальное
расстояние между игроками в процессе игры. Поэтому результат данного параграфа остается в силе и для дифференциальной игры преследования на достижение минимального результата с пред писанной продолжительностью.
252
§ 4. ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ НА БЫСТРОДЕЙСТВИЕ
4.1. Дифференциальные игры преследования на быстродействие представляют собой частный случай дифференциальных игр с ин тегральным выигрышем, определенных в п. 1.8. Классы стратегий Р и Е те же, что и в игре с предписанной продолжительностью.
Предположим, что в Rn x R" задано множество F= {(х, у): р (х, у) < /, />0}, и пусть х (/), у (/) — траектории игроков Р и Е в ситуации (и (•), v (•)) из начальных состояний х0, уо-
Обозначим
tn (*о, Уо, и (•), v ())=min {t:(x (/), У (0)е?У, |
(4.1) |
если не существует такого /, что (JC (t), у (t))eF, то t„ (х0, y0; и (•), v (•))
полагается равным +оо. В дифференциальной игре преследования на быстродействие выигрыш игрока Е полагают равным
К (х0, уо, и (•), v (•)) = /„ (х0, уа; и (•), v (•)). |
(4.2) |
Выигрыш игрока Р в ситуации 5=(х0, у0, и (•), v (•)) равен { — К (S)}
(игра антагонистическая).
Игра зависит от начальных состояний х0, уй, поэтому будем обозначать ее через Г (х0,у0).
Из определения функции выигрыша (4.2) следует, что в игре Г (хо, Уо) целью игрока Е является максимизация времени сближе ния с игроком Р на заданное расстояние />0. Игрок Р, наоборот, стремится минимизировать это время.
4.2. Между игрой преследования на быстродействие Г (х0, у0) и игрой преследования с предписанной продолжительностью на достижение минимального результата существует прямая связь. Пусть Г (х0, уо, Т) — игра преследования с предписанной продол жительностью Т на достижение минимального результата (выиг рыш игрока Е равен min p (x (t), у (/)). Было показано, что для игр
такого типа при любом Е>0 в классе кусочно-программных страте гий существует ситуация е-равновесия (см. п. 3.8). Пусть V (х0, у0,
Т) — значение такой игры, а V (х0, у0) — значение игры Г (х0, Уо), если оно существует.
Лемма. При фиксированных х0, уо функция V (х0, у0, Т) непрерыв
на и не возрастает по Т на отрезке [0, оо].
Доказательство. Пусть 7'i>7'2>0. Обозначим через vjl (•)
253
стратегию игрока Е в игре Г (х0, уа, Т{), которая гарантирует игроку Е, что расстояние между ним и игроком Р на отрезке [О, Т{\ не
меньше max [О, V (х0, у0, Т\) — е]. Следовательно, она |
тем более |
гарантирует расстояние max [О, V (х0, уо, 7\) —е] между |
ними на |
отрезке [О, TJ, где T2<Ti. Поэтому |
|
V (ль, Уо, Г2)>тах [О, V (х0, у0, Г,)- е] |
(4.3) |
(е-оптимальная в игре Г (х0, у0, Тх) стратегия не обязательно е- оптимальна в игре Г (х0, у0, Т2)). Поскольку е может быть выбрано
произвольным, из (4.3) следует второе утверждение леммы. Непре рывность V (х0, у0, Т) по Т доказывать не будем. Отметим лишь,
что это свойство можно получить, используя непрерывность |
V (х0, |
у0, Т) по хо, уо- |
|
4.3. Рассмотрим уравнение |
|
V(x0,yo,T)=l |
(4.4) |
относительно Т. Возможны следующие три случая: |
|
1)уравнение (4.4) не имеет корней;
2)имеет единственный корень;
3)имеет более одного корня.
Вслучае 3) из невозрастания и непрерывности функции V (х0, у0, Т)
по Т следует, что уравнение (4.4) имеет целый сегмент корней, т. е. функция V (х0, уо, Т) как функция от Г имеет интервал постоянства.
Рассмотрим каждый случай отдельно. Случай 1. В этом случае возможно:
a) V(x0, уо, Т)<1 для всех 7>0; б) inf V(x0, у0, Т)>1;
Г2»0
в) inf V(x0,yo, T) = l.
В случае а) имеем
V(x0, уо, 0) = р(х0, у0)<1,
т. е. /„ (х0, уо, и (•), v ())=0 для всех и (•), v (•). Тогда значение игры
Г(хо, Уо) равно V (хо, Уо) = 0.
Вслучае б) выполняется равенство
inf V (хо, уо, Т)= lim V (xQ, у0, Т)>1.
Отсюда для любого Т> 0 (сколь угодно большого) у игрока Е най-
254
дется соответствующая стратегия vт QeE, которая гарантирует ему избежание /-встречи на отрезке [О, Т\. Но тогда игрок Р не имеет стратегии, которая бы гарантировала ему /-встречу с игроком Е за конечное время. В то же время нельзя утверждать, что игрок Е обладает стратегией, гарантирующей избежание /-встречи за лю бое время. Вопрос о нахождении начальных состояний, в которых такая стратегия существует, сводится к решению игры качества для
игрока Е. Таким образом, при /<lim V (х0, уо, Т) можно лишь
Г-»оо
утверждать, что значение игры Г (х0, у0), если оно существует,
больше любого наперед заданного Г, т. е. равно +оо; |
|
||
в) рассмотрим совместно со случаем 3). |
|
||
Случай 2. Пусть Т0 — единственный корень уравнения |
(4.4). |
||
Тогда из невозрастания и непрерывности по Т функции V (х0, уо, Т) |
|||
следует, что |
|
|
|
V (х0, уо, T)>V |
(х0, уо, То) при всех Т< Т0, |
(4.5) |
|
V (хо, у0, T)<V |
(хо, у0, То) при всех Т> Т0; |
||
|
|||
lim V (хо, уо, T)=V (хо, уо, То). |
(4.6) |
||
Т->Т0 |
|
|
Фиксируем произвольное Т>Т0. Рассмотрим игру преследования Г (х0, Уо, Т). Она обладает ситуацией е-равновесия в классе кусочнопрограммных стратегий для любого е>0. Это означает, в частно сти, что для любого £>0 существует стратегия и, ()еР игрока Р,
которая гарантирует ему сближение с игроком Е на расстояние
V (хо, уо, Т) + е, т. е.
К (и, (•), v ())< V (хо, уо, T) + e,v (•)еЕ, |
(4.7) |
где К (и (•), v (•)) — функция выигрыша в игре Г (хй, уо, Т). Из (4.5),
(4.6) следует существование ё>0 такого, что для любого е<ё най дется число Т (е), То< t (e)< T, при котором
е = V (хо, уо, То) - |
V (хо, уо, Т (в)). |
(4.8) |
Из (4.7), (4.8) следует, что для любого е<е |
|
|
К (и, (•), v (•))< V {хо, y0,T) |
+ e^V (хо, у0, Т (е)) + е= |
|
=V(xo,y0, То) = 1, в(-)еЕ,
т.е. стратегия и, (•) обеспечивает /-встречу за время Т. Отсюда,
255
в силу произвольности Т> Г0 следует, что для любого Т> Тп найдет-
ся отвечающая ему стратегия ит(•) е Р, которая гарантирует /-встре чу за время Г. Иными словами, для любого 8 > 0 существует щ (•) е Р
h (хо, Уо, и, (•), v (•)) < Г0+8 при всех v (•) е Е. |
(4.9) |
Аналогично доказывается существование vs ()eEтакого, что |
|
tn (*о, Уо, и (•), vs (•)) ^ Го - «5 при всех и (•) еР. |
(4.10) |
Из (4.9), (4.10) следует, что в игре преследования на быстродей ствие Г (х0, уо) для любого 8>0 существует ситуация е-равновесия
в кусочно-программных стратегиях и значение игры равно Г0, где Го — единственный корень уравнения (4.4).
Случай 3. Обозначим через Го минимальный корень уравнения (4.4). Теперь, вообще говоря, мы не можем утверждать, что значе ние игры Val Г (х0, у0) = Т0. Действительно, из V (х0, у0, Г0) = / следу ет лишь, что в игре Г (х0, уй, Г0) у игрока Р для любого е>0 существует стратегия и, (•), гарантирующая ему за время Г0 встречу
с игроком Е на расстоянии не более чем /+е, а из существования более одного корня уравнения (4.4) и монотонности V (х0, у0, Г) по
Г получаем существование интервала постоянства функции V (х0, уа, Т) по Ге[Г0, Г]]. Поэтому увеличение продолжительности игры Г (JC0, уо, Г0) на 8, где 8<Т{ — Г0, не приводит к уменьшению гаран тированного сближения с игроком Е, т. е. для всех Те[Т0, Т{\ игрок
Р может лишь обеспечить сближение с игроком Е на расстояние 1+е (для любого е>0), и нет основания считать, что при каком-то Те [Г0, Г]] величина е окажется равной нулю. Если бы в игре Г (х0,
Уо, То) существовала ситуация равновесия (а не ситуация е-равнове сия), то значение игры Г (х0, у0) было бы равно Г0 и в случае 3.
4.4. Модифицируем понятие ситуации равновесия в игре Г (х0, Уо). Далее в этом параграфе удобнее использовать запись Г (х0, у0,1) вместо Г (хо, уо), подчеркивая, что игра Г (х0, .Уо, 0 заканчивается
при сближении игроков на расстояние /.
Пусть tl„ (х0, уо, и (•), v (•)) — время до момента сближения на
расстояние / в ситуации (и (•), v (•)) и заданы е^О, <5>0. Определение. Будем говорить, что пара стратегий us, (•), v\ (•)
образует ситуацию е, 8-равновесия в игре Г (х0, у0, /), если
256
t'n+S (хй, уй; и (•), vi (-)) + e>t'n+s (хо, уй; й? (•), v\ (•))> >t'n+i(x0,y0;Zi О, v (•))-£,
для всех стратегий и ()еР, v QeE.
Определение. Пусть существует такая последовательность {$к}, &к^0, <5*-*0, что во всех играх Г (х0, yQ; l+Sfc) для любого е>0
существуют ситуации е-равновесия. Тогда предел
Ит V (х0, уо, /+<5*)= V (хо, уо, /)
Jfc-»oo
называется значением игры Г (х0, у0, I) в обобщенном смысле.
Заметим, что величина V (х0, у0,1) не зависит от выбора после довательности {8к} вследствие монотонного убывания функции
V (хо, уо, I) по /.
Определение. Будем говорить, что игра Г (х0, у0, I) имеет
значение в обобщенном смысле, если существует такая последовате льность {8к}, 8к-*0, что для любого е>0 и 8ке {8к} в игре Г (х0, уо, /)
существует ситуация в, Ьк-равновесия.
Можно показать, что если игра Г (х0, уо, I) имеет значение в обычном смысле, то значение ее V (х0, уо, О (в обобщенном смысле) существует и равно
lim /i+<* (хо, уо, и\ (•), vt (•))= V (хо, уо, /).
«-.о
6к-+0
Из определения значения и решения игры Г (х0, уо, /) (в обобщенном смысле) вытекает, что если в игре Г (х0, уо, О Для любого е>0
существует е-ситуация равновесия в обычном смысле (т. е. решение в обычном смысле), то V (х0, Уо, 1)= V' (х0, .Уо, 0 (достаточно взять
последовательность <5*=0 для всех к).
Теорема. Пусть |
уравнение (4.4) |
имеет |
более одного корня |
и Т0 — наименьший |
корень, Т0<со. |
Тогда |
существует значение |
V (х0, уо, 1)(в обобщенном смысле) игры преследования на быстродей ствие Г (хо, уо, О и V" (х0, уо, /)= То.
Доказательство. Из монотонности и непрерывности функции У (хо, Уо, Т) по Т следует существование такой последовательности
257
Тк-* Т0 слева, что V (х0, у0, Тк)-* V (х0, у0, Т0)=I и в точках Тк функция У (*(ь Уо, Тк) строго монотонна. Пусть
8k=V(x0,y0,Tk)-l^0.
Из строгой монотонности функции V (х0, уо, Т) в точках Тк выте кает, что уравнение V (х0, у0, Т)=1+5к имеет единственный корень Тк. Это означает, что для любого 8ке{8к) в играх Г (х0, у0, 1+8к)
существует ситуация е-равновесия для любого е>0 (см. случай 2) п. 4.3). Значит, в игре Г (JC0, y0, /) существует решение в обобщенном
смысле:
Urn V(х0, у0,1+ 5k)=lim Tk= Т0= V (х0, у0,1)
t-»0O |
/fc-»QO |
и теорема доказана.
Рассмотрим теперь случай в) п. 4.3. Имеем: inf V (хй, уо, Т)=1.
т
Пусть Тк-*со. Тогда lim У (х0, уо, Тк) = 1. Из монотонности и непре-
к-*ао
рывности V {хо, уо, Т) по Г следует, что последовательность {7*} можно выбрать так, что в точках Тк функция V {хй, у0, Т) строго
монотонна. Тогда как и при доказательстве теоремы п. 4.4 можно показать, что существует такая последовательность {8к}, что
lim V(x0,y0, |
/+«5*) = Шп 7't=7'o=oo. |
fc-»oo |
Jk-»oo |
Таким образом, и в данном случае обобщенное решение суще ствует, а обобщенное значение игры Г (х0, Уо, I) равно бесконеч ности.
4.5.Часто оказывается важным определить, может ли игрок
Ргарантировать /-встречу из данных начальных позиций х, у за фиксированное время Т. Если это невозможно, то может ли игрок Е гарантировать избежание /-встречи в течение заданного времени.
Пусть V (х, у, Т) — значение игры с предписанной продолжите льностью Т из начальных состояний х, yeR" с выигрышем min р (х (0, у (*))• Тогда возможны следующие альтернативы:
0<!«Г
1) V{x,y, T)>1;
2) V{x,y, T)<1.
Случай 1. Из определения функции V (х, у, Т) следует, что для любого е>0 найдется такая стратегия игрока Е, что для всех
258
стратегий и (•) справедливо неравенство
К(х, у; и (•), v'B (.))> V (х, у, Г)-е.
Выбрав е достаточно малым, можно добиться выполнения неравен ства
К (х, у; и (•), «; (.))> V {х, у, Т)-г>1
для всех стратегий и ()еЕ игрока Р. Из вида функции выигрыша К следует, что, используя стратегию «* (•), игрок £ может гаран тировать выполнение неравенства min р (х (/), >> (/))>/независимо
от действий игрока Р, т. е. в рассматриваемом случае игрок Е гара нтирует избежание /-встречи на отрезке времени [0, 7] независимо от действий игрока Р.
Случай 2. Пусть Го — минимальный корень уравнения V (х, у, Г)=/при фиксированных х, у (если р (х, у)<1, то Г0 полага ем равным 0). Тогда из определения V (х, у, Г0) следует, что в игре Г (х, у, Г0) игрок Р при любом е>0 обладает стратегией и* (•), гарантирующей выполнение неравенства
К (х, у; и.* (•), v (-Ж V (х, у, Г0)+£=1+е
для всех стратегий v ()eE игрока Е. Из вида функции выигрыша К следует, что, используя стратегию и \ (•), игрок Р может гаран тировать выполнение неравенства min р (х (t), у (г))</+е независи-
мо от действий игрока Е. Продолжая произвольным образом стра тегию м* (•) на отрезок [Г0, 7], получаем, что в случае 2 игрок Р при
любом е>0 может гарантировать (/+е)-встречу с игроком Е за время Г независимо от действий последнего.
Фактически доказана следующая теорема (об альтернативе).
Теорема. Для любых х, yeR", Г>0 справедливо, по крайней мере, одно из следующих утверждений:
1)из начальных состояний х, у игрок Е может в течение времени
Ггарантировать избежание 1-встречи независимо от действий игро ка Р;
2)при любом е>0 игрок Р может гарантировать (1+в)-встречу
сигроком Е из начальных состояний х, у за время Г независимо от действий последнего.
4.6.Для каждого фиксированного Г> 0 все пространство R"x.R
делится на три непересекающиеся области: область A = {x,y:V |
{x, у, |
Т)<1), которую будем называть зоной захвата; область |
В= |
= {х, у: V(х, у, Т)>1), которую естественно назвать зоной избежа-
259