Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Теория игр / Петросян_Теория_игр

.pdf
Скачиваний:
55
Добавлен:
13.02.2015
Размер:
6.14 Mб
Скачать

Val Tf» (JCO, y0, T)= max Val Г J» (x0, yfr T).

(3.6)

В силу непрерывности по t функции С'Е (у) и выполнения условия

С°Е(У)=У

второе слагаемое в (3.5) стремится к нулю при и-»оо.

Обозначим его через е^ (и). Из (3.5), (3.6) получаем

 

 

Val Г?» 0, у* T)>Val Г|» 0, у\\

Г)-е, (л).

(3.7)

В силу непрерывности функции Vairf"^,

Уо, T) из (3.7) имеем

неравенство

 

 

Val Г?» (*о, Л, 7>Val Г J- (x0, y0, Г)-в, (и)-в, (и),

(3.8)

где Б2 (п)-»0 при и-+оо. Переходя в (3.8)

к пределу при

и-»оо

(что возможно на основании лемм п. 3.3, 3.4 и теоремы о су­

ществовании предела у монотонной ограниченной последовате­

льности), получаем

 

Urn Val Г ?» (JKO, у0, Т) > lim Val ГfОс, у0, Т).

(3.9)

Из леммы п. 3.3 вытекает противоположное неравенство. Следова­ тельно, оба предела в (3.9) совпадают.

3.6. Утверждение теоремы п. 3.5 доказано в предположении, что последовательность разбиений интервала [0, 7]

<т„={/0=0</!<...</„= Т),

п=\,...,

удовлетворяет условию tj+l — tj=TI2",j=0,

1,..., 2"— 1. Утверждения

тесрегы г. 3.5 и лемм п. 3.3, 3.4 справедливы для всякой последова­ тельности <7„ измельчающихся разбиений интервала [0, 7], т. е.

такой, что о„+1 з а„ (это означает, что разбиение an+i получается из а„ добавлением новых точек)

у((т„)=max (f,+i-/,)-* 0.

/л-юо

Рассмотрим теперь такие любые последовательности разбиений интервала [0, 7] {<т„} и п}.

Лемма. Имеет место равенство

lim Val Г?» 0, Уо, 7) = lim Val rf- (JC0, y0, T),

п-»со

л-юо

гдех0, y0eR", T<co.

250

Доказательство проведем от противного. Допустим, что ут­ верждение леммы неверно, и предположим для определенности, что выполняется неравенство

lim Val Г?» (х„, Уо, Т)> lim Val Г(я 0, у0, Т)..

л-*оо

л-»ао

Тогда согласно теореме п. 3.5 имеем

lim Val Г? (х0, у0, Т) > lim Val rf» (х0, Уо, Т).

Л-+0О

Л-»00

Отсюда найдутся натуральные числа ти щ такие, что выполнено неравенство

Val Г pi (х0, у0, 7)>Val rf-i (JC0, у0, Т).

Обозначим через Ъ разбиение интервала [О, Т\ точками, принад­

лежащими как разбиению

crm], так и разбиению а'п. Для него

выполняется неравенство

'

Val Т\ (х0, Уо, 7)<Val rf-i 0, у0, Т)<

<Val Грч 0, Уо, 7)<Val Г? (х„, Уо, Г).

Откуда

Val Г* (хо, уо, 7)<Val Г? 0, у0, Т).

Это противоречит (3.3), следовательно, сделанное предположение неверно и утверждение леммы справедливо.

3.7. Теорема. При всех х0, у0, Т< оо в игре Г 0, у0, Т) суще­ ствует ситуация е-равновесия для любого е>0. При этом

Val Г (JCO, уо, Т) = lim Val Г ? (х0, у0, Т),

(3.10)

я-»оо

где {а„} — любая последовательность измельчающихся разбиений

интервала [0, 2].

Доказательство. Зададим произвольно выбранное число е>0 и покажем, что найдутся такие стратегии и, (•) и «, (•) игроков Р и Е соответственно, что для всех стратегий и (-)еР и v QeE выполняются неравенства

К (хо, уо, ив (•), v ())-Е^К

0, уо, Щ (•), v,

(•))<

<К (хо, уо, и (•),«.(•)) + «•

(311>

В силу теоремы п. 3.5 найдется такое разбиение а интервала [0, Т\,

251

что

 

 

 

 

 

 

Val Tf (x0, Уо, 7)-lim Val Г ? (x0, y0,

T)<°

 

 

 

n-+cc

 

2

 

 

lim Val ГГ» (JCO, Уо, 7)-Val Г Г (x0, y0,

T)<°

 

 

Л-ЮО

 

 

2

 

Положим

м'() = (ст, au,), ve () = (er, b^, где a^, b^ — оптимальные

стратегии

игроков P"u

Е соответственно в играх

Г J 0, уо, Т)

иГ1(хь,л,7).

 

 

 

 

Тогда справедливы соотношения:

 

 

 

 

К (х0, у0, и (•), v 0)<Val Г? (дсь, Уо, Т)<

 

 

 

< lim Val Г5» (х0, уо, 7)+-,«(•)еЕ;

 

(3.12)

 

л-»оо

2

 

 

 

 

* (хо, Уо, и (•), «' ())^Val Г Г (х0, уо, Т)>

 

 

>lim Val ГГ» (хо, уо, 7) -- , ы ()еР.

 

(3.13)

 

л-»оо

2

 

 

 

Из (3.12), (3.13) и теоремы п. 3.5 имеем

 

 

 

-'-<К (хо, уо, и

(•), v (•))-Urn Val ГГ" 0, у0, Т)<-

(3.14)

 

2

и-»сс

 

2

 

Из соотношений (3.12)—(3.14) следует (3.11).

В силу произвольности б из (3.14) следует (3.10). Теорема до­ казана.

3.8. Замечание. При доказательстве теоремы существования нигде не был использован специфический вид выигрыша р (х (7), у (Т)). Существенной является лишь непрерывная зависимость вы­ игрыша от реализованных траекторий. Поэтому теорема п.3.7 оста­ ется справедливой, если вместо р (х (7), у (7)) рассмотреть любой непрерывный функционал траекторий х (/), у (t). В частности, таким

функционалом может быть min p (x (t), у (*)), т. е. минимальное

расстояние между игроками в процессе игры. Поэтому результат данного параграфа остается в силе и для дифференциальной игры преследования на достижение минимального результата с пред­ писанной продолжительностью.

252

§ 4. ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ НА БЫСТРОДЕЙСТВИЕ

4.1. Дифференциальные игры преследования на быстродействие представляют собой частный случай дифференциальных игр с ин­ тегральным выигрышем, определенных в п. 1.8. Классы стратегий Р и Е те же, что и в игре с предписанной продолжительностью.

Предположим, что в Rn x R" задано множество F= {(х, у): р (х, у) < /, />0}, и пусть х (/), у (/) — траектории игроков Р и Е в ситуации (•), v (•)) из начальных состояний х0, уо-

Обозначим

tn (*о, Уо, и (•), v ())=min {t:(x (/), У (0)е?У,

(4.1)

если не существует такого /, что (JC (t), у (t))eF, то t„ (х0, y0; и (•), v (•))

полагается равным +оо. В дифференциальной игре преследования на быстродействие выигрыш игрока Е полагают равным

К (х0, уо, и (•), v (•)) = /„ (х0, уа; и (•), v (•)).

(4.2)

Выигрыш игрока Р в ситуации 5=(х0, у0, и (•), v (•)) равен { — К (S)}

(игра антагонистическая).

Игра зависит от начальных состояний х0, уй, поэтому будем обозначать ее через Г 00).

Из определения функции выигрыша (4.2) следует, что в игре Г (хо, Уо) целью игрока Е является максимизация времени сближе­ ния с игроком Р на заданное расстояние />0. Игрок Р, наоборот, стремится минимизировать это время.

4.2. Между игрой преследования на быстродействие Г (х0, у0) и игрой преследования с предписанной продолжительностью на достижение минимального результата существует прямая связь. Пусть Г 0, уо, Т) — игра преследования с предписанной продол­ жительностью Т на достижение минимального результата (выиг­ рыш игрока Е равен min p (x (t), у (/)). Было показано, что для игр

такого типа при любом Е>0 в классе кусочно-программных страте­ гий существует ситуация е-равновесия (см. п. 3.8). Пусть V (х0, у0,

Т) — значение такой игры, а V (х0, у0) — значение игры Г (х0, Уо), если оно существует.

Лемма. При фиксированных х0, уо функция V (х0, у0, Т) непрерыв­

на и не возрастает по Т на отрезке [0, оо].

Доказательство. Пусть 7'i>7'2>0. Обозначим через vjl (•)

253

стратегию игрока Е в игре Г 0, уа, Т{), которая гарантирует игроку Е, что расстояние между ним и игроком Р на отрезке [О, Т{\ не

меньше max [О, V (х0, у0, Т\) — е]. Следовательно, она

тем более

гарантирует расстояние max [О, V 0, уо, 7\) —е] между

ними на

отрезке [О, TJ, где T2<Ti. Поэтому

 

V (ль, Уо, Г2)>тах [О, V (х0, у0, Г,)- е]

(4.3)

(е-оптимальная в игре Г 0, у0, Тх) стратегия не обязательно е- оптимальна в игре Г 0, у0, Т2)). Поскольку е может быть выбрано

произвольным, из (4.3) следует второе утверждение леммы. Непре­ рывность V (х0, у0, Т) по Т доказывать не будем. Отметим лишь,

что это свойство можно получить, используя непрерывность

V (х0,

у0, Т) по хо, уо-

 

4.3. Рассмотрим уравнение

 

V(x0,yo,T)=l

(4.4)

относительно Т. Возможны следующие три случая:

 

1)уравнение (4.4) не имеет корней;

2)имеет единственный корень;

3)имеет более одного корня.

Вслучае 3) из невозрастания и непрерывности функции V 0, у0, Т)

по Т следует, что уравнение (4.4) имеет целый сегмент корней, т. е. функция V (х0, уо, Т) как функция от Г имеет интервал постоянства.

Рассмотрим каждый случай отдельно. Случай 1. В этом случае возможно:

a) V(x0, уо, Т)<1 для всех 7>0; б) inf V(x0, у0, Т)>1;

Г2»0

в) inf V(x0,yo, T) = l.

В случае а) имеем

V(x0, уо, 0) = р(х0, у0)<1,

т. е. /„ 0, уо, и (•), v ())=0 для всех и (•), v (•). Тогда значение игры

Г(хо, Уо) равно V (хо, Уо) = 0.

Вслучае б) выполняется равенство

inf V (хо, уо, Т)= lim V (xQ, у0, Т)>1.

Отсюда для любого Т> 0 (сколь угодно большого) у игрока Е най-

254

дется соответствующая стратегия vт QeE, которая гарантирует ему избежание /-встречи на отрезке [О, Т\. Но тогда игрок Р не имеет стратегии, которая бы гарантировала ему /-встречу с игроком Е за конечное время. В то же время нельзя утверждать, что игрок Е обладает стратегией, гарантирующей избежание /-встречи за лю­ бое время. Вопрос о нахождении начальных состояний, в которых такая стратегия существует, сводится к решению игры качества для

игрока Е. Таким образом, при /<lim V (х0, уо, Т) можно лишь

Г-»оо

утверждать, что значение игры Г 0, у0), если оно существует,

больше любого наперед заданного Г, т. е. равно +оо;

 

в) рассмотрим совместно со случаем 3).

 

Случай 2. Пусть Т0 — единственный корень уравнения

(4.4).

Тогда из невозрастания и непрерывности по Т функции V (х0, уо, Т)

следует, что

 

 

V (х0, уо, T)>V

0, уо, То) при всех Т< Т0,

(4.5)

V (хо, у0, T)<V

(хо, у0, То) при всех Т> Т0;

 

lim V (хо, уо, T)=V (хо, уо, То).

(4.6)

Т->Т0

 

 

Фиксируем произвольное Т>Т0. Рассмотрим игру преследования Г 0, Уо, Т). Она обладает ситуацией е-равновесия в классе кусочнопрограммных стратегий для любого е>0. Это означает, в частно­ сти, что для любого £>0 существует стратегия и, ()еР игрока Р,

которая гарантирует ему сближение с игроком Е на расстояние

V (хо, уо, Т) + е, т. е.

К (и, (•), v ())< V (хо, уо, T) + e,v (•)еЕ,

(4.7)

где К (и (•), v (•)) — функция выигрыша в игре Г й, уо, Т). Из (4.5),

(4.6) следует существование ё>0 такого, что для любого е<ё най­ дется число Т (е), То< t (e)< T, при котором

е = V (хо, уо, То) -

V (хо, уо, Т (в)).

(4.8)

Из (4.7), (4.8) следует, что для любого е<е

 

К (и, (•), v (•))< V {хо, y0,T)

+ e^V (хо, у0, Т (е)) + е=

 

=V(xo,y0, То) = 1, в(-)еЕ,

т.е. стратегия и, (•) обеспечивает /-встречу за время Т. Отсюда,

255

в силу произвольности Т> Г0 следует, что для любого Т> Тп найдет-

ся отвечающая ему стратегия ит(•) е Р, которая гарантирует /-встре­ чу за время Г. Иными словами, для любого 8 > 0 существует щ (•) е Р

h (хо, Уо, и, (•), v (•)) < Г0+8 при всех v (•) е Е.

(4.9)

Аналогично доказывается существование vs ()eEтакого, что

 

tn (*о, Уо, и (•), vs (•)) ^ Го - «5 при всех и (•) еР.

(4.10)

Из (4.9), (4.10) следует, что в игре преследования на быстродей­ ствие Г 0, уо) для любого 8>0 существует ситуация е-равновесия

в кусочно-программных стратегиях и значение игры равно Г0, где Го — единственный корень уравнения (4.4).

Случай 3. Обозначим через Го минимальный корень уравнения (4.4). Теперь, вообще говоря, мы не можем утверждать, что значе­ ние игры Val Г 0, у0) = Т0. Действительно, из V (х0, у0, Г0) = / следу­ ет лишь, что в игре Г 0, уй, Г0) у игрока Р для любого е>0 существует стратегия и, (•), гарантирующая ему за время Г0 встречу

с игроком Е на расстоянии не более чем /+е, а из существования более одного корня уравнения (4.4) и монотонности V 0, у0, Г) по

Г получаем существование интервала постоянства функции V (х0, уа, Т) по Ге[Г0, Г]]. Поэтому увеличение продолжительности игры Г (JC0, уо, Г0) на 8, где 8<Т{ Г0, не приводит к уменьшению гаран­ тированного сближения с игроком Е, т. е. для всех Те[Т0, Т{\ игрок

Р может лишь обеспечить сближение с игроком Е на расстояние 1+е (для любого е>0), и нет основания считать, что при каком-то Те 0, Г]] величина е окажется равной нулю. Если бы в игре Г (х0,

Уо, То) существовала ситуация равновесия (а не ситуация е-равнове­ сия), то значение игры Г (х0, у0) было бы равно Г0 и в случае 3.

4.4. Модифицируем понятие ситуации равновесия в игре Г 0, Уо). Далее в этом параграфе удобнее использовать запись Г 0, у0,1) вместо Г (хо, уо), подчеркивая, что игра Г (х0, .Уо, 0 заканчивается

при сближении игроков на расстояние /.

Пусть tl„ (х0, уо, и (•), v (•)) — время до момента сближения на

расстояние / в ситуации (•), v (•)) и заданы е^О, <5>0. Определение. Будем говорить, что пара стратегий us, (•), v\ (•)

образует ситуацию е, 8-равновесия в игре Г (х0, у0, /), если

256

t'n+S й, уй; и (•), vi (-)) + e>t'n+s (хо, уй; й? (•), v\ (•))> >t'n+i(x0,y0;Zi О, v (•))-£,

для всех стратегий и ()еР, v QeE.

Определение. Пусть существует такая последовательность {$к}, &к^0, <5*-*0, что во всех играх Г 0, yQ; l+Sfc) для любого е>0

существуют ситуации е-равновесия. Тогда предел

Ит V (х0, уо, /+<5*)= V (хо, уо, /)

Jfc-»oo

называется значением игры Г 0, у0, I) в обобщенном смысле.

Заметим, что величина V 0, у0,1) не зависит от выбора после­ довательности {8к} вследствие монотонного убывания функции

V (хо, уо, I) по /.

Определение. Будем говорить, что игра Г 0, у0, I) имеет

значение в обобщенном смысле, если существует такая последовате­ льность {8к}, 8к-*0, что для любого е>0 и 8ке {8к} в игре Г 0, уо, /)

существует ситуация в, Ьк-равновесия.

Можно показать, что если игра Г 0, уо, I) имеет значение в обычном смысле, то значение ее V (х0, уо, О (в обобщенном смысле) существует и равно

lim /i+<* (хо, уо, и\ (•), vt (•))= V (хо, уо, /).

«-.о

6к-+0

Из определения значения и решения игры Г 0, уо, /) (в обобщенном смысле) вытекает, что если в игре Г 0, уо, О Для любого е>0

существует е-ситуация равновесия в обычном смысле (т. е. решение в обычном смысле), то V (х0, Уо, 1)= V' 0, .Уо, 0 (достаточно взять

последовательность <5*=0 для всех к).

Теорема. Пусть

уравнение (4.4)

имеет

более одного корня

и Т0 наименьший

корень, Т0<со.

Тогда

существует значение

V (х0, уо, 1)(в обобщенном смысле) игры преследования на быстродей ствие Г (хо, уо, О и V" (х0, уо, /)= То.

Доказательство. Из монотонности и непрерывности функции У (хо, Уо, Т) по Т следует существование такой последовательности

257

Тк-* Т0 слева, что V 0, у0, Тк)-* V 0, у0, Т0)=I и в точках Тк функция У (*(ь Уо, Тк) строго монотонна. Пусть

8k=V(x0,y0,Tk)-l^0.

Из строгой монотонности функции V (х0, уо, Т) в точках Тк выте­ кает, что уравнение V (х0, у0, Т)=1+5к имеет единственный корень Тк. Это означает, что для любого 8ке{8к) в играх Г 0, у0, 1+8к)

существует ситуация е-равновесия для любого е>0 (см. случай 2) п. 4.3). Значит, в игре Г (JC0, y0, /) существует решение в обобщенном

смысле:

Urn V(х0, у0,1+ 5k)=lim Tk= Т0= V (х0, у0,1)

t-»0O

/fc-»QO

и теорема доказана.

Рассмотрим теперь случай в) п. 4.3. Имеем: inf V (хй, уо, Т)=1.

т

Пусть Тк-*со. Тогда lim У (х0, уо, Тк) = 1. Из монотонности и непре-

к-*ао

рывности V {хо, уо, Т) по Г следует, что последовательность {7*} можно выбрать так, что в точках Тк функция V {хй, у0, Т) строго

монотонна. Тогда как и при доказательстве теоремы п. 4.4 можно показать, что существует такая последовательность {8к}, что

lim V(x0,y0,

/+«5*) = Шп 7't=7'o=oo.

fc-»oo

Jk-»oo

Таким образом, и в данном случае обобщенное решение суще­ ствует, а обобщенное значение игры Г (х0, Уо, I) равно бесконеч­ ности.

4.5.Часто оказывается важным определить, может ли игрок

Ргарантировать /-встречу из данных начальных позиций х, у за фиксированное время Т. Если это невозможно, то может ли игрок Е гарантировать избежание /-встречи в течение заданного времени.

Пусть V (х, у, Т) — значение игры с предписанной продолжите­ льностью Т из начальных состояний х, yeR" с выигрышем min р (х (0, у (*))• Тогда возможны следующие альтернативы:

0<!«Г

1) V{x,y, T)>1;

2) V{x,y, T)<1.

Случай 1. Из определения функции V (х, у, Т) следует, что для любого е>0 найдется такая стратегия игрока Е, что для всех

258

стратегий и (•) справедливо неравенство

К(х, у; и (•), v'B (.))> V (х, у, Г)-е.

Выбрав е достаточно малым, можно добиться выполнения неравен­ ства

К (х, у; и (•), «; (.))> V {х, у, Т)-г>1

для всех стратегий и ()еЕ игрока Р. Из вида функции выигрыша К следует, что, используя стратегию «* (•), игрок £ может гаран­ тировать выполнение неравенства min р (х (/), >> (/))>/независимо

от действий игрока Р, т. е. в рассматриваемом случае игрок Е гара­ нтирует избежание /-встречи на отрезке времени [0, 7] независимо от действий игрока Р.

Случай 2. Пусть Го — минимальный корень уравнения V (х, у, Г)=/при фиксированных х, у (если р (х, у)<1, то Г0 полага­ ем равным 0). Тогда из определения V (х, у, Г0) следует, что в игре Г (х, у, Г0) игрок Р при любом е>0 обладает стратегией и* (•), гарантирующей выполнение неравенства

К (х, у; и.* (•), v (-Ж V (х, у, Г0)+£=1+е

для всех стратегий v ()eE игрока Е. Из вида функции выигрыша К следует, что, используя стратегию и \ (•), игрок Р может гаран­ тировать выполнение неравенства min р (х (t), у (г))</+е независи-

мо от действий игрока Е. Продолжая произвольным образом стра­ тегию м* (•) на отрезок [Г0, 7], получаем, что в случае 2 игрок Р при

любом е>0 может гарантировать (/+е)-встречу с игроком Е за время Г независимо от действий последнего.

Фактически доказана следующая теорема (об альтернативе).

Теорема. Для любых х, yeR", Г>0 справедливо, по крайней мере, одно из следующих утверждений:

1)из начальных состояний х, у игрок Е может в течение времени

Ггарантировать избежание 1-встречи независимо от действий игро ка Р;

2)при любом е>0 игрок Р может гарантировать (1+в)-встречу

сигроком Е из начальных состояний х, у за время Г независимо от действий последнего.

4.6.Для каждого фиксированного Г> 0 все пространство R"x.R

делится на три непересекающиеся области: область A = {x,y:V

{x, у,

Т)<1), которую будем называть зоной захвата; область

В=

= {х, у: V(х, у, Т)>1), которую естественно назвать зоной избежа-

259

Соседние файлы в папке Теория игр