Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Теория игр / Петросян_Теория_игр

.pdf
Скачиваний:
54
Добавлен:
13.02.2015
Размер:
6.14 Mб
Скачать

Теорема. Пусть Г=(Х, Y, Н), X a jf, Yс Л" — выпуклая игра. Тогда значение v игры Г определяется по формуле

w=min тах#(л:, у).

У*

Игрок 1 обладает оптимальной смешанной стратегией 0 с конеч­ ным спектром, состоящим не более чем из (и+ 1)-й точки множест­ ва X. В то же время все чистые стратегии у0, на которых достига­ ется min max H{x, у), являются оптимальными для игрока 2. Если,

У х

кроме того, функция Н(х, у) при каждом фиксированном хеХ строго выпукла по у, то оптимальная стратегия игрока 2 единст­ венна-

Проиллюстрируем эти результаты на примере.

Пример 11. Рассмотрим частный случай примера 1 (см. п. 1.2).

Пусть 5'1 = 5'2=5 и множество S представляет

собой замкнутый

круг на плоскости с центром в точке О и радиусом R.

Функция выигрыша Н(х, у)=р(х, y),xeS,yeS,

где р() — функ­

ция расстояния в R2, является строго вьшуклой по у при любом

фиксированном х, a S — выпуклое множество. Поэтому согласно теореме п. 5.5 значение игры v равно

«=min maxp(x, у).

(5.15)

yeS xeS

 

Вычисляя min max в (5.15), получаем, что v=R (см. пример 8 п. 2.6). При этом точка yQeS, на которой достигается минимум выражения

тах/>(х, у), единственная и совпадает с центром круга S (т. е.

xeS

точкой О). Эта точка и является оптимальной стратегией игрока 2 (минимизирующего). Теорема утверждает, что у игрока 1 (мак­ симизирующего) существует оптимальная смешанная стратегия, предписывающая положительную вероятность не более чем трем

точкам множества S. Однако вследствие симметрии

множества

S в действительности оптимальная смешанная стратегия ц0 игрока

1 предписывает с вероятностью 1/2

выбирать любые две диамет­

рально противоположные точки на границе множества S. Для до­

казательства оптимальности стратегий /х0, у0

достаточно устано­

вить, что К(х, y0)^K(pi0, y0)^K(jx0,

у) для всех х, yeS, где К —

математическое ожидание выигрыша, К(р0,

y0)=RI2 + R/2 = R.

Действительно, К(х, yo)=p(0, x)^R

и К(ц0, y)=p(xv

y)/2 + p(x2,

y)/2^R, где х1ах2 — произвольные диаметрально противополож­ ные точки на границе круга S. Оптимальность стратегий /х0 и у0 доказана.

5.6. Рассмотрим частный случай выпуклой игры Г=(Х, Y, Н),

90

когда X=Y=[0, 1], т. е. выпуклую игру на единичном квадрате. Из теоремы п. 5.5 следует, что игрок 2 всегда имеет оптимальную чистую стратегию }>ое[0, 1]» а. игрок 1 — смешанную, сосредоточен­ ную не более чем на двух точках, при этом значение игры равно

v = min max Н(х, у).

(5.16)

>б(0, 1] *б[0, 1]

Множество всех существенных стратегий {х} с [0, 1] игрока 1 явля­ ется подмножеством решений уравнений (п. 4.2)

H(x,yo)=v,xe[0,

1],

(5.17)

где у0 — оптимальная стратегия игрока 2. Чистые стратегии х игро­ ка 1, удовлетворяющие равенству (5.17), иногда называются урав­ новешивающими. Множество всех уравновешивающих стратегий иг­ рока / замкнуто и ограничено, т. е. компактно. Оптимальной чистой стратегией игрока 2 является любая точка у0 = [0, 1], на которой достигается (5.16).

Обозначим через Н'у (х, у) частную производную функции Н по у (при у=0 и у=1 понимается соответственно правая и левая производные).

Лемма. Если у0 оптимальная стратегия игрока 2 в выпуклой игре на единичном квадрате с функцией выигрыша Н, дифференциру­ емой по у и у0>0, то найдется уравновешивающая стратегия х? игрока 1, для которой

Н'у!о)^0. (5.18)

Если же у0<1,то существует такая уравновешивающая стратегия х" игрока 1, что

Ну(х»,уо)>0. (5.19)

Доказательство. Докажем (5.18). (Вторая часть леммы до­ казывается аналогично.) Предположим противное, а именно: для каждой уравновешивающей стратегии х игрока / выполняется нера­ венство Ну(х, уо)>0, т. е. функция Н(х, •) в точке у* строго возрастает. Это означает, что найдутся такие е(рс)>0 и 0(х)>О, что для^ер), 1], удовлетворяющих неравенству в(х)>у0 —у>0, выпол­ няется неравенство

Н(х,у)<Н(х, У0)-Е(Х).

В силу непрерывности функции Н имеем, что для каждой урав­ новешивающей стратегии х и е(Зс)/2 найдется такое 5(х)>0, что при в(х)>уо—у>0 выполняется неравенство

Н(х, у)<Н(х, у)-е(х)12<Н(х, Уо)-е(х)/2 = =Н(х, у0)-е(х)/2

для всех, уравновешивающих стратегий х, для которых \x—x\<S(x).

91

Множество уравновешивающих стратегий компактно, поэтому его можно покрыть конечным числом таких д (х)-окрестностей. Пусть Е — наименьшее из всех соответствующих чисел е (х). Тогда имеем неравенство, справедливое для всех уравновешивающих стратегий х (в том числе и для всех существенных стратегий)

Н(х, у)4:Н(х, у0)-е/2, где у0-тшв(х)<у<у0.

Пусть (i0 — оптимальная смешанная стратегия игрока /. После­ днее неравенство справедливо для всех точек спектра стратегии ц0, поэтому, интегрируя, получаем

К(цй, y)^KQi0, y0)-e/2=i>-e/2,

что противоречит оптимальности стратегии ц0.

Теорема. Пусть Г—выпуклая игра на единичном квадрате с функцией выигрыша Н, дифференцируемой по у при любом х,

Уо чистая оптимальная стратегия игрока 2,av значение игры. Тогда:

1)если уо=1, то среди оптимальных стратегий игрока 1 имеет­ ся чистая стратегия х', для которой выполняется (5.18);

2)если уо=0, то среди оптимальных стратегий игрока 1 имеет­ ся чистая стратегия х", для которой выполняется (5.19);

3) если 0<уо<1,то среди оптимальных стратегий игрока 1 най­ дется такая, которая является смесью двух существенных страте­ гий х? их",удовлетворяющих (5.18), (5.19), с вероятностями а и 1 — а, а с [0, 1]. При этом а является решением уравнения

«Я; 1, у0) + (1 - а)Щ {х", у0)=0.

(5.20)

Доказательство. Пусть у0=1- Тогда найдется уравновешива­ ющая стратегия х" игрока 1, для которой выполняется (5.18). Тогда из выпуклости функции Н(х', у) следует, что она не возрастает по

у на всем промежутке [0, 1], достигая при у=\

своего минимума.

Это означает, что

#(х\ у0НН(х',

у)

 

(5.21)

 

 

при всех уе[0, 1]. С другой стороны, из (5.17) следует, что

 

Н(х, у0)^Н(х;

у0)

 

(5.22)

при всех хе[0,

1]. Неравенства (5.21), (5.22)

показывают, что

1, у0) — ситуация равновесия.

 

 

к случаю 3.

Случай уо=0

исследуется аналогично. Перейдем

Бели 0<>>0<1, то имеются две уравновешивающие

стратегии х!

и х", удовлетворяющие (5.18), (5.19) соответственно.

 

Рассмотрим функцию

q>(fi)=№'yV, y0)Hl-P)H;(x", у0).

Из (5.18), (5.19) следует, что <р(0)>0, <р(1)<0. Функция q>(fj) непре­ рывна, поэтому найдется <хе[0, 1], для которого <р(а) = 0.

92

Рассмотрим смешанную стратегию ц0

игрока 1, заключающую­

ся в выборе стратегии х' с вероятностью а и стратегии х" с вероят­

ностью 1 —а. Функция

 

 

 

 

 

К(ц0, у)=аН{х!, у)+(1-«)Н(х",

у)

 

выпукла по у. Ее производная по у в точке у=у0

равна

K'y(ji0, Уо)=хн;(х', у0)+у

-«)#;(*",

Уо)=о.

Следовательно, в точке у0

функция К(ц0,

у) достигает минимума.

Отсюда, учитывая (5.17), имеем

 

 

 

 

К(Ио> yo)<K(fi0,

у),

 

 

К(Мо- У)=Н(х, y0)=v=maxH(x,

y0)^H(x,

у0)

 

X

 

 

 

 

при всех хе[0, 1] и уе[0,

I], что и

доказывает

оптимальность

стратегий ц0 и у0.

5.7. Теорема п. 5.6 дает способ отыскания оптимальных страте­ гий, который мы проиллюстрируем на примере.

Пример 12. Рассмотрим игру на единичном квадрате с функцией выигрыша Н(х, у)=(х—у)2. Это есть одномерный аналог примера И, только в качестве функции выигрыша здесь взят квадрат рассто­ яния. Поэтому естественно ожидать, что значение v игры будет равно v= 1/4, оптимальной стратегией игрока 2 является середина отрезка у0= 1/2, а оптимальной стратегией игрока / — выбор с ве­ роятностью 1/2 крайних точек 0 и 1 отрезка [0, 1]. Покажем это, используя теорему п. 5.6.

Заметим, что д2Н(х, у)/ду2 = 2>0, так что игра Г — строго выпуклая, поэтому игрок 2 имеет единственную оптимальную стра­ тегию, которая является чистой (теорема п. 5.5). Пусть у — фик­ сированная стратегия игрока 2. Тогда

тах(х

 

 

 

если

у<Л\1,

- *

-

{ " -

если*

>>>1/2.

X

Таким образом, из (5.16)

 

 

 

 

»=min<

min

(1— у)2,

min y2>.

Оба внутренних минимума достигаются на у0=1/2 и принимают значение 1/4. Поэтому ю= 1/4, а у0 = 1/2 — единственная оптималь­ ная стратегия игрока 2.

Найдем оптимальную стратегию игрока 1. Для этого заметим, что 0<у0<1 0=1/2). Найдем существенные стратегии игрока 1. Уравнение (5.17) в данном случае принимает вид (х—1/2)2 = 1/4. Откуда J C 1 = 0 H X 2 = 1 , T . е. существенными для игрока 1 являются крайние точки отрезка [0, 1].

93

Вычислим производные

Я Ж , Jo)=l >0, Н'уг,

у2)=-1<0.

Составим уравнение (5.20) относительно а. Имеем 2а—1 = 0, откуда а =1/2. Таким образом, оптимальная стратегия игрока 1 состоит

ввыборе им чистых стратегий 0 и 1 с вероятностью 1/2.

5.8.В заключение параграфа приведем результат, аналогичный

п.5.6 для вогнутой игры.

Теорема. Пусть Г — вогнутая игра на единичном квадрате с функцией выигрыша Н, дифференцируемой по х при любом фик­

сированном у, х0 чистая оптимальная стратегия игрока 1, av значение игры. Тогда:

1)

если JC0= 1, то среди оптимальных стратегий игрока 2 имеет­

ся чистая стратегия у', для которой выполняется неравенство

 

Н'хо,У)>0;

(5.23)

2)

если х0 = 0, то среди оптимальных стратегий игрока 2 имеет­

ся чистая стратегия у", для которой

 

 

H'x(xo,y"H0;

(5.24)

3) если 0< х0 < 1, то среди оптимальных стратегий игрока 2 най­ дется такая, которая является смесью двух существенных страте­ гий у' и у", удовлетворяющих (5.23), (5.24), с вероятностями /? и 1 — /?. При этом число /?е[0, 1] является решением уравнения

рн'Лч, /)+0-№(*о> У)=о.

§6. ОДНОВРЕМЕННЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ

Вэтом параграфе приведено решение некоторых одновременных игр преследования, у которых функция выигрыша или множества стратегий игроков невыпуклые. К таким играм не применимы ре­ зультаты § 5, поэтому решение для обоих игроков находится в клас­ се смешанных стратегий. Существование решения в этом классе гарантируется теоремой п. 4.4.

6.1.Пример 13. (Одновременная игра преследования в кольце.) Эта

игра является частным случаем примера 1 п. 1.2, когда множества St = S2 = S и S представляют собой кольцо. Радиусы внешней и вну­ тренней окружностей кольца S обозначим соответственно R и г,

R>r.

Покажем, что оптимальными стратегиями игроков 1 я 2 являют­ ся выборы точек с равномерным распределением на внутренней (для игрока 2) и внешней (для игрока 1) окружностях кольца S. Обозначим эти стратегии fi* (для игрока 1) и v* (для игрока 2). При указанных стратегиях среднее значение выигрыша (рас­ стояния) равно

94

2я 2я

 

K(ji*, v*)=-^ |

Гy/R2+r2-2Rrcos(<p-\l/)d<pdij,=

 

о

о

 

4j> + r2-2Rrcos{ dt, = Ф(г, Д),

(6.1)

где \//и q> — полярные углы чистых стратегий игроков 1 и 2 соответ­ ственно. Если игрок 1 выбирает точку х с полярными координатами р, ф, то ожидаемое расстояние (игрок 2 придерживается стратегии

v*) равно

 

-£Р

 

К(х,у*)=Ф(г,р)=

y/r2 + p2-2prcostdt

о

При r^p^R функция q>(p)=p2 + r22prcos<j; монотонно воз­ растает. В частности, (p(p)^q>(R) при r^p^R. Отсюда имеем Ф(г, р)^Ф(г, R). Поэтому для любой стратегии игрока 1 ожидаемое

расстояние не больше Ф (г, R).

 

p и ц>

Рассмотрим теперь ситуацию (ц*, у), в которой yeS,

полярные координаты точки у. Имеем

 

 

 

 

 

K(M*,y)=0(p,R)=-

[ JR2 + p2-2Rpcos{</{,

r^p^Rt

 

2n J

 

 

 

0

 

O^p^R.

Зафиксируем R и рассмотрим функцию Ф(р, Л) на отрезке

Дифференцируя по р, можно убедиться, что

 

 

= 0, ———>0, 0<р<Л.

 

 

Поэтому функция Ф (р, R) монотонно возрастает по р, следователь­ но, Ф (г, R) <Ф(р, R)

K(x,v*HK(M*,v*HK(p.*,y)

для всех х, у G S. Таким образом, оптимальность стратегий ц* и v* доказана, а значение игры v равно v = K(ji*, v*), где К(ц*, v*) определяется (6.1). В частности, если S—окружность радиуса R (случай г=Л), то значение игры равно 4R\n.

6.2. Пример 14. Рассмотрим одновременную игру, когда игрок 2 выбирает пару точек у = {yt, у2}, где уг eS,y2eS,& игрок 1, не зная выбора игрока 2,— точку xeS. Выигрыш игрока 1 полагаем рав­ ным min р2 (x, yt). Приведем решение для случая, когда множество

i - l , 2

95

S представляет собой круг радиуса R с центром в начале координат (точке О): S=S(0,R).

Рассмотрим функцию Ф(г, р) = г2 + р2—4гр/я, где г и р принима­ ют значения из промежутка г, ре [О, R]. Установим свойства функ­ ции Ф (г, р).

Лемма 1. Функция Ф(г, R) (как функция переменного г) являет­

ся строго выпуклой и достигает абсолютного минимума в единст­

венной точке r0 = 2R/n.

 

 

Доказательство. Имеем д2Ф/дг2=2>0. Следовательно, функ­

ция Ф(г, р), re [О, R] строго выпукла, а производная

 

дФ(г,К)

4R

(6.2)

— - — = 2г

я

or

 

строго монотонна. Очевидно, что функция (6.2) в единственной точке r0=2R/n обращается в нуль. В силу строгой вьшуклости Ф(г, R) точка г0 является единственной точкой абсолютного минимума. Лемма доказана.

Лемма 2. Функция Ф(г0, р) строго выпукла по р и достигает абсолютного максимума в точке p0=R.

Доказательство. В силу симметрии функция Ф(г, р) строго выпукла по р. Поэтому максимум этой функции достигается в од­ ной из точек 0 или R. Имеем

Ф(г0, Д)-Ф(г0, 0)=г§ + Л2-4гоЛ/я-г§ =

=R2-4/n(2Rln)R=R2 2-8)/л2>0.

Лемма доказана.

Из лемм 1, 2 вытекает, что пара (r0, R) является седловой точкой функции Ф:

Ф(г0,р)<Ф(г0,Л)<Ф(г,Л).

Теорема. Оптимальными смешанными стратегиями являются: для игрока 2 выбор точки yt с равномерным распределением на окружности S(0, r0) с центром в точке О и радиусом г01= —у2), для игрока 1 выбор точки х с равномерным распределением на окружности 5(0, R). Значение игры равно величине Ф(г0, R).

Доказательство. Указанные в теореме стратегии обозначим через ц* и v* для игроков 1 я 2 соответственно. Пусть игрок / придерживается стратегии ц*, а игрок 2 — произвольной чистой

стратегии y={ylt у2), yi=(riCOS(pi, r,sin<p;), i = l, 2. Рассмотрим сна­ чала случай, когда у^=у2- Обозначим через г число ri + r2, а через q> — угол <Pi=(p2. Выигрыш игрока 1 равен

К{ц*,у)=~ \ [R2 2-2Rr cos (ф-(р)Щ =

2я J

96

• R2 + r2^R2 + r2— (Лг) = Ф(г, К).

(6.3)

Тогда по лемме 1 имеем К(р*, у)^Ф(г0, К).

В дальнейшем будем предполагать, что у1 Фу2. Введем на плос­ кости полярную систему координат следующим образом. За начало координат возьмем точку О, за полярную ось — луч, выходящий из точки О перпендикулярно хорде АВ (множеству равноудаленных от у\ и у2 точек круга S(0, R)). Для простоты записи предположим, что и относительно новой системы координат точка yt имеет те же

координаты (rjCoscpi, r,sin 93,). Тогда (рис. 6) выигрыш первого игро­ ка равен

А

К(ц*,у)-

:— min [R2 + rf — 2RriCos(}l/ — q)d\chl/ =

 

р

 

 

 

 

~2п

J

[R2 + r\- 2Rr2 cos -

ср2)] # +

 

 

 

 

 

2я-0

 

 

 

+-

 

[R2 + г\ -2Rrt

cos (ф -

(pi)] йф.

 

 

 

 

 

Пусть

 

 

 

 

 

^i(<?) = [(Л2 + г22-2Rr2sinpcos(p]/n,

-p^cp^p;

F2(<?) = KR2

+ Л)(n-P) + 2Rrt

sinpcosф\/п,

р^(р^2п~р.

Стационарными точками функций Fl и F2 являются 0 и я соответст-

2

венно, так как имеем 0</?<я/2 и функция F[ (ср) = - Rr2sin P sincp,

Рис. 6

Рис. 7

97

2

F'2((p)= Rrl sin /? sin q>, причем 0 и я — точки абсолютного мини-

п

мума функций F. и F2 (F[ (ф) < 0 при <р е (—/?, 0), F[ (ф) > 0 при ф е (0, /?); аналогично, Р'2((р)<0 при фе(/?, л), F'2((p)>0 при фе(я, 2я — /J)). Следовательно,

^(^*,>;) = Р'12)+^21)^,Р1(0)+^2(я) =

-if 2 + г| - 2Лг2 cos ф)(А1/ +

2ir-10

+ Н- (JR2 + rf-2J Rr1 cos(^-m ))#, (6.4) 2я J

т. е. игрок 1 при использовании игроком 2 стратегии yl=(— rl5 0) ^2 = {г2, 0} получит меньший выигрыш, чем при использовании стратегии

U=(r,cos<Pi, rjSinpj), 1 = 1, 2.

Пусть теперь точки у, _и >>2 лежат на диаметре круга 5(0, R) и расстояние между ними 2г. Обозначим через 2а центральный угол, опирающийся на дугу, стягиваемую хордой_АВ (рис. 7). Пред­ положим, что >»! = (.& cos а — г, 0), j>2=(Rcosa-|-r, 0). Тогда выигрыш первого игрока равен

a

i/r(a, r)=— [(Л cos ^ - Л cos a-г)2 2 sin2 ф]4ф +

2я J

—a

2я-«

+— [(i?cos^-J?cosa+f)2 + i?2 sin2 ^]# =

-iW-2Rcos\l/(Rcosa + r) + (Rcosa+r)z]dil/+

— a 2ff-ct

+— [i?2-2J?cos^(i?cosa-r)+CRcosa-r)2]#= 2я J

a

= - {[i?2 + (i?cosa + r)2]a-2i?sina(i?cosa + r) +

n

+[.R2 + (i?cosa-r)2](7c-a)4-2i?sinax(J?cosa-r)}.

98

Покажем, что функция ф(а, г) при фиксированном г достигает минимума по а при а = я/2. В результате элементарных вычислений получим дф/да = {2Rsinu[(it—2a)r — nRcos а]}/ж, поэтому для доста­

точно малых значений

а

имеем

дф(а, г)/оа<0,

так как sin a > О,

r(n — 2a) — nRcosa<0

предельном случае

гя—яЛ<0). Вместе

с тем дф (я/2, г)/да = 0.

 

 

г функция дф(а, г)/8а не имеет

При каждом фиксированном

нулей по а, кроме а=я/2. Предположим противное. Пусть ai

нуль этой функции в интервале (0, я/2). Тогда при <х=а1

обратится

в нуль и

функция

G(a) = (n—2a)r—nRcosa.

Таким

образом,

G(a,) = G(rc/2) = 0.

 

 

 

Очевидно, что G(a)>0 для всех ae(a1, я/2). Это противоречит

выпуклости

функции

G(a) (G"(a) = nRcosa>0).

Поэтому дф(а,

г)/да<0 при ae(0, я/2) и дф(п/2, г)/да=0. Следовательно, функция ф(а, г) достигает абсолютного минимума по а при а=я/2: ф(а, г)^ф(п/2, г). Значит, и в этом случае имеем

К(Ц*, у)=Ф(ос, г)^ф(п/2, г) = Ф(г, К)>Ф(г0, R).

(6.5)

Из соотношений (6.3) — (6.5) вытекает, что для любой чистой стратегии у={у^, у2} справедливо неравенство

K(n*,y)>Q>(r0,R). (6.6)

Пусть игрок 2 применяет стратегию v*, а игрок 1 — произвольную чистую стратегию х=(рсо&ф, рыпф). Тогда игрок 1 получает выигрыш

К(х, v*)=— тт\р2 + г1-2рг0со${ф-<р),

2я J

о

In

p2+r% + 2pr0costy-(p)]d<p=— min(p2 + r § -

-2pr0cos£, p2 + rl+2pr0cos£)dl;=Q>(r0, p)

и в силу леммы 2 имеем *(х,у*)=Ф(г0,рКФ(г0,Л). (6.7)

Из неравенств (6.6) и (6.7) получаем, что р.* и v* являются оптималь­ ными стратегиями игроков, а Ф(г0, R) — значение игры. Теорема доказана.

6.3. Пример 15. Пусть игрок 2 выбирает набор из т точек у = {yv ••-, Ут), где yteS, i= 1, ..., т, а игрок 1 одновременно с ним — точку xeS. Вьшгрыш игрока 1 полагаем равным min р(х, у). Решим

Ы1, ..., т

99

Соседние файлы в папке Теория игр