Теория игр / Петросян_Теория_игр
.pdfТеорема. Пусть Г=(Х, Y, Н), X a jf, Yс Л" — выпуклая игра. Тогда значение v игры Г определяется по формуле
w=min тах#(л:, у).
У*
Игрок 1 обладает оптимальной смешанной стратегией /х0 с конеч ным спектром, состоящим не более чем из (и+ 1)-й точки множест ва X. В то же время все чистые стратегии у0, на которых достига ется min max H{x, у), являются оптимальными для игрока 2. Если,
У х
кроме того, функция Н(х, у) при каждом фиксированном хеХ строго выпукла по у, то оптимальная стратегия игрока 2 единст венна-
Проиллюстрируем эти результаты на примере.
Пример 11. Рассмотрим частный случай примера 1 (см. п. 1.2).
Пусть 5'1 = 5'2=5 и множество S представляет |
собой замкнутый |
круг на плоскости с центром в точке О и радиусом R. |
|
Функция выигрыша Н(х, у)=р(х, y),xeS,yeS, |
где р() — функ |
ция расстояния в R2, является строго вьшуклой по у при любом
фиксированном х, a S — выпуклое множество. Поэтому согласно теореме п. 5.5 значение игры v равно
«=min maxp(x, у). |
(5.15) |
yeS xeS |
|
Вычисляя min max в (5.15), получаем, что v=R (см. пример 8 п. 2.6). При этом точка yQeS, на которой достигается минимум выражения
тах/>(х, у), единственная и совпадает с центром круга S (т. е.
xeS
точкой О). Эта точка и является оптимальной стратегией игрока 2 (минимизирующего). Теорема утверждает, что у игрока 1 (мак симизирующего) существует оптимальная смешанная стратегия, предписывающая положительную вероятность не более чем трем
точкам множества S. Однако вследствие симметрии |
множества |
||
S в действительности оптимальная смешанная стратегия ц0 игрока |
|||
1 предписывает с вероятностью 1/2 |
выбирать любые две диамет |
||
рально противоположные точки на границе множества S. Для до |
|||
казательства оптимальности стратегий /х0, у0 |
достаточно устано |
||
вить, что К(х, y0)^K(pi0, y0)^K(jx0, |
у) для всех х, yeS, где К — |
||
математическое ожидание выигрыша, К(р0, |
y0)=RI2 + R/2 = R. |
||
Действительно, К(х, yo)=p(0, x)^R |
и К(ц0, y)=p(xv |
y)/2 + p(x2, |
y)/2^R, где х1ах2 — произвольные диаметрально противополож ные точки на границе круга S. Оптимальность стратегий /х0 и у0 доказана.
5.6. Рассмотрим частный случай выпуклой игры Г=(Х, Y, Н),
90
когда X=Y=[0, 1], т. е. выпуклую игру на единичном квадрате. Из теоремы п. 5.5 следует, что игрок 2 всегда имеет оптимальную чистую стратегию }>ое[0, 1]» а. игрок 1 — смешанную, сосредоточен ную не более чем на двух точках, при этом значение игры равно
v = min max Н(х, у). |
(5.16) |
>б(0, 1] *б[0, 1]
Множество всех существенных стратегий {х} с [0, 1] игрока 1 явля ется подмножеством решений уравнений (п. 4.2)
H(x,yo)=v,xe[0, |
1], |
(5.17) |
где у0 — оптимальная стратегия игрока 2. Чистые стратегии х игро ка 1, удовлетворяющие равенству (5.17), иногда называются урав новешивающими. Множество всех уравновешивающих стратегий иг рока / замкнуто и ограничено, т. е. компактно. Оптимальной чистой стратегией игрока 2 является любая точка у0 = [0, 1], на которой достигается (5.16).
Обозначим через Н'у (х, у) частную производную функции Н по у (при у=0 и у=1 понимается соответственно правая и левая производные).
Лемма. Если у0 — оптимальная стратегия игрока 2 в выпуклой игре на единичном квадрате с функцией выигрыша Н, дифференциру емой по у и у0>0, то найдется уравновешивающая стратегия х? игрока 1, для которой
Н'у(х!,уо)^0. (5.18)
Если же у0<1,то существует такая уравновешивающая стратегия х" игрока 1, что
Ну(х»,уо)>0. (5.19)
Доказательство. Докажем (5.18). (Вторая часть леммы до казывается аналогично.) Предположим противное, а именно: для каждой уравновешивающей стратегии х игрока / выполняется нера венство Ну(х, уо)>0, т. е. функция Н(х, •) в точке у* строго возрастает. Это означает, что найдутся такие е(рс)>0 и 0(х)>О, что для^ер), 1], удовлетворяющих неравенству в(х)>у0 —у>0, выпол няется неравенство
Н(х,у)<Н(х, У0)-Е(Х).
В силу непрерывности функции Н имеем, что для каждой урав новешивающей стратегии х и е(Зс)/2 найдется такое 5(х)>0, что при в(х)>уо—у>0 выполняется неравенство
Н(х, у)<Н(х, у)-е(х)12<Н(х, Уо)-е(х)/2 = =Н(х, у0)-е(х)/2
для всех, уравновешивающих стратегий х, для которых \x—x\<S(x).
91
Множество уравновешивающих стратегий компактно, поэтому его можно покрыть конечным числом таких д (х)-окрестностей. Пусть Е — наименьшее из всех соответствующих чисел е (х). Тогда имеем неравенство, справедливое для всех уравновешивающих стратегий х (в том числе и для всех существенных стратегий)
Н(х, у)4:Н(х, у0)-е/2, где у0-тшв(х)<у<у0.
Пусть (i0 — оптимальная смешанная стратегия игрока /. После днее неравенство справедливо для всех точек спектра стратегии ц0, поэтому, интегрируя, получаем
К(цй, y)^KQi0, y0)-e/2=i>-e/2,
что противоречит оптимальности стратегии ц0.
Теорема. Пусть Г—выпуклая игра на единичном квадрате с функцией выигрыша Н, дифференцируемой по у при любом х,
Уо — чистая оптимальная стратегия игрока 2,av — значение игры. Тогда:
1)если уо=1, то среди оптимальных стратегий игрока 1 имеет ся чистая стратегия х', для которой выполняется (5.18);
2)если уо=0, то среди оптимальных стратегий игрока 1 имеет ся чистая стратегия х", для которой выполняется (5.19);
3) если 0<уо<1,то среди оптимальных стратегий игрока 1 най дется такая, которая является смесью двух существенных страте гий х? их",удовлетворяющих (5.18), (5.19), с вероятностями а и 1 — а, а с [0, 1]. При этом а является решением уравнения
«Я; (х1, у0) + (1 - а)Щ {х", у0)=0. |
(5.20) |
Доказательство. Пусть у0=1- Тогда найдется уравновешива ющая стратегия х" игрока 1, для которой выполняется (5.18). Тогда из выпуклости функции Н(х', у) следует, что она не возрастает по
у на всем промежутке [0, 1], достигая при у=\ |
своего минимума. |
|||
Это означает, что |
#(х\ у0НН(х', |
у) |
|
(5.21) |
|
|
|||
при всех уе[0, 1]. С другой стороны, из (5.17) следует, что |
||||
|
Н(х, у0)^Н(х; |
у0) |
|
(5.22) |
при всех хе[0, |
1]. Неравенства (5.21), (5.22) |
показывают, что |
||
(х1, у0) — ситуация равновесия. |
|
|
к случаю 3. |
|
Случай уо=0 |
исследуется аналогично. Перейдем |
|||
Бели 0<>>0<1, то имеются две уравновешивающие |
стратегии х! |
|||
и х", удовлетворяющие (5.18), (5.19) соответственно. |
|
Рассмотрим функцию
q>(fi)=№'yV, y0)Hl-P)H;(x", у0).
Из (5.18), (5.19) следует, что <р(0)>0, <р(1)<0. Функция q>(fj) непре рывна, поэтому найдется <хе[0, 1], для которого <р(а) = 0.
92
Рассмотрим смешанную стратегию ц0 |
игрока 1, заключающую |
||||
ся в выборе стратегии х' с вероятностью а и стратегии х" с вероят |
|||||
ностью 1 —а. Функция |
|
|
|
|
|
К(ц0, у)=аН{х!, у)+(1-«)Н(х", |
у) |
|
|||
выпукла по у. Ее производная по у в точке у=у0 |
равна |
||||
K'y(ji0, Уо)=хн;(х', у0)+у |
-«)#;(*", |
Уо)=о. |
|||
Следовательно, в точке у0 |
функция К(ц0, |
у) достигает минимума. |
|||
Отсюда, учитывая (5.17), имеем |
|
|
|
|
|
К(Ио> yo)<K(fi0, |
у), |
|
|
||
К(Мо- У)=Н(х, y0)=v=maxH(x, |
y0)^H(x, |
у0) |
|||
|
X |
|
|
|
|
при всех хе[0, 1] и уе[0, |
I], что и |
доказывает |
оптимальность |
стратегий ц0 и у0.
5.7. Теорема п. 5.6 дает способ отыскания оптимальных страте гий, который мы проиллюстрируем на примере.
Пример 12. Рассмотрим игру на единичном квадрате с функцией выигрыша Н(х, у)=(х—у)2. Это есть одномерный аналог примера И, только в качестве функции выигрыша здесь взят квадрат рассто яния. Поэтому естественно ожидать, что значение v игры будет равно v= 1/4, оптимальной стратегией игрока 2 является середина отрезка у0= 1/2, а оптимальной стратегией игрока / — выбор с ве роятностью 1/2 крайних точек 0 и 1 отрезка [0, 1]. Покажем это, используя теорему п. 5.6.
Заметим, что д2Н(х, у)/ду2 = 2>0, так что игра Г — строго выпуклая, поэтому игрок 2 имеет единственную оптимальную стра тегию, которая является чистой (теорема п. 5.5). Пусть у — фик сированная стратегия игрока 2. Тогда
тах(х |
|
|
|
если |
у<Л\1, |
|
- * |
- |
{ " - |
если* |
>>>1/2. |
||
X |
||||||
Таким образом, из (5.16) |
|
|
|
|
||
»=min< |
min |
(1— у)2, |
min y2>. |
Оба внутренних минимума достигаются на у0=1/2 и принимают значение 1/4. Поэтому ю= 1/4, а у0 = 1/2 — единственная оптималь ная стратегия игрока 2.
Найдем оптимальную стратегию игрока 1. Для этого заметим, что 0<у0<1 (у0=1/2). Найдем существенные стратегии игрока 1. Уравнение (5.17) в данном случае принимает вид (х—1/2)2 = 1/4. Откуда J C 1 = 0 H X 2 = 1 , T . е. существенными для игрока 1 являются крайние точки отрезка [0, 1].
93
Вычислим производные
Я Ж , Jo)=l >0, Н'у(хг, |
у2)=-1<0. |
Составим уравнение (5.20) относительно а. Имеем 2а—1 = 0, откуда а =1/2. Таким образом, оптимальная стратегия игрока 1 состоит
ввыборе им чистых стратегий 0 и 1 с вероятностью 1/2.
5.8.В заключение параграфа приведем результат, аналогичный
п.5.6 для вогнутой игры.
Теорема. Пусть Г — вогнутая игра на единичном квадрате с функцией выигрыша Н, дифференцируемой по х при любом фик
сированном у, х0 — чистая оптимальная стратегия игрока 1, av — значение игры. Тогда:
1) |
если JC0= 1, то среди оптимальных стратегий игрока 2 имеет |
|
ся чистая стратегия у', для которой выполняется неравенство |
||
|
Н'х(хо,У)>0; |
(5.23) |
2) |
если х0 = 0, то среди оптимальных стратегий игрока 2 имеет |
|
ся чистая стратегия у", для которой |
|
|
|
H'x(xo,y"H0; |
(5.24) |
3) если 0< х0 < 1, то среди оптимальных стратегий игрока 2 най дется такая, которая является смесью двух существенных страте гий у' и у", удовлетворяющих (5.23), (5.24), с вероятностями /? и 1 — /?. При этом число /?е[0, 1] является решением уравнения
рн'Лч, /)+0-№(*о> У)=о.
§6. ОДНОВРЕМЕННЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ
Вэтом параграфе приведено решение некоторых одновременных игр преследования, у которых функция выигрыша или множества стратегий игроков невыпуклые. К таким играм не применимы ре зультаты § 5, поэтому решение для обоих игроков находится в клас се смешанных стратегий. Существование решения в этом классе гарантируется теоремой п. 4.4.
6.1.Пример 13. (Одновременная игра преследования в кольце.) Эта
игра является частным случаем примера 1 п. 1.2, когда множества St = S2 = S и S представляют собой кольцо. Радиусы внешней и вну тренней окружностей кольца S обозначим соответственно R и г,
R>r.
Покажем, что оптимальными стратегиями игроков 1 я 2 являют ся выборы точек с равномерным распределением на внутренней (для игрока 2) и внешней (для игрока 1) окружностях кольца S. Обозначим эти стратегии fi* (для игрока 1) и v* (для игрока 2). При указанных стратегиях среднее значение выигрыша (рас стояния) равно
94
2я 2я |
|
|
K(ji*, v*)=-^ | |
Гy/R2+r2-2Rrcos(<p-\l/)d<pdij,= |
|
о |
о |
|
4j> + r2-2Rrcos{ dt, = Ф(г, Д), |
(6.1) |
где \//и q> — полярные углы чистых стратегий игроков 1 и 2 соответ ственно. Если игрок 1 выбирает точку х с полярными координатами р, ф, то ожидаемое расстояние (игрок 2 придерживается стратегии
v*) равно |
|
-£Р |
|
|
2я |
К(х,у*)=Ф(г,р)= |
y/r2 + p2-2prcostdt |
о
При r^p^R функция q>(p)=p2 + r2—2prcos<j; монотонно воз растает. В частности, (p(p)^q>(R) при r^p^R. Отсюда имеем Ф(г, р)^Ф(г, R). Поэтому для любой стратегии игрока 1 ожидаемое
расстояние не больше Ф (г, R). |
|
p и ц> — |
|
Рассмотрим теперь ситуацию (ц*, у), в которой yeS, |
|||
полярные координаты точки у. Имеем |
|
|
|
|
2я |
|
|
K(M*,y)=0(p,R)=- |
[ JR2 + p2-2Rpcos{</{, |
r^p^Rt |
|
|
2n J |
|
|
|
0 |
|
O^p^R. |
Зафиксируем R и рассмотрим функцию Ф(р, Л) на отрезке |
|||
Дифференцируя по р, можно убедиться, что |
|
|
|
— |
= 0, ———>0, 0<р<Л. |
|
|
Поэтому функция Ф (р, R) монотонно возрастает по р, следователь но, Ф (г, R) <Ф(р, R)
K(x,v*HK(M*,v*HK(p.*,y)
для всех х, у G S. Таким образом, оптимальность стратегий ц* и v* доказана, а значение игры v равно v = K(ji*, v*), где К(ц*, v*) определяется (6.1). В частности, если S—окружность радиуса R (случай г=Л), то значение игры равно 4R\n.
6.2. Пример 14. Рассмотрим одновременную игру, когда игрок 2 выбирает пару точек у = {yt, у2}, где уг eS,y2eS,& игрок 1, не зная выбора игрока 2,— точку xeS. Выигрыш игрока 1 полагаем рав ным min р2 (x, yt). Приведем решение для случая, когда множество
i - l , 2
95
S представляет собой круг радиуса R с центром в начале координат (точке О): S=S(0,R).
Рассмотрим функцию Ф(г, р) = г2 + р2—4гр/я, где г и р принима ют значения из промежутка г, ре [О, R]. Установим свойства функ ции Ф (г, р).
Лемма 1. Функция Ф(г, R) (как функция переменного г) являет |
||
ся строго выпуклой и достигает абсолютного минимума в единст |
||
венной точке r0 = 2R/n. |
|
|
Доказательство. Имеем д2Ф/дг2=2>0. Следовательно, функ |
||
ция Ф(г, р), re [О, R] строго выпукла, а производная |
|
|
дФ(г,К) |
4R |
(6.2) |
— - — = 2г |
я |
|
or |
|
строго монотонна. Очевидно, что функция (6.2) в единственной точке r0=2R/n обращается в нуль. В силу строгой вьшуклости Ф(г, R) точка г0 является единственной точкой абсолютного минимума. Лемма доказана.
Лемма 2. Функция Ф(г0, р) строго выпукла по р и достигает абсолютного максимума в точке p0=R.
Доказательство. В силу симметрии функция Ф(г, р) строго выпукла по р. Поэтому максимум этой функции достигается в од ной из точек 0 или R. Имеем
Ф(г0, Д)-Ф(г0, 0)=г§ + Л2-4гоЛ/я-г§ =
=R2-4/n(2Rln)R=R2 (я2-8)/л2>0.
Лемма доказана.
Из лемм 1, 2 вытекает, что пара (r0, R) является седловой точкой функции Ф:
Ф(г0,р)<Ф(г0,Л)<Ф(г,Л).
Теорема. Оптимальными смешанными стратегиями являются: для игрока 2 — выбор точки yt с равномерным распределением на окружности S(0, r0) с центром в точке О и радиусом г0(у1= —у2), для игрока 1 — выбор точки х с равномерным распределением на окружности 5(0, R). Значение игры равно величине Ф(г0, R).
Доказательство. Указанные в теореме стратегии обозначим через ц* и v* для игроков 1 я 2 соответственно. Пусть игрок / придерживается стратегии ц*, а игрок 2 — произвольной чистой
стратегии y={ylt у2), yi=(riCOS(pi, r,sin<p;), i = l, 2. Рассмотрим сна чала случай, когда у^=у2- Обозначим через г число ri + r2, а через q> — угол <Pi=(p2. Выигрыш игрока 1 равен
2л
К{ц*,у)=~ \ [R2 +г2-2Rr cos (ф-(р)Щ =
2я J
96
• R2 + r2^R2 + r2— (Лг) = Ф(г, К). |
(6.3) |
Тогда по лемме 1 имеем К(р*, у)^Ф(г0, К).
В дальнейшем будем предполагать, что у1 Фу2. Введем на плос кости полярную систему координат следующим образом. За начало координат возьмем точку О, за полярную ось — луч, выходящий из точки О перпендикулярно хорде АВ (множеству равноудаленных от у\ и у2 точек круга S(0, R)). Для простоты записи предположим, что и относительно новой системы координат точка yt имеет те же
координаты (rjCoscpi, r,sin 93,). Тогда (рис. 6) выигрыш первого игро ка равен
2я
А
К(ц*,у)- |
:— min [R2 + rf — 2RriCos(}l/ — q)d\chl/ = |
||||
|
р |
|
|
|
|
~2п |
J |
[R2 + r\- 2Rr2 cos (ф - |
ср2)] # + |
||
|
|
|
|
||
|
2я-0 |
|
|
|
|
+- |
|
[R2 + г\ -2Rrt |
cos (ф - |
(pi)] йф. |
|
2я |
|
|
|
|
|
Пусть |
|
|
|
|
|
^i(<?) = [(Л2 + г22)р-2Rr2sinpcos(p]/n, |
-p^cp^p; |
||||
F2(<?) = KR2 |
+ Л)(n-P) + 2Rrt |
sinpcosф\/п, |
р^(р^2п~р. |
Стационарными точками функций Fl и F2 являются 0 и я соответст-
2
венно, так как имеем 0</?<я/2 и функция F[ (ср) = - Rr2sin P sincp,
Рис. 6 |
Рис. 7 |
97
2
F'2((p)= —Rrl sin /? sin q>, причем 0 и я — точки абсолютного мини-
п
мума функций F. и F2 (F[ (ф) < 0 при <р е (—/?, 0), F[ (ф) > 0 при ф е (0, /?); аналогично, Р'2((р)<0 при фе(/?, л), F'2((p)>0 при фе(я, 2я — /J)). Следовательно,
^(^*,>;) = Р'1(ф2)+^2(ф1)^,Р1(0)+^2(я) =
-if (Л2 + г| - 2Лг2 cos ф)(А1/ +
2ir-10
+ Н- (JR2 + rf-2J Rr1 cos(^-m ))#, (6.4) 2я J
т. е. игрок 1 при использовании игроком 2 стратегии yl=(— rl5 0) ^2 = {г2, 0} получит меньший выигрыш, чем при использовании стратегии
U=(r,cos<Pi, rjSinpj), 1 = 1, 2.
Пусть теперь точки у, _и >>2 лежат на диаметре круга 5(0, R) и расстояние между ними 2г. Обозначим через 2а центральный угол, опирающийся на дугу, стягиваемую хордой_АВ (рис. 7). Пред положим, что >»! = (.& cos а — г, 0), j>2=(Rcosa-|-r, 0). Тогда выигрыш первого игрока равен
a
i/r(a, r)=— [(Л cos ^ - Л cos a-г)2 +Л2 sin2 ф]4ф +
2я J
—a
2я-«
+— [(i?cos^-J?cosa+f)2 + i?2 sin2 ^]# =
-iW-2Rcos\l/(Rcosa + r) + (Rcosa+r)z]dil/+
— a 2ff-ct
+— [i?2-2J?cos^(i?cosa-r)+CRcosa-r)2]#= 2я J
a
= - {[i?2 + (i?cosa + r)2]a-2i?sina(i?cosa + r) +
n
+[.R2 + (i?cosa-r)2](7c-a)4-2i?sinax(J?cosa-r)}.
98
Покажем, что функция ф(а, г) при фиксированном г достигает минимума по а при а = я/2. В результате элементарных вычислений получим дф/да = {2Rsinu[(it—2a)r — nRcos а]}/ж, поэтому для доста
точно малых значений |
а |
имеем |
дф(а, г)/оа<0, |
так как sin a > О, |
r(n — 2a) — nRcosa<0 |
(в |
предельном случае |
гя—яЛ<0). Вместе |
|
с тем дф (я/2, г)/да = 0. |
|
|
г функция дф(а, г)/8а не имеет |
|
При каждом фиксированном |
нулей по а, кроме а=я/2. Предположим противное. Пусть ai — |
||||
нуль этой функции в интервале (0, я/2). Тогда при <х=а1 |
обратится |
|||
в нуль и |
функция |
G(a) = (n—2a)r—nRcosa. |
Таким |
образом, |
G(a,) = G(rc/2) = 0. |
|
|
|
|
Очевидно, что G(a)>0 для всех ae(a1, я/2). Это противоречит |
||||
выпуклости |
функции |
G(a) (G"(a) = nRcosa>0). |
Поэтому дф(а, |
г)/да<0 при ae(0, я/2) и дф(п/2, г)/да=0. Следовательно, функция ф(а, г) достигает абсолютного минимума по а при а=я/2: ф(а, г)^ф(п/2, г). Значит, и в этом случае имеем
К(Ц*, у)=Ф(ос, г)^ф(п/2, г) = Ф(г, К)>Ф(г0, R). |
(6.5) |
Из соотношений (6.3) — (6.5) вытекает, что для любой чистой стратегии у={у^, у2} справедливо неравенство
K(n*,y)>Q>(r0,R). (6.6)
Пусть игрок 2 применяет стратегию v*, а игрок 1 — произвольную чистую стратегию х=(рсо&ф, рыпф). Тогда игрок 1 получает выигрыш
К(х, v*)=— тт\р2 + г1-2рг0со${ф-<р),
2я J
о
In
p2+r% + 2pr0costy-(p)]d<p=— min(p2 + r § -
-2pr0cos£, p2 + rl+2pr0cos£)dl;=Q>(r0, p)
и в силу леммы 2 имеем *(х,у*)=Ф(г0,рКФ(г0,Л). (6.7)
Из неравенств (6.6) и (6.7) получаем, что р.* и v* являются оптималь ными стратегиями игроков, а Ф(г0, R) — значение игры. Теорема доказана.
6.3. Пример 15. Пусть игрок 2 выбирает набор из т точек у = {yv ••-, Ут), где yteS, i= 1, ..., т, а игрок 1 одновременно с ним — точку xeS. Вьшгрыш игрока 1 полагаем равным min р(х, у). Решим
Ы1, ..., т
99