Теория игр / Петросян_Теория_игр
.pdfГЛАВА II
БЕСКОНЕЧНЫЕ АНТАГОНИСТИЧЕСКИЕ ИГРЫ
§1. БЕСКОНЕЧНЫЕ ИГРЫ
1.1.В этой главе рассматриваются антагонистические игры, которые отличаются от матричных тем, что в них один или оба игрока имеют бесконечное (счетное или континуум) множество стратегий. С теоретико-игровой точки зрения это отличие малосу щественно, поскольку игра остается антагонистической и проблема состоит в использовании более сложного аналитического аппарата исследования.
Таким образом, будем исследовать общие антагонистические
игры, т. е. системы вида |
|
||
|
|
Г=(Х, Y, Н), |
(1.1) |
где X и Y — произвольные бесконечные множества, элементы кото |
|||
рых |
являются |
стратегиями игроков 1 и |
2 соответственно, |
а Н: |
Хх. Y-*Rl |
— функция выигрыша игрока |
1. Напомним, что |
правила антагонистической игры изложены в п. 1.1 гл. 1. Выигрыш
игрока 2 в ситуации (х, у) равен [— Щх, у)], хеХ, |
yeY (игра |
антагонистическая). В этой главе будем рассматривать |
такие игры, |
укоторых функция Н ограничена.
1.2.Пример 1. (Одновременная игра преследования на плоскости.)
Пусть Si и S2 |
— множества на плоскости. Игра Г заключается |
|
в следующем. Пусть 1 выбирает некоторую точку xeSu |
а игрок |
|
2 — точку yeS2. |
При совершении выбора игроки 1 и 2 не имеют |
|
информации о действиях противника, поэтому подобный выбор |
||
удобно интерпретировать как одновременный. Точки xeSv |
yeS2 |
|
являются в этом случае стратегиями игроков 1 и 2 соответственно. |
Таким образом, множества стратегий игроков совпадают с множе ствами St и S2 на плоскости.
Целью игрока 2 является минимизация расстояния между ним и вторым игроком (игрок / преследует противоположную цель). Поэтому под выигрышем Щх, у) игрока 1 в этой игре будем
понимать евклидово расстояние р(х, |
у) между точками xeSi |
и у G S2, т. е. Щх, у)=р(х, у), xeSityeS2. |
Выигрыш игрока 2 полага |
ем равным выигрышу игрока 1, взятому с обратным знаком (игра антагонистическая).
Пример 2. (Поиск на отрезке.) Простейшей игрой поиска с бес конечным числом стратегий является следующая игра.
60
Игрок 2 (прячущийся) выбирает точку у е [0, 1], а игрок 1 (ищу щий) выбирает одновременно и независимо точку хе[0, 1]. Точка у считается «обнаруженной», если \х—у\^1, где 0</<1. В этом случае игрок 1 выигрывает величину + 1, во всех остальных случаях его выигрыш полагается равным 0. Игра антагонистическая.
Таким образом, функция выигрыша имеет вид
Н(х,у) = \fl, если |дс-.И</,
[О — в противном случае.
Выигрыш игрока 2 полагается равным [—Н(х, у)].
Пример 3. (Поиск на сфере.) Пусть в R3 задана сфера С радиуса R. Игрок 1 (ищущий) выбирает систему из точек xv xz, .... х,еС, а игрок 2 — одну точку у е С. Выборы точек осуществляются игро ками одновременно и независимо друг от друга. Игрок 2 считается обнаруженным, если точка уеС оказывается в r-окрестности одной из точек Xj, j=\, ..., s. Здесь под г-окрестностью точки Xj будем понимать сферический сегмент с вершиной в точке Xj и радиусом основания г (рис. 2). В дальнейшем r-окрестность точки х} будем обозначать через S(xjt r).
Целью игрока 1 является обнаружение игрока 2. Игрок 2 пресле дует противоположную цель. В соответствии с этим положим выиг рыш игрока 1 равным
(l, если уеМх,
Н(х'У) = {п
(О — в противном случае,
S
где x=(xv .... xs) и MX=\J S(xp r). Выигрыш игрока 2 полагается
равным [—Н(х, у)].
Пример 4. (Шумная дуэль.) Каждому из двух дуэлянтов разреша ется выстрелить только один раз. Предполагается, что оба они имеют «шумные» пистолеты, так что каждый знает, когда выстре лил его противник. Предполагается также, что функция меткости Pi(x) (вероятность попадания при стрельбе в момент времени х) игрока 1 определена на [0,1], непрерывна, монотонно возрастает по х и pl(0)=0,Pi(l)= 1. Аналогично, точность выстрела игрока 2 опи сывается функцией р2(у) на [0, 1], где/>2(0) = 0, р2(1)=1- Если игрок
1 поражает игрока 2, то первый получает выигрыш +1; если игрок 2 поражает игрока /, то игрок 1 получает —1, если оба игрока стреляют одновременно и с одинаковым результатом (успешным или нет), то выигрыш игрока 1 равен 0.
Структура информации в этой игре (тот факт, что оружие шум ное) принимается во внимание при составлении функции вьшгрыша Н(х, у). Если х<у, то вероятность того, что игрок / поразит противника, равна рх(х) и выигрыш игрока / равен 1 р^х); вероят ность того, что игрок 1 промахнется, равна \—рх(х). Если игрок
61
2 еще не стрелял и знает, что игрок 1 больше не может выстрелить, то игрок 2 будет увеличивать свои шансы на успех, ожидая, пока у не станет равным 1. Таким образом, если игрок 1 промахнется в момент х, то он наверняка будет поражен игроком 2, если х<у, следовательно,
Щх, у)=/>1(х) + (-1)[1-/>1(х)], х<у. Аналогично имеем
Щх. У)=Рг<У) (" 1) + [1 -РгШ • 1. *>У |
|
и |
|
Щх. у)=Р1(х)[1-р2(у)]+р2(у)[\-р1(х)](-1), |
х=у. |
Таким образом, функция выигрыша Щх, у) в игре равна |
|
Г2рх(х)-1, х<у, |
|
Щх,У)=<р1(х)-р2(у).х~у. |
|
Ll-2p2(y), x>y, |
|
гдехе[0, 1], уе[0, I]. |
|
Пример 5. (Бесшумная дуэль.) Снова |
|
каждому из дуэлянтов разрешается вы |
|
стрелить только один раз, но в этом слу |
|
чае ни один из дуэлянтов не может опре |
|
делить, выстрелил его противник или нет. |
|
Предположим для простоты, что фун |
|
кции меткости заданы следующим обра |
|
зом: pi(x)=p2(x) = x. Тогда функция выиг |
|
рыша, описывающая игру, имеет вид |
|
х— (1— х)у, |
если |
х<у, |
|
Рис.2 |
Н(х,у)=\о, |
если |
х=у, |
|
.—у+(1—у)х, если |
х>у, |
|||
|
где хе[0, 1], уе[0, I]. Построение функции выигрыша Щх, у) в этой игре производится так же, как и в примере 4, за исключением того, что в данном случае ни один из игроков не может определить момента выстрела противника, если только этот выстрел не оказал ся успешным.
Пример 6. (Поиск «шумного» объекта.) Рассматривается задача поиска «шумного» объекта (игрок 2) подвижным средством об наружения (игрок 1). Дальность действия 1(х, у) средства обнаруже ния в зависимости от скоростей хв[х0, xj и уе\у0, уJ игроков
1 и 2 соответственно имеет вид
62
где 1(у) = 10 |
+ Р(у-Уо), |
Р = (11-1о)1(У1-Уо), li=bi), 10=Ъо)- Поло |
|
жительные числа х0 <xt, yQ <yL, /0 < 1^ считаются заданными. Таким |
|||
образом, |
|
|
|
|
Кх> У)= |
|
• |
|
|
(Vi-^o) |
(*i-*o) |
В качестве функции выигрыша Щх, у) игрока 1 понимается произ водительность поиска, т. е. просмотренная площадь в единицу времени Н(х, y)=2xl(x, у). Выигрыш игрока 2 полагаем равным [—Н(х, у)]. Таким образом, получаем игру с функцией выигрыша
Н(х, |
у)=2х l0b>i-y)+li(y-yo) |
(*i-*) |
|
(У1-Уо) |
(Xi-x0) |
тяе хе[х0, Ху], уе\у0, |
уД. |
|
13. В заключение отметим специальный класс антагонистичес ких игр, в которых Х= У=[0, 1]. В этих играх ситуации суть пары чисел (х, у), где х, уе[0, 1]. Эти пары задают точки единичного квадрата. Поэтому такие игры называются играми на единичном квадрате. Класс игр на единичном квадрате во многом характеризу ет бесконечные антагонистические игры и поэтому является базо вым при исследовании бесконечных игр. В частности, примеры 2, 4, S — примеры игр на единичном квадрате. Пример 6 также игра на единичном квадрате, если положить х0=у0=0, xl=yl = l.
§2. СИТУАЦИЯ 8-РАВНОВЕСИЯ, 6-СЕДЛОВЫЕ ТОЧКИ
И6-ОПТИМАЛЬНЫЕ СТРАТЕГИИ
2.1. Как и во всякой антагонистической игре Г=(Х, Y, Н), в бесконечной игре принципом оптимального поведения игроков является принцип равновесия. Оптимальной (равновесной) является такая ситуация (х*, у*), для которой выполняются неравенства
Щх, у*) < Щх*, у*) < Щх*, у) |
(2.1) |
при всех хеХ, yeY. Этот принцип реализуется в игре Г в том и только в том случае, когда
v = v = v, |
|
«=max inf Щх, у), |
(2.2) |
~* У
«=min sup H(x, у),
У*
т.е. внешние экстремумы максимина и минимакса достигаются
63
и нижнее значение игры v равно верхнему значению v. Такая ан тагонистическая игра Г называется вполне определенной, а число v — значением игры (см. п. 3.4 гл. I).
Для матричных игр существование и равенство максимина минимаксу было доказано в классе смешанных стратегий (см. § 6 гл. I), поэтому решение игры заключалось в нахождении их общего значения v и тех стратегий х*. у*, на которых достигаются внешние экстремумы в (2.2).
Для бесконечных игр существование внешних экстремумов
в(2.2), вообще говоря, не обязательно.
2.2.Пример 7. Пусть, каждый из игроков 1 а 2 выбирает число из открытого интервала (0, 1), после чего игрок 1 получает выигрыш, равный сумме выбранных чисел. Таким образом, по лучаем игру на открытом единичном квадрате с функцией вы игрыша Н(х, у) игрока 1
Щх, у)=х+у, хе(0, 1), уеф, 1). |
(2.3) |
Здесь ситуация (1, 0) была бы равновесной, если бы 1 и 0 входили в число стратегий игроков, а значение игры v было бы v = 1. В дейст вительности внешние экстремумы в (2.2) не достигаются, а верхнее и нижнее значения игры равны между собой. Поэтому »=1и игрок 1, выбирая число 1-е, е>0, достаточно близкое к 1, всегда может получить выигрыш, достаточно близкий к значению игры. С другой стороны, игрок 2, выбирая число е>0 достаточно малым (близким к 0), может гарантировать, что его проигрыш будет сколь угодно близким к значению игры.
23. Определение. Ситуация (х„ у,) в антагонистической игре |
|
Г=(Х, Y, Н) называется ситуацией е-равновесия, если для любых |
|
стратегий хеХ и yeY игроков 1 и 2 соответственно выполняется |
|
неравенство |
|
Н(х, у.)-в^Н(х„ у.)^Н(х„ у) + Е. |
(2.4) |
Точка (х„ у,), для которой имеет место (2.4), называется е- седловой точкой, а стратегии х, и у, — е-оптимальными стратеги ями игроков 1 и 2 соответственно.
Полезно сравнить определения ситуации равновесия (2.1) и е- равновесия (2.4). Если отклонение от оптимальной стратегии приво дит лишь к уменьшению выигрыша этого игрока, то отклонение от е-оптимальной стратегии может привести к его увеличению, но не более чем на е.
Так, ситуация (1-е, е), 0<е<1, является е-равновесной в приме ре 7, а стратегии х,= 1 —е, у,=Е — е-оптимальными стратегиями игроков 1 и 2 соответственно.
2.4. Заметим, что для двух стратегически эквивалентных игр Г=(Х Y, Н) и r = ( Z , Y, Н), где Н' = рН+а, /?>0, справедливы следующие результаты. Если (хв, }>„) — ситуация е-равновесия в игре
64
Г, то она является ситуацией (/?е)-равновесия в игре Г' (ср. с леммой о масштабе § 3 гл. I).
2.5. Основное свойство е-оптимальных стратегий дает следу |
||||
ющая теорема. |
Для |
того |
чтобы |
supinfH(x,y) = |
Теорема. |
||||
= inf sapH(x,y)=v< |
|
|
|
х у |
+ оо, необходимо и достаточно, чтобы для лю- |
у * |
|
бого е>0 существовали е-оптимальные стратегии х„ у, игроков 1 и 2, |
|
при этом |
(2.5) |
lim Щх„, ye)=v. |
в-»0
Доказательство. Необходимость. Пусть игра Г имеет ко нечное значение v. Для любого е>0 выберем стратегию у, из условия
sup Н(х, у,)- е/2 <й |
(2.6) |
хеХ |
|
и стратегию х, из условия |
|
infH(xl,y) + e/2>v. |
(2.7) |
yeY |
|
Из (2.2), (2.6), (2.7) получаем неравенство |
|
Н(х, у.) - в/2 ^ v < Щх„ у) + в/2 |
(2.8) |
для всех стратегий х, у. Следовательно, |
|
\H(xe,yJ-v\^B/2. |
(2.9) |
Из неравенств (2.8), (2.9) следуют соотношения (2.4), (2.5). Достаточность. Если для любого числа е>0 выполняются
неравенства (2.4), то
sup infН(х, у)=inf |
sup H(x, y) = v< + ao |
|
||
х |
у |
у |
х |
|
«=inf sup H(x, j>)<sup H(x, j>„) <#(*., у,) + е^ |
|
|||
у |
х |
|
|
|
< inf Н(х„ у) + 2е ^ sup inf Щх, у) + 2е=v+2e. |
(2.10) |
|||
у |
х |
у |
~ |
|
Отсюда заключаем, что ю<ю, но согласно лемме п. 2.2 гл. I справед ливо противоположное неравенство. Таким образом, остается до казать, что значение игры Г конечно. Возьмем такую последовате льность {£„}, что lim £„=0. Пусть вке{в„}, £*+„е{£я}, где т — любое
Л-.00
фиксированное натуральное число. Имеем
Н(Х'к+т> У'к)+£к+т>Щх,к+т, |
Уек+т)>ЩхВк, |
У.к+т)-Вк+т, |
65
я(*«*. J4+J +.Ь>Н(х.к, y.k)>H(xtk+m, уВк)-гк.
Таким образом, \Н(х,к, у,к)-Н(х$к+т, уек+т)\^ек+гк+т = 5кт. Так как
lim Shn = 0 при любом фиксированном значении т, то существует
к->аа
конечный предел lim H(xe, ув). Из соотношения (2.10) получаем
«-•о
неравенство \Н(х„ у,)—v\^s, следовательно, v = lim H{xt, yt). Teope-
«-.0
ма доказана.
2.6. Для иллюстрации приведенных в этом параграфе определе ний рассмотрим подробно пример 1 п. 1.2.
Пример 8. Предположим, что множества St и S2 представляют собой замкнутые круги с радиусами ^ и R2 fi?1<i?2). Найдем нижнее значение игры
«=max min p(x, у).
xeSt yeS2
Пусть XQGS^ Тогда min p(x0, у) достигается в точке у0 пересече-
У |
|
|
|
ния прямой, проходящей через центр |
Оу круга S2 |
и |
точку х0, |
с границей круга S2. Очевидно, что величина min p(x0, |
у) |
достигает |
|
максимального значения в точке MeSlt |
являющейся точкой пересе- |
Рис. 3 |
Рис. 4 |
66
чения линий центров ООх (рис. 3) с границей круга Su наиболее удаленной от точки Ох.
Таким образом, v = \OlM\ — R2.
Для вычисления верхнего значения игры t5=min max р(х, у)
рассмотрим два случая.
Случай 1. Центр О круга St принадлежит множеству S2 (рис. 4). Для каждого y0eS2 точка х0, доставляющая max р(х, у0), строится
следующим образом.
Пусть Хо и х§ — точки пересечения прямой О{у0 с границей круга Slt a xl — точка пересечения прямой Оу0 с границей круга Su наиболее удаленная от точки у0. Тогда х0 определяется из условия
р(х0,у0)=т&х pfx'o.yj.
По построению, для всех у0 е S2 |
|
|
|
max p(x, y0)=p(xQ, |
Уо)^^. |
||
Однако при у0=0 получаем |
|
|
|
|
max p(x, |
0)=Rlt |
|
|
xeSt |
|
|
поэтому |
|
|
|
min max p(x, у) |
=v=Rv |
||
|
yeS2 xeSt |
|
|
Непосредственно |
видно, что, |
поскольку OeS2, в случае |
|
1 v=R1^\OlM\—R2=v. |
При этом равенство возможно лишь при |
условии, что О принадлежит границе множества S2.
Таким образом, если в случае 1 точка О не принадлежит границе множества S2, то значения игры и ситуации равновесия не существу ет. Если же точка О принадлежит границе множества S2, то суще ствует ситуация равновесия, при этом оптимальная стратегия игро ка 1 заключается в выборе точки М, лежащей на пересечении линии центров ООу с границей множества Sx и наиболее удаленной от точки Ох. Оптимальная стратегия игрока 2 заключается в выборе точки yeS2, совпадающей с центром О круга St. Значение игры при этом равно v=v=v = R1+R2 — R2 = Rl.
Случай 2. Центр круга ОфБ2. Этот случай рассматривается как
67
вариант случая 1, когда центр круга S. принадлежит границе мно жества S2. Вычислим величину v (рис. 5).
Пусть y0eS2. Тогда точка х0, доставляющая max p(x, у0), со-
дсе52
впадает с точкой пересечения л:0 прямой, проходящей через у0 и центр О круга Slt с границей круга Slf наиболее удаленной от точки у0. Действительно, круг радиусом ХоУ0 с центром в точке у0 содержит 5Х и его граница касается границы круга S^ в единствен
ной точке х0. Очевидно, что величина max р(х, |
у0)=р(х0, |
у0) |
дсеЯ, |
|
|
достигает минимума в точке Мх пересечения отрезка О^М с гра |
||
ницей круга S2. Таким образом, в рассматриваемом случае |
,,;, |
|
v=minmax p(x, y) = \01M\—R2=v. |
|
** |
Оптимальные стратегии заключаются в выборе |
точек |
MeSi |
и M1eSz игроками 1 и 2 соответственно. |
|
|
Если в качестве множеств стратегий в примере 1 п. 1.2 рассмат ривать открытые круги 5А и S2, то в случае 2 значение игры существует и равно
« = sup inf p(x, y) = iaf sup p(x, у) =v = \OiM\ — R2 = v.
" xeSt yeSj yeS, xeSt
Однако оптимальных стратегий не существует, поскольку МфБ1, М1фБ2. Тем не менее для любого Б > 0 существуют е-оптимальные стратегии — это точки из е-окрестности точек М и Mt, принадлежащие соответственно можествам 5Х и S2-
2.7. В заключение отметим, что игра в примере 6 имеет ситуацию равновесия в чистых стратегиях (см. упр. 7), а игры в примерах 1 — 5, вообще говоря, не име
ют ситуации равновесия и значения игры. |
|
Так, в примере 2 лишь при /^ 1/2 |
у игрока |
1 есть оптимальная стратегия |
х* = 1/2, |
а значение игры равно единице (у игрока |
2 оптимальной является любая страте гия).
§ 3. СМЕШАННЫЕ СТРАТЕГИИ
3.1. Рассмотрим антагонистическую игру Т=(Х, Y, Н). Если она не имеет значения, то v>v. Для увеличения своего
68
гарантированного выигрыша в таких случаях каждому игроку, как уже отмечалось в § 4 гл. I, важно знать намерение противника. И хотя правила игры не представляют такой возможности, при достаточно частом повторении игры с одним и тем же противником можно статистически оценить возможность выбора той или иной стратегии и поступить определенным образом. Как же должен поступить игрок, не желающий, чтобы его намерение было рас крыто? Единственным разумным способом в этом случае является выбор стратегии случайным образом, в соответствии с определен ным случайным механизмом, т. е. необходимо использовать сме шанные стратегии.
Дадим формальное определение смешанной стратегии для бес
конечной игры. |
подмножеств |
множества |
3.2. Пусть х — некоторая а-алгебра |
||
X (включающая в себя одноточечные множества хеХ) |
и v — о- |
|
алгебра подмножеств Y (yev, если |
yeY). Обозначим через |
X и У множества всех вероятностных мер на ег-алгебрах х и v соот ветственно, и пусть функция Н измерима относительно <т-алгебры X х v. Рассмотрим интеграл
K(li, v) = [ |
[н(х, y)dn(x)dv(y), fieX, ve ?, |
(3.1) |
X |
Y |
|
представляющий собой математическое ожидание выигрыша |
Н(х, |
|
у) по мерам ц, v [85]. |
|
Y, Н) |
Определение. Смешанным расширением игры Г=(Х, |
называется антагонистическая игра в нормальной форме с множе ствами стратегий X, Y и функцией выигрышей К(ц, \), т. е. игра Г=(Х,?,К).
Поведение игроков в смешанном расширении игры Г можно интерпретировать следующим образом. Игроки выбирают незави симо друг от друга меры цеХ и veY. В соответствии с этими мерами они реализуют (например, с помощью таблицы случайных чисел) случайный выбор стратегий хеХ и ye Y. После этого игрок J получает выигрыш Н(х, у). Стратегии цеХ, veY называются
смешанными, а хеХ, yeY — чистыми стратегиями в игре Г.
Введение смешанного расширения бесконечной игры требует определенных пояс нений. Множества 2 и Т зависят от того, на каких (7-алгебрах х и v рассматриваются вероятностные меры. В случае матричных игр (множества X и Y конечны) в смешан ном расширении игроки выбирали свои стратегии согласно вероятностным рас пределениям на множествах X и Y. Бели X — бесконечное множество и мы будем поступать так же, как в конечном случае, то необходимо рассматривать меры, для которых измеримы все подмножества бесконечного множества X. Однако таких мер сравнительно мало: это меры, сосредоточенные на не более чем счетных множествах точек. Используя только такие меры, игроки обедняют свои возможности (и далеко не всегда могут гарантировать существование ситуации равновесия в смешанных стратегиях). Поэтому используют менее обширные ^-алгебры, на которых определя-
69