Теория игр / Петросян_Теория_игр
.pdfляет осуществить попятную рекуррентную процедуру нахождения значения игры и оптимальных стратегий игроков. Действительно, пусть значения всех подыгр Tz длиной l(z)^k— 1 известны и равны
v(z), |
пусть |
Г,, — некоторая подыгра длины 1(у) = к. Тогда |
если |
уеХ1г |
то v(y) определяется по формуле (3.3), если же уеХ2, то v(y) |
||
находится |
по формуле (3.4). При этом значения функции |
v(z) |
в формулах (3.3), (3.4) известны, поскольку соответствующие подыг ры имеют длину не более чемfe—1. Эти же формулы указывают способ построения оптимальных стратегий игроков. Действитель
но, если уеХи |
то игрок 1 (максимизирующий) должен |
выбрать |
в точке у вершину zeFy, для которой значение следующей |
подыгры |
максимально. Если жеуеХ2, то игрок 2 (минимизирующий) должен выбрать позицию zeFy, для которой значение следующей подыгры минимально.
В случае, когда выборы игроков в антагонистической многоша говой игре чередуются (поочередная игра), уравнения (3.3), (3.4) могут быть записаны в виде одного уравнения. Действительно, рассмотрим подагру Г, и пусть, для определенности, хеХх. Тогда
в следующей позиции ходит игрок 2 или эта позиция является (игра поочередная) окончательной, т. е. Fx с Х2 \J X3. Поэтому можно
записать |
|
|
|
v (x)=max |
v (у), xeXt; |
(3.6) |
|
yeFx |
|
|
|
v(y)=mmv(z),yeFxczX2[jXz. |
(3.7) |
||
zeFy |
|
|
|
Подставляя (3.7) в (3.6), получаем |
|
||
v(х)=max |
[min v(z)], xeXv |
(3.8) |
|
yeFx |
zeFy |
|
|
Если хеХ2, то аналогично имеем |
(3.9) |
||
v (x)=min |
[max v (z)]. |
||
|
yeFx |
zeFy |
|
Уравнения (3.8), (3.9) эквивалентны и должны рассматриваться
сначальным условием « (х) |,6^2=Н1 (х).
3.4.Теорема п. 2.1, рассматриваемая применительно к антагони стическим поочередным многошаговым играм, позволяет утверж дать существование ситуации равновесия в «шахматах», «шашках»,
вклассе чистых стратегий, а уравнения (3.8), (3.9) показывают путь для нахождения значения игры. Вместе с тем очевидно, что никогда
вобозримом будущем решение указанных функциональных уравне ний для нахождения значения игры и оптимальных стратегий не будет реализовано на ЭВМ и мы так и не узнаем, может ли
190
какой-либо игрок «белый» или «черный» гарантировать победу в любой партии или всегда возможна «ничья»? Однако в шахматах и шашках делаются небезуспешные попытки построения прибли женно оптимальных решений путем создания программ, думающих на несколько шагов вперед, и использования всевозможных (полу ченных, как правило, эмпирическим путем) функций оценки текущих позиций. Такой подход возможен и при исследовании общих ан тагонистических многошаговых игр с полной информацией. После довательное итерирование оценочных функций на несколько шагов вперед может привести к желательным результатам.
§4. СТРАТЕГИИ НАКАЗАНИЯ
4.1.В п. 2.1 доказано существование ситуации абсолютного равновесия (по Нэшу) в многошаговых играх с полной информаци ей на конечном древовидном графе. В то же время при исследова нии конкретных игр этого класса можно обнаружить целое семейст во ситуаций равновесия, сужения которых необязательно являются ситуациями равновесия во всех подаграх исходной игры. К числу таких ситуаций равновесия относятся равновесия в стратегиях нака зания. Проиллюстрируем это понятие на примере.
Пример 5. Пусть игра Г происходит на графе, изображенном на рис. 19. Множество N={1, 2} состоит из двух игроков. Как и в при мере п. 2.2, на рис. 19 кружками изображены вершины, состав ляющие множество Хи квадратиками — множество Х2. Вершины графа перенумерованы двойными индексами, дуги — одинарными.
Нетрудно убедиться в том, что ситуация и\ = {\, 1, 2, 2, 2), и*2 = {\, 1) является абсолютно равновесной в игре Г. При этом выигрыши
игроков равны 8 и 2 единиц соответственно. Рассмотрим теперь |
|
||
ситуацию й1 = (2, 1, 2, 1, 2), й2 = (2, 2). В этой ситуации выигрыши |
|
||
игроков равны соответственно 10 |
о ш» |
(?) it) am |
w |
и 1, тем самым игрок 1 получает |
|||
больше, чем в ситуации (ии и'2). |
|||
Ситуация (t/j, Й2) является равно |
весной в игре Г, но не является абсолютно равновесной. Действи тельно, в подагре Гх 4 сужение стратегии Лх диктует игроку 1 вы бор левой дуги, что не является для него оптимальным в позиции 1.4. Такое действие игрока 1 в по зиции 1.4 можно интерпретиро вать как угрозу «наказания» игро ка 2, если он отклонится от жела тельного для игрока 1 выбора ду ги 2 в позиции 2.2, лишив тем
191
самым игрока 1 максимального выигрыша 10 единиц. Однако по существу такую угрозу «наказания» едва ли следует считать действенной, поскольку наказывающий (игрок 1) при этом сам может потерять в выигрыше пять единиц (действуя не оптимально в Г\ J.
4.2. Дадим строгое определение стратегий наказания. Для про стоты ограничимся случаем неантагонистической игры двух лиц. Пусть задана неантагонистическая многошаговая игра двух лиц
r = <UvU2,KvK2).
С игрой Г свяжем две антагонистические игры Г2 и Г2 следующим образом. Игра Гх — это антагонистическая игра, построенная на основе игры Г, в которой игрок 2 играет против игрока 1, т. е. К2=—К1. Игра Г2 — это антагонистическая игра, построенная на основе игры Г, в которой игрок 1 играет против игрока 2, т. е. К1 = —К2- Графы игр Г15 Г,, Г и множества стратегий в них совпадают. Обозначим через (и\х, и21) и (и'п, и'22) ситуации абсолют ного равновесия в играх 1\ и Г2 соответственно. Пусть Tix, Г2х —
подыгры игр Г\, Г2; vt(x), v2(x)— значения этих подыгр. Тогда
ситуации |
{(и'ц)х, (u2i)x} и {(и*п)х, («и)*} |
являются равновесными |
||
в играх |
Ги, |
Гг* соответственно и |
v1(x)=Kx((u*n)x, (и*21)х), |
|
«2(х)=^((М;2)1,(и22)1). |
u2) стратегий в игре Г. |
|||
Рассмотрим произвольную пару (uv |
||||
Разумеется, эта пара стратегий является таковой и в играх Ги |
Г,. |
|||
Пусть Z=(x0=z0, |
zv .... zi) — путь, реализуемый в ситуации (uv |
и2). |
Определение. Стратегия йх(-) называется стратегией нака зания игрока 1, если:
йх (z*)=zk+, для zk 6 Z(]Xt, |
(4.1) |
"i (у) = Щг(У) Для yeXv уфг. |
|
Стратегия й2(*) называется стратегией наказания игрока 2, если:
й2 (zk)=гк+1дпягке Zf]X2, |
(4.2) |
|
"2 (У) = "2i (У) Для у е Х2, |
у фZ. |
|
4.3. Из определения стратегий наказания сразу получаем следу |
||
ющие свойства: |
|
|
1°. ^(2i(-)), u2 (-))=^(z,), ^ ( u ^ - ) , |
u2(-)) = H2(z,). |
|
2°. Пусть один из игроков, например игрок 1, использует страте |
||
гию !<! (• )> Для которой позиция zkeZf]Xx |
является первой в пути Z, |
где иД-) диктует выбор следующей позицииt z'k+u отличной от выбора, диктуемого стратегией и ^ ) , т. е. z'k+i^zk+i. Тогда из
192
определения наказывающей стратегии й2 (•) следует, что |
|
*!(«!(), й2(-)Х«>1Ы- |
(4-3) |
Аналогично, если игрок 2 использует стратегию ы2(") л л я которой позиция zkeZ(~]X2 является первой в пути Z, где и2(') диктует
выбор следующей позиции z'k+u отличной от диктуемой стратегией й2('), т. е. z'lc+i^Zk+i, то из определения наказывающей стратегии
йл (•) следует, что
^(SiOWO)^**)- (4-4)
Отсюда, в частности, получаем следующую теорему.
Теорема. Пусть (2Х (•), и2 ()) — ситуация в стратегиях нака зания. Для равновесности ситуации (ы1(-), м2(')) достаточно, что бы для всех fc=0, 1, ..., /—1 выполнялись неравенства
КЛйЛ-Х u2(-))>Vl(zk), |
(4.5) |
#2 ("i(- ), u2(-))>v2(zk), |
|
где z0, z1( .... zt — путь, реализовавшийся в ситуации (й^ (•), и2 (•)).
4.4. Пусть и'ц(-) и Ми(') — оптимальные стратегии игроков 1 и 2 во вспомогательных антагонистических играх Г1 и Г2 соответ ственно и Z = {z0, zlf .... z,}—путь, соответствующий ситуации
(и'ц (•), Ии (• ^Предположим, что стратегии наказания t^ (•) и й2 (•) таковы, что м1(гл) = м1,(5л) для zkeZf]Xt и й2(г*) = Ы22&) для zkeZf]X2. Тогда ситуация («].(•)» й2(-)) образует ситуацию равно весия по Нашу в стратегиях наказания. Для доказательства этого утверждения достаточно показать, что
К, («;,(•), t 4 ( ) ) = * i ( 2 i ( - ) , 52 (-))>«i&), |
(4-6) |
K2(UnC), и22(-))=К2{й1{-), й2(-))>*2&)> fc=0, l, . . . / - 1 ,
и воспользоваться теоремой п. 4.3. Неравенства (4.6) следуют из оптимальности стратегий м1] (-)им22 (')в играх Г\ и Г2 соответст венно, обоснование предлагаем в качестве упражнения. Таким об разом, получена следующая теорема.
Теорема. В игре Г всегда существует ситуация равновесия в стратегиях наказания, при этом выигрыши в этой ситуации равны ^|(мп(")> м22('))> где м*,(-) и и\2{') — оптимальные стратегии иг роков 1 и 2 во вспомогательных антагонистических играх Гх и Г2 соответственно.
193
Смысл стратегий наказания заключается в том, что игрок заста вляет партнера придерживаться определенного пути в игре (опреде ленных выборов), используя постоянную угрозу переключения на стратегию, оптимальную в антагонистической игре против партне ра. Множество ситуаций равновесия в классе стратегий наказания достаточно представительно, однако эти стратегии не следует счи тать очень «хорошими», поскольку, наказывая партнера, игрок может еще сильнее наказать самого себя.
§ 5. ИЕРАРХИЧЕСКИЕ ИГРЫ
Важнейшим подклассом неантагонистических многошаговых игр являются иерархические игры. Иерархические игры моделируют конфликтно управляемые системы с иерархической структурой. Та кая структура определяется последовательностью уровней управле ния, следующих друг за другом в порядке определенного приорите та. В математической постановке иерархические игры классифици руются по числу уровней и характеру вертикальных связей. Про стейшей из них является двухуровневая система, схема которой изображена на рис. 20.
5.1. Двухуровневая конфликтно управляемая система функци онирует следующим образом. Управляющий (координирующий) центр А0, находящийся в первом уровне иерархии, выбирает вектор u=(u1,..., м„) из заданного множества управлений U, где ut — управ ляющее воздействие центра на подчиненные ему подразделения Д,
/ = 1 , 2, ..., п, находящиеся на втором уровне иерархии. В свою очередь, Д, i= 1, ..., и, выбирают управления «,е Г,(и,), где Vi(u,) —
множество управлений подразделения Д, предопределенное управ лением и центра А0. Таким образом, управляющий центр имеет право первого хода и может ограничивать возможности подчинен ных ему подразделений, направляя их действия в нужное русло.
Цель центра А0 |
заключается в максимизации |
по и функционала |
||||||
К0 (и, vu ..., «„), а подразделения Д, /= 1,..., п, обладая собственными |
||||||||
|
целями, |
стремятся |
максимизировать |
по |
||||
|
v, функционалы A, (u„ v,). |
|
|
|
||||
|
5.2. Формализуем эту задачу как беско |
|||||||
|
алиционную игру Г(л+1)-го лица (админи |
|||||||
|
стративного центра А0 |
и производственных |
||||||
|
подразделений |
Bit |
.... |
В„) в |
нормальной |
|||
|
форме. |
игрок |
А0 |
выбирает |
вектор |
ueU, |
||
|
Пусть |
|||||||
|
где |
|
|
|
|
|
|
|
Рис. 20 |
U={u = {uv .... u„):Ui>0, |
UteR1, / = 1 , ..., n, |
194
— множество стратегий игрока А0 в игре Г. Вектор щ будем ин терпретировать как набор ресурсов / наименований, выделяемых центром А0 для i'-го производственного подразделения.
Пусть в исходной задаче п. 5.1 каждый из игроков Д, зная выбор А0, выбирает вектор vte Vi(ui), где
VAud^faelfivtA^Ut+a,, v,>0}. (5.1) Вектор v, интерпретируется как производственная программа 1-го производственного подразделения по различным видам продукции; At — производственная или технологическая матрица i-ro произ водственного подразделения (4,^0); <х( — вектор наличных ресурсов г-го производственного подразделения (<х,^0).
Под стратегиями игрока Д в игре Г будем понимать множество функций »,(•)> ставящих в соответствие каждому элементу ы,: (ы1(..., «,, .... м„)е Uвектор »,(ы;)е Vt(ui). Множество таких функций будем обозначать через V„ i=l, ..., п.
Определим функции выигрышей игроков в игре Г. Для игрока А0 функция выигрыша имеет вид
л
Ко(и, «!(•), ...,«»(•))= Е * »'("')>
где в,>0, ateRm — фиксированный вектор, /=1, ..., л; a(Vi(Ui) — ска лярное произведение векторов а, и к,(и(). Функцию выигрыша игрока Д полагаем равной
Ki(u, V^), |
..., Vn()) = CiV,(u,), |
где с,>0, Cje.Rm — фиксированный вектор, i=l, ..., и.
Таким образом, игра Г имеет вид Г=(С/, Vv .... F„, K0, Kv .... .£„).
5.3. Построим ситуацию равновесия по Нэшу в игре Г.
Пусть ю,*(м()е Vt(u,) — решение задачи параметрического линей
ного программирования (параметром является вектор ц) |
|
max С/ «г=с, «* («О, i= 1, ..., л, |
(5.2) |
t)(eK,(uj) |
|
195
а и* £ U — решение задачи |
|
max K0(и, v\(•), ..., v'„(.)). |
(5.3) |
lieU |
|
Для простоты предполагаем, что максимумы в (5.2) и (5.3) достигаются. Заметим, что (5.3) — задача нелинейного програм мирования с существенно разрывной целевой функцией (максимиза ция ведется по и, a v'(u,), вообще говоря, — разрывные функции
параметра и,). Покажем, что точка (и*, «[(•), ..., v*n()) является ситуацией равновесия в игре Г. Действительно,
К0(и*. v\0, ..., v*())>K0(u, .;(.), ..., «JO), ue U.
Далее, при всех /= 1, ..., п справедливо неравенство
К,(и*. «!(•), ..., v'„()) = ct v'i(u')^Ci «,(«*) =
=Kt(u*, •!(.), ..., «*-i(), «<(•), «*+i(), -., v'„())
для любой »,(•)£ Vt. Таким образом, никому из игроков А0, Вх, ....
Ви невыгодно в одностороннем порядке отклоняться от ситуации
(и*. «!(•), -ч ««(•))> т- е- о н а является равновесной. Заметим, что эта ситуация также устойчива против отклонения от нее любой ко алиции Sc{Bl,.... В„}, поскольку выигрыш Kt i-ro игрока не зависит
от стратегий vj(),je{l, ..., n},j¥=i.
§6. ИЕРАРХИЧЕСКИЕ ИГРЫ (КООПЕРАТИВНЫЙ ВАРИАНТ)
Вэтом параграфе рассматривается кооперативный вариант ряда простейших иерархических игр (в том числе игры, определенной
вп. 5.1, 5.2). Строятся характеристические функции и исследуются условия существования непустого С-ядра.
6.1. Исходя из содержательного смысла задачи п. 5.1, 5.2 и с ис пользованием стратегией, образующих равновесие по Нэшу, для каждой коалиции S<=.N= {А0, Bv .... В„} определим ее гарантирован ный доход v (S) следующим образом:
' |
0, если S= {A0}; |
(6.1) |
||
|
£ |
с/»?(0), если Л0 #Я |
(6.2) |
|
v(S)=i |
IBieS |
|
|
|
|
max |
£ (cii+Ct) v*(ud, если А0 еS, |
(6.3) |
|
|
{«el/: |
£ «i=*} |
i-BjeS |
|
»i:BeS
196
где v*(u,), i= 1,..., и — решение задачи параметрического линейного программирования (5.2).
Равенство (6.1) имеет место, поскольку коалиция {Blt ..., В„}
может добиться получения нулевого выигрыша игроком А0, выби рая все v,=0, 2 = 1, ..., л; равенство (6.2) справедливо, так как игрок
А0 всегда может гарантировать для S выигрыш не более чем (6.2), направляя каждому Д е 5 нулевой ресурс; равенство (6.3) имеет
место, поскольку коалиция S, содержащая в своем составе А0, всегда может обеспечить распределение всего ресурса только между своими членами.
Пусть S — произвольная коалиция, содержащая А0. Обозначим через и=(и\, ..., и'„) вектор, доставляющий максимум в задаче нелинейного программирования (6.3) (для i'.BrfS выполнено усло вие И(=0). Тогда для любой коалиции S<zS, 5фА0, А0еS справед ливо следующее выражение:
|
|
£ |
(а,+С,К(и?)^ |
I |
(а,+с,)„;(«?)= |
|
|||
|
|
I-.BJBS |
|
i:BteS |
|
|
|
||
|
= |
I |
(a,+c,K(«J)+ |
£ |
(а,+с,)«;(0). |
|
|||
|
|
i-.BieS |
|
|
i:BieS\S |
|
|
||
Пусть S, RcN, |
Sf]R=0 |
и А0еБфА0. |
Тогда А0фЯ. Принимая во |
||||||
внимание условия а(^0, с,^0, «(>0, /=1, ..., п, имеем |
|
||||||||
|
|
i:BteS\jR |
|
|
|
i:BieS[jR |
|
||
|
|
= £ (ai+ci)v'i(ud+ |
E |
(а,+сО«*(0) = |
|
||||
|
|
i-.BjeS |
|
|
i.BjeR |
|
|
||
|
|
=v(S)+v(R)4>. £ |
a,v'(0)>v(S)+v(R), |
|
|||||
|
|
|
|
UBjeR |
|
|
|
|
|
где £ |
a,-i>*(0)>0— прибыль центра |
А0 |
от «нефинансируемых» |
||||||
i:BieR |
|
|
|
|
. . |
|
или |
S=A0фR неравенство |
|
предприятий. В случаях A0fS\jR |
|
||||||||
v(S[jR)>v(S)+v(R) |
очевидно. |
|
|
|
|
|
|||
Таким образом, функция v(S), определяемая (6.1) — (6.3), супер |
|||||||||
аддитивна и |
можно |
рассмотреть |
кооперативную |
игру |
|||||
({А0, Вх, |
.... В„}, v) в форме характеристической функции v. |
|
|||||||
6.2. Рассмотрим (и+ 1)-мерный вектор |
|
|
|||||||
|
|
|
я |
|
|
|
|
|
|
|
|
£ = (£а,ь'(й(), с,v\(й,), ..., с„г'„(щ)), |
(6.4) |
||||||
|
|
|
/ - 1 |
|
|
|
|
|
|
197
где u = uN. Вектор £ является дележом, поскольку выполнены следу ющие сотношения:
fc—0 i - 1
л
2){o=I>.e?(Ui)>0=«0*o).
^=c,«;(«i)>c,i;*(0)=i;(5(), / = 1 , ..., п.
Напомним условие принадлежности дележа С-ядру. Согласно теореме п. 10.1 гл. III необходимым и достаточным условием принадлежности дележа (£0, £t, ..., £„) С-ядру является выполнение
неравенства |
|
Е&>«(5) |
(6.5) |
ieS |
|
для всех коалиций Scz{A0, Вх, .... В„}.
Выведем условие, при котором дележ £' принадлежит С-ядру. Если S={A0], либо S e ^ , ..., В„}, то условие (6.5) выполнено,
поскольку
£0=2>^(".)>0=*({Л0}),
i - l
Х&= Е<^&)> I c,*;(o)=e(s).
/Е5 i-.BjeS i-.BidS
Если i40 e5/^0 , то условие (6.5) можно записать в виде
|
^а^(йд+ |
£ с(«*(йО= |
|
f:2»,eS |
i:B,-6S |
(:Л(#£ |
i:B,6S |
Следовательно, дележ (6.4) принадлежит С-ядру, если для всех S:A0eSвыполнено неравенство
£ а,«;(й,)> £ (a,+cf) [«'("О-v.'("Л-
Заметим, что в данном случае мы определили характеристичес кую функцию игры, используя выигрыш в ситуации равновесия по
198