Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Теория игр / Петросян_Теория_игр

.pdf
Скачиваний:
55
Добавлен:
13.02.2015
Размер:
6.14 Mб
Скачать

ляет осуществить попятную рекуррентную процедуру нахождения значения игры и оптимальных стратегий игроков. Действительно, пусть значения всех подыгр Tz длиной l(z)^k— 1 известны и равны

v(z),

пусть

Г,, — некоторая подыгра длины 1(у) = к. Тогда

если

уеХ

то v(y) определяется по формуле (3.3), если же уеХ2, то v(y)

находится

по формуле (3.4). При этом значения функции

v(z)

в формулах (3.3), (3.4) известны, поскольку соответствующие подыг­ ры имеют длину не более чемfe—1. Эти же формулы указывают способ построения оптимальных стратегий игроков. Действитель­

но, если уеХи

то игрок 1 (максимизирующий) должен

выбрать

в точке у вершину zeFy, для которой значение следующей

подыгры

максимально. Если жеуеХ2, то игрок 2 (минимизирующий) должен выбрать позицию zeFy, для которой значение следующей подыгры минимально.

В случае, когда выборы игроков в антагонистической многоша­ говой игре чередуются (поочередная игра), уравнения (3.3), (3.4) могут быть записаны в виде одного уравнения. Действительно, рассмотрим подагру Г, и пусть, для определенности, хеХх. Тогда

в следующей позиции ходит игрок 2 или эта позиция является (игра поочередная) окончательной, т. е. Fx с Х2 \J X3. Поэтому можно

записать

 

 

 

v (x)=max

v (у), xeXt;

(3.6)

yeFx

 

 

v(y)=mmv(z),yeFxczX2[jXz.

(3.7)

zeFy

 

 

 

Подставляя (3.7) в (3.6), получаем

 

v(х)=max

[min v(z)], xeXv

(3.8)

yeFx

zeFy

 

Если хеХ2, то аналогично имеем

(3.9)

v (x)=min

[max v (z)].

 

yeFx

zeFy

 

Уравнения (3.8), (3.9) эквивалентны и должны рассматриваться

сначальным условием « (х) |,6^2=Н1 (х).

3.4.Теорема п. 2.1, рассматриваемая применительно к антагони­ стическим поочередным многошаговым играм, позволяет утверж­ дать существование ситуации равновесия в «шахматах», «шашках»,

вклассе чистых стратегий, а уравнения (3.8), (3.9) показывают путь для нахождения значения игры. Вместе с тем очевидно, что никогда

вобозримом будущем решение указанных функциональных уравне­ ний для нахождения значения игры и оптимальных стратегий не будет реализовано на ЭВМ и мы так и не узнаем, может ли

190

какой-либо игрок «белый» или «черный» гарантировать победу в любой партии или всегда возможна «ничья»? Однако в шахматах и шашках делаются небезуспешные попытки построения прибли­ женно оптимальных решений путем создания программ, думающих на несколько шагов вперед, и использования всевозможных (полу­ ченных, как правило, эмпирическим путем) функций оценки текущих позиций. Такой подход возможен и при исследовании общих ан­ тагонистических многошаговых игр с полной информацией. После­ довательное итерирование оценочных функций на несколько шагов вперед может привести к желательным результатам.

§4. СТРАТЕГИИ НАКАЗАНИЯ

4.1.В п. 2.1 доказано существование ситуации абсолютного равновесия (по Нэшу) в многошаговых играх с полной информаци­ ей на конечном древовидном графе. В то же время при исследова­ нии конкретных игр этого класса можно обнаружить целое семейст­ во ситуаций равновесия, сужения которых необязательно являются ситуациями равновесия во всех подаграх исходной игры. К числу таких ситуаций равновесия относятся равновесия в стратегиях нака­ зания. Проиллюстрируем это понятие на примере.

Пример 5. Пусть игра Г происходит на графе, изображенном на рис. 19. Множество N={1, 2} состоит из двух игроков. Как и в при­ мере п. 2.2, на рис. 19 кружками изображены вершины, состав­ ляющие множество Хи квадратиками — множество Х2. Вершины графа перенумерованы двойными индексами, дуги — одинарными.

Нетрудно убедиться в том, что ситуация и\ = {\, 1, 2, 2, 2), и*2 = {\, 1) является абсолютно равновесной в игре Г. При этом выигрыши

игроков равны 8 и 2 единиц соответственно. Рассмотрим теперь

 

ситуацию й1 = (2, 1, 2, 1, 2), й2 = (2, 2). В этой ситуации выигрыши

 

игроков равны соответственно 10

о ш»

(?) it) am

w

и 1, тем самым игрок 1 получает

больше, чем в ситуации и и'2).

Ситуация (t/j, Й2) является равно­

весной в игре Г, но не является абсолютно равновесной. Действи­ тельно, в подагре Гх 4 сужение стратегии Лх диктует игроку 1 вы­ бор левой дуги, что не является для него оптимальным в позиции 1.4. Такое действие игрока 1 в по­ зиции 1.4 можно интерпретиро­ вать как угрозу «наказания» игро­ ка 2, если он отклонится от жела­ тельного для игрока 1 выбора ду­ ги 2 в позиции 2.2, лишив тем

191

самым игрока 1 максимального выигрыша 10 единиц. Однако по существу такую угрозу «наказания» едва ли следует считать действенной, поскольку наказывающий (игрок 1) при этом сам может потерять в выигрыше пять единиц (действуя не оптимально в Г\ J.

4.2. Дадим строгое определение стратегий наказания. Для про­ стоты ограничимся случаем неантагонистической игры двух лиц. Пусть задана неантагонистическая многошаговая игра двух лиц

r = <UvU2,KvK2).

С игрой Г свяжем две антагонистические игры Г2 и Г2 следующим образом. Игра Гх — это антагонистическая игра, построенная на основе игры Г, в которой игрок 2 играет против игрока 1, т. е. К2=—К1. Игра Г2 — это антагонистическая игра, построенная на основе игры Г, в которой игрок 1 играет против игрока 2, т. е. К1 = —К2- Графы игр Г15 Г,, Г и множества стратегий в них совпадают. Обозначим через (и\х, и21) и (и'п, и'22) ситуации абсолют­ ного равновесия в играх 1\ и Г2 соответственно. Пусть Tix, Г

подыгры игр Г\, Г2; vt(x), v2(x)— значения этих подыгр. Тогда

ситуации

{(и'ц)х, (u2i)x} и {(и*п)х, («и)*}

являются равновесными

в играх

Ги,

Гг* соответственно и

v1(x)=Kx((u*n)x, (и*21)х),

«2(х)=^((М;2)1,(и22)1).

u2) стратегий в игре Г.

Рассмотрим произвольную пару (uv

Разумеется, эта пара стратегий является таковой и в играх Ги

Г,.

Пусть Z=(x0=z0,

zv .... zi) — путь, реализуемый в ситуации (uv

и2).

Определение. Стратегия йх(-) называется стратегией нака­ зания игрока 1, если:

йх (z*)=zk+, для zk 6 Z(]Xt,

(4.1)

"i (у) = Щг(У) Для yeXv уфг.

 

Стратегия й2(*) называется стратегией наказания игрока 2, если:

й2 (zk)=гк+1дпягке Zf]X2,

(4.2)

"2 (У) = "2i (У) Для у е Х2,

у фZ.

4.3. Из определения стратегий наказания сразу получаем следу­

ющие свойства:

 

 

1°. ^(2i(-)), u2 (-))=^(z,), ^ ( u ^ - ) ,

u2(-)) = H2(z,).

2°. Пусть один из игроков, например игрок 1, использует страте­

гию !<! (• )> Для которой позиция zkeZf]Xx

является первой в пути Z,

где иД-) диктует выбор следующей позицииt z'k+u отличной от выбора, диктуемого стратегией и ^ ) , т. е. z'k+i^zk+i. Тогда из

192

определения наказывающей стратегии й2 (•) следует, что

 

*!(«!(), й2(-)Х«>1Ы-

(4-3)

Аналогично, если игрок 2 использует стратегию ы2(") л л я которой позиция zkeZ(~]X2 является первой в пути Z, где и2(') диктует

выбор следующей позиции z'k+u отличной от диктуемой стратегией й2('), т. е. z'lc+i^Zk+i, то из определения наказывающей стратегии

йл (•) следует, что

^(SiOWO)^**)- (4-4)

Отсюда, в частности, получаем следующую теорему.

Теорема. Пусть (2Х (•), и2 ()) — ситуация в стратегиях нака­ зания. Для равновесности ситуации 1(-), м2(')) достаточно, что­ бы для всех fc=0, 1, ..., /—1 выполнялись неравенства

КЛйЛ-Х u2(-))>Vl(zk),

(4.5)

#2 ("i(- ), u2(-))>v2(zk),

 

где z0, z1( .... zt путь, реализовавшийся в ситуации (й^ (•), и2 (•)).

4.4. Пусть и'ц(-) и Ми(') — оптимальные стратегии игроков 1 и 2 во вспомогательных антагонистических играх Г1 и Г2 соответ­ ственно и Z = {z0, zlf .... z,}—путь, соответствующий ситуации

(и'ц (•), Ии (• ^Предположим, что стратегии наказания t^ (•) и й2 (•) таковы, что м1л) = м1,(5л) для zkeZf]Xt и й2(г*) = Ы22&) для zkeZf]X2. Тогда ситуация («].(•)» й2(-)) образует ситуацию равно­ весия по Нашу в стратегиях наказания. Для доказательства этого утверждения достаточно показать, что

К, («;,(•), t 4 ( ) ) = * i ( 2 i ( - ) , 52 (-))>«i&),

(4-6)

K2(UnC), и22(-))=К21{-), й2(-))>*2&)> fc=0, l, . . . / - 1 ,

и воспользоваться теоремой п. 4.3. Неравенства (4.6) следуют из оптимальности стратегий м1] (-)им22 (')в играх Г\ и Г2 соответст­ венно, обоснование предлагаем в качестве упражнения. Таким об­ разом, получена следующая теорема.

Теорема. В игре Г всегда существует ситуация равновесия в стратегиях наказания, при этом выигрыши в этой ситуации равны ^|(мп(")> м22('))> где м*,(-) и и\2{') оптимальные стратегии иг­ роков 1 и 2 во вспомогательных антагонистических играх Гх и Г2 соответственно.

193

Смысл стратегий наказания заключается в том, что игрок заста­ вляет партнера придерживаться определенного пути в игре (опреде­ ленных выборов), используя постоянную угрозу переключения на стратегию, оптимальную в антагонистической игре против партне­ ра. Множество ситуаций равновесия в классе стратегий наказания достаточно представительно, однако эти стратегии не следует счи­ тать очень «хорошими», поскольку, наказывая партнера, игрок может еще сильнее наказать самого себя.

§ 5. ИЕРАРХИЧЕСКИЕ ИГРЫ

Важнейшим подклассом неантагонистических многошаговых игр являются иерархические игры. Иерархические игры моделируют конфликтно управляемые системы с иерархической структурой. Та­ кая структура определяется последовательностью уровней управле­ ния, следующих друг за другом в порядке определенного приорите­ та. В математической постановке иерархические игры классифици­ руются по числу уровней и характеру вертикальных связей. Про­ стейшей из них является двухуровневая система, схема которой изображена на рис. 20.

5.1. Двухуровневая конфликтно управляемая система функци­ онирует следующим образом. Управляющий (координирующий) центр А0, находящийся в первом уровне иерархии, выбирает вектор u=(u1,..., м„) из заданного множества управлений U, где ut — управ­ ляющее воздействие центра на подчиненные ему подразделения Д,

/ = 1 , 2, ..., п, находящиеся на втором уровне иерархии. В свою очередь, Д, i= 1, ..., и, выбирают управления «,е Г,(и,), где Vi(u,)

множество управлений подразделения Д, предопределенное управ­ лением и центра А0. Таким образом, управляющий центр имеет право первого хода и может ограничивать возможности подчинен­ ных ему подразделений, направляя их действия в нужное русло.

Цель центра А0

заключается в максимизации

по и функционала

К0 (и, vu ..., «„), а подразделения Д, /= 1,..., п, обладая собственными

 

целями,

стремятся

максимизировать

по

 

v, функционалы A, (u„ v,).

 

 

 

 

5.2. Формализуем эту задачу как беско­

 

алиционную игру Г(л+1)-го лица (админи­

 

стративного центра А0

и производственных

 

подразделений

Bit

....

В„) в

нормальной

 

форме.

игрок

А0

выбирает

вектор

ueU,

 

Пусть

 

где

 

 

 

 

 

 

 

Рис. 20

U={u = {uv .... u„):Ui>0,

UteR1, / = 1 , ..., n,

194

— множество стратегий игрока А0 в игре Г. Вектор щ будем ин­ терпретировать как набор ресурсов / наименований, выделяемых центром А0 для i'-го производственного подразделения.

Пусть в исходной задаче п. 5.1 каждый из игроков Д, зная выбор А0, выбирает вектор vte Vi(ui), где

VAud^faelfivtA^Ut+a,, v,>0}. (5.1) Вектор v, интерпретируется как производственная программа 1-го производственного подразделения по различным видам продукции; At — производственная или технологическая матрица i-ro произ­ водственного подразделения (4,^0); <х( — вектор наличных ресурсов г-го производственного подразделения (<х,^0).

Под стратегиями игрока Д в игре Г будем понимать множество функций »,(•)> ставящих в соответствие каждому элементу ы,: (ы1(..., «,, .... м„)е Uвектор »,(ы;Vt(ui). Множество таких функций будем обозначать через V„ i=l, ..., п.

Определим функции выигрышей игроков в игре Г. Для игрока А0 функция выигрыша имеет вид

л

Ко(и, «!(•), ...,«»(•))= Е * »'("')>

где в,>0, ateRm — фиксированный вектор, /=1, ..., л; a(Vi(Ui) — ска­ лярное произведение векторов а, и к,(и(). Функцию выигрыша игрока Д полагаем равной

Ki(u, V^),

..., Vn()) = CiV,(u,),

где с,>0, Cje.Rm — фиксированный вектор, i=l, ..., и.

Таким образом, игра Г имеет вид Г=(С/, Vv .... F„, K0, Kv .... .£„).

5.3. Построим ситуацию равновесия по Нэшу в игре Г.

Пусть ю,*(м(Vt(u,) — решение задачи параметрического линей­

ного программирования (параметром является вектор ц)

 

max С/ «г=с, «* («О, i= 1, ..., л,

(5.2)

t)(eK,(uj)

 

195

а и* £ U — решение задачи

 

max K0(и, v\(•), ..., v'„(.)).

(5.3)

lieU

 

Для простоты предполагаем, что максимумы в (5.2) и (5.3) достигаются. Заметим, что (5.3) — задача нелинейного програм­ мирования с существенно разрывной целевой функцией (максимиза­ ция ведется по и, a v'(u,), вообще говоря, — разрывные функции

параметра и,). Покажем, что точка (и*, «[(•), ..., v*n()) является ситуацией равновесия в игре Г. Действительно,

К0(и*. v\0, ..., v*())>K0(u, .;(.), ..., «JO), ue U.

Далее, при всех /= 1, ..., п справедливо неравенство

К,(и*. «!(•), ..., v'„()) = ct v'i(u')^Ci «,(«*) =

=Kt(u*, •!(.), ..., «*-i(), «<(•), «*+i(), -., v'„())

для любой »,(•)£ Vt. Таким образом, никому из игроков А0, Вх, ....

Ви невыгодно в одностороннем порядке отклоняться от ситуации

(и*. «!(•), -ч ««(•))> т- е- о н а является равновесной. Заметим, что эта ситуация также устойчива против отклонения от нее любой ко­ алиции Sc{Bl,.... В„}, поскольку выигрыш Kt i-ro игрока не зависит

от стратегий vj(),je{l, ..., n},j¥=i.

§6. ИЕРАРХИЧЕСКИЕ ИГРЫ (КООПЕРАТИВНЫЙ ВАРИАНТ)

Вэтом параграфе рассматривается кооперативный вариант ряда простейших иерархических игр (в том числе игры, определенной

вп. 5.1, 5.2). Строятся характеристические функции и исследуются условия существования непустого С-ядра.

6.1. Исходя из содержательного смысла задачи п. 5.1, 5.2 и с ис­ пользованием стратегией, образующих равновесие по Нэшу, для каждой коалиции S<=.N= {А0, Bv .... В„} определим ее гарантирован­ ный доход v (S) следующим образом:

'

0, если S= {A0};

(6.1)

 

£

с/»?(0), если Л0

(6.2)

v(S)=i

IBieS

 

 

 

 

max

£ (cii+Ct) v*(ud, если А0 еS,

(6.3)

 

{«el/:

£ «i=*}

i-BjeS

 

»i:BeS

196

где v*(u,), i= 1,..., и — решение задачи параметрического линейного программирования (5.2).

Равенство (6.1) имеет место, поскольку коалиция {Blt ..., В„}

может добиться получения нулевого выигрыша игроком А0, выби­ рая все v,=0, 2 = 1, ..., л; равенство (6.2) справедливо, так как игрок

А0 всегда может гарантировать для S выигрыш не более чем (6.2), направляя каждому Д е 5 нулевой ресурс; равенство (6.3) имеет

место, поскольку коалиция S, содержащая в своем составе А0, всегда может обеспечить распределение всего ресурса только между своими членами.

Пусть S — произвольная коалиция, содержащая А0. Обозначим через и=(и\, ..., и'„) вектор, доставляющий максимум в задаче нелинейного программирования (6.3) (для i'.BrfS выполнено усло­ вие И(=0). Тогда для любой коалиции S<zS, 5фА0, А0еS справед­ ливо следующее выражение:

 

 

£

(а,+С,К(и?)^

I

(а,+с,)„;(«?)=

 

 

 

I-.BJBS

 

i:BteS

 

 

 

 

=

I

(a,+c,K(«J)+

£

(а,+с,)«;(0).

 

 

 

i-.BieS

 

 

i:BieS\S

 

 

Пусть S, RcN,

Sf]R=0

и А0еБфА0.

Тогда А0фЯ. Принимая во

внимание условия а(^0, с,^0, «(>0, /=1, ..., п, имеем

 

 

 

i:BteS\jR

 

 

 

i:BieS[jR

 

 

 

= £ (ai+ci)v'i(ud+

E

(а,+сО«*(0) =

 

 

 

i-.BjeS

 

 

i.BjeR

 

 

 

 

=v(S)+v(R)4>. £

a,v'(0)>v(S)+v(R),

 

 

 

 

 

UBjeR

 

 

 

 

 

где £

a,-i>*(0)>0— прибыль центра

А0

от «нефинансируемых»

i:BieR

 

 

 

 

. .

 

или

S=A0фR неравенство

предприятий. В случаях A0fS\jR

 

v(S[jR)>v(S)+v(R)

очевидно.

 

 

 

 

 

Таким образом, функция v(S), определяемая (6.1) — (6.3), супер­

аддитивна и

можно

рассмотреть

кооперативную

игру

({А0, Вх,

.... В„}, v) в форме характеристической функции v.

 

6.2. Рассмотрим (и+ 1)-мерный вектор

 

 

 

 

 

я

 

 

 

 

 

 

 

 

£ = (£а,ь'(), с,v\(й,), ..., с„г'„(щ)),

(6.4)

 

 

 

/ - 1

 

 

 

 

 

 

197

где u = uN. Вектор £ является дележом, поскольку выполнены следу­ ющие сотношения:

fc—0 i - 1

л

2){o=I>.e?(Ui)>0=«0*o).

^=c,«;(«i)>c,i;*(0)=i;(5(), / = 1 , ..., п.

Напомним условие принадлежности дележа С-ядру. Согласно теореме п. 10.1 гл. III необходимым и достаточным условием принадлежности дележа (£0, £t, ..., £„) С-ядру является выполнение

неравенства

 

Е&>«(5)

(6.5)

ieS

 

для всех коалиций Scz{A0, Вх, .... В„}.

Выведем условие, при котором дележ £' принадлежит С-ядру. Если S={A0], либо S e ^ , ..., В„}, то условие (6.5) выполнено,

поскольку

£0=2>^(".)>0=*({Л0}),

i - l

Х&= Е<^&)> I c,*;(o)=e(s).

/Е5 i-.BjeS i-.BidS

Если i40 e5/^0 , то условие (6.5) можно записать в виде

 

^а^(йд+

£ с(«*(йО=

 

f:2»,eS

i:B,-6S

(:Л(#£

i:B,6S

Следовательно, дележ (6.4) принадлежит С-ядру, если для всех S:A0eSвыполнено неравенство

£ а,«;(й,)> £ (a,+cf) [«'("О-v.'("Л-

Заметим, что в данном случае мы определили характеристичес­ кую функцию игры, используя выигрыш в ситуации равновесия по

198

Нэшу, и величина v(N)=ma.x £ (a,+ci)v'(u), вообще говоря, мень-

 

» < - 1

 

 

ше максимального суммарного выигрыша всех игроков, равного

max

max

X(a*+C*H

 

ueU

vkeVk(u0

\_кш1

J

(в этом отличие от принятого в гл. III определения характеристичес­ кой функции).

6.3.

Характеристическую функцию игры можно

построить

и обычным способом, а именно: для каждой коалиции S определить

ее как

значение антагонистической игры между этой

коалицией

и коалицией остальных игроков N\S. Построим теперь характери­ стическую функцию именно таким образом. При этом несколько обобщим предыдущую задачу, введя в рассмотрение произвольные функции выигрышей участников игры.

Как и ранее, будем предполагать, что центр А0 распределяет ресурсы между подразделениями Blt.... В„, которые используют эти

ресурсы для производства продукции. Выигрыши управляющего центра А0 и «производственных» подразделений Б1,..., В„ зависят от

продукции, производимой Bt, .... В„. Вектор ресурсов, имеющийся

в распоряжении центра А0, обозначим через Ь. Центр (игрок) А0 выбирает систему и векторов и=(ц1, .... ип) из множества

я

U={u=(u1, ..., Un):uk>0, икев!, £ы*«$6, к=Т7п}.

* - i

Здесь ик интерпретируется как вектор ресурса, выделяемый центром А0 производственному подразделению Вк. Возможности предпри­ ятия (игрока) Вк определяются ресурсом ик, получаемым от А0, т. е. предприятие Вк выбирает свою производственную программу хк из

множества Bk(uk)<zfT неотрицательных векторов. Будем предпола­ гать, что множества Вкк) при всех щ содержат нулевой вектор и монотонно возрастают по включению, т. е. из икк следует

Вк{и'к) •=>Вкк), кроме того, выполнено условие Вк(0) = 0 (невозмож­ ность производства при отсутствии ресурсов).

Пусть x=(xlt .... хп). Выигрыш игрока А0 определяется с помо­ щью неотрицательной функции /0 (х)^0, а выигрыши игроков Вк по­ лагаем равными 1кк)^0, к=\, ..., п (выигрыш игрока Вк зависит

199

Соседние файлы в папке Теория игр