Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
27
Добавлен:
02.05.2014
Размер:
1.28 Mб
Скачать

13. Позиционные игры с полной информацией

1b

÷èñò @@ ãðÿç

(1×, 1)

øòð

b@@ ïðîï

 

@

 

 

 

@ 2

 

 

 

@

 

×

 

×

 

 

 

@

(−5, −2)

(2, −1)

Ðèñ. 13.5

Вначале ходит первый игрок, а затем второй, зная выбор первого.

На рис. 13.5 изображено дерево игры. В финальных вершинах дерева указаны условные выигрыши игроков. Например, если оба игрока применяют вторые стратегии, то первый выиграет 2, а второй проиграет 1, поскольку при этом произошло загрязнение окружающей среды.

Легко видеть, что сîвершенным подыгровым равновесием в данном случае является набор µ = (2, 2), приводящий к исходу (2, −1). Однако,

в этой игре существует равновесие по Нэшу, более выгодное для второго игрока : он может использовать "стратегию наказания"(см. 11). и при выборе первым игроком второй стратегии выбирать стратегию "штрафо-

вать", что приводит к исходу (−5, −2) (несмотря на то, что это ему не выгодно). Тогда первый игрок, чтобы не получить −5, предпочтет выбрать первую стратегию. В итоге получится ситуация равновесия µ = (1, 1), которая не является совершенным подыгровым равновесием. Отметим, что ситуацию (2, 2) можно также получить исключением доминируемых

стратегий в игре (G) с матрицами

 

 

 

 

 

øòð

ïðîï

 

 

øòð

ïðîï

 

ãðÿç

−5

2

,

ãðÿç

−2

−1

.

A = ÷èñò

B = ÷èñò

 

1

1

 

 

1

1

 

Нетрудно видеть, что стратегия 1 второго игрока слабо доминируется стратегией 2. Если ее вычеркнуть, то получается игра, где стратегия 2 первого игрока строго доминирует стратегию 1. В результате исключе- ния доминируемых стратегий останется ситуация (2,2), которая обычно и возникает при внутриведомственном контроле. В этом примере игра

(G) разрешима по доминированию.

Вообще для игр с полной информацией типична ситуация, когда совершенное подыгровое равновесие одно, а прочих равновесий по Нэшу, связанных со стратегиями наказания, много.

151

В каждой позиции игрока a с вероятностью
с некоторой достаточно малой вероятностью

ГЛАВА III. ИГРЫ МНОГИХ ЛИЦ

Рассмотрим следующее возмущение игры G: пусть в каждой позиции ε > 0 все игроки ошибаются. 1 − ε реализуется намечен-

ная им альтернатива, а с вероятностью ε происходит ход случая и равновероятно реализуется любая другая альтернатива. Обозначим через Gε указанную возмущенную игру. Очевидно, что множества стратегий остаются такими же, как в игре G, и любая вершина исходной игры в

возмущенной игре Gε реализуется с положительной вероятностью при любых стратегиях игроков.

Теорема 13.2. Пусть в исходной игре G существует единственное совершенное подыгровое равновесие. Тогда для любого достаточно малого ε > 0 â èãðå Gε существует единственное равновесие по Нэшу, совпадающее с совершенным подыгровым равновесием исходной игры.

Доказательство повторяет схему алгоритма Куна. В любой пред- финальной позиции x Z1 ∩ Xa существует единственный наилучший

выбор µa(x) игрока a, отвечающий совершенному подыгровому равновесию. В любой ситуации равновесия µˆ при достаточно малых ε > 0 µˆa(x) = µa(x), поскольку вероятность осуществления позиции x положительна и любой другой выбор приведет к строго меньшему выигрышу. Далее рассматриваются вершины из Z2, Z3, ..., проводятся аналогичные рассуждения по индукции и доказывается, что µˆ = µ.

Следствие. Пусть G − позиционная игра, для которой существует единственное совершенное подигровое равновесие µ. Тогда игра в нормальной форме (G) разрешима по доминированию, а выигрыши игроков ua(µ), a A, задаются алгоритмом Куна.

В следующем примере (рис. 13.6) совершенное подыгровое равновесие

строго хуже для игроков, чем другая ситуация.

1b

@

@

 

@

 

 

@ 2

(2×, 2)

b@

 

 

@

×

 

@

 

×

 

 

@

(5, 5)

 

(0, 6)

Ðèñ. 13.6

152

14. Позиционные игры общего вида

14. Позиционные игры общего вида

Основное отличие позиционных игр с неполной информацией от игр с полной информацией состоит в том, что игрок в момент принятия решения не знает точно состояние игры, то есть не различает некоторые вершины между собой. Отметим, что неточная информация о текущем состоянии типична для реальных конфликтов. Общее понятие позиционной игры (с неполной информацией) отличается от данного выше определения игры с полной информацией в следующем отношении. Для каж-

дого игрока a вводится дополнительное разбиение множества его позиций на информационные множества. Информационное множество − ýòî

совокупность состояний позиционной игры, которые игрок не различает между собой. Необходимым условием для всех позиций одного информационного множества является одинаковое число альтернатив, т.е. последующих позиций, в каждой такой вершине. Кроме того, информационное множество не должно содержать двух позиций, принадлежащих одному пути, соединяющему начальную вершину с некоторой финальной. Занумеруем эти множества для каждого игрока и обозначим информационное множество с номером j игрока a A через Zaj.

Как и в игре с полной информацией, в произвольной позиционной

èãðå

D

G = A, (X, σ), ua(x), x T, a A; X\T = S Xa X0,

a A

E

x X0 p(x0|x), x0 σ−1(x) ,

заданы

A − множество игроков;

(X, σ) − конечное дерево (ориентированный граф без циклов), где

X − множество позиций (вершин) с начальной вершиной x0 è σ : X → X − отображение, сопоставляющее каждой вершине дерева (X, σ) ее ближайшего предшественника, причем

1)σ(x0) = x0,

2)найдется целое l ≥ 0, ÷òî σl(x) = x0 x X; наименьшее такое

lназывается длиной дерева (X, σ);

T = {x X | σ−1(x) = } − множество финальных вершин;

R = {Xa, a A, X0} − разбиение множества X\T на попарно

непересекающиеся подмножества;

• Xa множество личных позиций, в которых делает ход игрок a

A;

153

ГЛАВА III. ИГРЫ МНОГИХ ЛИЦ

X0 множество позиций, в которых "делает ход"случай;

ua : T → E1 функция выигрыша игрока a;

для каждого x X0 заданы вероятности

p(x0|x) > 0,

 

 

 

 

1

p(x0|x) = 1,

перехода из позиции x в позиции

 

0 P

1

 

 

 

 

 

x

σ(x)

 

 

 

 

Кроме того, для каждого a a

 

 

x0 σ(x).

 

A

 

 

aj

 

 

на информационные множества

 

 

 

aj

задано разбиение

 

 

 

S

Z

 

a

 

включающие позиции с оди-

X =

j Ja

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Z

 

, j J

 

,

 

наковым числом альтернатив, равным k(j). Альтернативы каждой позиции x Zaj пронумерованы слева направо числами от 1 до k(j). Игрок a делает ход, не различая позиции из Zaj между собой. Чтобы отразить это обстоятельство, обозначим через Alaj = {1, ..., k(j)} множество номеров альтернатив для информационного множества Zaj игрока a A. Во всех позициях x Zaj множество Alaj изоморфно множеству позиций σ−1(x). Обозначим через ξ(x, k) вершину, следующую за x и соответствующую альтернативе с номером k Alaj при указанном изоморфизме.

Определение. Чистой стратегией игрока a A называется отображение µa, определяющее для каждого информационного множества Zaj альтернативу µa(Zaj) Alaj, которую игрок выбирает в любой из вер-

шин этого множества. Набор таких стратегий µ = (µa, a A) называется ситуацией.

Вероятность попасть в позицию x X, непосредственно следующую за вершиной σ(x) Zaj при использовании ситуации µ, определяется по формуле p(x|µ) = p(σ(x)|µ)p(x|σ(x), µ), где

(

1, åñëè x = ξ(σ(x), µa(Zaj)),

p(x|σ(x), µ) =

0в противном случае.

Åñëè æå σ(x) X0 − позиция случая, то вероятность p(x|σ(x), µ) = p(x|σ(x)) задана условиями игры. Таким образом, для любой ситуации µ для каждого игрока a A определено среднее значение функции выигрыша

X

p(x|µ)ua(x).

 

 

 

ua(µ) = E(ua(x)|µ) =

 

 

 

x T

 

 

 

 

 

 

 

 

Определение. Смешанной стратегией

π

a

игрока

a

 

A

называется

 

 

a

 

 

вероятностное распределение на множестве

} его чистых стратегий,

154

стратегии поведе-

14. Позиционные игры общего вида

ставящее в соответствие каждой стратегии µa вероятность πµaa ее выбора. Ситуация π = (πa, a A) в смешанных стратегиях определяет веро-

ятностное распределение на множестве T финальных позиций:

X Y

p(x|π) = πµa p(x|µ) x T.

µa A

Ожидаемый выигрыш игрока a в ситуации π определяется как математическое ожидание

X

ua(π) = E(ua(x)|µ) = p(x|π)ua(x).

x T

Указанный способ введения смешанных стратегий аналогичен случаю игр в нормальной форме. Однако в данном классе игр он, как правило, неэффективен, поскольку даже для небольших деревьев число возможных чистых стратегий может быть очень велико. Более эффективным является следующий подход, связанный с понятием

íèÿ.

Рассмотрим ситуацию, когда игрок выбирает вероятностное распределение на альтернативах для каждого своего информационного множества и, в случае своего выбора, проводит рандомизацию, пользуясь этим распределением. При этом предполагается, что случайный выбор альтернатив в различных информационных множествах производится независимо.

Определение. Стратегией поведения βa игрока a называется отображение, которое каждому информационному множеству Zaj, j Ja, сопоставляет набор

k(j)

X

(pajk , k = 1, ..., k(j)) : pajk = 1, pajk ≥ 0, k = 1, ..., k(j),

k=1

причем pajk вероятность выбора альтернативы k Alaj в любой пози- ции множества Zaj.

Любая ситуация β = (βa, a A) в стратегиях поведения определяет

вероятностное распределение на множестве позиций следующим образом:

σ(x) Zaj, x = ξ(σ(x), k), k Alaj p(x|β) = p(σ(x)|β)pajk ;

155

ГЛАВА III. ИГРЫ МНОГИХ ЛИЦ

σ(x) X0 p(x|β) = p(σ(x)|β)p(x|σ(x)).

 

 

 

 

 

 

a

(β) игрока a â

 

a

 

 

 

β = (β

a

, aa A) îïðå-

Ожидаемый выигрыш u

 

 

 

 

 

Таким образом, мы определили два

ситуации

 

 

 

 

 

 

 

 

 

P

p(x|β)u (x).

деляется как математическое ожидание u (β) =

x T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

смешанных расширения игры

(G):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a

a

 

 

 

è ˆ

 

 

 

 

 

a

a

 

 

 

 

 

 

 

 

 

 

 

 

 

Как они между собой

 

 

 

 

 

 

 

 

 

 

 

(G) = A, {π

 

}, u (π), a A

(G) = A, {β }, u (β), a A .

 

 

 

 

 

 

 

 

соотносятся? Изучим этот вопрос, используя

следующие понятия.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Определение.

Позиция

x X

a

игрока

a

называется возможной äëÿ

 

 

 

a

 

 

 

 

 

a), если существует такая

смешанной стратегии π

 

 

(чистой стратегии µ

 

 

 

 

 

 

 

ситуация π (µ), содержащая πa (µa), ÷òî p(x|π) > 0 (p(x|µ) > 0).

Определение. Информационное множество Zaj игрока a называется существенным для смешанной стратегии πa (чистой стратегии µa), åñëè некоторая позиция x Zaj возможна для πa (µa).

Обозначим множество позиций, возможных для стратегии µa, через Poss µa, а семейство информационных множеств, существенных для µa, через Rel µa. Аналогично вводятся множество Poss πa и семейство Rel πa.

Обозначим через [x0, x] путь, ведущий из начальной вершины x0 äå-

рева в вершину x.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Упражнение 14.1. Пусть

 

a

чистая стратегия игрока

A. Ïîêà-

æèòå, ÷òî x Poss µ

a

 

 

µ

 

 

 

 

 

 

 

 

 

a a в любой

 

тогда и только тогда, когда стратегия µ

вершине x0

 

[x

, x]

Xa, x0

= x, выбирает альтернативу, принадлежа-

 

 

0

 

 

 

6

 

 

 

a

 

 

aj

 

первая позиция, где

ùóþ ïóòè [x0, x]. В частности, еслиa x Xaj

∩ Z

 

 

 

a для любой чистой

игрок a

 

a.

 

 

 

 

 

x Poss µ

è

Z

 

Rel

µ

 

 

делает ход, то

 

 

 

 

 

 

 

 

 

стратегии µ

Для смешанной стратегии πa, информационного множества Zaj è àëü- тернативы k Alaj положим

 

 

 

 

 

µ :Z X

µ

 

 

 

 

 

µ :Z

X

P (πa, j) =

 

 

 

πµaa , Pka, j) =

 

 

 

 

πµaa .

 

 

 

 

 

a aj Rel

 

a

 

 

 

 

 

a

aj

 

Relµa, µa(Zaj)=k

Здесь P

(

πa, j)

вероятность выбора чистой стратегии µa, для которой

 

 

 

aj

 

 

 

a

j

) −

вероятность выбора аналогичной

множество Z

 

возможно, а

Pk(π ,

стратегии µ

a

 

 

 

 

 

 

 

a

(Z

aj

) = k. Нетрудно видеть,

 

с дополнительным условием µ

 

 

156

14. Позиционные игры общего вида

÷òî

k(j)

X

P (πa, j) = Pka, j).

k=1

Определение. Стратегией поведения βa, соответствующей смешан- ной стратегии πa игрока a, называется стратегия поведения, определяемая следующим образом:

pk

=

 

πµaa ,

åñëè Zaj / Rel πa.

(14.1)

aj

 

 

Pka, j)/P (πa, j),

åñëè Zaj Rel πa,

 

 

 

µaa(Zaj)=k

 

 

 

 

 

P

 

 

Из последних формул вытекает, что каждая смешанная стратегия однозначно определяет соответствующую стратегию поведения. Обратно, каждой стратегии поведения соответствует много смешанных стратегий. Но одну из них всегда можно задать следующим образом.

Лемма 14.1. Если дана стратегия поведения βa игрока a и смешанная стратегия πa определена по формуле

 

Y

 

a

aj

,

πµa =

pij

 

j Ja

 

ãäå µa(Zaj) = ij a

Alaj j Ja, òî βa есть стратегия поведения,

соответствующая π

.

Доказательство. Любая чистая стратегия µa игрока a определяется набором значений

ia = (ij | µa(Zaj) = ij Alaj, j Ja).

Поэтому

k(j)

XX Y

a

aj

=

πµa =

pij

µa

ia j Ja

 

Y X

aj

pij = 1.

j Ja ij=1

Пусть Zaj Rel πa. Тогда для k Alaj

µ :Z

 

X

)=k

Pka, j) =

 

 

πµaa =

a

aj

Relµa, µa(Zaj

 

157

ГЛАВА III. ИГРЫ МНОГИХ ЛИЦ

XY

= palµa(Zal) pajk = dkpajk . µa:Zaj Relµa, µa(Zaj)=k l Ja\{j}

Величина dk îò k Alaj не зависит, поскольку она представляет собой сумму одинакового числа слагаемых, не зависящих от k. Отсюда

k(j)

k(j)

X

X

P (πa, j) = Pka, j) =

dkpkaj = dk pkaj = Pka, j)/P (πa, j).

k=1

k=1

Пусть Zaj / Rel πa. Тогда

 

 

 

XX Y

πµaa =

pµala(Zal) pkaj =

µaa(Zaj)=k

µaa(Zaj)=k l Ja\{j}

YX

=

pala

(Z

al

paj

= paj.

 

 

 

µ

)

k

k

 

 

l Ja\{j} µaa(Zaj)=k

 

 

 

 

 

Приведенная лемма утверждает, что мы можем получить каждую стратегию поведения из некоторой смешанной стратегии.

Пример 14.1. Игра с партнером. В этой антагонистической игре игрок 1 состоит из двух агентов, называемых Играющий и Партнер. Две карты, "старшая"и "младшая", сдаются Играющему и игроку 2. Оба возможных расклада карт считаются равновероятными. Игрок со старшей картой получает доллар от игрока с младшей картой и имеет альтернативы либо закончить, либо продолжить партию. Если партия продолжается, Партнер, не зная расклада (и полученной суммы), может посоветовать Играющему поменяться картой с игроком 2 или сохранить свою карту. Снова имеющий старшую карту получает доллар от агента, имеющего младшую (см. рис. 14.1, где в каждой финальной позиции записан выигрыш игрока 1).

158

14. Позиционные игры общего вида

b

1/2 @ 1/2

@

1b

Z11

 

@@ Z21

 

 

b z

b1

@

b

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Z12

 

 

 

 

 

 

 

x

 

 

y

 

 

 

 

 

 

 

 

b@@@

 

b@@@

 

2bw

 

 

 

0b

 

b2

 

0b

 

 

 

 

 

 

 

 

 

Ðèñ. 14.1

Здесь X1 = Z11

 

Z12, X2 = Z21. Поэтому µ1 = (µ1(Z11), µ1(Z12))

è µ

2

2

(Z

21

 

 

 

 

 

 

1

1

2

) первого

 

= (µ

 

)). Матрица ожидаемых выигрышей u

, µ

игрока есть

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(1)

(2)

 

 

 

(закончить, меняться)

(1, 2)

закончить

продолжить

 

 

 

 

0

1/2

.

 

(закончить, оставить)

(1, 1)

 

 

0

1/2

 

 

(продолжить, меняться)

(2, 2)

 

1/2

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(продолжить, оставить)

(2, 1)

 

1/2

0

 

u1((1, 1), 1)

 

 

 

 

 

 

 

 

= 1/2 · 1 + 1/2 · (−1) = 0;

 

 

 

 

 

 

u1((1, 1), 2)

= 1/2 · 1 + 1/2 · (−2) = −1/2;

 

 

 

 

u1((1, 2), 1)

= 1/2 · 1 + 1/2 · (−1) = 0;

 

 

 

 

 

 

u1((1, 2), 2)

= 1/2 · 1 + 1/2 · 0

= 1/2;

 

 

 

 

u1((2, 1), 1)

= 1/2 · 2 + 1/2 · (−1) = 1/2;

 

 

 

 

u1((2, 1), 2)

= 1/2 · 2 + 1/2 · (−2) = 0;

 

 

 

 

 

 

u1((2, 2), 1)

= 1/2 · 0 + 1/2 · (−1) = −1/2;

 

 

 

 

u1((2, 2), 2)

= 1/2 · 0 + 1/2 · 0

= 0.

 

 

 

 

 

 

Решение матричной игры 1, π2, v) = ((0, 1/2, 1/2, 0), (1/2, 1/2), 1/4)

обеспечивает игроку 1 ожидаемый выигрыш 1/4, а игроку 2 − ожидаемую потерю, не превышающую 1/4. С другой стороны, если взять стра-

тегию поведения игрока 1 s = p111 , 1 − s = p112 è r = p121 , 1 − r = p122 , òî получим, что ожидаемый выигрыш игрока 1 равен

159

ГЛАВА III. ИГРЫ МНОГИХ ЛИЦ

(s/2

+ 2((1

s)r/2)

+ 0

+ ( 2)r/2 + 0 = s(1/2

 

r),

åñëè µ2

= (2).

s/2

+ 2((1

s)r/2)

+ 0

− 1/2 = (s − 1)(1/2

− r),

 

åñëè µ2

= (1),

 

 

 

 

 

 

 

Для любых s è r игроку 1 гарантирован только минимум из этих двух

значений. Следовательно, максимальная сумма, которую игрок 1 может себе обеспечить, равна

max min[(s − 1)(1/2 − r), s(1/2 − r)] = 0

0≤s,r≤1

и достигается при r = 1/2. Таким образом, стратегии поведения могут

дать худший результат, чем смешанные стратегии. Заметим, что смешанная стратегия π1 = (π(11 ,1), π(11 ,2), π(21 ,1), π(21 ,2)) имеет соответствующую стра-

тегию поведения β1 = (s, r) = (π(11 ,1) + π(11 ,2), π(11 ,1) + π(21 ,1)). Следовательно, если мы рассмотрим оптимальную смешанную стратегию (0, 1/2, 1/2, 0)

игрока 1, соответствующей стратегией поведения будет s = r = 1/2, и, в то время как оптимальная смешанная стратегия обеспечивает первому игроку выигрыш 1/4, даже соответствующая стратегия поведения дает

ему только 0. Это расхождение объясняется, конечно, независимостью, содержащейся в природе стратегии поведения. Чтобы получить положительные результаты при использовании стратегий поведения, надо наложить ограничение на информационное разбиение.

Определение. Èãðà G называется игрой с полной памятью для игрока a, åñëè èç Zaj Rel µa è x Zaj следует x Poss µa äëÿ âñåõ Zaj, x è µa.

Из определения вытекает, что в игре с полной памятью для игрока a

любая позиция из существенного информационного множества является возможной. Термин "полная память"означает, что игрок может точно восстановить, какие альтернативы он выбирал во всех своих предыдущих ходах (см. упражнение 14.1).

В примере 14.1 игра G не является игрой с полной памятью для игрока 1. Действительно, информационное множество Z12 существенно для стратегии µ1 = (1, 2), поскольку, если игрок 2 использует стратегию µ2 = (2), то позиция y Z12 реализуется с вероятностью 1/2. Однако другая позиция x Z12 не является возможной для стратегии µ1, òàê как Играющий, получив старшую карту, заканчивает игру.

160