Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
32
Добавлен:
02.05.2014
Размер:
1.28 Mб
Скачать
Предположим, что конфликтная ситуация описывается игрой

12. Равновесие по Нэшу. Решение игр в нормальной форме

2) Пусть множество ˜

 

 

˜a

слабо доминирует множество S â ñìå-

 

 

 

 

S =

 

a A

S

 

 

 

 

 

 

 

 

˜

 

 

 

 

 

 

 

 

шанных стратегиях и

 

 

 

 

a a

a

 

 

 

 

смешанное равновесие

 

 

 

 

Na

 

 

 

 

 

 

 

 

 

π˜ = (˜πs , s

S , a A) −

 

 

 

ïî Íýøó â èãðå ˜

 

 

 

˜a

 

a

(s), a A с сокращенными множества-

 

=

 

A, S

, u

 

Определим ситуацию в смешанных стратегиях

 

исходной

ми стратегий.

 

D

 

 

 

 

 

 

 

 

E

 

 

 

π

 

èãðû : для любого a A

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a

 

 

 

a

˜a

 

 

 

 

 

 

 

 

 

a

 

π˜sa ,

åñëè s

 

S

,

 

 

 

 

 

 

 

πsa =

(0,

åñëè sa / S˜a.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда π − равновесие по Нэшу в исходной игре .

Модели игровой динамики

Модели этого типа развиты как альтернатива статическим принципам оптимальности (таким, как равновесие по Нэшу, решения по доминированию). Указанные принципы принятия решения требуют для своей реализации полной информированности игроков относительно условий игры (т.е. относительно множеств стратегий и функций выигрыша всех участников). Более того, игроки должны быть рациональны в принятии собственных решений и предполагать такую же рациональность от своих партнеров. Рассматриваемые динамические модели предъявляют значительно меньше требований к информированности и рациональности игроков и больше похожи на реальные методы принятия решений.

=

A, Sa, ua(s), a A с конечными множествами стратегий Sa, a A. Пусть игра повторяется в периоды времени t = 1, 2, .... Каждый игрок выбирает стратегию sa(t + 1) на период (шаг) t + 1, исходя из истории

ht = {s(τ) = (sa(τ), a A)}τ≤t, сложившейся к этому периоду. Бесконеч- ную последовательность ситуаций {s(t)} будем называть траекторией

процесса. Обозначим через H множество всевозможных историй, т.е.

H = S {ht}.

t≥1

Правило поведения игрока в этом процессе задается отображением

называется

µa : H → Sa. Совокупность ; µa, a A детерминирован-

ным игровым процессом.

Определим понятие адаптивного поведения. Смысл его состоит в том, что игрок прогнозирует вероятности реализации стратегий партнеров sA\{a} = (sb, b A\{a}), исходя из предыстории, и максимизирует соб-

ственный выигрыш на основании такого прогноза. В качестве примера

141

ГЛАВА III. ИГРЫ МНОГИХ ЛИЦ

рассмотрим модель наилучших ответов.

Процесс начинается с выбора игроками произвольных стратегий sa(1), a A. Далее после t шагов на следующем, (t + 1)-ì øàãå

sa(t + 1) Arg max ua(s(t)||sa), a A.

sa Sa

Таким образом, игрок максимизирует собственный выигрыш, исходя из предположения, что другие игроки не меняют своих стратегий по сравнению с предыдущим шагом.

В более общем случае предположения о поведении партнеров в момент времени t + 1 можно характеризовать набором параметров

at,τ ≥ 0}τ≤t, таким, что P λat,τ = 1. Игрок a считает, что с вероятностью

τ≤t

λat,τ в момент t + 1 повторится набор стратегий других игроков sA\{a}(τ), случившийся в момент τ. Исходя из этого, игрок a максимизирует математическое ожидание своего выигрыша. Следовательно,

 

 

 

X

 

 

 

 

 

 

 

 

 

sa

t

max

λa

ua

s τ

sa

, a

 

A.

(12

.

1)

(

 

+ 1) Arg sa Sa

t,τ

(

( )||

)

 

 

 

τ≤t

Определение. Пусть T − минимальное число периодов, для которого t−τ > T λat,τ = 0 a A, t, τ. Тогда T называется памятью игрового процесса (игроки не помнят то, что происходило T шагов назад).

Примером процесса с бесконечной памятью является итерационный процесс Брауна для матричных игр, изложенный в 5,. или аналогичный процесс для биматричных игр из 10,. где λat,τ = 1/t для всех таких τ и

t, что τ ≤ t. В общем случае правило прогнозирования можно задать отображением pa(sA\{a}|ht), определяющем для игрока a субъективную вероятность реализации sA\{a} в зависимости от истории ht. При использовании правил прогнозирования pa, a A, на (t + 1)-м шаге игроки выбирают стратегии по правилу

X

sa(t + 1) Arg max pa(sA\{a} | ht)ua(sA\{a}, sa), a A.

sa Sa

sA\{a}

Адаптивные правила соответствуют ситуации, когда каждый игрок считает поведение партнеров, не зависящим от его собственного выбора. Он либо не учитывает возможного влияния выбора в текущий период

142

вательность историй, отвечающих траектории
ли для любой траектории {s(t)} и любого набора стратегий sA\{a}

12. Равновесие по Нэшу. Решение игр в нормальной форме

на последующие повторения, либо они его не интересуют (не случайно другим названием модели наилучших ответов является "близорукое приспособление").

Динамика игровых процессов с адаптивными правилами поведения оказывается для многих игр хорошо согласованной с указанными выше статическими принципами оптимальности. Приводимые ниже утверждения подтверждают возможность использования понятий равновесия по Нэшу и доминирующих множеств для описания поведения индивидуумов с ограниченной рациональностью.

Определение. Правило прогнозирования pa назовем адаптивным, åñ-

рый встречается ятность pa(sA\{a}

, êîòî- â {s(t)} лишь конечное число раз, субъективная веро- |ht) стремится к нулю при t → ∞, ãäå {ht} − последо-

{s(t)}.

Упражнение 12.2. Покажите, что в процессе Брауна игроки используют адаптивные правила прогнозирования.

Теорема 12.5. Пусть последовательность множеств ситуаций

S = S1 S2 ... Sk получена в результате последовательного исклю- чения стратегий, строго доминируемых смешанными стратегиями, и

ga Sra\Sra+1 для некоторых a A, r {1, ..., k − 1}. Тогда справедливы следующие утверждения.

1) Для любой траектории {s(t)} модели наилучших ответов sa(t + 1) 6= ga ïðè t ≥ r.

2) Для всякой адаптивной динамики с набором параметров t,τ } и памятью T sa(t + 1) 6= ga ïðè t ≥ rT.

Доказательство. 1) Предположим сначала, что стратегия ga ïîëó-

чена в результате последовательного исключения стратегий, строго доминируемых чистыми стратегиями. Проведем доказательство методом математической индукции по r. Пусть sa ga, ò.å. r = 1. Тогда стра-

тегия ga не является наилучшим ответом на любые стратегии других игроков. Следовательно, sa(t + 1) 6= ga ïðè t ≥ 1. Пусть утверждение доказано для любых стратегий из множества S1\Sr. По индуктивному предположению s(t) Sr при любых t ≥ r. Поэтому, начиная с шага r, можно ограничиться редуцированной игрой с множествами стратегий

Sra, a A. Возьмем ga Sra\Sra+1. В рассматриваемой редуцированной игре стратегия ga строго доминируема и sa(t + 1) 6= sa при любых t ≥ r.

143

ГЛАВА III. ИГРЫ МНОГИХ ЛИЦ

Перейдем к доминированию смешанными стратегиями. Пусть смешанная стратегия πa строго доминирует стратегию ga, ò.å. r = 1. Òî-

гда для любой ситуации s(t) найдется чистая стратегия sa, для которой

πsaa > 0 è ua(s(t)||sa) > ua(s(t)||ga). Следовательно, sa(t + 1) 6= ga ïðè любых t ≥ 1. Доказательство, как и для случая доминирования чистыми

стратегиями, завершается индукцией по r.

2) Пусть sa ga. Тогда стратегия ga не является наилучшим ответом игрока a ïðè t ≥ 2, а начиная с шага T + 1, она не входит в правые

части (12.1) и не влияет на поведение остальных игроков. Поэтому при t ≥ T + 1 можно рассматривать редуцированную игру с множествами

стратегий S2b b A. Далее проводятся рассуждения по индукции.

Пусть теперь стратегия ga строго доминируется смешанной стратегией πa. Тогда для любой ситуации s(τ) выполнено неравенство

Psa

πsaa ua(s(τ)||sa) > ua(s(τ)||ga), а отсюда

 

 

 

 

 

 

X X

 

 

 

 

 

 

 

X

λt,τa ua(s(τ)||ga).

 

 

 

 

 

sa

πsaa

λt,τa ua(s(τ)||sa) >

 

 

 

 

 

 

τ≤t

 

 

 

 

 

 

 

τ≤t

 

Следовательно, найдется такая стратегия

sa, для которой πsaa > 0 è

P

 

 

 

λa ua(s(τ)

 

sa) >

 

 

 

λa ua(s(τ)

 

ga). Поэтому sa(t + 1) = ga ïðè

 

 

t,τ

||

P

 

t,τ

a íå

 

||

 

6

 

τ

 

t

 

 

 

τ

 

t

 

влияет на выборы других игроков.

t ≥ 1, à ïðè t

 

T + 1 стратегия g

 

 

 

 

 

 

 

Поэтому, начиная с шага T + 1, можно рассматривать редуцированную

игру с множествами стратегий S2b b A. Далее проводятся рассуждения по индукции.

Утверждение 12.2. Пусть траектория {s(t)} соответствует набору адаптивных правил pa, a A и s(t) ≡ s при t ≥ t. Тогда s − равновесие по Нэшу игры .

Доказательство. Из условия вытекает, что

lim pa(sA\{a})|ht) = 0

t→∞

при любых sA\{a} = (sb, b

 

A

 

a

). Следовательно,

 

6

 

 

 

 

 

\{

}

 

 

tlim pa(

 

b, b A\{a})|ht) = 1 a A.

(12.2)

s

→∞

 

 

 

 

 

 

Предположим, что s не является ситуацией равновесия. Тогда найдется такая стратегия sa некоторого игрока a, что ua(s||sa) > ua(s). С учетом

144

13. Позиционные игры с полной информацией

(12.2) при достаточно большом t

X

X

pa(sA\{a} | ht)ua(sA\{a}, sa) >

pa(sA\{a} | ht)ua(sA\{a},

s

a).

sA\{a}

sA\{a}

Отсюда sa(t + 1) 6= sa, что противоречит условию.

Большой интерес представляют обратные результаты о сходимости адаптивных процессов к равновесиям по Нэшу (см. теоремы 5.3 и 10.5).

13. Позиционные игры с полной информацией

Многие реальные конфликтные ситуации имеют длительный характер. Их участники действуют неоднократно и с учетом информации о предшествующем развитии конфликта. Для соответствующих моделей общие теоремы существования решения для игр в нормальной форме не позволяют находить или даже конкретизировать оптимальное поведение из-за большого числа возможных стратегий. Для решения динамических игр с конечным числом игроков часто удобно использовать позиционное представление игры. Наиболее простым классом позиционных игр является класс конечношаговых позиционных игр с полной информацией. В такой игре на каждом шаге игры делает ход лишь один игрок, имеющий полную информацию о текущем состоянии, всех происходящих действиях и общей структуре игры. Это предположение обычно характеризуется как полная информация. Хорошо известными примерами таких игр являются шашки и шахматы. Многошаговые антагонистические игры с полной информацией рассматривались в 8. В этом параграфе будут получены более общие результаты.

Напомним пример 9.1 взаимодействия продавца (игрока 1) и покупателя (игрока 2). У продавца две стратегии: "честность"и "обман". У покупателя также две стратегии: "поверить"и "проверить". Матрицы выигрышей игроков имеют вид

 

 

ïîâ

ïðîâ

 

 

ïîâ

ïðîâ

 

честн

 

1

−1

,

честн

−1

1/2

.

A = обман

B = обман

 

 

0

0

 

 

0

1/2

 

Рассмотрим динамическую модификацию игры: пусть покупатель способен заметить, обвешивает его продавец или нет, т.е. он выбирает свой

145

ГЛАВА III. ИГРЫ МНОГИХ ЛИЦ

вариант поведения, зная поведение продавца. Соответствующая схема

 

 

честн 1bHHHHобман

 

 

 

изображена на рис. 13.1.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H

 

 

b@ ïðîâ

 

 

ïîâ b@ ïðîâ

 

 

 

 

ïîâ

 

 

 

 

 

 

 

 

 

 

HH

H2

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

@

 

 

 

 

 

 

 

 

 

@

 

 

 

 

@

 

 

 

 

 

 

 

@

 

 

@

 

 

 

 

 

@

 

(0, 0)

 

,

 

/

 

,

 

 

1, 1/2)

(0

b

1

(1

b

 

1)

(

 

b

 

 

2)

 

 

 

b

Ðèñ. 13.1

Интуитивно понятно, что рациональным поведением покупателя является выбор оптимального ответа, выделенного на рисунке жирными линиями. В свою очередь, продавец может выбрать оптимальную стратегию, зная реакцию покупателя. Ниже дается обобщение этого метода решения для любой игры с полной информацией. Приведем соответствующие формальные определения.

Определение. Конечным деревом, или ориентированным графом без циклов, называется пара (X, σ), ãäå X − конечное множество вершин,

или позиций, а отображение σ : X → X сопоставляет каждой вершине

ååближайшего предшественника, причем

существует единственная начальная вершина x0, такая, что σ(x0) =

x0;

существует целое l ≥ 0 , ÷òî σl(x) = x0 äëÿ âñåõ x X; наименьшее такое l называется длиной дерева (X, σ).

Любая вершина x, для которой σ−1(x) = , называется финальной вершиной дерева (X, σ), а множество всех таких вершин обозначается через T. Для нефинальных вершин x множество σ−1(x) состоит из преемников x, т.е. из следующих за x вершин. Ребра дерева (X, σ) называются

альтернативами.

Определение. Позиционной игрой с полной информацией называется

следующая совокупность:

D

G = A, (X, σ), ua(x), x T, a A; X\T = S Xa X0,

a A

E

x X0 p(x0|x), x0 σ−1(x) ,

ãäå

• A − множество игроков;

146

13. Позиционные игры с полной информацией

(X, σ) − конечное дерево с начальной вершиной x0 и множеством

Tфинальных вершин;

R = {Xa, a A, X0} − разбиение множества X\T на попарно

непересекающиеся подмножества;

• Xa множество позиций, в которых делает ход игрок a A; Xa называется множеством личных позиций игрока a.

X0 множество позиций, в которых "делает ход"случай;

ua : T → E1 функция выигрыша игрока a;

для каждого x X0 заданы вероятности

p(x0|x) > 0,

1

p(x0|x) = 1,

 

перехода из позиции x в позиции

0 P

1

 

x

σ

(x)

 

 

x0 σ(x).

X0) õî-

Разбиение R определяет, какой игрок (или случай, если x a

дит в каждой конкретной нефинальной вершине x. Если x0 X , a A,

то игра начинается с того, что игрок a должен выбрать следующую за x0 вершину, скажем, x1 σ−1(x0). Åñëè x1 − финальная вершина, то игра окончена и выигрыши игроков суть ua(x1), a A. Åñëè x1 − нефинальная вершина, то игрок b, для которого x1 Xb, имеет право хода и выбирает следующую за x1 вершину, скажем, x2 σ−1(x1) и т.д. Если в какой-то момент мы попадаем в вершину x X0 (в которой ходит случай), то с вероятностью p(x0|x) мы переходим к одной из вершин x0 σ−1(x), в которой продолжаем действовать способом, описанным

âûøå.

Если игрок a в вершине x Xa выбирает вершину x0 σ−1(x), то также будем говорить, что он выбирает соответствующую альтернативу

ребро дерева, соединяющего вершины x и x0.

1bPPPPP

 

 

 

 

 

 

 

b3 PPPPP 1

 

×

2

 

 

 

 

PPPP 0

 

 

 

 

 

 

 

 

P

 

 

 

 

b@

 

 

b@

 

b@

 

 

 

×

× ×

× × × × × ×

 

 

@

@

@

Ðèñ. 13.2

На рис. 13.2 отмеченные крестиками вершины являются финальными. В вершине 0 ходит случай, в остальных − игроки 1, 2 и 3.

Чтобы определить исход позиционной игры, для каждой позиции лю-

147

p(x|σ(x), µ) =
µa(σ(x)) = x,
x Xa
a A называется отображение µa, x Xa позицию, в которую он пе-

ГЛАВА III. ИГРЫ МНОГИХ ЛИЦ

бого игрока должна быть указана вершина, куда он перейдет. Введем для этого несколько понятий.

Определение. Стратегией игрока определяющее для каждой вершины

рейдет: µa(x) σ−1(x). Множество всех стратегий игрока a обозначим через a}.

Набор таких стратегий µ = (µa, a A) называется ситуацией. Для каждого x X для данной ситуации µ можно определить вероятность p(x|µ) перехода в позицию x. Ïðè ýòîì p(x0|µ) = 1 − игра всегда начи- нается с позиции x0.

В общем случае вероятность попасть в позицию x, непосредственно следующую за позицией игрока σ(x) Xa, a A, определяется по формуле p(x|µ) = p(σ(x)|µ)p(x|σ(x), µ), ãäå

(

1, åñëè

0в противном случае.

Åñëè æå σ(x) X0 позиция случая, то вероятность p(x|σ(x), µ) = p(x|σ(x)) задана условиями игры. Таким образом, для любой ситуации µ для каждого игрока a A определено среднее значение функции вы-

игрыша

ua(µ) = E(ua(x)|µ) = P p(x|µ)ua(x).

x T

Óïðажнение 13.1. На рис. 13.3 ребра дерева, соответствующие ситуации µ, выделены жирными линиями, а финальные позиции пронумеро-

âàíû îò 1 äî 6, ò.å. T = {1, ..., 6}. Найдите вероятности

p(x|

 

), x T.

 

 

0

 

 

 

µ

 

 

 

 

 

 

 

 

1

b

HHH 2

1

 

 

 

2 b@@

 

b@@

 

 

1 b@@

1/4 H 3/4

 

 

 

×

 

×

5 b@@

×

2

3

 

4

×

6

 

 

 

×

 

 

 

 

×

 

 

 

 

Ðèñ. 13.3

G.

E

мальной формой позиционной

D

 

Определение. Èãðà (G) =

 

A, {µa}, ua(µ), a A называется íîð-

èãðû

Для любой вершины z X можно рассмотреть позиционную поды-

148

на подыгру
подыгровым равновесием,

13. Позиционные игры с полной информацией

гру, начинающуюся из этой точки:

D E

Gz = A, (Xz, σz), Xz0, Xza, uaz(x), a A ,

ãäå

• Xz = {x |существует такое целое l ≥ 0, ÷òî σl(x) = z};

• σz есть сужение отображения σ íà Xz è σz(z) = z;

Xza = Xa ∩ Xz, a A, Xz0 = X0 ∩ Xz;

uaz(x) = ua(x), åñëè x Xz ∩ T .

Пусть µ = (µa, a A) − ситуация в игре (G). Обозначим через µz = (µaz, a A) − ее сужение на Xz, а через uaz) − значение выигрыша игрока a в ситуации µz. Таким образом, для любого z X определена

èãðà

a

a

(Gz) = DA, {µz

}, uzz), a AE нормальная форма для игры

Gz.

Упражнение 13.2. На рис. 13.4 изображено дерево игры G. В финальных позициях указаны векторы выигрышей игроков u(x) = (u1(x), u2(x))

èëè исходы игры.

 

0

 

 

 

 

 

 

 

1

b

HHH

2

1

 

 

 

2 b@@

 

b@@

 

 

 

1/4 H 3/4

 

 

 

 

 

b@@ (−×

 

z

b@@

 

 

 

×

 

 

 

2,2)

 

(1, 3)

 

 

 

 

1,1)

 

 

1)

(

 

(1,×2)

 

(3,

( 1×,2)

×

 

 

×

Ðèñ. 13.4

Запишите нормальную форму данной игры G и подыгры Gz, ñîîò- ветствующей случайному выбору правой альтернативы.

Определение. Ситуация µ = (µa, a A) называется совершенным

игры G, если для каждой вершины z X ситуация µz = (µaz, a A), ãäå µaz − сужение стратегии µa

(Gz), является равновесием по Нэшу в игре (Gz).

Алгоритм определения совершенного подыгрового равновесия (алгоритм Куна)

Алгоритм Куна состоит из последовательных редукций игры G.

Шаг 1. Рассмотрим множество Z1 предфинальных вершин, для которых все последующие вершины являются финальными: Z1 = {x | σ−1(x)

T }. Для каждой вершины x Z1 действуем следующим образом.

149

ГЛАВА III. ИГРЫ МНОГИХ ЛИЦ

1) Если в данной вершине ходит игрок a A (x Z1 ∩X0), то находим его наилучший выбор в ýтой вершине

 

µa(x)

 

Arg

max

 

ua(y)

 

 

 

 

 

 

y σ−1(x)

 

 

 

 

и доопределяем вектор выигрышей игроков в вершине

 

 

b

 

 

 

def

b

 

 

a

 

 

 

 

u x

 

 

A)

=

 

 

(x)), b

A .

( ) = (u

(x), b

 

(u

 

),)

то приписываем

2) Если в данной вершине ходит случай ( x Z1 ∩X0

 

 

этой вершине среднее значение вектора выигрышей среди возможных альтернатив

P

u(x) = p(y|x)u(y).

y σ−1(x)

В результате получили редуцированную игру с множеством финальных вершин Z1.

Шаг 2. Для этой игры аналогично шагу 1 находим множество нефи- нальных вершин Z2, для которых все последующие вершины в новом дереве являются финальными: Z2 = {x | σ−1(x) T Z1}. Äëÿ êàæ-

дой вершины x этого множества аналогично пунктам 1) и 2) определяем выборы µa(x) ïðè x Xa и вектор выигрышей u(x).

Далее аналогично продолжаем этот процесс для множеств

Z3 = {x | σ−1(x) T Z1 Z2},

Z4 = {x | σ−1(x) T Z1 Z2 Z3}

и т.д., пока очередное множество Zl не будет состоять только из начальной вершины x0. При этом полученная ситуация µ = (µa, a A) будет

совершенным подыгровым равновесием исходной игры G. Таким образом, доказано следующее утверждение.

Теорема 13.1. В любой конечной позиционной игре с полной информацией существует совершенное подыгровое равновесие. Соответствующие стратегии и выигрыши игроков задаются алгоритмом Куна.

Упражнение 13.3. Найти совершенное подыгровое равновесие в позиционной игре G, изображенной на рис. 13.4.

Пример 13.1. Модель внутриведомственного экологического контроля. Пусть первый игрок предприятие, имеющее две стратегии: 1

применять экологически чистый способ производства и 2 применять "грязный", но более дешевый способ. Второй игрок контролирующий

орган, принадлежащий тому же ведомству, что и предприятие. Он имеет две стратегии: 1 штрафовать за применение "грязного"способа произ-

водства, 2 пропускать экологическое нарушение ("закрывать глаза").

150