Васии А.А., Морозов B.B. Введение в теорию игр / Vasin_-_Vvedenie_v_teoriu_igr
.PDF12. Равновесие по Нэшу. Решение игр в нормальной форме
2) Пусть множество ˜ |
|
|
˜a |
слабо доминирует множество S â ñìå- |
|||||||||||||
|
|
|
|
S = |
|
a A |
S |
||||||||||
|
|
|
|
|
|
|
|
˜ |
|
|
|
|
|
|
|
|
|
шанных стратегиях и |
|
|
|
|
a a |
a |
|
|
|
|
смешанное равновесие |
||||||
|
|
|
|
Na |
|
|
|
|
|
|
|||||||
|
|
|
π˜ = (˜πs , s |
S , a A) − |
|
|
|
||||||||||
ïî Íýøó â èãðå ˜ |
|
|
|
˜a |
|
a |
(s), a A с сокращенными множества- |
||||||||||
|
= |
|
A, S |
, u |
|||||||||||||
|
Определим ситуацию в смешанных стратегиях |
|
исходной |
||||||||||||||
ми стратегий. |
|
D |
|
|
|
|
|
|
|
|
E |
|
|
|
π |
|
|
èãðû : для любого a A |
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
a |
|
|
|
a |
˜a |
|
|
|
|
|
|
|
|
|
a |
|
π˜sa , |
åñëè s |
|
S |
, |
|
|
|
|||
|
|
|
|
πsa = |
(0, |
åñëè sa / S˜a. |
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Тогда π − равновесие по Нэшу в исходной игре .
Модели игровой динамики
Модели этого типа развиты как альтернатива статическим принципам оптимальности (таким, как равновесие по Нэшу, решения по доминированию). Указанные принципы принятия решения требуют для своей реализации полной информированности игроков относительно условий игры (т.е. относительно множеств стратегий и функций выигрыша всех участников). Более того, игроки должны быть рациональны в принятии собственных решений и предполагать такую же рациональность от своих партнеров. Рассматриваемые динамические модели предъявляют значительно меньше требований к информированности и рациональности игроков и больше похожи на реальные методы принятия решений.
=
A, Sa, ua(s), a A с конечными множествами стратегий Sa, a A. Пусть игра повторяется в периоды времени t = 1, 2, .... Каждый игрок выбирает стратегию sa(t + 1) на период (шаг) t + 1, исходя из истории
ht = {s(τ) = (sa(τ), a A)}τ≤t, сложившейся к этому периоду. Бесконеч- ную последовательность ситуаций {s(t)} будем называть траекторией
процесса. Обозначим через H множество всевозможных историй, т.е.
H = S {ht}.
t≥1
Правило поведения игрока в этом процессе задается отображением
называется
µa : H → Sa. Совокупность ; µa, a A детерминирован-
ным игровым процессом.
Определим понятие адаптивного поведения. Смысл его состоит в том, что игрок прогнозирует вероятности реализации стратегий партнеров sA\{a} = (sb, b A\{a}), исходя из предыстории, и максимизирует соб-
ственный выигрыш на основании такого прогноза. В качестве примера
141
ГЛАВА III. ИГРЫ МНОГИХ ЛИЦ
рассмотрим модель наилучших ответов.
Процесс начинается с выбора игроками произвольных стратегий sa(1), a A. Далее после t шагов на следующем, (t + 1)-ì øàãå
sa(t + 1) Arg max ua(s(t)||sa), a A.
sa Sa
Таким образом, игрок максимизирует собственный выигрыш, исходя из предположения, что другие игроки не меняют своих стратегий по сравнению с предыдущим шагом.
В более общем случае предположения о поведении партнеров в момент времени t + 1 можно характеризовать набором параметров
{λat,τ ≥ 0}τ≤t, таким, что P λat,τ = 1. Игрок a считает, что с вероятностью
τ≤t
λat,τ в момент t + 1 повторится набор стратегий других игроков sA\{a}(τ), случившийся в момент τ. Исходя из этого, игрок a максимизирует математическое ожидание своего выигрыша. Следовательно,
|
|
|
X |
|
|
|
|
|
|
|
|
|
sa |
t |
max |
λa |
ua |
s τ |
sa |
, a |
|
A. |
(12 |
. |
1) |
( |
|
+ 1) Arg sa Sa |
t,τ |
( |
( )|| |
) |
|
|
|
τ≤t
Определение. Пусть T − минимальное число периодов, для которого t−τ > T λat,τ = 0 a A, t, τ. Тогда T называется памятью игрового процесса (игроки не помнят то, что происходило T шагов назад).
Примером процесса с бесконечной памятью является итерационный процесс Брауна для матричных игр, изложенный в 5,. или аналогичный процесс для биматричных игр из 10,. где λat,τ = 1/t для всех таких τ и
t, что τ ≤ t. В общем случае правило прогнозирования можно задать отображением pa(sA\{a}|ht), определяющем для игрока a субъективную вероятность реализации sA\{a} в зависимости от истории ht. При использовании правил прогнозирования pa, a A, на (t + 1)-м шаге игроки выбирают стратегии по правилу
X
sa(t + 1) Arg max pa(sA\{a} | ht)ua(sA\{a}, sa), a A.
sa Sa
sA\{a}
Адаптивные правила соответствуют ситуации, когда каждый игрок считает поведение партнеров, не зависящим от его собственного выбора. Он либо не учитывает возможного влияния выбора в текущий период
142
12. Равновесие по Нэшу. Решение игр в нормальной форме
на последующие повторения, либо они его не интересуют (не случайно другим названием модели наилучших ответов является "близорукое приспособление").
Динамика игровых процессов с адаптивными правилами поведения оказывается для многих игр хорошо согласованной с указанными выше статическими принципами оптимальности. Приводимые ниже утверждения подтверждают возможность использования понятий равновесия по Нэшу и доминирующих множеств для описания поведения индивидуумов с ограниченной рациональностью.
Определение. Правило прогнозирования pa назовем адаптивным, åñ-
рый встречается ятность pa(sA\{a}
, êîòî- â {s(t)} лишь конечное число раз, субъективная веро- |ht) стремится к нулю при t → ∞, ãäå {ht} − последо-
{s(t)}.
Упражнение 12.2. Покажите, что в процессе Брауна игроки используют адаптивные правила прогнозирования.
Теорема 12.5. Пусть последовательность множеств ситуаций
S = S1 S2 ... Sk получена в результате последовательного исклю- чения стратегий, строго доминируемых смешанными стратегиями, и
ga Sra\Sra+1 для некоторых a A, r {1, ..., k − 1}. Тогда справедливы следующие утверждения.
1) Для любой траектории {s(t)} модели наилучших ответов sa(t + 1) 6= ga ïðè t ≥ r.
2) Для всякой адаптивной динамики с набором параметров {λt,τ } и памятью T sa(t + 1) 6= ga ïðè t ≥ rT.
Доказательство. 1) Предположим сначала, что стратегия ga ïîëó-
чена в результате последовательного исключения стратегий, строго доминируемых чистыми стратегиями. Проведем доказательство методом математической индукции по r. Пусть sa ga, ò.å. r = 1. Тогда стра-
тегия ga не является наилучшим ответом на любые стратегии других игроков. Следовательно, sa(t + 1) 6= ga ïðè t ≥ 1. Пусть утверждение доказано для любых стратегий из множества S1\Sr. По индуктивному предположению s(t) Sr при любых t ≥ r. Поэтому, начиная с шага r, можно ограничиться редуцированной игрой с множествами стратегий
Sra, a A. Возьмем ga Sra\Sra+1. В рассматриваемой редуцированной игре стратегия ga строго доминируема и sa(t + 1) 6= sa при любых t ≥ r.
143