Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

1smol_yakov_e_r_metody_resheniya_konfliktnykh_zadach-1

.pdf
Скачиваний:
4
Добавлен:
19.11.2019
Размер:
1.15 Mб
Скачать

многозначной игры, в отношении которого условия указанных теорем могли бы удовлетворяться, поскольку многозначные игры, как правило, разрывны.

Теорема 3.1. В игре с компонентно замкнутым функционалом J[q, r] существует пессимистическое Ap-равновесие с любой заданной точностью

ε.

Доказательство. Вследствие ограниченности функционала J величина

0

4

(3.8)

J1

= sup inf J[q, r]

 

r P rRG q G(r)

 

 

 

 

конечна, причем из самого определения этой величины следует, с одной стороны, что для любого ε1 > 0 найдется стратегия rε1 P rRG такая, что

inf

J[q, r

 

]

J0

ε

,

(3.9)

q G(rε1 )

 

ε1

 

1

1

 

 

откуда следует

J[q, rε1 ] ≥ J10 − ε1, q G(rε1 ).

(3.10)

С другой стороны, из определения числа J10 следует, что если Rε1 означает множество всех стратегий rε1 , удовлетворяющих неравенству (3.9), то для любой стратегии r P rRG − Rε1 найдется стратегия qˆ G(r) такая, что

J[ˆq, r] ≤ J10 − ε1.

(3.11)

Из неравенств (3.9) и (3.10) следует неравенство

 

J[ˆq, r] ≤ J[q, rε1 ],

(3.12)

которое в силу неравенства (3.5a) показывает, что любая ситуация (q, rε1 ) G, ãäå q G(rε1 ), пессимистическая Ap2-экстремальная с точностью ε1.

Далее, из самого определения величины

0

4

 

 

]

 

 

J2

= inf J[q, rε1

 

q G(rε1 )

 

следует, с одной стороны, что для любого ε2 > 0 найдется стратегия qε2

G(rε1 ) такая, что

J20 < J[qε1 , rε1 ] ≤ J20 + ε2.

Отсюда следует, что для всех q G(rε1 ), за исключением некоторого сколь угодно малого множества Qε2 , зависящего от ε2, выполняются неравенства

J[qε2 , rε1 ] ≤ J20 + ε2 ≤ J[q, rε1 ],

211

OE:
Aopt-

из которых, в силу неравенства (3.5a), в котором роль rˆ < q > в данном

случае выполняет фиксированная стратегия rε1 , в свою очередь, следует, что ситуация (qε2 , rε1 ) Ap1-экстремальна. Поскольку же эта ситуация удовлетворя-

ет, по доказанному выше, также и неравенству (3.12), т.е. является также и Ap2-экстремальной, то, следовательно, она является ситуацией пессимистиче-

ского Ap-равновесия.

На следующих примерах демонстрируется, как находить вышеприведенные равновесия в антагонистических играх.

Пример 3.1. Рассмотрим антагонистическую игру, в которой 1-й игрок выбором допустимой для него чистой стратегии q стремится минимизиро-

вать функцию J(q, r) = q/(q + r), а 2-й игрок выбором чистой стратегии r из допустимого для него множества стремится максимизировать эту же функцию, рассматриваемую на множестве G = OEF чистых стратегий игроков, имеющем вид (см. рис. 4.4):

G = {(q, r) : r ≥ q, r ≤ E, q ≥ 0}.

Легко видеть, что функция J непрерывна всюду на G, кроме начала O = (0, 0) системы координат {Oqr}, где она многозначна и принимает значения из промежутка [0;1/2].

Множество многозначных A-равновесий, также как и множество пессими- стических Ap-равновесий, в этой задаче совпадает со всем игровым множеством G, а множество достижимых Ad-равновесий задается отрезком

Ad2 = G, Ad1 = OE, Ad = Ad1 ∩ Ad2 = OE. Множество оптимистических равновесий сводится к одной точке O:

Aopt2 = G \ (OE], Aopt1 = OE, Aopt = Aopt1 ∩ Aopt2 = O.

Множества многозначных седловых точек, пессимистических седловых то- чек и достижимых седловых точек сводятся каждое к отрезку OE, а множе-

ство оптимистических седловых точек совпадает с точкой O. (Поскольку же

множества многозначных и достижимых седловых точек в этой задаче не пусты, то не имеет смысла искать более общие множества многозначных и достижимых сильнозависимых седловых точек).

Точка O, являющаяся равновесием в смысле любого из сформулированных

выше понятий равновесия, оказывается наиболее устойчивым решением этой игры.

Все рассмотренные выше многозначные равновесия допускают довольно естественные усиления.

212

q Q, стремится ми-

q

6 F

G

- r

OE

Ðèñ. 4.4

Определение 3.11. Ситуацию (q , r )

значной зависимой седловой точкой в игре ционалом J[q, r], если

G назовем усиленной много-

ñнеоднозначным целевым функ-

J[q , r] ≤ J[q , r ] ≤ J[q, r ], q G(r ), r G(q ),

(3.13)

где любое из множества значений J[q , r] в каждой из точек (q , r), r G(q ) не больше любого из множества значений J[q , r ] в точке (q , r ); и аналогично, любое значение J[q , r ] в точке (q , r ) не больше любого зна- чения J[q, r ] в каждой из точек (q, r ), q G(r ).

Определение 3.12.Ситуацию (q , r ) G назовем усиленной As1- экстремальной в игре с многозначным функционалом J[q, r], если при фик- сированной стратегии r допустимой оказывается только одна стратегия q G(r ) или если любой стратегии q G(r )−q можно поставить в со- ответствие по крайней мере одну допустимую стратегию rˆ = rˆ < q > 2-го игрока (т.е. стратегию rˆ G(q)), так, чтобы имело место отношение

J

q, r

J

q , r

,

(3

.

14)

[

ˆ] ≥

[

]

 

 

где любое из множества значений J[q, rˆ] (в каждой из точек (q, rˆ)) не меньше любого из множества значений J[q , r ] функционала J в точке (q , r ). Подобным же образом с изменением смысла неравенства (3.4) и роли переменных q и r определяется многозначная A2-экстремальная ситуация:

J q, r

] ≤

J

q , r

.

. a

[

]

 

(3 14 )

Ситуацию (q , r ) G назовем ситуацией усиленного многозначного As- равновесия, если неравенства (3.14),(3.14a) удовлетворяются в точке (q , r ),

4

ò.å. åñëè A = A1 ∩ A2.

Пример 3.2. Пусть в антагонистической игре на множестве G = Q × R = [0, 1] × [0, 1] 1-й игрок, выбирая чистую стратегию

нимизировать, а 2-й игрок, выбирая чистую стратегию r R, стремится максимизировать функцию J(q, r) = q/(q + r). Множество G в этой задаче

213

q

6H F

G

- r

OE

Ðèñ. 4.5

компактно, а функция J(q, r) непрерывна всюду на G, кроме начала координат (q, r) = (0, 0), где она многозначна и принимает значения из промежутка

[0,1].

Решение. Множество усиленных многозначных As-равновесий â ýòîé çà- даче совпадает со всей прямоугольной областью G = OEF H на рис. 4.5. Множество пессимистических Ap-равновесий задается отрезками OE è OH:

AP1 = Ap2 = OE OH; а множество оптимистических Aopt-равновесий сводит- ся к одной точке O: Aopt1 = OE, Aopt2 = OH, Aopt = Aopt1 ∩ Aopt2 = {O}.

Множество многозначных зависимых седловых точек, являющееся подмножеством множества A, сводится к одной точке O; множество многознач- ных пессимистических седловых точек, являющееся подмножеством Ap, çà- дается суммой отрезков OE è OH; а множество многозначных оптимисти- ческих седловых точек, являющееся подмножеством множества Aopt, состоит лишь из точки O. Таким образом, ситуацию (q, r) = (0, 0), устойчивую в

смысле любого из рассмотренных выше равновесий и наиболее приемлемую для обоих игроков, естественно принять в качестве решения игры.

4.Антагонистические игры с дискриминацией

Âлюбой антагонистической игре наибольший интерес представляет самое сильное из равновесий, по существу, классическая или слабозависимая седловые точки, поскольку, приняв это равновесие, каждый из игроков гарантирует себе, при любых действиях противника и при собственном пассивном сохранении своей стратегии седловой точки, выигрыш не хуже того, который он получает в случае совместного принятия этого равновесия обоими игроками. К сожалению, как показано в предыдущих разделах, все виды седловых точек, даже наиболее общая из рассмотренных сильнозависимая, существуют в весьма ограниченном классе задач.

Если платежной функции каким-либо образом придать форму седла , то можно надеяться на существование даже классической седловой точки.

214

q(U0),

Обеспечить подобное любой непрерывной платежной функции (да и не только непрерывной) можно, например, если расширить класс исходных стратегий (называемых обычно чистыми стратегиями) до класса так называемыхсмешанных стратегий. Правда, игра в смешанных стратегиях, как расширение исходной игры, не эквивалентна ей, так как применение смешанных стратегий строго математически оправдано лишь тогда, когда исходная игра

âчистых стратегиях проигрывается бесконечное число раз. Седловая точка

âсмешанных стратегиях выражает усредненное по бесконечному множеству партий игры решение, которое оказывается совершенно неинтересным для игры, состоящей лишь из одной или нескольких партий.

Множество смешанных стратегий может быть введено, например, следующим образом. Пусть f0(u, v) платежная функция в антагонистической игре на множестве U × V , ãäå U è V компактные множества в конечномерных пространствах El è Em соответственено, и пусть 1-й игрок выбирает точку u U так, чтобы минимизировать функцию f , а 2-й игрок выбирает точку v V так, чтобы максимизировать f0. Для существования седловой точки в этой игре далеко не достаточно требования непрерывности функции f0(u, v). Однако седловая точка будет существовать, если множества U è V чистых стратегий u è v игроков расширить до множеств вероятностных мер

U0 U, r(V 0), V 0 V , называемых смешанными стратегиями (в дальней-

шем смешанными стратегиями будем называть также и функции распределения вероятности q(u) è r(v), соответствующие вероятностным мерам q(U0) è

r(V 0) соответственно). Множества U0 è V 0 можно считать принадлежащими борелевской σ-алгебре подмножеств рассматриваемых конечномерных пространств, а в качестве мер q(U0) è r(V 0) рассматривать счетно-аддитивные функции множеств, q è r, удовлетворяющие условию регулярности:

q(U0) = inf q(Su),

r(V 0) = inf r(Sv),

Su U0

Sv V 0

ãäå Su è Sv открытые множества в El è Em соответственно, причем q(U) = 1, r(V ) = 1, q(CU) = 0, q(CV ) = 0,

ãäå CU è CV дополнения множеств U è V в соответствующих конечно-

мерных пространствах.

Будем говорить, что 1-й (2-й) игрок применяет смешанную стратегию, если свое поведение он определяет в соответствии с функцией распределения

q(u) (соответственно, r(v)). Множество всех смешанных стратегий 1-го игрока, т. е. всех вероятностных мер q(U0) (или функций распределения q(u))

215

обозначим через Q. Аналогичным образом, пусть R означает множество всех

смешанных стратегий 2-го игрока. Платежной функцией в игре в смешанных стратегиях является функционал

J(q, r) = Z Z f0(u, v)dq(u)dr(v),

(4.1)

U V

 

который, как легко видеть, является билинейной функцией

J(q, r) относи-

тельно стратегий q è r, имеющей классическую седловую точку для лю-

бой непрерывной функции f0(u, v) [13]. Однако эта седловая точка окажется полезной в приложениях только в случае, когда разыгрывается достаточно большое число партий в игре. В случае же одной или небольшого числа партий седловая точка в смешанных стратегиях не представляет практического интереса.

Для практического поиска смешанных стратегий, образующих классиче- скую седловую точку, весьма полезным оказывается следующее предложение, являющееся частным случаем теоремы 1.4.4 из [46, с.49], дающей необходимые условия существования классической седловой точки в смешанных стратегиях.

Предложение 4.1. Пусть f0(u, v) непрерывная функция на U Ч V ;

U = (U1, . . . , Ul), V = (V1, . . . , Vm); Ui è Vi компактные подмножества вещественной оси; q è r пара смешанных стратегий, образующих клас-

сическую седловую точку. Тогда i-ое уравнение

[Zi

Z

0

 

 

]i

= 0 ¯i

¯i

 

i

¯i

6= ¯i

 

(4 2)

 

 

f dr dq

i

i1

0

, u

1

U , u

0

1

,

.

 

 

 

0

, u

 

 

 

u

U

V

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ui = U1 × . . . × Ui−1 × Ui+1 × . . . × Ul, qi = q1 . . . qi−1qi+1 . . . ql, i = 1, l,

выполняется для любой пары точек u¯0i , u¯1i Ui, qi-ìåðà каждой из которых положительна, а i-ое уравнение

Zi

Z

∂ui dr dqi , i = 1, l,

(4.3)

U

V

∂f0

 

 

 

 

 

выполняется в каждой внутренней точке ui множества Ui, qi-ìåðà êî- торой положительна (и, в частности, в точке ui Ui, в которой она вся сосредоточена, т. е. в случае чистой внутренней стратегии 1-го игрока); кроме того, это уравнение удовлетворяется на любом интервале

216

(¯u0i , u¯1i ) Ui, в каждой точке которого мера qi имеет ненулевую плот- ность по отношению к мере Лебега. Аналогичные уравнения имеют место для 2-го игрока.

Согласно теореме 2.4 в задачах с непрерывной платой f0(u, v) на независимых множествах, т. е. в случае W = U × V , всегда имеет место равенство

min max J = max min J,

(4.4)

q Q r R

r R q Q

 

означающее, что всякое решение минимаксной задачи есть одновременно и решение максиминной. В этом случае знание любым из игроков стратегий

противника, т. е. мер q è r, не дает ему преимущества.

Рассмотрим простейший пример, в котором классическая седловая точка в классе смешанных стратегий достигается.

Пример 4.1. Пусть два участника играют в антагонистическую игру, в которой предполагается реализация очень большого числа партий. И пусть плат¼жная функция в этой игре имеет вид f0 = (v − u)2, ãäå u это выбор 1-м игроком в любой из партий игры такой стратегии, т.е. такой точки на множестве [0,1], которая обеспечивает минимизацию функции f0(u, v), à v [0, 1] это такой выбор 2-го игрока, который обеспечивает максимиза-

цию этой функции. Поскольку партий много, то игроки могут использоватьсмешанные стратигии , т.е. вероятностные меры (или функции равспреде-

ления веростности) q(u) è r(v), определяющие их вероятностные выборы то-

чек из множества [0,1] в каждой партии. В результате усредн¼нное значение плат¼жной функции в одной партии определится интегралом (4.1). Найд¼м оптимальные стратегии участников в этой игре, воспользовавшись необходимыми условиями оптимальности их стратегий, задаваемыми равенствами (4.2) и (4.3). Из (4.3) получаем

1

 

1

 

 

1

 

 

 

Z0

vdr − u = (vr)01 Z0

rdv − u = 1 − u − Z0

rdv = 0, 0

< u < 1,

(4.5)

 

1

 

 

1

1

 

 

 

v − Z0

udq = v − (uq)01 + Zo

qdu = v + Z0

qdu − 1 = 0, 0

< v < 1,

(4.6)

Поскольку уравнению (4.5) может удовлетворять только одно значение u (0, 1) (вследствие линейности этого уравнения по u), то в интервале

(0,1) не может быть более одной точки, q(u)-мера которой положительна, и не может быть подынтервала в (0, 1), на котором мера q(u) абсолютно или

217

сингулярно непрерывна. То же самое справедливо с уч¼том равенства (4.6) в отношении меры r(v).

Отсюда следует, что мера q(u) могла бы быть сосредоточена только в трех точках: 0, 1 и u (0,1). Однако нетрудно убедиться, что одновременно эти три точки не могут быть точками равновесной ненулевой q(u)-меры. В самом деле, в этом случае в точке u должно было бы удовлетворяться уравнение (4.5), а три пары точек {0, u}, {u, 1}, {0,1} должны были бы удовлетворять уравнению (4.2). Однако эти три уравнения, имеющие вид

1

 

 

 

Z0

rdv = 1 − (1/2)(0 + u),

(4.7)

1

 

 

 

Z0

rdv = 1 − (1/2)(u + 1),

(4.8)

 

Z

1

 

 

rdv = 1/2,

(4.9)

0

несовместимы с уравнением (4.5).

Если стратегия 2-го игрока смешанная, сосредоточенная в граничных точ- ках 0 и 1, а 1-го чистая u (0, 1), то стратегия 1-го должна удовлетворять

уравнению (4.5), а стратегия 2-го соответствующему уравнению (4.2), при-

нимающему вид

1

Z

qdu = 1/2.

(4.10)

0

Подстановка чистой стратегии u в последнее уравнение означает, что вместо интеграла в левой части уравнения (4.10) следует подставить величину u, что приводит к результату u=1/2. А подстановка этого значения u в уравнение (4.5) приводит последнее к виду (4.9). Учитывая, что мера r(v) может быть сосредоточенной только в точках 0 и 1 (а следовательно, функция распределения вероятности r(v) должна быть кусочно-постоянной), из (4.9) получаем, вычисляя интеграл в левой части (т.е. подставляя в него r = const), ÷òî r(v)=1/2, а следовательно, точки 0 и 1 должны выбираться 2-м игроком с

равной вероятностью 1/2. Проверка показывает, что найденная пара стратегий участников является оптимальной для обоих и обеспечивает реализацию классической седловой точки в смешанных стратегиях.

218

Âдальнейшем в этом разделе мы будем, в основном рассматривать игры,

âкоторых множества чистых стратегий игроков оказываются зависимыми в

том смысле, что множество пар (u, v) может выбираться игроками лишь таким образом, что компактное множество W всех допустимых пар должно являться собственным (строгим) подмножеством множества U ×V , где через U обозначим проекцию множества W на пространство El, а через V проекцию W íà Em. В подобных "играх на зависимых множествах"помимо решений в

смысле седловой точки не меньший интерес могут представлять решения, учитывающие те или иные формы дискриминации игроков, поскольку, вопервых, никаких седловых точек в игре может не существовать, а во-вторых, при независимом выборе игроками своих чистых (или смешанных) стратегий

значения вектора (u, v) могут оказаться за пределами допустимого множества W . Под дискриминацией игроков будем понимать разную степень их

информированности о стратегии противника и неодновременность исполнения ими своих стратегий.

Рассмотрим игры, в которых один из игроков имеет возможность полу- чать какую-либо информацию о стратегии противника, а другой не знает его стратегии. Пусть, например, 1-й игрок располагает некоторой информацией о стратегии 2-го игрока и стремится обеспечить минимум заданного функционала, а 2-й игрок ничего не знает о его стратегии и стремится к достижению максимума этого же функционала, имея, однако, право "первого хода т. е. реализации своей стратегии первым. В этом случае 2-й игрок будет заинтересован в том, чтобы 1-й не угадал его выбор, а следовательно, он будет заинтересован в применении такой стратегии, которая дезориентирует 1-го игрока; подобной стратегией может являться смешанная стратегия вероятностная мера, определенная на множестве чистых стратегий.

Всюду в этом разделе через Ui будем обозначать проекцию множества W íà i-ую координату пространства El ( U), а через Vk проекцию W íà k-ую координату пространства Em ( V ). Через Pq будем обозначать носитель ме- ðû q, т. е. такое наименьшее замкнутое множество в U, дополнение которого

имеет q-меру нуль; аналогично определяется Pr . Пусть Q множество всех вероятностных мер (или функций распределения) q с носителями в U, à R множество всех вероятностных мер r с носителями в V ; G множество всех "независимых"пар вероятностных мер (или функций распределения) q è r, допустимых по множеству W , т. е. таких, что носитель Pqr ìåðû qr (где произведение qr коммутативно) непуст и лежит в W . Особо подчеркнем, что Gэто не множество всех возможных вероятностных распределений {qr } на

219

W , которое можно было бы задать через маргинальные и условные распределения q è r, а множенство G это множество только "независимых"пар распределений, т. е. множество вероятностных мер q è r, произведение но-

сителей которых непусто и лежит в W : Pq × Pr W . Ìåðû èç G будем называть допустимыми.

Пусть, далее, P rQG это проекция множества G на пространство Q, т. е. это множество всех тех мер q Q, каждой из которых можно поставить в соответствие по крайней мере одну меру r такую, что qr G, при этом оказывается, что Pq × Pr W ; G(q) это сечение множества G.

Чтобы пояснить особенности, характерные для случая, когда W собственное подмножество множества U × V , рассмотрим множество W в виде отрезка u = v ïðè u [0, 1] на эвклидовой плоскости {u, v} = E2. Очевидно, åñëè q это мера, сосредоточенная более чем в одной точке множества U =

[0,1], например в 0 и 1, то у 2-го игрока, определяющего, допустим, свое состояние после сделанного выбора 1-ым игроком, не найдется ни одной меры r такой, чтобы Pq ×Pr W . Следовательно, задача на указанном множестве может рассматриваться лишь при условии, что игроки применяют только чистые стратегии меры с одноточечными носителями, образующие множество G, в котором носитель меры-произведения qr лежит в W . ßñíî, ÷òî î

независимом выборе состояний (стратегий) в этой задаче не может быть и речи, поскольку при произвольном выборе u [0, 1] = U è v [0, 1] = V

точка (u, v) не обязана принадлежать W .

В играх на множестве U ×V , независимо от класса функций f0(u, v), всегда можно найти класс стратегий игроков, в котором седловая точка существует: в качестве такого класса можно взять счетно-аддитивные или конечноаддитивные меры, или даже меры, определенные на пространстве мер. Однако, если рассматривается максиминная задача на множестве W ( U ×V ),

являющемся собственным (строгим) подмножеством прямого произведения U × V своих проекций, то даже для непрерывной функции f0(u, v) в общем случае нельзя надеяться на существование не только независимой, но и сильнозависимой седловой точки ни в каком классе стратегий. Тогда максиминная задача должна рассматриваться с той дискриминацией, которая вводится конкретной формулировкой максимина, как это будет делаться ниже.

В максиминных задачах в смешанных стратегиях можно ввести несколько форм дискриминации одного из игроков, различающихся степенью информированности другого о его поведении [46]. Наибольший прикладной интерес представляют, пожалуй, две крайние формы дискриминации, приводящие к

220