Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

TI_v_EMM_2014

.pdf
Скачиваний:
8
Добавлен:
27.05.2015
Размер:
3.52 Mб
Скачать

V = V = max α(P) ≥ α(P0)

(7.)

P S A

 

Совокупность неравенств (6.) и (7.) эквивалентны равенству (5.). Достаточность доказана.

Итак, утверждение 1. доказано.

Докажем утверждение 2. Рассуждения аналогичные.

Необходимость. Пусть Q0 является оптимальной стратегией игрока В. Тогда, рассматривая β(Q0) как показатель β(Q0,SА) неэффективности стратегии Q0 относительно множества SА смешанных стратегий игрока А, будем иметь:

V= β( Q0)= β(Q0,SА) = max Н(Р, Q0),

P S A

откуда получаем неравенство (12.)

Достаточность. Пусть для некоторой стратегии Q0) игрока В справедливо неравенство (2.). Поскольку

это неравенство выполняется для любой стратегии Р SА игрока А, то оно будет справедливо и для

max

 

 

 

 

 

P S A

Н(Р, Q0), т.е.

 

 

 

β( Q0)= β(Q0,SА) = max Н(Р, Q0) ≤ V

(8.)

 

 

 

P S A

 

 

 

но

 

 

 

 

 

 

 

 

V V min (Q) (Q0 )

(9.)

 

 

 

Q SB

 

 

 

Из равенства (8.) и (9.) получаем равенство β( Q0)= V,

которое означает, что стратегия Q0 является

оптимальной.

 

 

 

Теорема .1. остается в силе, если в ее формулировке множества смешанных стратегий SА

и SВ

заменить на множество S AC и S BC . А именно имеет место

 

 

 

Теорема 2. Пусть V — цена игры, H(P,Q) — функция выигрыша,

S AC ={А1,…,Аm} и {В1,…,Вn}—

множество чистых стратегий соответственно игроков А и В.

 

 

1) Для того чтобы стратегия Р0 игрока А была оптимальной необходимо и достаточно, чтобы

 

Н(Р, Вj)≥ V, j =1, …, n.

 

(10.)

 

2) Для того чтобы стратегия Q0 игрока В была оптимальной необходимо и достаточно, чтобы

 

Н(Аi, Q0) ≤ V, i =1, …, m.

 

(11.)

 

Доказательство. Достаточно установить эквивалентность неравенств (1.) и (10.).

 

Докажем эквиваленцию

 

 

 

(1.) (10.)

(12.)

 

 

Пусть справедливо неравенство (1.). Так как это неравенство имеет место для любой стратегии Q SB игрока В, то оно, в частности, будет справедливым и для его чистых стратегий Вj S BC , j =1, …, n, т.е. неравенство (10.) имеет место. Таким образом, импликация (1.) (10.) доказана.

 

 

 

 

 

 

 

n

 

Теперь пусть имеет место неравенство (10.). Тогда по формуле (10.) с учетом, что q j

1 , получим:

 

 

 

 

 

 

 

j 1

 

 

n

 

n

n

 

 

 

 

H (P0 , Q) H (P 0 , B j )q j

Vq j V q j

V ,

Q SB ,

 

 

 

j 1

 

j 1

j 1

 

 

 

 

т.е.

доказано

неравенство

(1.).

Таким

образом,

справедлива

импликация

(10.) (1.) и, следовательно, эквиваленция доказана.

 

 

 

 

Теперь докажем эквиваленцию

 

 

 

 

 

 

 

 

(2.) (11.)

 

 

(13.)

 

 

Поскольку S AC SА, то из неравенства (2) следует неравенство (11). Обратно, пусть справедливо (11.).

 

 

n

 

 

 

 

 

 

Тогда с учетом равенства qi 1 , будем иметь:

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

m

 

m

m

 

 

 

 

H (P, Q0 ) pi H ( Ai , Q0 ) piV V pi

V , Р=SА ,

 

 

 

i 1

 

i 1

i 1

 

 

 

 

т.е. справедливо ( 2.).

Таким образом, эквиваленция (13.) доказана.

41

Поскольку теоремы 1 и 2. дают необходимые и достаточные условия одного и того же утверждения, то они эквивалентны.

Теорема 2 дает возможность установить геометрическую интерпретацию множества оптимальных стратегий игрока.

Следствие .1. Множество S A0 оптимальных стратегий игрока А является выпуклым многогранником

(политопом), содержащимся в симплексе S A всех смешанных стратегий игрока А.

Множество S В0 оптимальных стратегий игрока В является выпуклым многогранником (политопом),

содержащимся в симплексе S В всех смешанных стратегий игрока В.

Доказательство. Для каждой оптимальной стратегии Р0 = ( р10 ,..., рm0 ) игрока А по необходимой части утверждения 1) теоремы 2 справедливо неравенство (10), которое можно переписать следующим образом:

 

 

m

 

 

 

 

pi0 aij

V , j 1,..., n.

 

 

 

 

i 1

 

 

 

Множество точек Р0 = ( р 0

,..., р 0

) m – мерное пространство Rm, координаты

p 0

, i =1, …, m, которых

1

m

 

 

i

 

удовлетворяют этому неравенству для фиксированного j {1,…,n}, является замкнутым полупространством, а множество точек Р0 = ( р10 ,..., рm0 ), координаты pi0 , i =1, …, m, которых

удовлетворяют этому неравенству для всех j =1, …, n, является пересечение конечного числа n замкнутых полупространств и называется выпуклым замкнутым полиэдром. А так как к тому же множество

оптимальных стратегий S A0 игрока А ограничено, поскольку оно является подмножеством симплекса всех его смешанных стратегий S A , то S A0 является выпуклым многогранником(политопом).

Это утверждение для множества оптимальных стратегий S В0 игрока В доказываются аналогично.

Втеоремах 1. и 2 критерии оптимальности стратегий сформулированы в предположении, что априори известна цена игры V.

Вследующей теореме в терминах смешанных стратегий дается критерий решения игры (т.е. совокупности цены игры V и пары оптимальных стратегий Р0 и Q0 соответственно игроков А и В).

Теорема 3. Для того чтобы V было ценой игры, а Р0 и Q0 – оптимальными стратегиями соответственно игроков А и В, другими словами, для того чтобы { Р0,Q0 , V }было решением игры, необходимо и достаточно выполнение двойного неравенства

H (P, Q0 ) V H (P0Q)

(.14)

Для любых Р S A и Q S В .

Доказательство. Необходимость. Пусть V – цена игр и Р0 , Q0 – оптимальные стратегии. Тогда необходимой части теоремы 1. справедливы неравенства (2) и (1), которые можно записать в виде двойного неравенства (14).

Достаточность. Пусть для некоторого числа V и некоторой стратегии Р0 игрока А и Q0 игрока В

выполняется двойное неравенство (14). Так как это неравенство выполняется для любых Р S A

и Q

S

В

, то в частности оно будет выполнятся и для Р= Р0, Q= Q0:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H (P, Q0 ) V H (P0Q0 ) ,

 

 

 

 

 

 

 

 

 

Т.е.

 

 

V H (P0Q0 )

 

 

 

(15)

 

 

 

 

Подставим это значение V в неравенство (14):

 

 

 

 

 

 

 

 

 

 

 

 

 

H (P, Q0 ) H (P0 , Q0 ) H (P

0 , Q), P S

A

, Q S

B

(16)

 

 

 

 

 

 

 

 

 

 

 

 

 

Поскольку неравенство (2.10.16) справедливо для любых Р S A и Q S В , то

 

 

 

 

 

 

 

max H (P,Q0 ) H (P0 ,Q0 ) min H (P0 ,Q) ,

 

 

 

 

 

 

 

 

 

 

P S A

Q SB

 

 

 

 

 

 

 

 

 

Или

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(Q0 ) H (P0 , Q0 ) (P0 ) .

 

 

 

 

 

 

 

 

 

Отсюда по определению верхней и нижней цен игры, получим:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

V min (Q) (Q0 ) H (P0 ,Q0 ) (P0 ) max (P) V

(17)

 

 

 

 

 

 

Q SB

 

 

P S A

 

 

 

 

 

Но, по основной теореме матричных игр фон Неймана, V V и потому из (17) получаем равенство:

42

 

 

 

 

 

V (Q 0 ) H (P 0 , Q 0 ) (P 0 ) V

(18)

 

 

 

 

 

Из (15) и (18) следует, что V – цена игры, а также справедливость равенства

V (Q0 ) H (P0 ,Q0 ) (P0 ) , которое по определению оптимальных стратегий, означает, что Р0 и Q0 – оптимальные стратегии соответственно игроков Аи В.

Аналогично теореме 2 в формулировке 3 множества смешанных стратегий S A и S В можно заменить

соответственно на множество чистых стратегий S AС = {A1,…,AmS В0 = {В1,…,Вn}, т.е. справедлива

Теорема .4. Для того чтобы V была ценой игры, а Р0 и Q0 – оптимальными стратегиями соответственно игроков А и В, необходимо и достаточно выполнение двойного неравенства:

Р(A ,Q0 ) V H(P0

, B

) , i =1, …, m, j =1, …, n.

(19)

i

j

 

 

Доказательство. Так же как и в доказанной теореме 2 достаточно установить эквивалентность неравенствам (14) и (19).

Пусть справедливы неравенства (14). Так как оно имеет место для любых Р S A и Q S В , то , в

частности , оно справедливо и для любых чистых стратегий Р= Ai , i =1, …, m, и Q = Bj , j =1, …, n, т.е. справедливо двойное неравенство (19).

Докажем обратное следствие: (19) (14).

 

 

 

m

n

 

 

 

 

 

 

 

Пусть имеет место неравенство (19). Тогда из него и равенства pi

qi

1 , получим:

 

 

 

 

 

 

 

i 1

j 1

 

 

 

 

 

 

 

 

m

m

m

n

 

 

 

 

 

 

 

H (P, Q0 ) pi H ( Ai , Q0 ) piV V pi V V qj

 

 

 

 

 

 

 

 

i 1

i 1

i 1

j 1

,

 

 

 

 

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

V Vqj

H (P0 , B j )q j H (P0 , Q), P S A , Q S B

 

 

 

 

 

 

 

j 1

j 1

 

 

 

 

 

 

 

 

 

 

Т.е. справедливо (14).

 

 

 

 

 

 

 

 

 

 

Пример2. Предположим,

что в условиях примера 1 мы априори знаем, что V=0,625 –цена игры, а

Р0=(3/8,5/8) и Q0(1/4,0,3/4) – оптимальные стратегии. Покажем , как можно воспользоваться достаточной

частью теоремы 2.10.4. для установления цены игры и оптимальности стратегий игроков.

 

 

 

 

 

 

 

 

H ( A , Q 0 )

 

H(P0 , B

j

)

 

Расположим указанные в примере 1 значения функции выигрыша

i

 

, i =1, 2;

 

 

 

,

 

 

 

 

 

 

j =1, 2,3, в неубывающем порядке:

 

 

 

 

 

 

 

 

 

H ( A , Q0 ) 0,625;

 

H ( A2, Q0 ) 0,625;

H (P0 , B ) 0,625;

 

H (P0 , B3)

0,625;

1

 

 

1

 

 

 

 

 

 

 

 

H (P0 , B2) 0,656.

Из этой последовательности очевидно, что выполнение H ( Ai , Q 0 ) 0.625 H (P 0 , Bj) , i =1, 2, j

=1, 2,3.

Тогда по достаточной части теоремы 2.10.4 значение V=0,625 является ценой игр, а Р0=(3/8,5/8) и Q0(1/4,0,3/4) – оптимальными стратегиями.

Сформулируем еще один критерий решения игры в терминах седловых точек функции выигрыша. Теорема 5. Для того чтобы V было оценкой игры, а Р0, Q0 – оптимальные стратегии соответственно

игроков А и В необходимо и достаточно, чтобы (Р0, Q0) была седловой точкой функции выигрыша Н (Р, Q) и

Н(Р0, Q0)= V

(20)

Доказательство. Необходимость. Пусть V-цена игры и Р0, Q0 – оптимальные стратегии. Следовательно, по необходимой части теоремы 3 выполняется неравенство (14). Но тогда, как было доказано и достаточной части теоремы 3, имеет место неравенство (16), которое означает, что Р0, Q0 – седловая точка функции выигрыша Н (Р, Q).

Так как V – цена игры и Р0, Q0 – оптимальные стратегии, то равенство (20) выполняется по определению

(§2.9).

Итак, необходимость доказана.

Достаточность. Р0, Q0 – седловая точка функции выигрыша Н (Р, Q) и имеет место равенство (20). По определению седловой точки справедливо неравенство (16).Подставив в него равенство (20), получим неравенство (14), из которого, по достаточной части теоремы 3 вытекает, что V- цена игры, а Р0, Q0 – оптимальные стратегии соответственно игроков А и В.

Так как теоремы 3, 4, 5 представляют необходимые и достаточные условия решения игры, то они эквивалентны.

Теперь рассмотрим некоторые важные свойства оптимальных стратегий.

43

Пусть Р0=( р10 ,..., рm0 )- оптимальная смешанная стратегия игрока А. В общем случае, некоторые из

вероятностей

р 0

,...,

р 0

могут быть равными нулю. Если

p 0

=0, где i- одно из чисел 1,…,m, то в

 

1

 

m

 

i

 

оптимальной смешанной стратегии Р0=( р10 ,..., рm0 ) чистая стратегия Аi не участвует и потому называется

пассивной. Чистые стратегии Аi , входящие в оптимальную стратегию Р0 с положительной вероятностью, называется активной. Таким же образом определяются активные стратегии игрока В. Понятно, что оптимальная чистая стратегия является активной. Следующая теорема об активных стратегиях играет существенную роль в решении игр.

Теорема 6. (об активных стратегиях) Пусть V – цена игры, Р0=( р10 ,..., рm0 ) и Q0=( q10 ,..., qm0 ) – оптимальные стратегии соответственно игроков А и В. Тогда

1) Для любой активной стратегии Ak (k {1,..., m}) игрока А выполняется равенство

H ( A , Q 0 ) V

(21)

k

 

2)Для любой активной стратегии Bl (l {1,..., n}) игрока B выполняется равенство

H (P0 , B ) V

(22)

l

 

Доказательство: Докажем утверждение 1) теоремы. Допустим противное этому утверждению, т.е.

допустим, что найдется активная стратегия Ак игрока А такая, что

 

H ( A , Q 0 ) V

(23)

k

 

Так как Q0 – оптимальная стратегия игрока В, а V- цена игры, то, по необходимой части теоремы 2,

H ( A , Q 0 ) V , i 1,..., m

(24)

i

 

В частности неравенство (24) будет справедливым и для i=k, т.е.

 

H ( A , Q 0 ) V

 

k

 

Из этого неравенства и предположения (10.23) следует строгое неравенство.

 

H(Ak,Q0) < V

(25)

Так как Ак - активная стратегия, то, по определению, pк0 >0 и , тогда из неравенства (25) получаем

 

рк0 H(Ak,Q0) < рк0 V

(26)

Для остальных номеров I, отличных от к, из неравенства (24), учитывая, что

pi0 =0, имеем

 

рi0 H(Ak,Q0) <

рi0 V, i {1,...,m} \ {k}

(27)

 

 

m

 

Суммируя неравенства 26 и 27 и, помня, что pi0 1, получим

 

 

 

i 1

 

m

m

m

 

 

рi0 H(Ak,Q0) <

рi0 V = V рi0 = V

(28)

i 1

i 1

i 1

 

 

m

 

 

Но

рi0 H(Ai,Q0) = Н(Р0, Q0)

 

i1

Ипотому неравенство (2.10.28) можно переписать в виде неравенства

Н(Р0, Q0)< V

Но так как V – цена игры, Р0, Q0 – оптимальные стратегии, то, по их определению должно выполняться

равенство

Н(Р0, Q0) = V

Полученное противоречие доказывает утверждение 1) теоремы.

Утверждение 2) доказывается аналогично. В предложении противго утверждению 2) найдется активная стратегия Вl игрока В, для которого

H (P0 , B ) V

(29)

l

 

Поскольку Р0- оптимальная стратегия игрока А, а V- цена игры, то по необходимой части теоремы 2,

H (P 0 , B ) V , j 1,..., n

(30)

l

 

Из этого неравенства при j=l и предположения (2.10.29) следует неравенство

 

H(Р0l) > V

 

Из которого, в силу ql0 >0, получаем

 

ql0 H(Р0l) > ql0 V

(31)

44

Из неравенства (30)

 

 

 

 

q

0

H(Р0l) ≥ q0

V, j l

(31)

 

j

j

 

 

Просуммировав неравенства 31 и 31 получим неравенство

 

n

 

n

n

 

Н(Р0, Q0) = q0j H(Р0j) >

q0j V = V q0j = V

 

j 1

 

j 1

j 1

 

Которое противоречит равенству Н(Р0, Q0) = V, определяющему оптимальные стратегии Р0 и Q0. Утверждение 2) доказано.

Теорема об активных стратегиях означает, что если один из игроков действует по своей оптимальной смешанной стратегии, то выигрыш не изменится и останется равным цене игры V, при условии, что другой игрок придерживается любой своей чистой активной стратегии.

Заметим, что активная стратегия Ak игрока А, для которой по теореме 6, хотя и выполняется равенство H(Ak,Q0) = V, может не быть оптимальной по причине невыполнения равенства ( Ak ) V . Аналогичное

замечание имеет место и для активных стратегий Вl игрока В.

Теорему 6 эквивалентным образом сформулировать в терминах так называемых «смесей чистых

активных стратегий». Определим это понятие.

 

 

Пусть Р0=( р 0 ,...,

р 0 )

– смешанная оптимальная стратегия игрока

А, I – произвольное

непустое

1

m

 

 

 

 

подмножество множества

{ i {1,..., m} : p 0 >0}= { i {1,...,m} }: Ai –

активная стратегия}

номеров

 

 

 

i

 

 

активных стратегий игрока А относительно данной смешанной оптимальной стратегии Р0.

 

Смешанная стратегия Р0=( р 0

,..., р 0 ) такая, что

 

 

 

 

1

m

 

 

 

 

 

0,i I

 

 

 

 

 

pi

(33)

 

 

 

 

0,i {1,...,m} \ I

 

 

Называется смесью чистых активных стратегий игрока А.

 

 

Если, в частности { I {1,..., m} : p 0 >0}, то смесь Р0=( р 0

,..., р 0 ) активных стратегий называется

 

 

i

 

 

 

1

m

 

 

 

полной. Если же множество I состоит из единственного номера к, то смесь активных стратегий

превращается в активную стратегию Ак

 

 

 

 

 

 

 

 

 

Аналогичным образом определяются смеси чистых активных стратегий игрока В.

 

 

Теорема 7. (о смесях активных стратегий) Пусть V – цена игры, Р0=( р 0 ,...,

р 0

) и Q0=( q 0

,..., q 0 ) –

 

 

 

 

 

 

 

 

1

m

1

n

оптимальные смешанные стратегии. Тогда

 

 

 

 

 

 

 

 

 

1) Для любой смеси активных стратегий Р0=( р ,...,

р

m

) игрока А справедливо равенство

 

 

 

1

 

 

 

 

 

 

 

 

 

 

H(Р,Q0) = V

 

 

 

 

 

(34)

 

 

2) Для любой смеси активных стратегий Q0=( q ,..., q

n

) игрока В справедливо равенство

 

 

 

1

 

 

 

 

 

 

 

 

 

 

Н(Р0, Q) = V

 

 

 

 

 

(35)

 

 

Доказательство. Докажем утверждение 1).

 

 

 

 

 

 

 

 

 

m

 

рi Н(Аi, Q0) = рi Н(Аi, Q0) + рi Н(Аi, Q0)

 

 

 

Н(Р0, Q) =

 

(36)

 

i 1

 

i I

 

 

 

i I

 

 

 

Так как Р0=( р ,..., р

m

) – смесь активных стратегий, то

р

i

= 0 для i I и потому вторая сумма в

1

 

 

 

 

 

 

 

 

 

правой части равенства 36 равна 0. В первой части равенства 36 суммирование ведется по индексу i I и потому рi > 0, а, следовательно , Аi, i I , - активные стратегии игрока А. Тогда, на основании

утверждения 1) теоремы 6 активных стратегиях, Н(Аi, Q0) = V, i I . Поэтому из 36 получаем неравенство

34.

 

H(Р,Q0) =

рi V = V

рi = V

 

 

i I

i I

 

 

Аналогичным образом доказывается утверждение 2). А именно

 

n

n

 

n

n

Н(Р0, Q) =

q j Н(Аi, Bj) = q j

Н(Р0, Bj) + q j

Н(Р0, Bj) =

q j Н(Р0, Bj) = q j V =

j 1

j J

 

j J

j J

n

V q j = V

j J

Т.е. неравенство35 доказано.

45

Теорема о смесях активных стратегий говорит о том, что если один из игроков придерживается своей оптимальной смешанной стратегии, то выигрыш остается неизменным и равным цене игры V, если только другой игрок применяет смеси своих стратегий в произвольных пропорциях.

В доказательстве теоремы 7 мы использовали теорему 6. Поэтому теорему 7 можно считать следствием теоремы 6. С другой стороны, если смесь в частности представляет собой активную стратегию, то теоремы эквивалентны.

Пример 5. Рассмотрим игру в предыдущем примере с оптимальными стратегиями Р0 = ( р10 = 3/8, р20 =

5/8) и Q0 = ( q10 =1/4, q20 = 0, q30 = 3/4) соответственно игроков А и В.

Множество номеров чистых стратегий В, которые входят в оптимальную стратегию Q0 с положительными вероятностями, J= {1, 3}.

Рассмотрим смешанную стратегию Q0 = ( q1 =3/5, q2 = 0, q3 = 2/5) игрока В. Поскольку

0, j 1,3 q j 0, j 2

То смешанная стратегия Q является смесью активных стратегий В1и В3 игрока В в пропорциях

соответственно 3/5 и 2/5. Тогда, по теореме 7 о смесях активных стратегий,

H(Р,Q0) = V = 0,625.

В этом можно убедиться и прямым подсчетом:

 

 

 

 

 

 

 

 

 

3 / 5

 

 

 

 

 

 

3 / 5

 

 

 

 

0

1/ 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

5 / 6

 

 

 

5 / 8,21/ 32,5 / 8

 

 

 

 

H (P0 , Q) P0 AQT

(3 / 8,5 / 8)

 

 

 

 

 

 

 

0

 

0

 

 

 

0,625

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3 / 4

1/ 2

 

 

 

 

 

 

 

 

 

 

 

 

 

8

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2 / 5

 

 

 

 

 

2 / 5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Наконец, отметим, что смесь Q не является оптимальной стратегией игрока В, так как показатель

неэффективности стратегии Q отличается от цены игры: (Q) > V.

 

 

 

 

 

 

 

 

 

В самом деле:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3 / 5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

H ( A , Q) 0 1/ 2

5 / 6

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2 / 5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3 / 5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

H ( A , Q) 1 3 / 4

1/ 2

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2 / 5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

4

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(Q) max

 

,

 

 

 

 

> 0,625 = V.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

5

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тема 3. Лекция 10. Решение антагонистических игр на основе удаления доминируемых стратегий. Принцип доминирования.

Отыскание решения игр без седловой точки, особенно при достаточно больших размерах платежной матрицы, оказывается довольно сложной задачей. В некоторых случаях эту задачу можно упростить с помощью редуцирования игр, т.е. сведения данной игры со сложной матрицей к игре с более простой матрицей. В этом параграфе мы рассмотрим один из способов редуцирования игр, основанный на принципе доминирования, который позволяет в некоторых случаях игру с матрицей большего размера свести к игре с матрицей меньшего размера.

Пусть имеем игру с матрицей A размера m*n.

Bj

B1

B2

Bn

Ai

 

 

 

 

 

 

 

 

 

A1

a11

a12

a1n

 

 

 

 

 

A2

a21

a22

a2n

 

 

 

 

 

 

 

 

 

46

 

Am

 

am1

 

am2

 

amn

 

 

 

 

 

 

 

 

 

Каждой смешанной (в частности, чистой) стратегии Р=(р1, р2,…, рm) игрока A поставим в соответствие строку

 

 

 

(H(P, B1), H(P, B2),…, H(P, Bn))

 

 

(1)

(размера 1хn),

элементами

которой являются выигрыши H(P, Bj), j=1,2,…,n, игрока

А в ситуациях (P, Bj),

j=1,2,…,n.

 

 

 

 

 

 

 

 

 

Строку (1) можно представить так:

(2.)

откуда видно, что она является выпуклой комбинацией строк матрицы А (выпуклой потому, что коэффициенты р1, р2,…, рm неотрицательны и в сумме дают единицу).

Обратно, каждой выпуклой комбинации (2) строк матрицы А с коэффициентами р1, р2,…, рm поставим в

соответствие смешанную стратегию Р=(р1, р2,…, рm) игрока А.

 

 

 

 

 

Таким

образом,

между

смешанными

том

числе

и

чистыми)

стратегиями

Р=(р1, р2,…, рm) игрока A и выпуклыми комбинациями

 

 

 

 

 

 

строк (а i1, а i2,…, а in), i=l, ,.., m, матрицы А устанавливается взаимно-однозначное соответствие

(3.)

Из (1) или (3) ясно, что каждой чистой стратегии Ak, k =l, 2,...,m, игрока А ставится во взаимно-однозначное соответствие k-я строка (а k1, а k2,…, а kn), матрицы А.

Если для двух выпуклых комбинаций строк матрицы А

(4.)

и

(5.)

выполняются неравенства:

(6.)

то говорят, что строка (5) доминирует строку (.4), а строка (4) доминируется строкой (5). Таким образом, строка (5) — доминирующая строку (4), а строка (4) — доминируемая строкой (5).

Если каждое из неравенств (6) является равенством, то строки (4) и (5) называют дублирующими друг друга. Каждая из двух дублирующих строк является одновременно и доминируемой, и доминирующей другую.

Если каждое из неравенств (6) является строгим, то говорят, что строка (5) строго доминирует строку (4), а строка (4) строго доминируется строкой (5), или строка (5) является строго доминирующей строку (4), а строка

(4) является строго доминируемой строкой (5).

Аналогичная терминология используется и для соответствующих стратегий игрока А. А именно, если строка (5) доминирует, соответственно дублирует, соответственно строго доминирует строку (4), то говорят, что стратегия Р" = (р1", р2",…, рn") доминирует, соответственно дублирует, соответственно строго доминирует стратегию Р' =

(p1', p2',…, pn' ).

Так как элементами строк, соответствующих по (3) смешанным стратегиям, являются выигрыши игрока А (см. (1)), то из данных определений понятно, что для игрока А дублирующие стратегии равнопредпочтительны, а доминируемая не дублирующая стратегия заведомо для него невыгодна.

Аналогично, каждой смешанной (в частности, чистой) стратегии Q=(q1, q2,…, qn) игрока В поставим в соответствие столбец

(7.)

47

(размера mx1) его проигрышей H(Ai, Q), i=1,..., m, в ситуациях (Ai, Q), i=1,..., m. Столбец (7) можно представить следующим образом:

(8.)

Отсюда видно, что столбец (7) является выпуклой комбинацией столбцов , матрицы A с коэффициентами q1, q2,…, qn.

Обратно, каждой выпуклой комбинации (8) столбцов матрицы А с коэффициентами:

Поставим в соответствие смешанную стратегию Q=(q1, q2,…, qn) игрока В.

Таким образом, между смешанными и чистыми стратегиями Q=(q1, q2,…, qn) € Sb игрока В и выпуклыми комбинациями

столбцов , матрицы А устанавливается взаимно-однозначное соответствие

(9.)

По которому, в частности, каждой чистой стратегии Bl, l=1,…,n, игрока В ставится во взаимно-однозначное соответствие l-й столбец матрицы А (см. также(7.)).

Если для двух выпуклых комбинаций столбцов матрицы А

(10)

и

(11.)

справедливы неравенства

(12.)

то говорят, что столбец (10) (стратегия Q' = (q1', q2',…, qn' )) доминирует столбец (11) (стратегию Q" = (q1", q2", ..., qn")), а столбец (11) (стратегия Q") доминируется столбцом (10) (стратегией Q').

В случае, когда каждое неравенство (12) является равенством, столбцы (10) и (11) (стратегии Q' и Q")

называются дублирующими.

Если каждое неравенство (12) является строгим, то столбец (10) (стратегия Q') называется строго-

доминирующим (строго доминирующей) столбец (11) (стратегию Q"), а столбец (11) (стратегия Q") — строго доминируемым (строго доминируемой) столбцом (10) (стратегией (Q').

48

Поскольку элементами столбцов, соответствующих по (9) смешанным стратегиям игрока В, являются его проигрыши, то для него дублирующие стратегии равнопредпочтительны, а доминируемая не дублирующая стратегия заведомо невыгодна.

Таким образом, по данным определениям и для игрока А, и для игрока В предпочтительными оказываются доминирующие стратегии.

Теорема 1. Справедливы следующие предложения:

1) Если k-я строка, k€ ۟ {l,...,m}, матрицы А игры, доминируется некоторой выпуклой комбинацией остальных ее

строк,

то

 

существует

 

оптимальная

 

смешанная

стратегия

 

игрока

А,

в

которой

k-я

чистая

стратегия

Ak

выбирается

им с нулевой вероятностью, т.е.

.

 

 

 

 

 

 

 

 

2) Если k-я строка,

k€ ۟ {l,...,m},

матрицы А игры, строго доминируется некоторой выпуклой комбинацией

остальных ее строк, то в любой оптимальной смешанной стратегии Р° = (p1°,..., pm°) игрока А чистая k-я стратегия

Ak

выбирается

им с нулевой вероятностью, т.е. рk° = 0.

 

3)Если l-й столбец, l€{1,...,n), матрицы А игры, доминируется некоторой выпуклой комбинацией остальных ее столбцов, то существует оптимальная смешанная стратегия игрока В, в которой l-я чистая стратегия Вl выбирается им с нулевой вероятностью, т.е. ql =0.

4)Если 1-й столбец, l€{1,...,n}, матрицы A игры, строго доминируется некоторой выпуклой комбинацией

остальных ее столбцов, то в любой оптимальной смешанной стратегии Q°= (q1°,..., qn°) игрока В, чистая 1-я стратегия Вl выбирается им с нулевой вероятностью,

т.е. q1° =0

Доказательство. Докажем утверждение 1).

Пусть k-я строка матрицы А доминируется некоторой выпуклой комбинацией остальных ее строк. В этом случае мы можем считать, что k-я строка доминируется выпуклой комбинацией всех т строк матрицы А, но коэффициент при k-й строке в этой комбинации равен нулю. Таким образом, найдутся коэффициенты

(13.)

Такие, что строка (ak1,…, akn) доминируется выпуклой комбинацией , что по определению доминирования строк означает (см.(6.)) выполнение неравенств

(14.).

Пусть P°= (p1°,..., pm°) некоторая оптимальная смешанная стратегия игрока А, существование которой гарантировано основной теоремой матричных игр фон Неймана. Рассмотрим смешанную стратегию

игрока А с координатами

(15.)

Нетрудно убедиться в том, что числа - неотрицательны и в сумме дают единицу. В самом деле, поскольку

, то , а так как גk=0, , то

Пусть V – цена игры. Тогда, в силу оптимальности стратегии P° H(P°, Bj) ≥ V, j = 1,…,n. Следовательно,

Полученные неравенства ≥ V, j = 1,…,n, означают, что является оптимальной стратегией, причем

=0.

Таким образом, утверждение 1) доказано.

49

Заметим, что при доказательстве утверждения 1), на самом деле доказано несколько большее, чем «чистое» существование требуемой в утверждении 1) оптимальной стратегии, а именно, указан способ ее конструирования

(см. (15)).

Докажем утверждение 2). Пусть k-я строка матрицы А строго доминируется некоторой выпуклой комбинацией остальных ее строк, т.е. найдутся коэффициенты, обладающие свойствами (13), такие, что k-я строка (ak1,…, akn)

строго доминируется выпуклой комбинацией , или, по определению строгого доминирования строк,

(16.).

Пусть Q°= (q1°,..., qn°) - произвольная оптимальная стратегия игрока В (существование которой обеспечено основной теоремой теории игр фон Неймана). Умножим неравенство (16) на qj° получим:

(17.)

Неравенство (17) превращается в равенство (обе части которого нули) для тех номеров j, для которых q1° = 0, и — в строгое неравенство для остальных номеров j. Поскольку q1° +…+ qn° = 1, то не все qj° равны нулю и потому хотя бы одно из неравенств (17) будет строгим. Следовательно, просуммировав неравенства (17), получим строгое неравенство

(18.)

Но

(19.)

А

(20.)

Где ג = (ג1,…,גm) является, в силу свойств (13.), некоторой смешанной стратегией игрока А.

Из (19), (18) и (20):

(21)

и потому из (21):

(22)

Пусть P°— произвольная оптимальная стратегия игрока А. Нам надо показать, что рk° = 0. Допустим противное: рk° > 0. Тогда чистая стратегия Ak игрока А является активной и по теореме об активных стратегиях должно выполняться равенство H(Ak, Q°) = V, которое противоречит неравенству (22). Полученное противоречие завершает доказательство утверждения 2). .

Утверждения 3) и 4) доказываются аналогично соответственно утверждениям 1) и 2).

Отметим, что из утверждения 1) теоремы 1 следует, что если k-я строка матрицы игры нестрого доминируется некоторой выпуклой комбинацией остальных ее строк, то k-ю строку можно удалить, уменьшив тем самым размер матрицы. Вместе с тем могут существовать оптимальные стратегии игрока А, включающие в себя чистую стратегию Ak с положительной вероятностью. Таким образом, при нестрогой доминируемости k-й строки чистая стратегия Ak игрока А не может считаться для него абсолютно невыгодной.

Утверждение 2) теоремы 1 означает, что если k-я строка матрицы игры строго доминируется некоторой выпуклой комбинацией остальных ее строк, то ее нужно удалить, поскольку чистая стратегия Ak априори невыгодна игроку А.

Аналогичные замечания относятся к доминируемым столбцам матрицы игры в утверждениях 3) и 4).

Следствие 1.

1)Если k-я строка матрицы игры доминируется (строго доминируется) некоторой другой строкой, то существует (любая) оптимальная смешанная стратегия игрока А, в которую чистая стратегия Ak входит с нулевой вероятностью.

2)Если l-й столбец матрицы игры доминируется (строго доминируется) некоторым другим столбцом, то существует (любая) оптимальная смешанная стратегия игрока В, в которую чистая стратегия Bl входит с нулевой вероятностью.

Доказательство. 1) Пусть k-я строка матрицы игры доминируется (строго доминируется) r-й строкой. Мы можем r-ю строку рассматривать как выпуклую комбинацию всех строк матрицы с коэффициентами גi =0 при i ≠ r, и גr =1. Тогда доказываемое утверждение 1) следует из 1) и 2) утверждений теоремы 2.11.1.

Утверждение 2) следствия аналогичным образом вытекает из утверждений 3) и 4) теоремы 2.11.1.

Следствие .2 (о дублирующих чистых стратегиях). Одну из двух дублирующих чистых стратегий можно удалить.

50

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]