Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Семестровая 1 (Методы оптимальных решений) / Методы оптимальных решений учебное пособие

.pdf
Скачиваний:
1246
Добавлен:
19.04.2015
Размер:
6.01 Mб
Скачать

мальных сожалений b = max r , и выберем решение i0 с наименьшим bi.

i

j=1,2,,n ij

Итак, правило Сэвиджа рекомендует принять такое решение i0, что

b

= min b =

min max r

.

i0

i=1,2,,m i

i=1,2,,m (j=1,2,,n ij )

 

ПРАВИЛО ГУРВИЦА взвешивает пессимистический и оптимистический подходы к анализу неопределенной ситуации. По правилу Гурвица, прини-

мается решение i0, на котором достигается максимум выражения

λ min

q

+ (1 − λ) max q ,

j=1,2,,n

ij

j=1,2,,n ij

где λ [0; 1]. Значение λ выбирается из субъективных соображений. Если λ приближается к единице, то правило Гурвица приближается к правилу Вальда, при приближении λ к нулю правило Гурвица приближается к правилу р о з о в о г о о п т и м и з м а.

ПРИМЕР 10.2.1. Сидя в отправляющемся на курорт поезде, перед самым отправлением Петя вдруг вспомнил, что, к а ж е т с я, забыл выключить дома утюг. Можно еще успеть сойти с поезда и исправить ошибку, но тогда пропадет путевка (100 000 руб.). Если же уехать, утюг, если он действительно включен, может стать причиной пожара, и тогда придется ремонтировать квартиру (1 500 000 руб.). Петя не уверен, включен утюг или выключен. Составить матрицу последствий и матрицу сожалений. Определить решения, рекомендуемые критериями Вальда, Сэвиджа, Гурвица.

Решение. У Пети есть две стратегии: поехать отдыхать или вернуться домой. У внешней среды также есть два состояния: утюг выключен либо утюг включен.

Матрица последствий имеет вид

 

0

−1 500 000

 

Q =

−100 000

−100 000

.

 

 

Составим матрицу сожалений. Максимум по первому столбцу равен

q1 = max qi1 = 0 ,

i=1,2

по второму —

q2 = max qi 2 = −100 000 ,

i=1,2

поэтому матрица сожалений

0 1 400 000

R =

0

.

100 000

 

281

Минимальные элементы строк матрицы последствий a1 = –1 500 000, a2 = –100 000. Теперь из двух чисел (–1 500 000), (–100 000) находим наибольшее. Это (–100 000). Значит, правило Вальда рекомендует принять второе решение, т. е. вернуться домой.

Максимальные элементы строк матрицы сожалений b1 = 1 400 000, b2 = 100 000. Из чисел 1 400 000, 100 000 находим наименьшее. Это 100 000. Значит, правило Сэвиджа, как и правило Вальда, рекомендует принять второе решение, т. е. вернуться домой.

Читатель может убедиться, что правило Гурвица при λ = 0,5 тоже, как правила Вальда и Сэвиджа, рекомендует принять второе решение, т. е. вернуться домой.

Предположим, что в рассмотренной схеме известны вероятности pj

того, что реальная ситуация развивается по варианту j. Именно такое положение называется частичной неопределенностью. При принятии реше-

ний в таких ситуациях можно выбрать одно из следующих п р а в и л.

ПРАВИЛО МАКСИМИЗАЦИИ ОЖИДАЕМОГО ДОХОДА. Доход, получаемый при

принятии i-го решения, является случайной величиной Qi с рядом распределения

Qi

qi1

qi 2

qin

 

 

 

 

.

p

p

p

p

 

1

2

n

Ожидаемый доход при принятии i-го решения оценивается математическим ожиданием MQi соответствующей случайной величины

Qi. Правило максимизации ожидаемого дохода рекомендует принять ре- шение, приносящее максимальный ожидаемый доход

 

 

 

 

 

 

n

.

MQi

= max MQi =

max

qij p j

0

 

 

 

 

 

 

 

 

i=1, 2,

, m

i=1, 2, , m j=1

 

ПРАВИЛО МИНИМИЗАЦИИ ОЖИДАЕМЫХ СОЖАЛЕНИЙ. Сожаления при реали-

зации i-го решения представляются случайной величиной Ri с рядом распределения

Ri

ri1

ri 2

rin

 

 

 

 

.

p

p

p

p

 

1

2

n

Ожидаемые сожаления оценивается математическим ожиданием MRi соответствующей случайной величины Ri. Правило минимизации ожидаемых сожалений рекомендует принять решение, влекущее минимальные ожидае-

мые сожаления

 

 

 

 

 

 

n

.

MRi

= min MRi =

min

rij p j

0

 

 

 

 

 

 

 

 

i=1, 2,

, m

i=1, 2, , m j=1

 

282

ТЕОРЕМА ЭКВИВАЛЕНТНОСТИ ПРАВИЛ МАКСИМИЗАЦИИ ОЖИДАЕМОГО ДОХОДА И МИНИМИЗАЦИИ ОЖИДАЕМЫХ СОЖАЛЕНИЙ. Решения, рекомендуемые правилами

максимизации ожидаемого дохода и минимизации ожидаемых сожалений, всегда совпадают.

Доказательство. Имеем:

min MRi =

min

 

n

 

=

min

 

n

max qkj qij

)

 

=

 

rij

p j

 

p j

i=1, 2, , m

i=1, 2, , m

j=1

 

 

i=1, 2, , m

j=1

(i=1, 2, , m

 

 

 

 

 

 

=

min

 

n

 

max

 

n

 

 

 

 

 

 

 

p j

 

qkj qij p j =

 

 

 

 

 

i=1, 2, , m

j=1

i=1, 2, , m

 

j=1

 

 

=

min

 

n

max

 

max

 

n

 

n

max qkj

max MQi ,

 

p j

qkj

 

qij

p j

= p j

 

i=1, 2, , m

j=1

i=1, 2, , m

 

i=1, 2, , m

j=1

 

j=1

i=1, 2, , m

i=1, 2, , m

n

 

max

q

не зависит от i. Поэтому max

MQ достигается на

так как p

 

j=1

j

i=1, 2, , m

kj

i=1, 2, , m

i

том же решении, что и

min MRi .

 

 

 

 

 

i=1, 2, , m

 

ПРИМЕР 10.2.2. Владелец груза должен выбрать одну из двух альтернатив: страховать груз или не страховать. Риск заключается в том, что с вероятностью 0,1 возможна катастрофа, в результате которой груз будет утрачен. Если груз застрахован, то в случае его утраты владелец получает компенсацию его стоимости (100 000 руб.). Стоимость страхового полиса 5000 руб. Требуется определить, стоит ли страховать груз?

Решение. У владельца груза есть две стратегии: страховать груз или не страховать его. У внешней среды также есть два состояния: катастрофа произойдет либо не произойдет.

Матрица последствий имеет вид

 

 

 

5000

5000

 

Q =

100 000

0

.

 

 

Вероятности состояний внешней среды известны (p1 = 0,1, p2 = 0,9), поэтому ряды распределения дохода при выборе первой и второй стратегии таковы:

Q1

 

0

5000

Q2

 

95 000

0

 

 

 

 

 

 

 

 

,

 

 

 

 

.

p

 

0,1

0,9

p

 

0,1

 

 

 

 

0,9

При этом

MQ1 = –5000·0,1 + (–5000)·0,9 = –5000,

аналогично

MQ2 = –10 000.

283

Таким образом, правило максимизации ожидаемого дохода рекомендует принять первое решение, т. е. застраховать груз.

 

Составим матрицу сожалений. Максимум по первому столбцу равен

q1

= max qi1 = 0 , по второму — q2

= max qi 2 = 0 , поэтому матрица сожалений

 

i=1,2

i=1,2

 

 

 

 

0

5000

 

 

R =

95 000

0

.

 

 

 

Вычислим ожидаемые сожаления при указанных выше вероятностях. Получаем MR1 = 4500, MR2 = 9500. Минимальные ожидаемые сожаления равны 4500, они соответствуют первому решению — застраховать груз.

ПРИМЕР 10.2.3. Исследуем ситуацию принятия решений в условиях неопределенности в случае, когда матрица последствий

 

2

5

8

4

 

 

2

3

4

12

 

Q =

.

85 3 10

1 4 2 8

Решение. Составим матрицу сожалений. Имеем:

q =

max

q

=8,

q

= 5,

q =8,

q =12

,

1

k =1,2,,m

k1

 

2

 

 

 

3

4

 

поэтому матрица сожалений

 

 

 

 

 

 

 

 

 

 

 

6

0

0

8

 

 

 

 

 

 

 

6

2

4

0

 

 

 

 

 

 

R =

.

 

 

 

 

 

 

0

0

5

2

 

 

 

 

 

 

 

 

1

6

4

 

 

 

 

 

 

7

 

 

 

По правилу Вальда (правилу крайнего пессимизма) будем полагать, что при принятии i-го решения на самом деле складывается самая плохая

ситуация, т. е. приносящая наименьший доход

ai = min qij , и выберем ре-

 

 

 

j

шение i0 с наибольшим ai . Имеем:

 

 

a1 = 2,

a2 = 2,

a3 = 3,

a4 =1.

Из этих чисел: 2, 2,

3, 1

находим максимальное: это 3. Значит,

правило Вальда рекомендует принять третье решение.

Правило Сэвиджа аналогично правилу Вальда, только анализируется матрица сожалений: рассматривая i-e решение, будем полагать, что на

самом деле складывается ситуация максимальных сожалений bi = max rij , и

j

выберем решение i0 с наименьшим bi . Имеем:

284

b1 = 8, b2 = 6, b3 = 5, b4 = 7.

Из этих чисел 8, 6, 5, 7 находим минимальное: это 5. Значит, правило Сэвиджа рекомендует принять третье решение.

Если известны вероятности состояний внешней среды:

1/2,

1/6,

1/6,

1/6,

то правило максимизации ожидаемого дохода рекомендует принять решение, соответствующее наибольшему из ожидаемых доходов:

MQ1 = 23/6, MQ2= 25/6, MQ3= 7 MQ4= 17/6.

Максимальный ожидаемый доход равен 7, что соответствует третьему решению.

Правило минимизации ожидаемых сожалений рекомендует принять решение, соответствующее наименьшему из ожидаемых сожалений:

MR1 = 20/6, MR2= 4, MR3= 7/6, MR4= 32/5,

т. е. опять третье решение. В заключение следует отметить, что решения, предлагаемые раз-

личными правилами, не всегда совпадают. Лицу, принимающему решение, следует понимать, что оно будет нести ответственность за последствия. Поэтому к правилам следует относиться не как к рецептам действий, а как к средствам, позволяющим задуматься о последствиях принятия решений и проанализировать возможные варианты.

§ 10.3. БИМАТРИЧНЫЕ ИГРЫ

Не все конфликтные ситуации можно представить как игры с нулевой суммой, потому что интересы участников таких конфликтов не всегда

противоположны. Обобщением игр с нулевой суммой на случай н е п р о - т и в о п о л о ж н ы х и н т е р е с о в участников являются игры с ненуле-

вой суммой.

Рассмотрим к о н е ч н у ю игру с ненулевой суммой, т. е. такую, в которой множества стратегий игроков конечны: будем считать, что первый игрок может выбрать одну из m своих стратегий, обозначенных номерами i = 1, 2, …, m, а второй игрок — одну из n своих стратегий, обозначенных номерами j = 1, 2, …, n. Если первый игрок выбрал свою i-ю стратегию, а второй игрок

— свою j-ю стратегию, то в результате такого совместного выбора первый игрок получает выигрыш aij , а второй игрок — выигрыш bij . При этом совер-

шенно не обязательно, чтобы bij = −aij , как в матричных играх.

Таким образом, конечная игра с ненулевой суммой полностью определяется двумя матрицами

285

a11

a12

a1n

 

b11

b12

b1n

 

 

 

 

 

 

 

 

 

 

 

A = a21

a22

 

a2n

и

B = b21

b22

 

b2n

,

 

 

 

 

 

 

 

 

 

 

 

am2

 

 

 

 

bm2

 

 

 

am1

 

amn

 

bm1

 

bmn

 

поэтому называется биматричной.

Биматричная игра, как и матричная, происходит партиями. Цель каждого игрока — выиграть как можно бó льшую сумму в результате большого числа партий. Понятия чистых и смешанных стратегий игроков в биматричных играх вводятся аналогично тому, как это было сделано в матричных играх.

Если матричные игры являются играми со строгим соперничеством, поскольку выигрыш одного игрока в точности равен проигрышу другого, то в биматричных играх интересы игроков могут быть в большей или меньшей степени близки.

В зависимости от того, запрещено или разрешено сотрудничество игроков, различают н е к о о п е р а т и в н ы е и к о о п е р а т и в н ы е и г р ы.

Анализ биматричной игры в некооперативном варианте сводится к поиску максиминных стратегий игроков, т. е. стратегий, которые обеспечивают игрокам получение максимально возможного гарантированного выигрыша вне зависимости от действий противника.

Множество всевозможных пар смешанных стратегий игроков обозначим

S = {(p, q) p S1, q S2 } ,

где

S1

S2

=p = ( p1, p2 , , pm )

 

 

 

 

, q2

, , qn )

= q = (q1

 

 

 

 

 

 

m

 

pi 0, i = 1, 2, , m, pi

= 1 ,

i=1

 

n

 

q j 0, j = 1, 2, , n, q j

= 1 .

j=1

 

 

Если два

игрока

выбрали

с м е ш а н н ы е

с т р а т е г и и

p = ( p1, p2 , , pm )

и q = (q1, q2 , , qn )

соответственно, то математические

ожидания выигрышей игроков равны

 

 

 

m n

 

m

n

M1 (p,q) = ∑∑aij pi q j

и

M 2 (p,q) = ∑∑bij pi q j .

 

i=1 j=1

 

i=1 j=1

Важным в теории игр является понятие равновесия. Говорят, что стратегии игроков p и q образуют равновесие Нэша, если никому из игроков не выгодно от них отклоняться при условии, что другой игрок не следует своей равновесной стратегии, т. е. если для любых стратегий p и q

286

M1 (p , q ) M1 (p, q ),

M 2 (p , q ) M 2 (p , q).

ТЕОРЕМА СУЩЕСТВОВАНИЯ РАВНОВЕСИЙ. В любой биматричной игре су-

ществует хотя бы одно равновесие Нэша.

Доказательство. Доказательство следует непосредственно из теоремы о неподвижной точке. Читателям, не знакомым с этой теоремой, рекомендуем провести доказательство самостоятельно для случая, когда каждый из игроков имеет ровно две чистые стратегии. .

КРИТЕРИЙ РАВНОВЕСИЯ. Стратегии игроков p и q образуют равнове- сие Нэша тогда и только тогда, когда при условии использования первым игроком стратегии p любая чистая стратегия второго игрока, соот-

ветствующая q j > 0 , приносит второму игроку один и тот же выигрыш

μ , а любая чистая стратегия второго игрока, соответствующая q j = 0 ,

приносит второму игроку выигрыш, не больший μ , а при условии исполь- зования вторым игроком стратегии q любая чистая стратегия первого игрока, соответствующая pi > 0 , приносит второму игроку один и тот же выигрыш ν , а любая чистая стратегия второго игрока, соответ-

ствующая p = 0 , приносит второму игроку выигрыш, не больший ν .

i

 

 

Доказательство. Пусть пара стратегий первого и второго игрока

p = ( p1, p2 , , pm ) ,

q = (q1, q2 , , q j , , q j

, , qn )

 

1

2

образуют равновесие Нэша, и пусть первый игрок действует в соответствии со стратегией p , не отклоняясь от нее.

Предположим, что у второго игрока существуют такие чистые стра-

тегии с номерами j1

и j2

, что q j > 0 и

 

 

 

 

1

 

 

 

 

m

m

(p ,q( 2) )

M 2 (p ,q(1) ) = bij1 pi <

bij2 pi = M 2

 

 

i=1

i=1

 

где

q(1) = (0, 0, , q j1 , , 0, , 0), q(2) = (0, 0, , 0, , q j2 , , 0),

В этом случае второй игрок может отклониться от стратегии q и выбрать стратегию

q = (q1 , q2 , , 0, , q j1 + q j2 , , qn ) ,

287

которая обеспечит ему больший выигрыш, чем стратегия q при условии,

что первый игрок не будет отклоняться от стратегии p . Действительно,

 

M

2

(p ,q ) − M

2

(p ,q ) =

 

 

 

 

 

m

 

 

 

 

 

 

= (bi1 pi q1 + bi 2 pi q2 ++ bij1 pi × 0 ++ bij2 pi (q j1 + q j2 )++ bin pi qn )-

i=1

 

 

 

 

 

 

m

 

 

 

 

 

 

(bi1 pi q1 + bi 2 pi q2 ++bij1 pi q j1 ++ bij2 pi q j2 ++bin pi qn )=

i=1

 

 

 

 

 

 

m

m

 

 

= q j1 (M 2

(p ,q(2) )M 2 (p ,q(1) ))> 0.

= −q j1 bij1 pi

+ q j1 bij2 pi

i=1

i=1

 

 

 

 

 

Получили противоречие с предположением, что стратегии p и q образуют равновесие Нэша, которое доказывает теорему. .

Максиминные смешанные стратегии первого и второго игроков обеспечивают им г а р а н т и р о в а н н ы е в ы и г р ы ш и

α = max min M1 (p, q)

и β = max min M 2 (p, q)

p S1 q S2

q S2 p S1

соответственно вне зависимости от поведения противника.

По другому максиминные стратегии называются осторожными — смысл этого названия очевиден, и в некооперативном случае игрокам имеет смысл придерживаться своих осторожных стратегий.

ПРИМЕР 10.3.1 (ИГРА «ДИЛЕММА ЗАКЛЮЧЕННЫХ»). Двое преступников

(первый и второй игроки), подозреваемые в совместном совершении тяжкого преступления, находятся изолированно друг от друга в предварительном заключении. Прямые улики у следствия отсутствуют, поэтому успех обвинения зависит от того, признаются ли заключенные. У каждого из заключенных есть две стратегии: признаться (первая стратегия) или не признаваться (вторая стратегия). Если оба преступника признаются, то они будут признаны виновными и приговорены к восьми годам заключения. Если ни один из них не признается, то по обвинению в основном преступлении они будут оправданы, но суд все-таки признает их вину в менее значительном преступлении (например, в ношении оружия), в результате чего оба будут приговорены к одному году заключения. Если же признается только один и них, то признавшийся будет освобожден (за помощь следствию), а другой преступник будет приговорен к максимальному сроку заключения — к десяти годам. Требуется определить максиминные стратегии игроков и равновесия Нэша, если такие есть.

Решение. Матрицы выигрышей игроков таковы:

−8

0

 

−8

−10

A =

−10

 

,

B =

.

 

−1

 

0

−1

288

Смешанные стратегии игроков представим в виде p = ( p, 1 − p) и q = (q, 1 − q) , где p [0, 1], q [0, 1] . При этом математическое ожидание выигрыша первого игрока равно

M1 (p, q) = −8 pq −10(1 − p)q − (1 − p)(1 − q) = ( p − 9)q + p −1.

Аналогично определяется математическое ожидание выигрыша второго игрока:

M 2 (p, q) = −8 pq −10 p(1 − q) − (1 − p)(1 − q) = (q − 9) p + q −1.

Наилучший гарантированный выигрыш первого игрока равен

a = max min M1(p, q) = max min (( p - 9)q + p -1) =

p [0, 1] q [0, 1]

p [0, 1] q [0, 1]

= max (( p - 9) ×1+ p -1)= max (2 p -10) = -8

p [0, 1]

p [0, 1]

[здесь мы учли, что p – 9 < 0,

так как p [0,1] , поэтому вне зависимости от

p min (( p − 9)q + p −1) будет достигаться при q = 1], а максиминная страте-

q [0;1]

гия первого игрока, соответствующая этому наилучшему гарантированному выигрышу, p = (1, 0) , т. е. максиминная стратегия первого игрока — признаться и получить восемь лет заключения. Аналогично находим наилучший гарантированный выигрыш второго игрока

b = max min M

2

(p, q) = max min ((q - 9) p + q -1) =

q [0, 1] p [0, 1]

 

q [0, 1] p [0, 1]

= max ((q - 9) ×1+ q -1)= max(2q -10) = -8

q [0, 1]

 

q [0, 1]

и его максиминную стратегию q = (1, 0) — признаться. Очевидно, максиминные стратегии образуют равновесие Нэша. Предлагаем читателю убедиться, что других равновесий Нэша в данной игре нет.

ПРИМЕР 10.3.2 (ИГРА «СЕМЕЙНЫЙ СПОР»). Два игрока (муж и жена) вы-

бирают, где провести вечер. У каждого из них есть две стратегии: выбрать посещение футбольного матча (первая стратегия) или оперного спектакля (вторая стратегия). Полезность совместного похода в театр муж оценивает в одну единицу, а жена в две, полезность совместного похода на футбол, наоборот, жена оценивает в одну единицу, а муж в две. Если же супруги идут в разные места, вечер оказывается испорченным, что соответствует нулевым полезностям для обоих игроков. Требуется определить максиминные стратегии игроков и равновесия Нэша, если такие есть.

Решение. Составим матрицы выигрышей игроков:

 

2

0

 

 

 

1

0

 

A =

 

1

 

,

B =

 

2

.

0

 

 

0

 

289

Пусть p = ( p, 1 − p) и q = (q, 1 − q) , где p [0, 1], q [0, 1] — сме-

шанные стратегии игроков. При этом математические ожидания выигрышей игроков равны

M1 (p, q) = 2 pq + (1 − p)(1 − q) = (3 p −1)q p +1,

M 2 (p, q) = pq + 2(1 − p)(1 − q) = (3q − 2) p − 2q + 2 ,

наилучшие гарантированные выигрыши игроков

α = max min ((3 p −1)q p +1)= max

max (2 p), max (1 − p)

 

=

2

 

,

 

3

 

p [0, 1] q [0, 1]

{p [0, 1/ 3]

p [1/ 3, 1]

}

 

 

 

β = max min ((3q − 2) p − 2q + 2)= max{

max

q, max (2 − 2q)

}=

2

,

 

q [0, 1] p [0, 1]

 

q [0,

2 / 3]

q [2 / 3, 1]

 

 

 

3

 

а соответствующие максиминные стратегии

таковы: p = (1/ 3, 2 / 3)

 

и q =

=(2 / 3, 1/ 3) . Это означает, что муж должен в 1/3 вечеров выбирать футбол и

в2/3 вечеров театр, а жена должна в 2/3 вечеров выбирать футбол и в 1/3 вечеров театр, тогда в среднем и муж, и жена будут выигрывать по 2/3 за одну партию. Равновесий Нэша в данной игре целых три:

(p = (1, 0), q = (1, 0)), (p = (0, 1), q = (0, 1)), (p = (1 / 3, 2 / 3), q = (2 / 3, 1 / 3)).

Предлагаем читателю убедиться, что других равновесий Нэша в данной игре нет.

В отличие от матричных игр, в биматричных играх может оказаться так, что с о в м е с т н о е отклонение двумя игроками от равновесий Нэша (или от максиминных стратегий) приводит к увеличению выигрыша обоих игроков. Это иллюстрируется следующими примерами.

Если в примере 10.3.1 один из игроков будет придерживаться максиминной стратегии и признается, а другой игрок отклонится от своей максиминной стратегии и признаваться не будет, то тот, кто не признается, получит десять лет заключения вместо восьми (в результате его положение ухудшится, а положение его соучастника улучшится).

Существенным отличием биматричных игр от матричных являются то, что возможны ситуации, когда отклонение о б о и х и г р о к о в от максиминных стратегий приводит к увеличению их выигрышей: если в примере 10.3.1 о б а преступника не признаются, то оба получат всего по одному году. Это и является основой д и л е м м ы, которая стоит перед каждым из заключенных: поскольку переговоры друг с другом невозможны, каждый из двух заключенных делает выбор, признаваться или нет, не зная, сознался ли его соучастник.

290