Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Исследование операций и методы оптимизации

.pdf
Скачиваний:
381
Добавлен:
05.06.2015
Размер:
2 Mб
Скачать

Аналогично для игрока В получаем: SB = (q1 , q2 ,K, qm ), n q j =1 .

i=1

Заметим, что чистая стратегия – это частный случай смешанной страте-

гии. A3 = SA = (0, 0, 1, 0) .

Справедлива основная теорема теории игр: любая матричная игра имеет решение в виде пары смешанных стратегий игроков А и В (S*A ;S*B ), дающих

оптимальное значение цены игры V*. Это оптимальное решение обладает следующим свойством: если один игрок придерживается своей оптимальной стратегии, то другому невыгодно отклоняться от своей оптимальной стратегии.

8.4. Упрощение игр и аналитическое решение игр 2×2

Прежде чем решать игру, ее необходимо упростить, т. е. если для игры построена платежная матрица, можно вычеркнуть заведомо невыгодные стратегии для игроков А и В.

 

 

 

 

Таблица 45

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

B1

B2

B3

 

 

B2

B3

 

A1

5

0

3

 

A1

0

3

 

A2

4

-1

2

 

A3

2

1

 

A3

2

2

1

 

 

 

 

Здесь A2 уступает по всем компонентам A1, а B1 уступает и B2, и B3. Заметим, что строки лучше, если элементы больше, а столбцы лучше, если элементы меньше.

Если по каждой компоненте стратегии одна строка хуже другой, то ее можно вычеркнуть. При этом решение игры упрощается.

В результате остаются такие строки и столбцы, которые нельзя сравнить. Если число оставшихся стратегий хотя бы одного игрока равно двум, то игру можно решить аналитически или геометрически.

Рассмотрим игры, в которых у каждого игрока лишь две стратегии. Если в такой игре нет седловой точки, то значит, что все стратегии активны, т. е. они войдут в решение с какой-то вероятностью, не равной нулю.

Справедлива теорема об активных стратегиях: если один из игроков придерживается своей оптимальной смешанной стратегии, то выигрыш остается неизменным и равен цене игры V независимо от того, что делает другой игрок, если только тот не выходит за пределы своих активных стратегий.

148

Пусть мы применяем оптималь-

 

Таблица 46

 

ную смешанную стратегию S*A , а

 

 

q1

q2

 

 

B1

B2

игрок В отклоняется от своей опти-

 

 

мальной стратегии S*B и применяет

p1

A1

a11

a12

чистую стратегию B1 или B2.

p2

A2

a21

a22

По свойству решения игры это приведет к ухудшению выигрыша для В. Пусть (S*A ;S*B ) дает величину V, тогда если А смешивает A1 и A2, а В приме-

няет одну и ту же стратегию B1, то выигрыш, который получится, будет равен математическому ожиданию.

a11 p1 + a21 p2

*

 

 

> v, если (SA , B2 ), то

 

 

a12 p1 + a22 p2

> v

 

(8.1)

p1 + p2 =1

 

 

 

 

 

 

Так как все стратегии активны, то на основании вышеприведенной теоремы можно решить эту систему при равенстве первых двух строк.

p2 =1p1 ; a11 p1 + a21 (1p1 ) = v; p1 (a11 a12 a21 + a22 ) = −a21 + a22 ;

p1

=

 

 

 

a22

a21

 

 

 

;

(8.2)

 

a11

+ a22

 

 

 

 

 

 

 

 

 

a12 a21

 

p2

=

 

 

 

a11

a12

 

 

 

 

;

(8.3)

 

 

a11 + a22

a12

 

 

 

 

 

 

 

a21

 

V

=

 

 

a11 a22

a12

a21

.

(8.4)

 

 

 

a

 

 

 

a

+ a

22

a

21

 

 

 

 

 

 

11

 

 

12

 

 

 

 

 

Аналогично можно составить систему и решить ее для игрока В:

(SB* , A1 ):

a11q1 + a21q2

< v;

 

 

 

 

 

*

a21q1 + a22q2

 

(8.5)

(SB , A2 ):

< v;

q1 + q2 =1;

 

 

 

 

 

 

 

 

 

 

 

 

 

149

q1

=

 

 

a22

a12

 

 

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(8.6)

a11

+ a22

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a12 a21

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

q2

=

 

 

a11

a21

 

 

 

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(8.7)

a11

+ a22

a12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a21

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Например, для платежной матрицы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 47

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

1

 

 

 

1

 

 

 

 

 

 

B1

B2

 

 

 

p1

=

 

 

 

 

=

;

q1 =

;

 

 

 

 

 

 

 

0

+12 3

4

2

 

 

 

А1

0

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

А2

2

 

1

 

 

 

p

2

= 3

4

;

q

2

=

1

2

;

 

v = 1

4

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8.5. Геометрическое решение игр

Рассмотрим игру 2x2 . Отложим по оси абсцисс единичный отрезок. Левый конец будет соответствовать чистой стратегии A1 , а правый – стратегии

A2 . Любая точка внутри отрезка обозначает смешанную стратегию S(p1 , p2 ) . На оси ординат будем откладывать выигрыши. На левой вертикали будут выигрыши, полученные при применении чистых стратегий A1B1 и A1B2 , а на правой – A 2 B1 и A 2 B2 . Если А применяет смешанные страте-

гии, а В - чистые, то выигрыши будут ординатами соответствующих прямых. Решим игру для игрока А: для этого найдем сначала самые маленькие выигрыши при различных смешанных стратегиях – это будет линия минимумов. Затем на этой линии найдем наивысшую точку. Получим максимин.

Линия минимумов

 

B1

максимин

В2

 

 

B2

 

a22

a12

v

В1

A1

 

a21

 

А2

p2

p1

 

Рис. 61

150

Аналогично задача решается для игрока В: находим линию максимумов и минимакс.

 

A

минимакс

 

 

A1

2

 

 

 

 

 

 

A

 

Линия максимумов

1

 

v

B

 

B2

 

 

1

q2

q1

 

 

 

A2

 

 

Рис. 62

По принципу максимина игрок А сначала фиксирует свои минимальные выигрыши, а затем выбирает максимальный выигрыш. Так получаются величины p1 и p2 , q1 и q2 на единичном отрезке и величина цены игры v .

Примечания:

решение не обязательно находится на пересечении прямых;

если у одного игрока две стратегии, а у другого три и более стратегий, то игра также может быть решена геометрически.

Пример:

Отформа eq, маркир Уровень: 1 18 пт + Та пт + Отсту висячих ст

Таблица 48

 

 

 

 

 

 

 

 

В1

В2

В3

В4

 

А1

3

0

-1

2

 

А2

1

-1

-2

0

 

А3

-1

-2

4

-3

Все элементы строки A2 меньше элементов строки A1, поэтому A2 можно отбросить как заведомо невыгодную. Все элементы столбца B1 больше соответствующих элементов столбца B2, поэтому стратегию B1 отбрасываем как заведомо невыгодную.

Таблица 49

 

В2

В3

В4

А1

0

-1

2

А3

-2

4

-3

После вычеркивания столбца B1 и строки A2 игра упрощается. Тогда останутся

B2, B3, B4 и A1 и A3.

Строим график решения со стороны игрока А.

151

 

 

4

В3

В4

2

максимин

 

 

 

 

 

Линия минимумов

 

А1

p3 v

p1

А3

 

 

 

М

В3

 

 

-1

-2

В2

 

 

 

 

-3

В4

Рис. 63

Находим линию минимумов (на рисунке выделено жирной линией) и определяем на ней максимум, точку М.

Найдем точное решение, для чего определим координаты точки М. С этой целью зададим уравнения прямых B2 и B3 в виде v = f ( p3 ) .

Уравнение прямой построим в виде уравнения с угловым коэффициен-

том (y = kx + b) .

v = kp3 + b , где k – тангенс угла наклона прямой; b – смещение по оси ординат (если прямая возрастает – k>0, если убывает, то k<0).

Построим прямую B3

B2

p = 17 ; p = 6 7 ; v = − 2 7

Таблица 50

 

В2

В3

А1

0

-1

А4

-2

4

: v = 5p3

1;

;

: v = −2p

3 +0.

.

 

 

Решим игру со стороны игрока В. Из графика видно, что стратегия B4 не формирует оптимальное решение – точку М, т. е. не является активной, следовательно, ее отбрасываем (она в согласованном решении не участвует).

152

 

 

4

А3

 

 

Линия максимумов

 

В2

q3

q2

В3

 

 

 

N

 

 

А1

А3 -2

-1

 

 

Рис. 64

Находим линию максимумов и определяем на ней минимум – т. N. Запишем уравнения прямых B1 и A3.

A3 : v = 6q

3

2;

 

 

 

 

 

 

 

 

A

1

: v = −q

3

; q

3

= 2

7

; q

2

= 5

7

.

 

 

 

 

 

 

 

Ответ: Игрок А должен чередовать стратегии A1 с вероятностью 6/7 и

A3 с вероятностью 1/7. Игрок В должен чередовать стратегии В2 с вероятностью 5/7 и В3 с вероятностью 2/7. При этом цена игры v=-2/7.

8.6. Решение игр со многими стратегиями на основе метода линейного программирования

Пусть в игре m стратегий у игрока А и n – у В, матрица не упрощается. Такую игру можно свести к двум задачам линейного программирования. Рассмотрим это на примере матрицы для «игры полковника Блотто» (табл. 51).

Решение не изменится, если матрицу поднять на одну и ту же величину, чтобы все элементы были больше нуля. Получим табл. 52:

Таблица 51

Таблица 52

 

В1

В2

В3

В4

А1

4

2

1

0

А2

1

3

0

-1

А3

-2

2

2

-2

А4

-1

0

3

1

А5

0

1

2

4

 

В1

В2

В3

В4

А1

6

4

3

2

А2

3

5

2

1

А3

0

4

4

0

А4

1

2

5

3

А5

2

3

4

6

153

Если мы примем оптимальную смешанную стратегию, и В примет свою оптимальную смешанную стратегию, то получим:

 

*

= (p1

, p2 , p3 , p4 , p5 );

 

 

 

 

SA

 

 

 

 

 

 

= (q

 

, q

 

, q

 

, q

 

, q

 

).

 

 

 

 

S*

1

2

3

4

5

 

 

 

 

 

B

 

 

 

 

 

 

 

 

 

 

 

 

Если А примет оптимальную стратегию, а В – чистую стратегию В1 , т. е.

отклонится

 

от оптимальной, то

средний выигрыш будет

равен

p1 6 + p2 3 + p3 0 + p4 1+ p5 2 и будет не меньше v.

 

( M(x) = Pi Xi

 

- математическое ожидание случайной величины).

 

 

(S*A , B1 ): 6p1 +3p2 +0p3 +1p4 + 2p5 v;

 

 

(S*A , B2 ): 4p1 +5p2 + 4p3 + 2p4 +3p5 v;

 

(S*A , B3 )

: 3p1 + 2p2 + 4p3 +5p4 + 4p5

v;

(8.8)

(S*A , B4 ): 2p1 +1p2 +0p3 +3p4 +6p5 v;

 

 

 

 

 

p1 + p2 + p3 + p4 + p5 =1.

 

 

 

 

 

 

 

 

Обозначим pi

v

 

= x

i

;

 

1

v

= L.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Так как при выборе pi

 

необходимо, чтобы v→ max, то

 

L = x1 + x 2 + x 3 + x 4 + x 5 = 1v min .

6x1 +3x

2

+0x 3 + x 4 + 2x 5

1;

 

 

4x1

+5x

 

+ 4x 3

+ 2x 4

+3x 5

1;

 

 

2

(8.9)

 

3x1

+ 2x

 

+ 4x 3

+5x 4

+ 4x

 

1;

 

2

5

 

 

2x1 + x 2

+0x 3 +3x 4 +6x 5

1.

 

 

 

Получим задачу линейного программирования, которую можно решить симплекс-методом (см. главу 2) , в том числе и с использованием стандартных компьютерных программ, например, в системе LINDO или EXCEL.

Аналогичную задачу получаем и со стороны игрока В.

(S*B , Ai );

q j

= y j ;

1

v

= L .

 

v

 

 

 

При выборе q j игрок В стремится уменьшить v (v→ min), поэтому

154

L = y1 + y2

+ y3

+ y4

=

1

v

max

.

(8.10)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6y1 + 4y

2 +3y

3 + 2y4

1;

 

 

 

3y1

+5y2

+ 2y

3 + y4 1;

 

 

 

 

 

 

 

 

0y1

+ 4y

 

+ 4y3 +0y4

1;

 

(8.11)

 

2

 

y

1

+ 2y

2

+5y

3

+3y

4

1;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2y1

+3y

2

+ 4y3 +6y4

1.

 

 

 

 

 

Таким образом, решение игры m×n сводится к паре задач линейного программирования. Анализируя задачи (8.8), (8.9) и (8.10), (8.11), можно показать, что они всегда имеют решение! Действительно, в качестве допустимого решения (8.8), (8.9) всегда будет: x1 = 1/d ; x2=x3=… = xn=0; где d – самый маленький коэффициент среди aij . При этом оптимальное решение также всегда будет, т.к. линейная форма (8.8.) ограничена нулем (все слагаемые положительны). Этим доказывается основная теорема теории игр.

8.7. Биматричные игры

Во многих ситуациях не обязательно, чтобы один игрок выигрывал, а другой столько же проигрывал. Такие игры называются неантагонистическими (с ненулевой суммой). Для двух игроков выигрыши в таких играх приходится записывать не одной, а двумя платежными матрицами, поэтому они имеют название биматричные игры. Интересы игроков здесь не являются полностью противоположными, и их поведение может быть более разнообразным. Различают некооперативные биматричные игры и кооперативные, в зависимости от того, могут ли договариваться игроки, или соглашение невозможно по правилам игры.

Рассмотрим классическую модель некооперативной биматричной игры, известной как «Дилемма Заключенного». Два преступника ожидают приговора суда за совершение преступления. Адвокат конфиденциально предлагает каждому из преступников освободить его, если он сознается и даст показания против сообщника, которому грозит угодить в тюрьму на 10 лет. Если никто не сознается, то обоим угрожает получить 1 год за незначительное преступление. Если сознаются оба преступника, то с учетом чистосердечного признания они получат 5 лет.

Построим платежные матрицы игроков со стратегиями «сознаться А - A1», «сознаться В - B1», «не сознаваться А – B2», «не сознаваться В – B2». Первое число – выигрыш А, а второе - выигрыш В.

155

Здесь игроки договориться не могут, поэтому им необходимо руководствоваться принципом здравого пессимизма и выбрать максиминную стратегию.

 

Таблица 52

Если А выберет А1, то в худ-

 

шем случае он получит 5 лет, если

 

 

 

 

В1

В2

A2, то в худшем случае он полу-

А1

(5; 5)

(0; 10)

чит 10 лет, поэтому А «из двух

А2

(10; 0)

(1; 1)

зол» выберет меньшее - A1.

Игрок В если выберет B1, то в худшем случае получит 5 лет, а если B2, то 10 лет. Поэтому, чтобы не рисковать, он выберет B1. Получили «седловую точку» (A1,B1).

Таким образом, обоим заключенным лучше вместе сознаться и получить по 5 лет. Здесь ни одному из игроков не выгодно отклоняться от своей оптимальной стратегии в одиночку. Приведенный подход к решению некооперативных биматричных игр подобен принципу «минимакса» для матричных игр и называется нахождением точки равновесия по Нэшу. Нэш показал, что любая биматричная игра имеет решение в чистых или смешанных стратегиях.

8.8.Кооперативные игры

Кооперативной игрой называют такую модель ситуации, когда выигрыши игроков не имеют нулевой суммы, и в которой игрокам разрешается обсуждать свои стратегии и договариваться о совместных действиях, т. е. образовывать коалиции. Основной задачей здесь является дележ общего выигрыша между членами коалиции.

В случае двух игроков выигрыш в игре – это пара выигрышей, представляющих общие выигрыши. Если игроки будут перебирать всевозможные стратегии (чистые и смешанные), то все пространство выигрышей в игре образует некоторое множество точек, ограниченных некоторой линией (см. рисунок). На рисунке можно указать точку с координатами выигрышей игроков, которые они могут гарантировать себе, не прибегая к договоренностям (Т1, Т2). Такая точка называется точкой угрозы.

На множестве выигрышей можно найти множество Парето-оптимальных решений. Парето-оптимальные точки, безусловно, лучше всех других точек множествавыигрышей, таккакониявляются самымиправыминагоризонталиисамыми левыми на вертикали. Очевидно, что Парето-оптимальные точки – это северновосточнаяграницамножествавыигрышей.

Точки Парето-оптимального множества, находящиеся одновременно выше и правее точки угрозы Т, образуют переговорное множество. Очевидно, что игрокам выгодно договариваться, если их выигрыш будет лучше, чем тот, который получается в точке Т. На переговорном множестве выделяется

156

точка решения Нэша (равновесная точка), в которой достигается максимум произведения превышения выигрышей над величинами T1, T2:

Fmax = max (a1 T1 )(a2 T2 ).

Рассмотрим пример кооперативной игры «Семейный спор».

Муж и жена каждый вечер решают проблему развлечения: пойти на Футбол или пойти на Балет. Муж любит Футбол и терпеть не может Балета. Жена любит Балет и не любит Футбол, но посещение этих зрелищ в одиночку не дает полного удовлетворения. Поэтому если они вместе, то получают удовольствие на 4 единицы на любимом зрелище и 1 единицу на нелюбимом, а если поодиночке, то 2 единицы на любимом и 0 на нелюбимом. Платежные матрицы имеют такой вид (левое число – выигрыш жены, правое – выигрыш мужа):

 

Таблица 53

 

 

Жена

 

 

Балет

Футбол

Балет

(4; 1)

(0; 0)

Муж

 

 

Футбол

(2; 2)

(1; 4)

Множество возможных выигрышей – треугольник с вершинами, соответствующими чистым стратегиям. Ясно, что гарантированный выигрыш супругов – точка угрозы (2; 2). Множество Парето – точки на стороне ВС. Переговорное множество – точки на DE. Решение Нэша – точка N. Здесь супруги договариваются половину вечеров проводить вместе на Футболе, а половину

– на Балете.

 

А2

 

 

 

4

.В

F→max

 

3

 

D.

.N .Е

 

2

 

Т.

.

1

Точка угрозы

 

 

 

 

C

0

 

 

 

А1

1

2

3

4

 

Рис 65

157