Исследование операций и методы оптимизации
.pdfАналогично для игрока В получаем: SB = (q1 , q2 ,K, qm ), ∑n q j =1 .
i=1
Заметим, что чистая стратегия – это частный случай смешанной страте-
гии. A3 = SA = (0, 0, 1, 0) .
Справедлива основная теорема теории игр: любая матричная игра имеет решение в виде пары смешанных стратегий игроков А и В (S*A ;S*B ), дающих
оптимальное значение цены игры V*. Это оптимальное решение обладает следующим свойством: если один игрок придерживается своей оптимальной стратегии, то другому невыгодно отклоняться от своей оптимальной стратегии.
8.4. Упрощение игр и аналитическое решение игр 2×2
Прежде чем решать игру, ее необходимо упростить, т. е. если для игры построена платежная матрица, можно вычеркнуть заведомо невыгодные стратегии для игроков А и В.
|
|
|
|
Таблица 45 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
B1 |
B2 |
B3 |
|
|
B2 |
B3 |
|
A1 |
5 |
0 |
3 |
|
A1 |
0 |
3 |
|
A2 |
4 |
-1 |
2 |
|
A3 |
2 |
1 |
|
A3 |
2 |
2 |
1 |
|
|
|
|
Здесь A2 уступает по всем компонентам A1, а B1 уступает и B2, и B3. Заметим, что строки лучше, если элементы больше, а столбцы лучше, если элементы меньше.
Если по каждой компоненте стратегии одна строка хуже другой, то ее можно вычеркнуть. При этом решение игры упрощается.
В результате остаются такие строки и столбцы, которые нельзя сравнить. Если число оставшихся стратегий хотя бы одного игрока равно двум, то игру можно решить аналитически или геометрически.
Рассмотрим игры, в которых у каждого игрока лишь две стратегии. Если в такой игре нет седловой точки, то значит, что все стратегии активны, т. е. они войдут в решение с какой-то вероятностью, не равной нулю.
Справедлива теорема об активных стратегиях: если один из игроков придерживается своей оптимальной смешанной стратегии, то выигрыш остается неизменным и равен цене игры V независимо от того, что делает другой игрок, если только тот не выходит за пределы своих активных стратегий.
148
Пусть мы применяем оптималь- |
|
Таблица 46 |
|
|
ную смешанную стратегию S*A , а |
|
|
q1 |
q2 |
|
|
B1 |
B2 |
|
игрок В отклоняется от своей опти- |
|
|
||
мальной стратегии S*B и применяет |
p1 |
A1 |
a11 |
a12 |
чистую стратегию B1 или B2. |
p2 |
A2 |
a21 |
a22 |
По свойству решения игры это приведет к ухудшению выигрыша для В. Пусть (S*A ;S*B ) дает величину V, тогда если А смешивает A1 и A2, а В приме-
няет одну и ту же стратегию B1, то выигрыш, который получится, будет равен математическому ожиданию.
a11 p1 + a21 p2 |
* |
|
|
> v, если (SA , B2 ), то |
|
|
|
a12 p1 + a22 p2 |
> v |
|
(8.1) |
p1 + p2 =1 |
|
|
|
|
|
|
Так как все стратегии активны, то на основании вышеприведенной теоремы можно решить эту систему при равенстве первых двух строк.
p2 =1− p1 ; a11 p1 + a21 (1− p1 ) = v; p1 (a11 −a12 −a21 + a22 ) = −a21 + a22 ;
p1 |
= |
|
|
|
a22 |
−a21 |
|
|
|
; |
(8.2) |
|||
|
a11 |
+ a22 |
|
|
|
|
|
|||||||
|
|
|
|
−a12 −a21 |
|
|||||||||
p2 |
= |
|
|
|
a11 |
−a12 |
|
|
|
|
; |
(8.3) |
||
|
|
a11 + a22 |
−a12 |
|
|
|
||||||||
|
|
|
|
−a21 |
|
|||||||||
V |
= |
|
|
a11 a22 |
−a12 |
a21 |
. |
(8.4) |
||||||
|
|
|
−a |
|
||||||||||
|
|
a |
+ a |
22 |
−a |
21 |
|
|
|
|
||||
|
|
11 |
|
|
12 |
|
|
|
|
|
Аналогично можно составить систему и решить ее для игрока В:
(SB* , A1 ): |
a11q1 + a21q2 |
< v; |
|
|
|
|
|
* |
a21q1 + a22q2 |
|
(8.5) |
(SB , A2 ): |
< v; |
||
q1 + q2 =1; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
149 |
q1 |
= |
|
|
a22 |
−a12 |
|
|
; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(8.6) |
||
a11 |
+ a22 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
−a12 −a21 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
q2 |
= |
|
|
a11 |
−a21 |
|
|
|
; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(8.7) |
|
a11 |
+ a22 |
−a12 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
−a21 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
Например, для платежной матрицы |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
Таблица 47 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
1−2 |
|
|
|
|
1 |
|
|
|
1 |
|
|
|||||
|
|
|
|
B1 |
B2 |
|
|
|
p1 |
= |
|
|
|
|
= |
; |
q1 = |
; |
|||||||||||
|
|
|
|
|
|
|
0 |
+1−2 −3 |
4 |
2 |
|
||||||||||||||||||
|
|
А1 |
0 |
|
3 |
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
А2 |
2 |
|
1 |
|
|
|
p |
2 |
= 3 |
4 |
; |
q |
2 |
= |
1 |
2 |
; |
|
v = 1 |
4 |
; |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
8.5. Геометрическое решение игр
Рассмотрим игру 2x2 . Отложим по оси абсцисс единичный отрезок. Левый конец будет соответствовать чистой стратегии A1 , а правый – стратегии
A2 . Любая точка внутри отрезка обозначает смешанную стратегию S(p1 , p2 ) . На оси ординат будем откладывать выигрыши. На левой вертикали будут выигрыши, полученные при применении чистых стратегий A1B1 и A1B2 , а на правой – A 2 B1 и A 2 B2 . Если А применяет смешанные страте-
гии, а В - чистые, то выигрыши будут ординатами соответствующих прямых. Решим игру для игрока А: для этого найдем сначала самые маленькие выигрыши при различных смешанных стратегиях – это будет линия минимумов. Затем на этой линии найдем наивысшую точку. Получим максимин.
Линия минимумов |
|
||
B1 |
максимин |
В2 |
|
|
|
||
B2 |
|
a22 |
|
a12 |
v |
В1 |
|
A1 |
|
a21 |
|
|
А2 |
||
p2 |
p1 |
||
|
Рис. 61
150
Если мы примем оптимальную смешанную стратегию, и В примет свою оптимальную смешанную стратегию, то получим:
|
* |
= (p1 |
, p2 , p3 , p4 , p5 ); |
|
|
|
|
|||||||||||
SA |
|
|
|
|
||||||||||||||
|
|
= (q |
|
, q |
|
, q |
|
, q |
|
, q |
|
). |
|
|
|
|
||
S* |
1 |
2 |
3 |
4 |
5 |
|
|
|
|
|||||||||
|
B |
|
|
|
|
|
|
|
|
|
|
|
|
|||||
Если А примет оптимальную стратегию, а В – чистую стратегию В1 , т. е. |
||||||||||||||||||
отклонится |
|
от оптимальной, то |
средний выигрыш будет |
равен |
||||||||||||||
p1 6 + p2 3 + p3 0 + p4 1+ p5 2 и будет не меньше v. |
|
|||||||||||||||||
( M(x) = ∑Pi Xi |
|
- математическое ожидание случайной величины). |
|
|||||||||||||||
|
(S*A , B1 ): 6p1 +3p2 +0p3 +1p4 + 2p5 ≥ v; |
|
||||||||||||||||
|
(S*A , B2 ): 4p1 +5p2 + 4p3 + 2p4 +3p5 ≥ v; |
|
||||||||||||||||
(S*A , B3 ) |
: 3p1 + 2p2 + 4p3 +5p4 + 4p5 |
≥ v; |
(8.8) |
|||||||||||||||
(S*A , B4 ): 2p1 +1p2 +0p3 +3p4 +6p5 ≥ v; |
|
|||||||||||||||||
|
|
|
|
p1 + p2 + p3 + p4 + p5 =1. |
|
|
||||||||||||
|
|
|
|
|
|
|||||||||||||
Обозначим pi |
v |
|
= x |
i |
; |
|
1 |
v |
= L. |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
Так как при выборе pi |
|
необходимо, чтобы v→ max, то |
|
L = x1 + x 2 + x 3 + x 4 + x 5 = 1v → min .
6x1 +3x |
2 |
+0x 3 + x 4 + 2x 5 |
≥1; |
|
|||||
|
4x1 |
+5x |
|
+ 4x 3 |
+ 2x 4 |
+3x 5 |
≥1; |
|
|
|
2 |
(8.9) |
|||||||
|
3x1 |
+ 2x |
|
+ 4x 3 |
+5x 4 |
+ 4x |
|
≥1; |
|
|
2 |
5 |
|
||||||
|
2x1 + x 2 |
+0x 3 +3x 4 +6x 5 |
≥1. |
|
|||||
|
|
Получим задачу линейного программирования, которую можно решить симплекс-методом (см. главу 2) , в том числе и с использованием стандартных компьютерных программ, например, в системе LINDO или EXCEL.
Аналогичную задачу получаем и со стороны игрока В.
(S*B , Ai ); |
q j |
= y j ; |
1 |
v |
= L . |
|
v |
|
|
|
При выборе q j игрок В стремится уменьшить v (v→ min), поэтому
154
L = y1 + y2 |
+ y3 |
+ y4 |
= |
1 |
v |
→ max |
. |
(8.10) |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
6y1 + 4y |
2 +3y |
3 + 2y4 |
≤1; |
|
|
|||||||||||
|
3y1 |
+5y2 |
+ 2y |
3 + y4 ≤1; |
|
|
|
|||||||||
|
|
|
|
|||||||||||||
|
0y1 |
+ 4y |
|
+ 4y3 +0y4 |
≤1; |
|
(8.11) |
|||||||||
|
2 |
|
||||||||||||||
y |
1 |
+ 2y |
2 |
+5y |
3 |
+3y |
4 |
≤1; |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
2y1 |
+3y |
2 |
+ 4y3 +6y4 |
≤1. |
|
|
|||||||||
|
|
|
Таким образом, решение игры m×n сводится к паре задач линейного программирования. Анализируя задачи (8.8), (8.9) и (8.10), (8.11), можно показать, что они всегда имеют решение! Действительно, в качестве допустимого решения (8.8), (8.9) всегда будет: x1 = 1/d ; x2=x3=… = xn=0; где d – самый маленький коэффициент среди aij . При этом оптимальное решение также всегда будет, т.к. линейная форма (8.8.) ограничена нулем (все слагаемые положительны). Этим доказывается основная теорема теории игр.
8.7. Биматричные игры
Во многих ситуациях не обязательно, чтобы один игрок выигрывал, а другой столько же проигрывал. Такие игры называются неантагонистическими (с ненулевой суммой). Для двух игроков выигрыши в таких играх приходится записывать не одной, а двумя платежными матрицами, поэтому они имеют название биматричные игры. Интересы игроков здесь не являются полностью противоположными, и их поведение может быть более разнообразным. Различают некооперативные биматричные игры и кооперативные, в зависимости от того, могут ли договариваться игроки, или соглашение невозможно по правилам игры.
Рассмотрим классическую модель некооперативной биматричной игры, известной как «Дилемма Заключенного». Два преступника ожидают приговора суда за совершение преступления. Адвокат конфиденциально предлагает каждому из преступников освободить его, если он сознается и даст показания против сообщника, которому грозит угодить в тюрьму на 10 лет. Если никто не сознается, то обоим угрожает получить 1 год за незначительное преступление. Если сознаются оба преступника, то с учетом чистосердечного признания они получат 5 лет.
Построим платежные матрицы игроков со стратегиями «сознаться А - A1», «сознаться В - B1», «не сознаваться А – B2», «не сознаваться В – B2». Первое число – выигрыш А, а второе - выигрыш В.
155
Здесь игроки договориться не могут, поэтому им необходимо руководствоваться принципом здравого пессимизма и выбрать максиминную стратегию.
|
Таблица 52 |
Если А выберет А1, то в худ- |
|
|
шем случае он получит 5 лет, если |
||
|
|
|
|
|
В1 |
В2 |
A2, то в худшем случае он полу- |
А1 |
(5; 5) |
(0; 10) |
чит 10 лет, поэтому А «из двух |
А2 |
(10; 0) |
(1; 1) |
зол» выберет меньшее - A1. |
Игрок В если выберет B1, то в худшем случае получит 5 лет, а если B2, то 10 лет. Поэтому, чтобы не рисковать, он выберет B1. Получили «седловую точку» (A1,B1).
Таким образом, обоим заключенным лучше вместе сознаться и получить по 5 лет. Здесь ни одному из игроков не выгодно отклоняться от своей оптимальной стратегии в одиночку. Приведенный подход к решению некооперативных биматричных игр подобен принципу «минимакса» для матричных игр и называется нахождением точки равновесия по Нэшу. Нэш показал, что любая биматричная игра имеет решение в чистых или смешанных стратегиях.
8.8.Кооперативные игры
Кооперативной игрой называют такую модель ситуации, когда выигрыши игроков не имеют нулевой суммы, и в которой игрокам разрешается обсуждать свои стратегии и договариваться о совместных действиях, т. е. образовывать коалиции. Основной задачей здесь является дележ общего выигрыша между членами коалиции.
В случае двух игроков выигрыш в игре – это пара выигрышей, представляющих общие выигрыши. Если игроки будут перебирать всевозможные стратегии (чистые и смешанные), то все пространство выигрышей в игре образует некоторое множество точек, ограниченных некоторой линией (см. рисунок). На рисунке можно указать точку с координатами выигрышей игроков, которые они могут гарантировать себе, не прибегая к договоренностям (Т1, Т2). Такая точка называется точкой угрозы.
На множестве выигрышей можно найти множество Парето-оптимальных решений. Парето-оптимальные точки, безусловно, лучше всех других точек множествавыигрышей, таккакониявляются самымиправыминагоризонталиисамыми левыми на вертикали. Очевидно, что Парето-оптимальные точки – это северновосточнаяграницамножествавыигрышей.
Точки Парето-оптимального множества, находящиеся одновременно выше и правее точки угрозы Т, образуют переговорное множество. Очевидно, что игрокам выгодно договариваться, если их выигрыш будет лучше, чем тот, который получается в точке Т. На переговорном множестве выделяется
156
точка решения Нэша (равновесная точка), в которой достигается максимум произведения превышения выигрышей над величинами T1, T2:
Fmax = max (a1 −T1 )(a2 −T2 ).
Рассмотрим пример кооперативной игры «Семейный спор».
Муж и жена каждый вечер решают проблему развлечения: пойти на Футбол или пойти на Балет. Муж любит Футбол и терпеть не может Балета. Жена любит Балет и не любит Футбол, но посещение этих зрелищ в одиночку не дает полного удовлетворения. Поэтому если они вместе, то получают удовольствие на 4 единицы на любимом зрелище и 1 единицу на нелюбимом, а если поодиночке, то 2 единицы на любимом и 0 на нелюбимом. Платежные матрицы имеют такой вид (левое число – выигрыш жены, правое – выигрыш мужа):
|
Таблица 53 |
|
|
Жена |
|
|
Балет |
Футбол |
Балет |
(4; 1) |
(0; 0) |
Муж |
|
|
Футбол |
(2; 2) |
(1; 4) |
Множество возможных выигрышей – треугольник с вершинами, соответствующими чистым стратегиям. Ясно, что гарантированный выигрыш супругов – точка угрозы (2; 2). Множество Парето – точки на стороне ВС. Переговорное множество – точки на DE. Решение Нэша – точка N. Здесь супруги договариваются половину вечеров проводить вместе на Футболе, а половину
– на Балете.
|
А2 |
|
|
|
|
4 |
.В |
F→max |
|
||
3 |
|
D. |
.N .Е |
|
|
2 |
|
Т. |
. |
||
1 |
Точка угрозы |
||||
|
|
|
|
C |
|
0 |
|
|
|
А1 |
|
1 |
2 |
3 |
4 |
||
|
Рис 65
157