- •Введение Решения в условиях определенности, риска и неопределенности
- •Тема 1. Матричные игры Лекция 1. Матричные игры
- •Лекция 2. Матричные игры (продолжение) Дублирование и доминирование стратегий
- •Решение игры
- •Решение игры
- •Решение игры
- •Лекция 3. Матричные игры (продолжение)
- •Приближенный метод решения матричных игр
- •Лекция 4. Принятие решений в условиях неопределенности
- •Критерий Лапласа:
- •Лекция 6. Биматричные игры
- •Непрерывные игры
- •Позиционные игры
- •Контрольные вопросы и задания
Позиционные игры
Все игры, которые рассматривались до сих пор, были заданы в так называемой нормальной форме, которая предполагает, что:
1) задано множество игроков I (не ограничивая общности, можно считать, что k игроков заданы своими номерами, т. е. I = {1, 2, …, k};
2) для
каждого игрока
задано множество возможных стратегий
;
3) для
каждой ситуации
(т. е. совместного выбора игроками своих
стратегий:
—
первым игроком,
— вторым, …,
—
k-м
игроком) заданы выигрыши игроков:
—
первого,
— второго, …,
— k-го,
т. е. заданы функции
выигрышей.
Пример 5.2 (Игра «Угадывание монеты» в нормальной форме»).
Требуется составить нормальную форму игры из примера 1.2 (первый игрок прячет в кулаке одну из двух монет – 1 руб. или 5 руб. – по своему выбору и незаметно от второго игрока, а второй игрок пытается угадать, какая монета спрятана. Если угадывает, то получает эту монету, если нет, то платит первому игроку 3 руб.).
Решение.
В игре, рассмотренной в примере 1.2,
множество игроков
,
множество стратегий первого игрока
{
=
«спрятать 1 руб.»,
= «спрятать 5 руб.»},
множество стратегий второго игрока
{
= «назвать 1 руб.»,
= «назвать 5 руб.»},
а функции выигрышей игроков, очевидно, задаются так:
Легко
видеть, что
(
(
Партия игры, заданной в нормальной форме, состоит в одновременном выборе игроками своих стратегий. Во многих случаях, между тем, игроки делают выбор последовательно.
Такие игры называются позиционными. Процесс позиционной игры состоит в последовательном переходе от одной позиции к другой, который осуществляется либо путем выбора игроками возможных альтернатив в соответствии с правилами игры, либо случайным образом (в этом случае говорят о случайном ходе).
Множество позиций в такой игре можно представить в виде упорядоченного множества, которое называется деревом игры, и представляет собой граф без циклов, в котором некоторые из вершин называются окончательными и соответствуют моменту окончания партии и расплаты — известны выигрыши каждого из игроков при достижении этих вершин; каждая из неокончательных вершин соответствует либо выбору конкретным игроком одной из возможных альтернатив, либо случайному ходу; среди неокончательных вершин выделена начальная вершина (соответствующая началу партии игры).
Различают позиционные игры с полной информацией и с неполной. В играх с полной информацией каждый игрок при своем ходе знает, в какой позиции дерева игры он находится. В играх с неполной информацией игрок, делающий ход, не знает точно, в какой именно позиции он находится, игроку известно лишь информационное множество — некоторое множество позиций, включающее не только ту позицию, в которой фактически находится игрок, но также и другие позиции (в которых игрок мог бы находиться).
Пример 5.2 (Позиционная игра «угадывание монеты» с полной информацией). Требуется проанализировать игру, описанную в примере 1.2 (первый игрок прячет в кулаке одну из двух монет – 1 руб. или 5 руб. – по своему выбору и незаметно от второго игрока, а второй игрок пытается угадать, какая монета спрятана. Если угадывает, то получает эту монету, если нет, то платит первому игроку 3 руб.), в ситуации, когда второй игрок имеет возможность подглядеть, какую монету спрятал первый.
Решение. Дерево игры изображено на рис. 5.1. Серым цветом на рис. 5.1 выделены информационные множества игроков.
Стратегии первого игрока таковы:
= «спрятать 1 руб.», = «спрятать 5 руб.»,
а
стратегию второго игрока удобно задавать
в виде пары альтернатив
,
где
,
первая
из этих альтернатив
соответствует выбору второго игрока в
случае выбора первым его первой
альтернативы, а вторая альтернатива
соответствует выбору второго игрока в
случае выбора первым игроком его второй
альтернативы.
Очевидно, у второго игрока есть четыре чистых стратегии:
Выигрыши игроков удобно свести в матрицу
. (5.1)
Строки
этой матрицы соответствуют выбору
первым игроком своих стратегий
и
,
а столбцы — выбору вторым игроком своих
стратегий
Элементы матрицы равны соответствующим выигрышам первого игрока (в данной игре выигрыш второго игрока противоположен выигрышу первого).
I
спрятать 5 руб.
спрятать 1 руб.
II
II
назвать 5 руб.
назвать 5 руб.
назвать 1 руб.
назвать 1 руб.
-5,
5
3,
-3
3,
-3
-1,
1
Рис. 5.1 – Дерево позиционной игры «Угадывание монеты» с полной информацией
Например,
в левой верхней клетке матрицы стоит
выигрыш первого игрока, если он выбрал
стратегию
=
«спрятать 1 руб.», а второй игрок выбрал
стратегию
(т. е. независимо от того, какую альтернативу
выбрал первый игрок, второй называет 1
руб.). Итак, первый игрок спрятал 1 руб.,
а второй игрок навал 1 руб., значит,
выигрыш первого игрока равен -1 руб.
Выигрыши в остальных ситуациях
определяются точно таким же образом.
Данная
матричная игра имеет седловую точку
(-1), которая соответствует первой строке
и второму столбцу платежной матрицы
(5.1), т. е. выбору первым игроком своей
стратегии
=
«спрятать 1 руб.», а вторым игроком —
стратегии
(т. е. назвать 1 руб., если первый игрок
спрятал 1 руб., и 5 руб., если первый игрок
спрятал 5 руб.).
Подобная ситуация для позиционных игр с полной информацией типична — в только что рассмотренном примере содержится идея доказательства следующей теоремы.
Теорема. Любая позиционная игра с полной информацией эквивалентна некоторой матричной игре, в которой существует седловая точка в чистых стратегиях.
Эта теорема означает, в частности, существование оптимальных чистых стратегий в играх типа шахмат и шашек; такие оптимальные стратегии пока не известны, но лишь потому, что платежная матрица, к которой сводится, например, шахматная игра, очень велика по размеру, и ее анализ современным компьютерам пока не под силу, однако развитие технологии распределенных вычислений в интернете, по-видимому, в ближайшие десятилетия приведет к отысканию оптимальных шахматных стратегий.
Иное дело обстоит с позиционными играми с неполной информацией (к таким играм относятся, например, домино и большинство карточных игр). Рассмотрим конкретный пример.
Пример 5.2 (Позиционная игра «Угадывание монеты» с неполной информацией). Требуется проанализировать игру «Угадывание монеты» как позиционную игру с неполной информацией.
Решение. Информационные множества игроков в таком случае закрашены серым на рис. 5.2.
Теперь мы получили позиционную игру с неполной информацией: второму игроку в момент его хода известно информационное множество, но неизвестна конкретная позиция из информационного множества, в которой он находится (левая или правая на рис. 5.2).
В этом случае первый игрок имеет две стратегии:
= «спрятать 1 руб.», = «спрятать 5 руб.»,
и поскольку второму игроку выбор первого неизвестен, у второго игрока есть две стратегии:
= «назвать 1 руб.», = «назвать 5 руб.».
I
спрятать 5 руб.
спрятать 1 руб.
II
II
назвать 5 руб.
назвать 5 руб.
назвать 1 руб.
назвать 1 руб.
-5,
5
3,
-3
3,
-3
-1,
1
Рис. 5.2 – Дерево позиционной игры «Угадывание монеты» с неполной информацией
Матрица
выигрышей первого игрока в зависимости от выбора игроками своих стратегий не имеет седловой точки в чистых стратегиях, а оптимальные смешанные стратегии игроков таковы: = (2/3,1/3), = (2/3,1/3), при этом цена игры равна v = 1/3.
Применим теперь аппарат теории игр к исследованию конкуренции производителя коммерческого программного обеспечения с пиратами.
Пример 5.3 (Игра «Проверка легальности программного обеспечения»). Производитель программного обеспечения продает лицензии на использование своей продукции. Пользователь имеет возможность приобрести лицензионную копию программного продукта (по цене c ден. ед.) или пиратскую (по цене d ден. ед.). При этом полезность, которую приносит использование нелицензионного программного обеспечения, в точности равна полезности от использования легальной копии, а себестоимость изготовления одной копии (и легальной, и пиратской) пренебрежимо мала по сравнению со всеми остальными величинами. Поскольку значительная часть пользователей пользуются нелицензионными копиями, производитель может предпринимать определенные меры по изобличению пользователей пиратских копий и привлечению их к ответственности. При этом он понесет определенные издержки по организации проверки легальности использования программного обеспечения (в размере l ден. ед. на проверку каждого пользователя), но если будет обнаружено незаконное использование программного продукта, пользователь заплатит в пользу производителя штраф (в размере f ден. ед.). Требуется проанализировать данную конфликтную ситуацию.
Решение. Очевидно, выполняются следующие соотношения:
Будем считать также, что
(последнее
неравенство эквивалентно тому, что
).
Данная конфликтная ситуация является типичной иллюстрацией асимметрии информации, когда пользователь знает происхождение своего программного обеспечения (легальное оно или пиратское), а производитель (и государство) не может отличить «честного» пользователя от пользователя — пирата.
Рассмотрим позиционную форму игры и построим ее дерево (рис. 5.3). Первым игроком является пользователь, он осознанно принимает одно из двух решений: приобрести лицензионное или пиратское программное обеспечение. Производитель является вторым игроком, поскольку он может принять решение по инициации проверки только после того, как пользователь сделает свой ход.
I
использовать нелицензионное
программное обеспечение
использовать лицензионное
программное обеспечение
II
II
не инициировать проверку
не инициировать проверку
инициировать проверку
инициировать проверку
-d-l,
f-l
-d,
0
-c,
c
-c,
c-l
Рис. 5.3 – Дерево позиционной игры «Проверка легальности программного обеспечения»
Поскольку производитель в момент принятия решения не знает, в какой из двух точек зоны неопределенности он находится, данная конфликтная ситуация формализуется с помощью биматричной игры с матрицами выигрышей
Строки соответствуют стратегиям первого игрока (пользователя):
использовать лицензионное программное обеспечение;
использовать нелицензионное программное обеспечение.
Столбцы соответствуют стратегиям второго игрока (производителя):
инициировать проверку лицензий на использование пользователем программного обеспечения;
не инициировать такую проверку.
Пусть
–
смешанные стратегии игроков: пользователь с вероятностью р приобретает лицензионное программное обеспечение [и с вероятностью (1 - р) — нелицензионное], производитель с вероятностью q инициирует проверку лицензий [и с вероятностью (1 - q) не инициирует].
Множество возможных исходов игры в зависимости от выбора игроками смешанных стратегий представлено на рис. 5.4.
Максиминные выигрыши пользователя и производителя равны соответственно
Множество Парето-оптимальных исходов — это ломаная ABC, а переговорное множество, отсекаемое от множества Парето максиминными выигрышами, — это выделенный жирным на рис. 5.4 отрезок
Решение Нэша определяется максимумом функции Нэша:
который достигается при
,
что соответствует смешанным стратегиям игроков
Итак, рациональный потребитель в половине случаев предпочтет использование нелицензионного программного обеспечения, а рациональному производителю никогда не выгодно инициировать проверку лицензий.
Если считать функции полезности и пользователя, и производителя строго возрастающими, принципиальных изменений в конфликтной ситуации не произойдет.
Таким образом, вне зависимости от склонности производителей и пользователей программного обеспечения к риску, рациональный пользователь только в половине случаев предпочтет приобрести лицензионное программное обеспечение, а рациональный производитель никогда не будет инициировать проверку легальности использования его продукта пользователями.
Так будет всегда, пока цена лицензии с будет больше цены пиратской копии d. В случае же, когда c = d, очевидно, пользователь предпочтет приобрести легальную копию, но при этом прибыль производителя существенно сократится (если не превратится в убытки).
Рис. 5.4 – Множество возможных исходов игры «Проверка легальности программного обеспечения»
