- •Введение Решения в условиях определенности, риска и неопределенности
- •Тема 1. Матричные игры Лекция 1. Матричные игры
- •Лекция 2. Матричные игры (продолжение) Дублирование и доминирование стратегий
- •Решение игры
- •Решение игры
- •Решение игры
- •Лекция 3. Матричные игры (продолжение)
- •Приближенный метод решения матричных игр
- •Лекция 4. Принятие решений в условиях неопределенности
- •Критерий Лапласа:
- •Лекция 6. Биматричные игры
- •Непрерывные игры
- •Позиционные игры
- •Контрольные вопросы и задания
Лекция 3. Матричные игры (продолжение)
Так
как каждая из пары двойственных задач
(1.4) и (1.5) имеет допустимое решение, то
согласно теории двойственных задач
линейного программирования обе эти
задачи имеют некоторые оптимальные
решения
и
при
этом оптимальные значения целевых
функций данных задач равны:
.
Покажем,
что цена игры
,
а оптимальные смешанные стратегии
игроков равны соответственно:
Действительно, пусть и – произвольные смешанные стратегии игроков, тогда
(1.6)
=
(1.7)
(1.8)
Из
(1.6) следует, что
,
из (1.7) следует, что
,
а из (1.8) следует, что одновременно
(так
как
)
и
(так
как
),
Значит
.
Итак, , , , поэтому
.
Таким образом, пара образует седловую точку данной игры в смешанных стратегиях, и – цена данной игры.
Если
же в платежной матрице
есть отрицательные элементы или нули,
то можно добавить ко всем элементам
матрицы одно и то же достаточно большое
положительное число b,
так чтобы все элементы матрицы
были положительными.
Обозначим
математическое ожидание выигрыша
первого игрока в игре с платежной
матрицей
,
а
–
математическое ожидание выигрыша
первого игрока в игре с платежной
матрицей
.
При этом
,
игра с платежной матрицей имеет седловую точку в смешанных стратегиях:
или
,
откуда
,
т. е. игра с платежной матрицей также имеет седловую точку в смешанных стратегиях, а цена игры с матрицей равна
.
Пример 1.8. Требуется найти оптимальные смешанные стратегии в игре из примера 1.7, сведя эту игру к паре взаимно двойственных задач линейного программирования.
Решение. От платежной матрицы
путем
добавления положительного числа
перейдем
к матрице,
все элементы которой положительны.
Сведем данную матричную игру к паре двойственных задач линейного программирования (согласно теореме 1.2):
,
,
,
,
.
Решаем уравнения из первой системы уравнений первое и второе, так как третье и четвертое дает отрицательные значения х, получаем:
.
Так
как выбрали в системе x
первые два уравнения, то в системе y
зануляются
и
.
.
Поскольку
оптимальные решения этих задач равны
и
,
оптимальные смешанные стратегии игроков
(
и
,
а цена игры
.
Приближенный метод решения матричных игр
Если точное решение матричной игры оказывается громоздким, можно ограничиться приближенным решением. В основе этого метода лежит предположение, что игроки выбирают свои стратегии в очередной партии, руководствуясь накапливающимся опытом уже сыгранных партий. Достоинство метода – его простота.
Пример
1.9. Найти
приближенное решение матричной игры,
смоделировав 10 партий:
Решение. Чтобы избавиться от дробей, умножим все элементы матрицы на 10. От этого оптимальные стратегии игроков не изменятся, а цена игры тоже умножится на 10.
Получим
матрицу
Составляем таблицу.
Номер партии |
Игрок А |
Игрок В |
Приближенные значения цены |
||||||||||
Стратегия |
Накопленный выигрыш при различных стратегиях игрока В |
Стратегия |
Накопленный выигрыш при различных стратегиях игрока А |
||||||||||
В1 |
В2 |
В3 |
А1 |
А2 |
А3 |
α |
β |
v = = (α + β)/2 |
|||||
1 |
А1 |
7 |
9 |
7 |
В1 |
7 |
9 |
7 |
7 |
9 |
8 |
||
2 |
А2 |
16 |
16 |
15 |
В3 |
14 |
17 |
15 |
15/2 |
17/2 |
8 |
||
3 |
А2 |
25 |
23 |
23 |
В2 |
23 |
24 |
23 |
23/3 |
24/3 |
47/6 |
||
4 |
А2 |
34 |
30 |
31 |
В2 |
32 |
31 |
31 |
30/4 |
32/4 |
62/8 |
||
5 |
А1 |
41 |
39 |
38 |
В3 |
39 |
39 |
39 |
38/5 |
39/5 |
77/10 |
||
6 |
А1 |
48 |
48 |
45 |
В3 |
46 |
47 |
47 |
45/6 |
47/6 |
92/12 |
||
7 |
А2 |
57 |
55 |
53 |
В3 |
53 |
55 |
55 |
53/7 |
55/7 |
108/14 |
||
8 |
А2 |
66 |
62 |
61 |
В3 |
61 |
63 |
63 |
61/8 |
63/8 |
124/16 |
||
9 |
А2 |
75 |
69 |
69 |
В2 |
70 |
70 |
71 |
69/9 |
71/9 |
140/18 |
||
10 |
А3 |
82 |
77 |
77 |
В2 |
79 |
77 |
79 |
7,7 |
7,9 |
7,8 |
||
Ниже описано как заполняется таблица.
Игрок А начинает со своей первой стратегии. Соответствующие выигрыши (первая строка матрицы) запишем в столбцы В1, В2, В3 и определим среди них минимальный: min (7, 9, 7) = 7 (в случае, когда их несколько, берем тот, что расположен левее). Этот минимум выделим. Он соответствует стратегии В1. Поэтому соответствующие выигрыши (первый столбец матрицы) запишем в столбцы А1, А2, А3 и определим среди них максимальный: max (7, 9, 7) = 9 (в случае, когда их несколько, берем тот, что расположен левее). Этот максимум выделим. Он соответствует стратегии А2. Поэтому во второй партии игрок А ответит стратегией А2. Соответствующие выигрыши (вторая строка) надо прибавить к числам в столбцах В1, В2, В3 предыдущей строки игрока А и определить минимальное среди полученных: min (16, 16, 15) = 15, что соответствует стратегии В3. Поэтому соответствующие выигрыши (третий столбец) надо прибавить к числам в столбцах А1, А2, А3 предыдущей строки игрока В и определить среди них максимальный: max (14, 17, 15) = 17, что соответствует стратегии А2. И т.д.
Приближенное значение нижней цены игры в каждой партии α = (выделенное число в столбцах В1, В2, В3)/(номер партии).
Приближенное значение верхней цены игры в каждой партии β = (выделенное число в столбцах А1, А2, А3)/(номер партии).
После 10 партий v ≈ 7,8. Поэтому для исходной матрицы v ≈ 7,8/10 = 0,78.
pi ≈ (число использования стратегии Аi)/(число партий).
qi ≈ (число использования стратегии Bj)/(число партий).
Число использования стратегии Аi = число отмеченных элементов в столбце Аi.
Число использования стратегии Вj = число отмеченных элементов в столбце Вj.
После 10 партий p1 ≈ 3/10, p2 ≈ 6/10, p3 ≈ 1/10 (за 10 партий игрок А 3 раза воспользовался стратегией А1, 6 раз – стратегией А2, 1 раз – стратегией А3).
q1 ≈ 1/10, q2 ≈ 4/10, q3 ≈ 5/10.
