
- •Моделирование операций по схеме марковских случайных процессов Лекция 1. Марковский случайный процесс (сп) с дискретными состояниями и дискретным временем
- •Марковский процесс с дискретными состояниями и непрерывным временем Уравнения Колмогорова а.Н.
- •Закон распределения интервала времени между событиями в простейшем потоке
- •Приближенное сведение немарковских процессов к марковским. Метод «псевдосостояний»
- •Система массового облуживания с ожиданием
- •Смо с ожиданием с ограничением по длине очереди
- •Лекция 7. Типовые задачи по теории массового обслуживания
- •Основы теории игр Предмет теории игр. Основные понятия
- •Лекция 8. Примеры дискретных позиционных игр
- •Условная карточная игра.
- •Понятие стратегии игроков в игре
- •Лекция 9. Ситуации равновесия в игре
- •Лекция 10. Антагонистические игры
- •Основная теорема теории игр (Джон фон Нейман)
- •Теорема об активных стратегиях
- •Лекция 13.Непрерывные антагонистические игры на квадрате (игры с бесконечным числом решений)
Основная теорема теории игр (Джон фон Нейман)
Для произвольной платежной матрицы антагонистической игры нижний выигрыш первого игрока равен верхнему проигрышу второго:
и существует по
крайней мере одна пара смешанных
стратегий игроков (
,
которая реализует данный выигрыш V
первого игрока (проигрыш V
второго игрока):
Общее значение V величин и называют ценой игры, а любая реализующая его пара стратегий ( игроков называется парой их оптимальных стратегий игры.
Пара оптимальных стратегий игры ( и цена игры V образуют решение игры.
Легко показать, что пара оптимальных смешанных стратегий ( игроков образует ситуацию равновесия в игре.
Т.О., любая дискретная позиционная антагонистическая игра имеет ситуацию равновесия и тем самым решение в смешанных стратегиях игроков. Игроки снова могут без ущерба для своих результатов сообщить противнику свои оптимальные смешанные стратегии, т.к. противник не сможет использовать эту информацию для улучшения своего поведения в игре.
Теорема об активных стратегиях
В общем случае некоторые
из чисел
,
могут быть равными нулю, т.е. не все
стратегии, доступные игроку, входят в
его оптимальную смешанную стратегию.
Стратегии, которые входят в оптимальную смешанную стратегию с отличными от нуля вероятностями, называются активными.
ТЕОРЕМА (об активных стратегиях). Если один из игроков придерживается своей оптимальной смешанной стратегии, то выигрыш остается неизменным и равным цене игры V, независимо от того, что делает другой игрок, если только тот не выходит за пределы своих активных стратегий (т.е. пользуется любой из них в чистом виде или смешивает в любых пропорциях).
Заметим, что теорема не означает, что второй игрок может играть произвольно, т.к. первый игрок заметит, что его противник играет не по оптимальной смешанной стратегии, также отступит от своей оптимальной смешанной стратегии (подстроится под противника) и сможет сделать свой выигрыш больше V.
Методы решения антагонистических игр.
Частные случаи.
в платежной матрице A существует седловой элемент
тогда
существует решение в чистых стратегиях:
V=
,
использование факта доминирования строк и столбцов в платежной матрице A, если таковое имеется
Говорят, что i-ая строка платежной матрицы A доминирует ее k-ую строку, если выполняется неравенство:
И, кроме того,
Очевидно, что в данном
случае чистая стратегия
является бесполезной для первого игрока
и всегда хуже стратегии
,
поэтому k-ая строка
оказывается лишней и ее можно исключить
из матрицы A без ущерба
для решения игры. Матрица A
при этом упрощается вследствие уменьшения
ее размерности.
Аналогично по столбцам:
j-ый
столбец матрицы A доминирует
ее l-ый столбец, если
и кроме того
,
тогда чистая стратегия
всегда лучше
и стратегию
можно исключить.
Теорема. Если строка с номером i1 платежной матрицы A игры доминирует с какой-либо другой строкой, то:
а) в игре существует оптимальная стратегия
б) всякая оптим.
стратегия
первого игрока в игре с матрице
, отличающейся от A
исключением строки с номером i1,
является в то же время и оптимальной
стратегией первого игрока в игре с
матрицей A после добавления
нуля в состав компонент вероятностного
распределения:
Аналогичное утверждение справедливо для игр ,у кот. матрица А содержит доминируемые столбцы.
Пример: рассмотрим игру
|
|
|
|
|
|
2 |
0 |
1 |
4 |
|
0 |
1 |
5 |
3 |
|
4 |
1 |
3 |
2 |
второй столбец доминирует четвёртый
третья строка доминирует первую
второй столбец доминирует третий
первая строка доминирует вторую
первый столбец доминирует второй
Т.О. игра имеет седловой
элемент, цену игры V=1 и
пару оптим. стратегий (
,
т.е.
решение игр с платежной матрицей 2х2
Пусть в платежной
матрице
игры 2х2 нет седлового элемента
Оптимальные стратегии
удовлетворяет соотношению
Т.к.
- оптимальная стратегия второго игрока,
то по свойству равновесных стратегий,
имеем:
Т.к.
,
то равенство возможно только при :
(подтверждается теорема об активных стратегиях)
Аналогично имеем:
Если Δ=
,
то система имеет единственное решение.
Если нет седлового элемента, то это условие выполняется, т.к. иначе строки были бы пропорциональны, что означало бы наличие у матрицы А доминирования одной строки (столбца) над другой.
Добавляя равенства
и решая системы, находим:
Пример: решить игру
|
|
|
|
4 |
2 |
|
1 |
3 |
Δ=
Решение игры:
V=2.5;
Лекция 12. Общие методы решения антагонистических игр
К общим методам решения антагонистических игр относятся приближенный итеративный метод и точный метод решения посредством сведения решения игры к решению основной задачи линейного программирования (ОЗЛП).
Итеративный метод решения или метод фиктивного разыгрывания состоит в проигрывании серии партий со строго формализованными правилами выбора ими решений каждой партии.
Правила выбора первым
игроком своей чистой стратегии в
(N+1)-й партии, если в
предыдущих N-партиях
второй игрок использовал свою
стратегию
j=1,2,…,n
ровно
раз (
основывается
на двух идеях:
первый игрок допускает, что частоты
применения вторым игроком своих чистых стратегий , имевшие место в предыдущих N-партиях, сохраняется и в (N+1) партии.
В результате такого прогноза первый игрок ставит себя в условие полной информации о применяемой противником смешанной стратегии игры;
в этих условиях первый игрок выбирает в (N+1)-ой партии свою чистую стратегию
, оптимизирующую его ответ на известную смешанную стратегию противника, т.е. реализующую экстремум в правой части выражения
Формализованное правило выбора вторым игроком своего решения в (N+1)-ой партии игры базируется на тех же идеях:
второй
игрок выбирает в (N+1)-ой
партии стратегию
,
реализующую экстремум в правой части
выражения:
В первой
партии игры стратегии
и
выбираются произвольно, т.е. для N=1
Оказывается, при т.о. организованном разыгрывании серии партий игры, имеет место теорема:
Теорема (Брауна и Робинсона). При неограниченно продолжающемся фиктивном разыгрывании серии партий по изложенным выше правилам справедливо утверждение:
- векторы
одной из (любой) оптимальных. стратегии
первого и второго игрока в игре с
платежной матрицей А, то число
содержится среди предельных точек
числовой последовательности
а число
содержится среди предельных точек
последовательности
В частности, если ситуация равновесия ( в данной игре единственная, то
Организацию фиктивного разыгрывания серии партий игры и теорему Брауна и Робинсона можно использовать для приближенного итеративного решения произвольной антагонистической игры, заданной в матричной форме.
Характерной особенностью метода является его медленная сходимость и большое необходимое количество итерация для обеспечения заданной точности решения.
Пример: Решить игру методом итераций
9 |
3 |
5 |
6 |
первая партий игры
N=1;
i*=2; j*=2;
Включается счетчик партии
=0;
вторая партия игры:
N=2;
,
i*=2
,
j*=1
= 0;
третья партия игры
N=3;
,
i*=1
,
j*=1
=1;
четвертая партия игры:
N=4;
,
i*=1
,
j*=2
=2;
и т.д.
N=15
Точное решение:
Признаком окончания процесса разыгрывания используется следующее:
где
– минимальное допустимое количество
партий разыгрывания
Обсудим общий точный метод решения антагонистических игр сведением решения игры к решению основной задачи линейного программирования (ОЗЛП).
Из свойства ситуации равновесия в игре для оптимальной стратегии игрока имеем следующее неравенство:
Не нарушая общности можно считать V > 0 (этого всегда можно добиться, прибавляя ко всем элементам матрицы А одну и ту же достаточно большую положительную величину М – при этом цена игры увеличится на М, а решение игры – не изменится).
Итак, получаем:
Разделим все неравенства на V > 0 и введем новые переменные:
Тогда получим:
Причем:
Первый игрок стремится сделать свой гарантированный выигрыш максимальным, тогда правая часть последнего равенства принимает минимальное значение.
Т.О. задача решения игры свелась к следующему:
Определить неотрицательные
значения переменных
так, чтобы они удовлетворяли линейным
ограничениям и при этом их линейная
функция
обращалась в минимум.
Это типичная задача
линейного программирования, решая
которую мы найдем оптимальную стратегию
первого игрока. Задача легко сводится
к ОЗЛП.
Действительно, введем в рассмотрение n – новых переменных.
Тогда, очевидно,
и получаем ОЗЛП вида:
Определение оптимального
для первого игрока вектора
сводится к поиску минимума
при наличии ограничений:
Пусть полученная ОЗЛП решена, и ее решением является вектор
и минимальное
значение линейной формы
Тогда оптимальной стратегией первого игрока будет вектор с компонентами:
а цена
игры V =
Для второго игрока все будет аналогично с той разницей, что второй игрок будет максимизировать величину W = 1/V, а ограничения на переменные будут иметь вид:
После деления обеих частей на V и ввода новых переменных:
Получим ОЗЛП для второго игрока:
Определить
вектор
, максимизирующий линейную формулу:
при ограничениях:
После
решения ОЗЛП находим
Обе оптимизационные задачи линейного программирования, полученные для первого и второго игрока в теории линейного программирования называются сопряженными (двойственными) друг другу.
Равенство
для сопряженных друг с другом ОЗЛП
является одним из основных результатов
в теории линейного программировании,
эквивалентным основной теореме игр –
теореме Неймана
Пример: свести решение игры к решению ОЗЛП
9 |
3 |
5 |
6 |
Для первого игрока:
Обозначим
Тогда получим:
Введем новые переменные:
и получаем ОЗЛП вида:
найти
min U=min(
при ограничениях
Для второго игрока:
Обозначим:
W
=
Тогда получаем:
Введем новые переменные:
Получаем ОЗЛП вида:
Найти
max W
= max(
при наличии ограничений: