Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Южно-уральский институт управления и экономики

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Ответы Мат Методы.doc

Скачиваний:

Добавлен:

10.11.2019

Размер:

2.79 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 67 / 87 8 > Следующая >>>

Принцип минимакса.

Рассмотрим игру mxn с платежной матрицей выше. Следует определить:

1). наилучшую стратегию игрока I среди стратегий А_1, А_{2,
… ,}А_i_, …, А_m.

2). наилучшую стратегию игрока II среди стратегий B_1, B_{2,
… ,}B_j_, …, B_n.

При определении наилучших стратегий игроков основой рассуждений является принцип, который предполагает, что противники, участвующие в игре одинаково разумны и каждый из них делает все для того, чтобы добиться своей цели.

Используя этот принцип, найдем наилучшую стратегию игрока I, для чего проанализируем последовательно все его стратегии. Выбирая стратегию А_iигрока I, мы должны рассчитать, что игрок II ответит на нее той из своих стратегий B_j, для которой выигрыш игрока Iбудет минимальным. Найдем минимальное число a_ijв каждой строке матрицы и, обозначив его _i (i=1,2,…,m), запишем рядом с платежной матрицей в добавочный столбец:

_i= min a_{i j} i=1,2,…,m.

	B₁	B₂	….	B_n	_i
A₁	а₁₁	а₁₂	….	а₁_n	₁
A₂	а₂₁	а₂₂	….	а₂_n	₂
….	….	….	….	….	….
A_m	а_m1	а_m₂	….	а_mn	_m
_j	₁	₂	….	_n-	 

Зная числа _i (свои минимальные выигрыши при применении стратегий А_i), игрок I должен предпочесть другим стратегиям ту, для которой _iмаксимально. Обозначим это максимальное значение через , тогда =max _i_..Подставив вместо _i правую часть

выражения предыдущего, получим = max min _ij_.

i j

Величина  - гарантированный выигрыш, который может обеспечить себе игрок I, называется нижней ценой игры (максимином). Стратегия, обеспечивающая получение нижней цены игры , называется максиминной стратегией. Если игрок I ,будет придерживаться своей максиминной (перестраховочной) стратегии, то ему гарантирован выигрыш, не меньший  при любом поведении игрока II. Игрок II заинтересован уменьшить свой проигрыш или, что тоже самое, выигрыш игрока I обратить в минимум. Поэтому для выбора своей наилучшей стратегии он должен найти максимальное значение выигрыша в каждом из столбцов и среди этих значений выбрать наименьшее. Максимальный элемент в каждом столбце обозначим через _j_. Эти элементы будем записывать в дополнительной строке таблицы.

Наименьшее значение среди _jобозначим  - это верхняя цена игры (минимакс), которая определяется по формуле: = min max _i_j_.

j i

Стратегия игрока II, обеспечивающая “выигрыш”, является его минимаксной стратегией. Если игрок II будет придерживаться своей минимаксной стратегии, то он гарантирован, что в любом случае проиграет не больше .

Для нижней и верней цены игры всегда справедливо неравенство :

max min _i
j≤ min max _i
j i=1,2,…,m

i j j i j=1,2,…,n

т.о.

 ≤ 

7 игр, для которых нижняя цена равна верхней, т.е. = . Такие игры называются играми с седловой точкой. Общее значение нижней и верхней цены игры в играх с седловой точкой называется чистой ценой игры, а стратегии А^*_i и В^*_I_, позволяющие достичь этого значения, - оптимальными. Пара оптимальных стратегий (А^*_i , В^*_I) называется седловой точкой матрицы, т.к. элемент _i_j=γ является одновременно минимальным в i-ой строке и максимальным в j-ом столбце. Оптимальные стратегии и чистая цена являются решением игры. Оптимальные стратегии определяют в игре “положение равновесия”, которое заключаются в том, что каждый из игроков не заинтересован в отходе от своей оптимальной стратегии, т.к. ему это невыгодно. Чистую цену игры γ в игре с седловой точкой при условии одинаковой разумности партнеров игрок I не может увеличить, а игрок II уменьшить. Если игра имеет седловую точку, то говорят, что она решается в чистых стратегиях. Под чистой стратегией понимается такая стратегия, которая выбрана игроком сознательно, без привлечения механизма случайного выбора.

Решение игр без седловых точек.

Если матрица игры содержит седловую точку, то ее решение находится по принципу минимакса. Возникает вопрос: как найти решение игры, платежная матрица которой не имеет седловой точки?

Применение минимаксных стратегий каждым из игроков обеспечивает первому выигрыш не меньше α, а 2^ому проигрыш не больше β. Учитывая, что α < β, естественно, что для игрока I желание увеличить выигрыш, а для игрока II – уменьшить проигрыш. Поиск такого решения приводит к применению сложной стратегии, состоящей в случайном применении 2^х и более чистых стратегий с определенными вероятностями . Такая сложная стратегия называется смешанной. Смешанные стратегии – это применение чистых стратегий с вероятностями. Смешанные стратегии игроков будем обозначать соответственно p_A=(p₁,p₂,…,p_m) и q_B=(q₁,q₂,…,q_n) где p_i, q_j≥ 0 – вероятности применения чистых стратегий A_iи

m m

B_j при этом ∑p_i=1, ∑q_j=1.

i=1 i=1

В основной теореме теории игр (Джон фон Нейман) утверждается, что  конечная игра 2^х лиц с нулевой суммой имеет, по крайней мере, одно решение, возможно, в смешанных стратегиях. Таким образом, из основной теоремы следует, что каждая конечная игра имеет цену.

Обозначим ее так же, как чистую цену игры через γ. Цена игры γ – средний выигрыш, приходящийся на одну партию, - всегда удовлетворяет условию α ≤ γ ≤ β , т.е. лежит между нижней ценой игры α и верхней ценой игры β. Следовательно, каждый игрок при многократном повторении игры, придерживаясь смешанных стратегий, получает более выгодный для себя результат.

Оптимальное решение игры в смешанных стратегиях, так же как и решение в чистых стратегиях, обладает свойством, которое заключается в том, что каждый из игроков не заинтересован в отходе от своей оптимальной смешанной стратегии, если его противник применяет оптимальную смешанную стратегию, т.к. это ему невыгодно.

Если чистая стратегия входит в оптимальную смешанную стратегию с отличной от нуля вероятностью, то она называется активной.

Теорема (об активных стратегиях).

Применение оптимальной смешанной стратегии обеспечивает игроку максимальный средний выигрыш (или минимальный средний проигрыш), равный цене игры γ, независимо от того, какие действия предпринимает другой игрок, если только он не выходит за пределы своих активных стратегий.

Матричные игры.

Матричные игры и понятие седловой точки. Рассмотрим более подробно антагонистические игры и их основные свойства. Удобным способом задания игры двух участников с нулевой суммой является платежная матрица. Отсюда, кстати, происходит еще одно их название — матричные игры. Каждый элемент платежной матрицы а_ij содержит числовое значение выигрыша игрока I (проигрыша игрока II), если первый применяет стратегию i, а второй — стратегию j. Термины выигрыш и проигрыш следует понимать в широком смысле, т. к. они могут принимать отрицательные значения и с житейской точки зрения означать противоположное. Нетривиальность задачи, прежде всего, заключается в том, что каждый из игроков делает свой выбор, не зная о выборе другого, что существенно осложняет процесс оптимизации выбираемой стратегии.

Классическим примером антагонистической игры является игра с двумя участниками, загадывающими независимо друг от друга числа. Предполагается, что если их сумма оказывается четной, то выигрыш, равный 1, достается первому игроку, а если нечетной, то второму. Положив, что для обоих игроков загадывание нечетного числа является первой стратегией, а четного — второй, можем записать платежную матрицу данной игры:

	н/ч	ч
н/ч	1	-1
ч	-1	1

(1)

Строки матрицы (1) соответствуют стратегиям игрока I, столбцы — стратегиям игрока II, а ее элементы — результатам первого игрока. Также из определения игры следует, что элементы данной матрицы, взятые с обратным знаком, соответствуют выигрышам второго игрока.

Более сложная и содержательная платежная матрица может быть получена, если несколько модифицировать предложенную игру. Допустим, что оба участника имеют право загадывать числа от 1 до 4, что составляет их соответствующие стратегии. В случае, если результат сложения задуманных чисел будет четным, то второй игрок выплачивает первому получившуюся сумму, а если нечетным, то первый — второму. Запишем платежную матрицу для такой игры:

(2)

Некоторая условность и искусственность в постановке проблемы не должны в данном случае нас смущать, так как к подобной форме может быть сведена модель, описывающая, например, соревнование двух фирм за вновь открывшийся рынок сбыта продукции и т. п.

Как уже отмечалось, важнейшим в теории игр является вопрос об оптимальности решения (выбора стратегии) для каждого из игроков. Проанализируем с этой точки зрения некоторую матричную игру, для которой задана платежная матрица . При выборе игроком I стратегии i его гарантированный доход независимо от действий игрока II составит . Поскольку он может выбирать i самостоятельно, то целесообразно этот выбор сделать таким, чтобы он при любой стратегии противника максимизировал величину гарантированного дохода, т. е. обеспечивал получение , Такой принцип выбора стратегии получил название «принцип максимина». С другой стороны, аналогичные рассуждения могут быть проведены по поводу действий второго игрока. Его наибольший проигрыш при выборе стратегии j составит , и, следовательно, ему следует выбирать стратегию так, чтобы минимизировать величину проигрыша при любых действиях соперника, т. е. обеспечить . В этом суть принципа минимакса.

Можно доказать справедливость следующего соотношения:

 (3)

Однако очевидный интерес представляет ситуация, при которой значение выигрыша (платежа), получаемого игроком I при выборе им максиминной стратегии, равно платежу (проигрышу) II-го игрока при минимаксной стратегии

= (4)

В этом случае говорят, что игра имеет седловую точку. Совпадение значений гарантированных выигрышей игроков при максиминной и минимаксной стратегии означает возможность достижения в игре некоторого оптимального (стабильного, равновесного) состояния, от которого невыгодно отклоняться ни одному из участников. Понятие «оптимальность» здесь означает, что ни один разумный (осторожный) игрок не стремится изменить свою стратегию, так как его противник, в принципе, сможет выбрать такую стратегию, которая даст худший для первого результат. Стратегии и , образующие седловую точку, называются оптимальными, а значение . называют ценой игры. Тройка считается решением матричной игры с седловой точкой.

Нетрудно заметить, что не всякая игра обладает седловой точкой. В частности, как игра (6.1), так и игра (6.2) седловой точки не имеют. Примером игры, имеющей седловую точку, является игра с платежной матрицей (6.5).

(5)

В данной матрице минимальные (гарантированные) выигрыши первого игрока по строкам равны 1, 5 и (-3). Следовательно, его максиминному выбору будет отвечать стратегия 2, гарантирующая выигрыш 5. Для второго игрока максимальные проигрыши по столбцам матрицы составят 8, 10, 5, 17, поэтому имеет смысл остановиться на стратегии 3, при которой он проиграет только 5. Таким образом, вторая стратегия первого игрока и третья стратегия второго образуют седловую точку со значением 5, т. е. для игры с матрицей (6.5) имеет решение (2; 3; 5).

6.1.4. Смешанные стратегии. Дальнейшее развитие теории матричных игр основывается на исследовании игры как некоторого повторяющегося процесса. Действительно, вряд ли можно дать содержательные рекомендации по такому вопросу, как следует поступать участникам однократно проводимой игры, не имеющей седловой точки. В случае же ее многократных повторов естественной и плодотворной представляется идея рандомизации выбора стратегий игроками, т. е. внесение в процесс выбора элемента случайности. Действительно, систематическое отклонение, например, игрока I от максиминной стратегии с целью увеличения выигрыша может быть зафиксировано вторым игроком и наказано. В то же время абсолютно хаотичный выбор стратегий не принесет в среднем наилучшего результата.

►Смешанной стратегией игрока I в игре с матрицей называется упорядоченный набор действительных чисел x_i, i1:m , удовлетворяющих условиям

(6)

Числа интерпретируются как вероятности применения игроком I стратегий 1,2,..., т, которые, в отличие от смешанных, также называют чистыми стратегиями.

Аналогично вводится понятие смешанных стратегий игрока II, которые определяются как набор чисел у_j, jl:n, удовлетворяющих условиям

(7)

Тогда, если игрок I применяет смешанную стратегию х=(х₁, х₂, ..., х_т), а игрок II смешанную стратегию у = (у₁, у₂,…,y_n), то математическое ожидание выигрыша игрока I (проигрыша игрока II) определяется соотношением

^² (8)

В дальнейшем через X будем обозначать множество допустимых смешанных стратегий игрока I, определяемое условием 6.7, а через Y — определяемое условием 6.8 множество допустимых смешанных стратегий игрока П.

К поиску решения игры в смешанных стратегиях, так же как и в п. 6.1.3, могут быть применены критерии максимина-минимакса. В соответствии с ними игрок I будет выбирать свою смешанную стратегию x=(x_l, х₂, ..., х_т) таким образом, чтобы максимизировать наименьший средний выигрыш:

(9)

который, как можно доказать, равен

(10)

а игрок II — свою смешанную стратегию так, чтобы минимизировать наибольший средний проигрыш:

(11)

также равный

(12)

По аналогии с (6.3) для любых х е X и г/ € У справедливо неравенство

 (13)

►Стратегии и называют оптимальными смешанными стратегиями, если для любых хХ и yY справедливо равенство

= (14)

называют ценой игры, и если х^* и у^* существуют, то говорят, что игра имеет решение в смешанных стратегиях (х^* , у^*, v) .

Справедлива фундаментальная теорема Дж. Неймана, которую мы приведем без доказательства.

Теорема 6.1 (основная теорема матричных игр). Любая матричная игра имеет решение в смешанных стратегиях.

Значение и нетривиальность теоремы (6.1) обусловлены прежде всего тем, что, как было показано в п. 6.1.3, в общем случае матричные игры в чистых стратегиях решения не имеют.

6.1.5. Решение матричных игр методами линейного программирования. Рассмотрим некоторые способы решения матричных игр. Задача, решаемая первым игроком, (10) была сформулирована как максимизация наименьшей из сумм

но если определить некоторое х_т+1 , для которого выполняется

(15)

то она может быть сведена к задаче линейного программирования:

(16)

при ограничениях

(17)

Проведя аналогичные рассуждения, приходим к тому, что задача минимизации наибольшего ожидаемого проигрыша, решаемая игроком II (12), сводится к задаче линейного программирования

(18)

(19)

Таким образом, мы получаем возможность применять все возможности аппарата линейного программирования для поиска оптимальных стратегий обоих игроков.

Достаточно легко проверить, что задачи (16)-(17) и (18)-(19) образуют двойственную пару. Здесь в определенном смысле мы вернулись к проблемам, уже рассматривавшимся во второй главе, а именно к взаимосвязи между наличием решения у некоторой оптимизационной задачи и существованием седловой точки у соответствующей функции Лагранжа. В данном случае аналогичная связь прослеживается между седловой точкой игры и решением пары задач оптимизации.

Решение и геометрическая интерпретация игр 2*2

Игра 2*2 является наиболее простым случаем конечных игр.

	B₁	B₂
A₁	a₁₁	a₁₂
A₂	a₂₁	a₂₂

В этой игре каждый из игроков обладает только двумя стратегиями. Пусть игра не имеет седловой точки , т.е. . Требуется найти оптимальные смешанные стратегии игроков =(р₁,р₂) , =(q₁,q₂) и цену игры . В игре 2*2, не имеющей седловой точки, обе стратегии игроков являются активными. Поэтому в соответствии с теоремой от активных стратегиях, если игрок I будет применять свою оптимальную смешанную стратегию, то независимо от действий игрока II, выигрыш его будет равен цене игры .

Игрок I будет применять стратегию А, с вероятностью р₁ и стратегию А₂ с вероятностью р₂. Если игрок II применяет стратегию В₁, то выигрыш игрока I-случайная величина, среднее которой (математическое ожидание) является ценой игры, т.е. определяется уравнением.

а₁₁*р₁+а₂₁*р₂=

Если же игрок II будет применить стратегию В₂ , то выигрыш игрока I не изменится и определяется уравнением

а₁₂*р₁+а₂₁*р₂=

Если же игрок II будет применять стратегию В₂, то выигрыш игрока I не изменится и определяется уравнением

а₁₂р₁+а₂₂р₂=

Принимая во внимание условие р₁+р₂=1, имеем систему трехлинейных уравнений тремя неизвестными:

Решив эту систему уравнений, находим величины р₁, р₂ , т.е. p_A^*=(р1,р2) и . Аналогично определяется оптимальная стратегия игрока II

q_B^*=(q1, q2) из системы уравнений:

Дадим геометрическую интерпретацию игры 2*2, представленной в табл. Для этого в системе координат xoy на оси абсцисс отложим отрезок [A₁, A₂], единице, и через концы этого отрезка проведем перпендикулярные к оси абсцисс прямые, на которых будем откладывать выигрыш игрока I. Левый перпендикуляр, совпадающий с осью ординат, соответствует стратегии А₁, для которой p₁=1, p₂=0, а правый равен стратегии А₂ для которой p₁=0, p₂=1. При применение игроком II стратегии В₁ выигрыш игрока I будет равен a₁₁, если он применяет стратегию А₁, и a₂₁, если он применят стратегию А₂. Отложив отрезки, равные a₁₁ и a₂₁, на соответствующих перпендикулярах, получим две точки:

^B1

p_A^*

0 A1 1 A2 X

p₂p₁

р ис.12.1.

B₁на перпендикуляре, соответствует стратегии А₁, и В₁ на перпендикуляре, который соответствует стратегии А₂. Ордината любой точки отрезка В₁В₁ равна величине выигрыша игрока I при применении им стратегии А₁ и А₂ с вероятностями p₁ и p₂ соответственно.

Если игрок II применяет стратегию В₂, то выигрыш игрока I, будет равен a₁₂ при применении им стратегии А₁ и a₂₂ при применении стратегии А₂. Проводя аналогичные построения, получим отрезок В₂В₂. Ординаты точек, лежащих на отрезке В₂В₂,равны среднему выигрышу игрока I,если он применяет стратегии А₁и А₂ с вероятностями p₁ и p₂соответственно, а игрок II применяет стратегию В_2.

Для нахождения оптимальной стратегии p_A^*построим нижнюю границу выигрыша игрока I, т.е. ломаную В₂NВ₁отмеченную на рис. жирной линией. Очевидно, что на этой ломанной лежат минимальный выигрыши игрока I при использовании им любой смешанной стратегии.

Оптимальное решение игры определяет точка N, в которой выигрыш игрока I принимает наибольшее значение. Ордината точки N равна цене игры γ. Проекции этой точки на оси абсцисс соответствует оптимальная стратегия p_A^*=(p₁,p₂), при этом расстояния от точки p_A^* до концов единичного отрезка на оси абсцисс равны вероятностям p₁и p₂ стратегий А₁ и А₂в оптимальной смешанной стратегии игрока I.

Оптимальная стратегия q_B^*=(q1, q2) игрока II находится аналогично. Для этого необходимо поменять местами игроков I и II, т.е. транспонировать платежную матрицу, и вместо максимального значения нижней границы выигрыша находить минимальное значение верхней границы выигрыша (рис.). Транспонированная матрица представлена в таблице.

Y Y

N B1

A2 B2

γ B2

q_B^*

0 1 X 0 1 X

B1 q₂ q₁ B2 A1 p₂ A2

Рис.12.2. рис.12.3.

Таблица

A₁

A₂

B₁

a₁₁

a₂₁

B₂

a₁₂

a₂₂

На рис. решение игры определялось точкой пересечения стратегий, однако это справедливо не всегда. Так, например, на рис.12.3 показан случай, когда нижняя граница выигрыша игрока I совпадает с отрезком В₂В_2.Стратегия В₁игрока II является для него невыгодной, так как, применяя ее, он в любом случае проигрывает больше, чем при применении стратегии В₂.

Здесь p_A^*=(p₁,p₂)=0 (0,1); γ=а_22.Игра имеет седловую точку.

На рис. показан случай, в котором решение игры для игрока I является чистая стратегия А_1,а игрока II – стратегия В₂, т.е. p_A^*=(1,0); q_B^*= (0,1); γ=а_12.Игра имеет седловую точку.