Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

TI_v_EMM_2014

.pdf
Скачиваний:
11
Добавлен:
27.05.2015
Размер:
3.52 Mб
Скачать

аналогично, и все «скатывается» к ситуации равновесия в доминантных стратегиях, которая никому не выгодна, но устойчива.

Другим хрестоматийным примером неэффективности по Парето равновесия Нэша является следующий. Представим себе толпу зрителей, наблюдающих за уличным театральным представлением. У каждого зрителя есть два действия – стоять «как обычно» или встать «на цыпочки». Ситуация, когда все стоят «как обычно» не устойчива – один встает «на цыпочки», чтобы лучше видеть, но загораживает обзор другим. В результате все страдают, стоя «на цыпочках». Получили неэффективную по Парето (всем неудобно), но устойчивую по Нэшу ситуацию игры (если все стоят «на цыпочках», то отдельный зритель, встав «как обычно», ничего не увидит).

Рассмотренные примеры иллюстрирует, что устойчивость относительно индивидуальных отклонений никак не связана с эффективностью по Парето. Решить эту проблему можно следующим образом: если разыгрывается повторяющаяся игра, и игроки договариваются наказывать того, кто отклоняется от коллективного оптимума, т.е. равновесия по Парето, то оказывается, что, если наказание достаточно сильно, то каждый будет играть индивидуально устойчиво ту стратегию, которая выгодна для всех.

Другой вариант, как можно достичь «коллективного оптимума». Мы, описывая взаимодействие агентов, которые равноправны, принимаем решение назначить над ними «начальника», который будет ответственен за то, чтобы они не отклонялись от «коллективного оптимума», не пытались локально увеличить свой выигрыш, а выбирали равновесие, эффективное по Парето. Т.е. функция «начальника» – предотвратить отклонения агентов от оптимума по Парето. Можно даже рассчитать, сколько агенты могут выделить на содержание такого начальника (как разность между тем, что они получают в сумме в точке Парето и тем, что они имеют при равновесии в доминантных стратегиях). Это – одно из теоретико-игровых обоснований возникновения иерархий.

Итак, выше описана игра в нормальной форме, где выигрыш каждого агента зависит от действий всех, и все агенты принимают решения одновременно.

Лекция 5. Удаление доминируемых стратегий

 

Определение:Стратегия

xi X i

называется строго

домuнuруемой стратегией игрока i, если

существует стратегия yi X i

такая, что для произвольной

обстановки x i выполняется неравенство

Ki ( yi , x i ) Ki (xi , x i ).

 

 

 

Определение: Стратегия xi X i

называется строго недомuнuруемой стратегией игрока i, если для

произвольной стратегии yi X i

найдется обстановка x i такая, что Ki ( yi , x i ) Ki (xi , x i ).

Использование строго доминируемых стратегий представляется неразумным способом поведения, ведь, независимо от поведения противников, можно получить больший выигрыш, используя одну из строго недоминируемых стратегий.

Первое, что можно сделать для сужения множеств альтернатив игроков – это убрать из рассмотрения строго доминируемые чистые стратегии. После удаления из игры доминируемых стратегий одного из игроков может оказаться, что одна или несколько стратегий другого игрока, недоминируемых в исходной игре, становятся доминируемыми в новой игре. Тогда процесс удаления можно повторять до тех пор, пока все стратегии всех игроков будут недоминируемыми.

Легко показать, что для любой дискретной игры множество строго недоминируемых стратегий для каждого игрока не пусто. Действительно, поскольку отношение доминирования транзитивно, а стратегий конечное число, всегда найдется недоминируемая стратегия.

Множество недоминируемых стратегий непусто и в случае бесконечных компактных множеств стратегий и функций выигрыша, непрерывных по всем переменным.

Точно так же, как для чистых стратегий, можно определить и доминирование смешанных стратегий. Одна смешанная стратегия доминируется другой, если для произвольного профиля смешанных стратегий остальных игроков ожидаемая полезность от использования первой смешанной стратегии ниже, чем от использования второй стратегии.

Удаление доминируемых стратегий, тем не менее, довольно слабая концепция решения, так как во многих практически интересных играх все стратегии строго недоминируемы. Ее применение к анализу игры оправданно на первоначальном этапе, когда, за счет исключения из рассмотрения доминируемых стратегий, исследование игры упрощается.

Определение. Для игры в нормальной форме Г N,{X i }i N ,{ui }i N

последовательное

исключение доминируемых стратегий означает построение последовательностей

 

X i X i0 X i1 ... X it X

31

it 1 ... для всех i N

где X t 1

Д

(u ; X t

, j N) .

 

 

 

 

 

 

 

 

 

 

 

 

i

i

i

j

 

 

 

 

 

 

 

 

 

 

 

 

 

Говорят, что игра разрешима по доминированию, если существует целое t такое, что для всех i

функция выигрыша ui

не зависит от xi

на X Nt

:

 

 

 

 

 

 

 

 

 

 

 

 

 

x , y

X t ,

x

ˆ

X t

u

(x , xˆ ) u

( y

, xˆ )

(5)

 

 

 

 

i

i

ˆ

 

i

i

i

i

i

i

i

 

 

 

 

 

 

 

i

i

 

 

 

 

 

 

В этом случае

 

X Nt называется множеством сложных равновесий в игре Г .

 

Чтобы получить стратегию,

соответствующую сложному равновесию, каждый игрок i

должен

найти последовательности X t для всех j N ,

 

полностью использую знание функций выигрыша. Эти

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

вычисления производятся каждым игроком независимо в предположении, что остальные игроки делают то же самое. Только в этом ограниченном смысле сложное поведение можно назвать изолированным.

Разрешимость по доминированию игры Г означает, что после конечного числа раундов исключений все стратегии каждого игрока станут для него эквивалентными (но не обязательно для всех – см. пример 2).

Тема 2. Лекция 6. Равновесия Нэша в смешанных стратегиях.

4. Смешанные стратегии

При построении нормальной формы игры по ее развернутой форме, множества стратегий развернутой игры превращаются во множества действий игры в нормальной форме. Зачастую действие игрока в игре в нормальной форме также называют стратегией. Это не совсем верно. Обычно термин «стратегия» имеет более широкий смысл и используется для обозначения плана, который каждый игрок составляет до начала игры. Этот план описывает все действия, которые игрок будет предпринимать во всех возможных игровых состояниях. Стратегия игроков даже в игре в нормальной форме может быть более

сложной, чем просто выбор одного из элементов множества действий X i (стратегия, состоящая в выборе действия из множества X i , называется чистой стратегией).

Вспомним, что в играх в развернутой форме для тех ходов, которые делала природа, указывалась вероятность того или иного ее «хода». Аналогично и игроки могут не выбирать в каждой ситуации некоторое единственное действие, а выбирать одно из действий с некоторой вероятностью. Тогда выбор игрока будет описываться вероятностным распределением на множестве возможных в данной игровой ситуации действий, которое называется смешанной стратегией. Оказывается, что такое поведение в некоторых ситуациях может привести игрока к более выгодному распределению полезностей.

Определение 4: Смешанной стратегией X i i-гo игрока (i N ) для игры в нормальной форме

называется распределение вероятности на множестве действий X i с плотностью

Xi (xi ) , где xi

X i .

 

Определение

5:

 

Вектор действий x i (x1, , xi 1, xi 1, , xn )

всех игроков,

кроме i-гo,

 

 

 

 

называется обстановкой игры для i-го игрока i N .

 

 

 

 

Определение

6:

Распределение вероятности (с плотностью i (x i ) j (xj ) )

появления

 

 

 

 

 

 

 

 

 

j i

 

заданной обстановки при использовании игроками смешанных стратегий

j

называется обстановкой в

смешанных стратегиях для i-гo игрока, i N .

Ожидаемый выигрыш игроков при использовании ими смешанных стратегий будет вычисляться как

математическое ожидание их функции выигрыша. Для дискретных игр

~

Ki ( ) Ki (xi , x i ) i (xi ) i (x i ),i N.

xi X i x i X i

Смешанная стратегия для непрерывных игр представляет собой вероятностную меру на множестве чистых стратегий игрока. Ожидаемая полезность игроков при использовании ими смешанных стратегий будет интегралом функции полезности по декартову произведению этих вероятностных мер.

Дискретную игру, в которой игроки используют смешанные стратегии, можно привести к непрерывной игре, в которой игроки используют только чистые стратегии. Это достигается путем замены множества чистых стратегий игрока на множество его смешанных стратегий, а функции выигрыша – ее математическим ожиданием.

32

Тогда можно исследовать свойства новой игры в предположении, что игроки используют только чистые стратегии. Это, однако, не всегда бывает удобным, так как такой переход приводит к замене более простой, дискретной игры, более сложной – непрерывной

Приведем несколько свойств смешанных стратегий в дискретных играх.

Лемма 1. Ожидаемая полезность дискретной игры – непрерывная функция смешанных стратегий. Теорема 2. Для произвольной обстановки в смешанных стратегиях найдется чистая стратегия,

являющаяся «наилучшим ответом» на данную обстановку, то есть

i

max K( i

, i ) max K(xi , i ).

 

i

xi X i

Более того, любая смешанная стратегия i ,которая содержит с ненулевой вероятностью чистую

стратегию, не являющуюся лучшим ответом на обстановку i , не будет и сама лучшим ответом на обстановку i

Доказательство. Множество смешанных стратегий - это компакт, в котором содержатся и чистые стратегии. Для игрока i зафиксируем обстановку в смешанных стратегиях i . Тогда ожидаемый выигрыш

игрока i будет функцией только его смешанной стратегии i

. Очевидно, существует смешанная стратегия

i* , при использовании которой ожидаемый выигрыш достигает максимума (значком

 

обозначается

 

 

 

 

 

 

 

 

 

xi X i

 

суммирование по всем элементам множества X i ).

 

 

 

 

 

Для стратегии

* ожидаемый выигрыш есть

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

Ki ( i*, i ) i* (xi )

 

Ki (xi , x i ) i (x i ).

(2)

 

 

 

 

 

xi X i

x i X i

 

 

 

 

 

Так как

i* (xi ) 1 то

Ki ( i* , i )

представляет собой взвешенную с весами

i* (.) сумму

 

 

xi X i

 

 

 

 

 

 

 

 

величин

~

 

 

 

 

 

 

 

 

 

 

)

Ki (xi , x i

) i (x i ).

 

 

 

 

 

Ki (xi

 

(3)

 

 

 

 

x i X i

 

 

 

 

 

 

 

 

Взвешенная сумма (3) не может превышать своего максимального слагаемого, то есть существует

 

 

**

 

 

~

**

*

 

 

 

чистая стратегия

xi

для которой

 

Ki

(xi ) K i

( i , i ) .

Но в правой части этого неравенства стоит

максимальный ожидаемый выигрыш, возможный при использовании смешанных стратегий. Значит, неравенство можно заменить равенством, а это, в свою очередь, значит, что максимальный ожидаемый выигрыш достигается на не которой чистой стратегии. Кроме того, если любой не максимальный элемент

(3) входит в сумму (2) с ненулевым весом, то ожидаемая полезность будет строго меньше максимально возможной и смешанная стратегия не будет наилучшим ответом на обстановку i .

Смешанные стратегии – довольно хрупкая конструкция. Их использование в ряде практических задач неоднократно подвергалось критике. Один из аргументов против использования смешанных стратегий таков: «Применение смешанных стратегий подходит только для игр с большим числом повторений. Рассмотрим игру, которая должна быть сыграна лишь один раз. При использовании смешанных стратегий игрок должен выбирать свое решение на основании реализации случайного процесса, задаваемого распределением вероятности его смешанной стратегии. Однако эта реализация может дать стратегию, настолько «экзотическую», что ее применение в единичной игре будет малоэффективно, несмотря на теоретические обоснования эффективности такой смешанной стратегии в смысле среднего выигрыша на протяжении многих игр».

Поэтому, когда возможно, особенно при моделировании реальных систем, следует использовать только чистые стратегии.

Стремление к устойчивости решений является широко распространенным способом формулирования принципов рационального поведения в теории игр. Самый популярный принцип рационального поведения в теории некооперативных игр рекомендует в качестве рациональных исходов использовать ситуации равновесия Нэша. Они характеризуются тем, что отклонение от данной ситуации равновесия одним из игроков не может увеличить его выигрыша, и, таким образом, рациональной стратегией каждого игрока должна быть реализация равновесия. Можно сказать, что ситуация называется равновесной по Нэшу, если она устойчива относительно индивидуального отклонения игроков.

Определение 12: Ситуация x*=(x1*,x2*,…,xn*) называется ситуацией равновесия по Нэшу (в чистых стратегиях), если для всех хi, Хi„ i N справедливо неравенство Ki (xi*,x-i*) Ki (xi*,x-i*)

33

Определение 13: Совокупность всех равновесных по Нэшу ситуаций игры называется множеством равновесий Нэша.

Если ситуация - равновесие Нэша, то никому из игроков не выгодно в одиночку отклоняться от нее. Однако возможно, что, объединившись, игроки могут улучшить свое положение выходом из равновесия Нэша.

Определение 14: Набор смешанных стратегий

из (

называется ситуацией равновесия Нэша в

смешанных стратегиях, если для произвольной

смешанной стратегии χ, любого игрока справедливо неравенство 1*-i*)1*-i*),

где(.) – результат усреднения функций выигрыша игроков по используемым ими смешанным стратегиям.

Множество равновесий Нэша в чистых стратегиях может оказаться пустым для некоторых игр, и возможное отсутствие равновесных ситуаций является большим недостатком равновесия Нэша в чистых стратегиях.

Теорема 3 (Теорема Дж. Нэша). Для произвольной дискретной игры существует, по меньшей мере, одно равновесие Нэша в смешанных стратегиях.

Доказательство. Множество смешанных стратегий каждого игрока - непустой выпуклый компакт (ограниченное и замкнутое множество) в конечномерном пространстве. Обозначим множество наилучших ответов игрока на произвольную обстановку

Ri-i) =Arg

(8)

По теореме 2, это множество представляет собой множесг всех вероятностных распределений на

множестве чистых стратегий – наилучших ответов

на заданную обстановку. Поэтому Ri выпуклое

множество, так как оно представляет собой ограниченное линейными неравенствами подмножество выпуклого множества смешанных стратегий. Определим многозначное соответствие

R(χ) =(R1(x-1),…,Rn(x-n)),

(9)

которое ставит в соответствие каждой ситуации множество - декартово произведение множеств стратегий – наилучших ответов каждого игрока на обстановку, заданную остальными компонентами ситуации. Для произвольной ситуации в смешанных стратегиях χ, R(χ) является непустым, выпуклым компактом (так как является декартовым произведением непустых, выпуклых компактов)

Для дальнейшего доказательства воспользуемся теоремой Какутани. Введем сначала определение: Определение 15: Многозначное отображение F компакта S в себя называется полунепрерывным

сверху, если для любых сходящихся последовательностей χk

S (χk

χ), и

таких

что ρk F(χk), ρ принадлежит F(χ)

 

 

 

Теорема

4 (теорема Какутани о неподвижной точке).Пусть S есть непустой, выпуклый компакт

конечномерного

пространства. Если F - полунепрерывное

сверху

многозначное соответствие,

которое

ставит в соответствие каждой точке S непустое выпуклое подмножество S, то существует такой χ* S, χ*

F(χ*).

Покажем, что отображение R полунепрерывно сверху. Для этого рассмотрим произвольные сходящиеся последовательности χk и из определения полунепрерывности сверху.

Из того, что

k) следует, что для произвольной смешанной σi

k, χk-i) ≥

i, χ-ik).По

лемме 1 функция ожидаемого выигрыша непрерывна по совокупности переменных, поэтому

i, χ-i) ≥

i, χ-i), то есть ρ R(χ).

По теореме Какутани, существует неподвижная точка – ситуация χ*, такая, что χ* R(χ*).

Значит, для всех игроков *, χ*-i) ≥ (χi, χ-i*), где χi –произвольная смешанная стратегия. То есть χ*это равновесие Нэша.

Аналогичные результаты можно получить и для бесконечных игр, например, справедлива Теорема 5. Если множества стратегий игроков компактны, а функции выигрыша непрерывны по

совокупности переменных (чистых стратегий игроков), то в игре существует, по крайней мере, одно равновесие Нэша в смешанных стратегиях.

На основании полученных результатов можно сформулировать одно из возможных достаточных условий существования равновесия в чистых стратегиях:

Теорема 6. Если в непрерывной игре множества стратегий Xi - выпуклые подмножества линейных метрических пространств, для каждого игрока i функция выигрыша Кi непрерывна по всем переменным и строго вогнута по переменной хi , то в этой игре существует равновесие Нэша в чистых стратегиях.

34

Доказательство. Согласно теореме 2 наилучший ответ всегда достигается на чистых стратегиях. Необходимо показать, что следствием вогнутости целевых функций является единственность наилучшего ответа. Это будет означать, что наилучшим ответом может быть только чистая стратегия. Тогда и равновесие Нэша будет состоять только из чистых стратегий.

Введем обозначение Х*-i ) = Arg max Кi i -i ) - множество чистых стратегий, которые являются

наилучшими ответами на обстановку χ-i. Пусть имеются два наилучших ответа x*i X*i и xi** Xi*. Так как

оба они являются лучшими ответами на обстановку χ-i значит Кi (xi*, χ-i) = Кi i**, χ-i), то есть

M: =∫Ki (xi*,x-i-i(x-i)dx-i = ∫ Ki (xi**, x-i-i(x-i)dx-i.

Рассмотрим стратегию = αxi* + (1-α)xi**, где α (0,1).В силу выпуклости Хi,, Xt. Ожидаемая полезность от применения этой стратегии:

Ki (, χ-i) = ∫ Ki (, x-i) χ-i(x-i)dx-i =∫ Ki (xi*+(1-α) xi**,x-i) χ-i(x-i)dx-i.

В силу строгой вогнутости целевой функции Кi, имеем Кi ( ,χ-i)>α∫Ki (xi*,x-i-i(x-i)dx-i +(1-α) ∫Ki

(xi**,x-i-i(x-i)dx-i.

Следовательно, Ki (, χ-i) > αM + (1-α)M = M, что невозможно, так как М- это максимальный ожидаемый выигрыш. Таким образом, наилучший ответ всегда один, а, значит, и равновесие Нэша будет равновесием в чистых стратегиях.

Наличие нескольких равновесий Нэша порождает некоторые проблемы, ведь в идеальном случае концепция решения должна точно предсказывать результат игры, что возможно лишь при однозначном определении рациональных стратегии всех игроков.

Одним из выходов является констатация того, что ситуации равновесия Нэша не являются точным и единственным решением, а являются лишь набором рациональных стратегии поведения, выбор из которых нельзя произвести на основе имеющихся данных.

Равновесие Нэша подвергается справедливой критике, ведь чтобы результатом игры было равновесие Нэша, все игроки должны выбрать именно равновесную ситуацию, при этом предварительно конкретизировав одну из равновесных ситуаций в случае, когда равновесий много.

Тема 3. Антагонистические игры (игры с нулевой суммой). Платежная матрица. Чистые стратегии. Цена игры. Седловая точка платежной матрицы. Теорема о минимаксе.

Определение. Игра двух лиц, в которой в каждом исходе выигрыш одного из игроков равен проигрышу другого, называется антагонистической (матричной) игрой или игрой с нулевой суммой. При этом

-множество игроков состоит из двух элементов {A,B};

-FA (или FB) – функции выигрыша;

-матрица А выигрышей игрока А (она же – матрица проигрышей игрока В) называется платежной

матрицей: aij=FA(y(i)A,y(j)B),

-SA,SB – множества стратегий игроков (чистых стратегий) представляют собой множества номеров

строк {1,2, ,m}(игрок А) и столбцов {1,2,

,n}(игрок B) матрицы А.

 

 

 

Таким образом, конечная антагонистическая игра полностью задается платежной матрицей.

 

Замечание: Рассмотренные ранее конечные игры называются биматричными.

Вид матрицы биматричной игры:

 

 

 

 

 

 

yВ (1)

 

...

yВ (n)

 

yА (1)

 

f1

f2

 

 

 

 

 

 

 

 

 

 

 

 

 

yА(m)

 

 

 

 

 

 

 

 

Пример 1. Фирма А производит сезонный товар, который поставляется на рынок в момент времени i. Фирма В конкурирует с фирмой А (цель фирмы В – разорить фирму А) и поставляет на рынок товар в момент времени j=1,…,n – в начале каждого периода времени. Размеры фирм равны, цена товара фиксирована, а качество определяется моментом времени его поступления (чем позже товар поступил, тем он качественней). На рынке продается только более качественный товар. Доход от продаж в единицу времени равен С, число периодов времени n=4.

Строим платежную матрицу игры:

В

35

 

 

1

2

3

4

 

1

С

А

2

3/2С

С

 

3

С

С

 

4

С

С

С

С/2

Табл. Платежная матрица (доход фирмы А равен убытку фирмы В).

 

 

 

 

 

 

 

 

 

 

 

 

 

Принципы оптимальности.

 

 

 

 

 

 

 

 

 

Пусть задана платежная матрица. Строки – стратегии игрока А; Столбцы – стратегии игрока В;

 

Пример 2.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В1

 

 

 

 

В2

В3

 

 

В4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

А1

 

 

2

 

 

 

3

 

 

5

 

 

 

8

 

 

 

 

 

 

 

 

 

 

А=

 

 

А2

 

 

10

 

 

 

6

 

 

4

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

А3

 

 

7

 

 

 

3

 

 

2

 

 

 

9

 

 

 

 

 

 

 

 

 

Добавим к ней строку и столбец:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В1

 

 

В2

 

 

В3

 

В4

 

 

min aij

 

 

 

 

 

 

 

 

 

 

А1

 

2

 

 

 

3

 

 

 

 

5

 

 

 

8

 

2

 

 

 

 

 

 

 

 

 

 

А2

 

10

 

 

6

 

 

 

 

4

 

 

 

1

 

1

 

 

 

 

 

 

 

 

 

 

А3

 

7

 

 

 

3

 

 

 

 

2

 

 

 

9

 

2

 

 

 

 

 

 

 

 

 

 

maxaij

 

10

 

 

6

 

 

 

 

5

 

 

 

9

 

 

minmax aij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=5\maxmin

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

aij =2

 

 

 

 

 

 

 

 

 

Определение:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α – нижняя цена игры (максимин)

 

 

 

 

a max min aij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

β – верхняя цена игры

(минимакс)

min max aij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Теорема:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Доказательство: (очевидно)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Определение:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если , игра имеет цену; если , игра цены не имеет/

 

 

 

 

 

 

 

 

 

Игра в Примеtр 2. не имеет цены.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Определение. Седловой

точкой

матрицы

А

 

называется

такой

элемент

ai 0 j 0 , что

ai0 j 0 max aij 0

min ai0 j .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Теорема. Пусть

ai 0 j 0

и

ai1 j1

-

седловые точки матрицы А,

тогда ai 0 j1 ,

ai1 j 0

также являются

седловыми точками и при этом

ai 0 j 0

ai1 j1 = ai 0 j1

ai1 j 0

 

 

 

 

 

 

 

 

 

 

 

 

Доказательство:

Рассмотрим ai 0 j 0 ai 0 j1 ,

ai1 j 0 ai1 j1 и ai 0 j 0

ai1 j 0 , ai 0 j1

ai1 j1 .

 

 

Теорема. Игра имеет цену, тогда и только тогда, когда существует седловая точка у матрицы А, т.е.

ai 0 j 0

(седловая точка А)

и при этом

ai0 j 0

.

Соответствующие чистые стратегии

игроков (максиминная и минимаксная) являются оптимальными.

 

 

 

 

 

 

 

 

 

Доказательство:

Пусть (игра имеет цену), Ai0 – максиминная стратегия А, Aj0 – минимаксная

стратегия В, тогда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

min ai0 j ai0 j 0

maxaij 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть существует

седловая точка,

докажем,

что

min ai0 j ai0 j 0 maxaij 0 .

min ai0 j

и

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

i

 

 

j

 

maxaij 0 ,

тогда

следует, что

i0

min ai0 j ai0 j 0 maxaij 0

j 0 .

А

так

как

i 0

и

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

i

 

 

 

 

 

 

 

 

 

j 0 , и значит .

36

Пример 3. Две конкурирующие финансовые компании ведут переговоры с организаторами трех проектов. Задача фирмы В – профинансировать любой проект. Задача фирмы А – сорвать переговоры. Стратегии фирмы А:

1)предложить более выгодные условия;

2)опорочить фирму В.

Стратегия фирмы В: выбрать проект для финансирования.

Платежная матрица содержит значения вероятности срыва переговоров.

 

В1

В2

 

В3

min aij

А1

0,7

0,5

 

0,3

0,3

А2

0,6

0,9

 

0,4

0,4

max aij

0,7

0,9

 

0,4

0,4\0,4

Находим max min aij =0,4 и min maxaij

=0,4. ( ).

 

 

 

j i

 

 

 

Тема 3. Лекция 8. Антагонистические игры. Смешанные стратегии. Теорема фон Неймана.

Пусть задана антагонистическая игра с платежной матрицей A (m, n) = (|aij|). Кроме того. Предположим. Что игра не имеет цены в чистых стратегиях. Будем предполдагать, что игра разыгрывается многократно. Тогда игроки могут в разных розыгрышах использовать различные стратегии.

Определение. Смешанной стратегией игрока А называется дискретная случайная величина, принимающая значения 1,2,3,…m с определенной вероятностью; . смешанной стратегией игрока В называется дискретная случайная величина, принимающая значения 1,2,3,… n с определенной вероятностью.

1

2

3

 

 

 

m

 

P1

P2

 

 

 

 

pm

 

P = (p1, p2 … pm), pi ≥ 0

,

pi = 1. Q = (q1, q2 … qn) (аналогично для Q).

Чистые стратегии игроков являются частными случаями смешанных, при этом

А1=(1,0,0,……0), А2=(0,1,0,……0) ….. Аm=(0,0,….0,1); В1=(1,0,0,……0), В2=(0,1,0,……0) ….. Вn=(0,0,….0,1);

Тогда смешанные стратегии можно представить в виде

m

P Ai pi , Ai - базисные векторы

i 1

Проанализируем структуру множества смешанных стратегий. Пусть у игрока А есть две чистые стратегии.

p p1 A1 p2 A2

 

1

 

p2

 

0

 

 

p

 

p1

 

 

 

 

 

 

1

- это множество называется одномерным симплексом.

 

 

 

 

 

 

 

 

 

0

 

 

 

1

 

p2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для трех чистых стратегий имеем 2-мерный симплекс смешанных стратегий – треугольник с вершинами (1,0,0), (0,1,0), (0,0,1) (концы векторов P принадлежат треугольнику) и т.д.

37

Определение. Пара (P, Q) – образует исход игры (или игровую ситуацию). В которой выигрыш игрока A, равный aij , достигается с вероятностью piqj. H(P,Q) есть математическое ожидание выигрыша

(средний выигрыш) при избранных стратегиях игроков H(P, Q) M(pi , aij, qi ) piai jq j -

 

 

i j

средний выигрыш A (проигрыш B) при (P,Q). В матричном виде:

 

m

n

 

H(P, Q) PT AQ piAiAQ piH(Ai , Q) (PABj )q j

piH(Ai , B j )qi

i

j

i j

Пример. Пусть задана платежная матрица и стратегии игроков:

 

 

1

0

 

2

 

 

 

, 3

 

 

, Q

 

 

 

 

, 2

 

 

 

 

 

 

. Считаем векторы P, Q столбцами.

 

 

 

A

 

 

 

 

 

, P 1

4

1

 

 

 

,

2

 

 

 

 

 

2

1

 

0

 

 

4

 

 

 

 

 

5

 

5

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

3

 

1 0 2

 

 

5

 

 

1

 

 

 

 

3

 

3

 

 

2

 

5

 

7

 

1

 

3

 

2

 

4

 

17

 

 

T

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

P

 

AQ

 

 

 

,

 

 

 

2 1 0

 

 

 

 

 

2

 

 

 

,

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4 4

 

 

 

5

 

 

 

 

 

 

4 4 4

 

5

 

4 5 4 5 20 20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

pi Ai AQ p1A1AQ p2A2AQ ...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a11

 

q

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(p1, 0,...0)

a21

 

1

 

 

(0, p2 , 0...0)

 

 

 

 

 

 

 

 

 

...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a12

 

...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

qn

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

piaijqj p1q1a11 p1q2a12

p2q1a21

p2q2a22

... pmqnamn

 

 

 

 

 

 

 

 

 

i

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

min aij

- показатель эффективности игрока A

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

max min a - нижняя цена игры.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Определение.

 

 

 

(P,SB ) min H(P, Q)

-

 

 

показатель

эффективности

стратегии

P игрока A

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Q SB

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

относительно смешанных стратегий Q игрока B. (SB - множество смешанных стратегий игрока B.)

38

(Q,SA ) max H(P, Q) - показатель неэффективности стратегии Q игрока B. p SA

Теорема. Показатели α и β достижимы.Т.е.

P Q : (P, SB ) H (P,Q0 )Q P0 : (Q, SA ) H (Q, P0 )

Доказательство:

Рассмотрим функцию α(P,SB). Для фиксированной стратегии P H(P,Q) - есть функция одной векторной переменной Q на ограниченном замкнутом множестве.

Ограниченность:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

q

2

 

 

 

, ∑qi = 1, qi ≥ 0

 

 

 

 

 

1

 

 

Q

 

n

 

 

 

 

 

i

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Замкнутость.

Вспомним, что множество называется замкнутым, если оно содержит все свои предельные точки

q(kj

) lim qmj qj

Q(k) Q . Если каждый элемент сходящейся числовой последовательности

 

k

 

неотрицателен, то и

ее предел

qj

lim q(kj

)

lim

qmj

j

j

k

 

k

j

 

 

 

(очевидно)

также

неотрицателен,

т.е.

q 0

Далее:

 

 

 

 

j

 

lim1 1.

Это

доказывает, что

симплекс –

замкнутое

k

 

 

 

 

 

множество.

Теорема.

(P,SB ) (P,SCB ) (P)

(Q,SA ) (Q,SCA ) (Q)

SCA / B Множество чистых стратегий

SCB SB - множество чистых стратегий является подмножеством смешанных стратегий.

H(P, Q) : Q S

H(P, Q)

(P,S

) (P,SC )

 

 

 

 

B

Q SB

 

B

 

B

 

 

 

 

 

P, Q H(P, Q) H(P, Bj )q j

min H(P, Bj)q j

min H(P, Bj ) q j

j

 

 

j

 

(P,SC )

1

 

 

 

 

 

B

 

Верно для H(P, Q0) = α(P, SB)

Определение. Нижней ценой игры в смешанных стратегиях называется величина:

V max (P) max min H(P, Q)

P SA

P

Q

Верхней ценой игры в смешанных стратегиях называется величина:

 

V

min (Q) min max H(P, Q)

 

 

Q SB

Q P

Теорема.

 

 

 

V

V

 

(*) где α, β - цены игры в чистых стратегиях.

 

 

 

 

 

 

 

 

Доказательство:

39

P : (P) max (P) V неравентво (*) доказано

страт. P

Докажем, что V V : Для произвольных стратегий P и Q имеем:

(P) min H(P, Q) H(P, Q) max H(P, Q) (Q)

max V

Q

P

min V

Определение. Если V V , то игра имеет цену в смешанных стратегиях => Максиминная и минимаксная стратегии тогда являются оптимальными.

Теорема. (Основная теорема антагонистических игр.) Для любой матричной игры существует решение в смешанных стратегиях ( V V , минимаксные стратегии оптимальны).

Без доказательства.

Тема 3. Лекция 9. Антагонистические игры. Критерии и свойства оптимальных стратегий.

В предыдущей лекции оптимальные стратегии P0 и Q0 соответственно игроков А и В определились в виде упорядоченной пары (P0,Q0), образующей ситуацию, в которой достигается равенство V=α(P0)= β(Q0)=H(P0,Q0). В следующей теореме в терминах цены игры V, функции выигрыша Н и множеств смешанных стратегий формулируются простые категории (необходимые и достаточные условия) оптимальных стратегий каждого из игроков.

Теорема 1. Пусть V — цена игры, H(P0,Q0) — функция выигрыша, SA и SB— множество смешанных стратегий А и В.

1. Для того чтобы стратегия P0 игрока А была оптимальной необходимо и достаточно, чтобы выполнялось неравенство

H(P0,Q) ≥ V

(1.)

для любого Q SB, т.е. выбор игроком А оптимальной стратегии

P0 гарантирует ему

выигрыш H(P0,Q0), не меньше цены игры V, при любой стратеги Q игрока В.

 

2. Для того чтобы стратегия Q0 игрока В была оптимальной необходимо и достаточно, чтобы

выполнялось неравенство

 

H(P,Q0) ≤ V

(2.)

для любого Р SА, т.е. выбор игроком В одной из своих оптимальных стратегий Q0 гарантирует ему проигрыш не больший цены V, при любой стратеги Р игрока А.

Доказательство: докажем утверждение 1.

 

Необходимость. Пусть P0 — оптимальная стратегия игрока А.

Тогда, по теореме фон Неймана

показатель эффективности α(P0) стратегии P0 равен цене игры V:

 

V= α(P0)

(3.)

Рассматривая α(P0) как показатель эффективности α(P0 ,SВ) стратегии P0 относительно множества SВ

смешанных стратегий игрока В, будем иметь по определению

 

(P0 ) (P0 , S

B

) min H (P0 ,Q)

(4.)

 

 

 

Q SB

 

 

 

 

 

 

И равенства (3.) и (4.) получаем неравенство (1.) и необходимость доказана.

Достаточность. Пусть для некоторой стратегии P0 игрока А выполняется неравенство (1.). Для

доказательства оптимальности стратегии P0 достаточно показать равенства

α(P0)=V

 

(5.)

Так как неравенство (1.) выполняется для любой стратегии Q S B

игрока В, то

(P0 ) (P0 , S

B

) min H (P0 ,Q) V

(6.)

 

 

 

Q SB

 

 

 

 

 

 

Но цена игры V равна нижней цене игры V , по определению которой,

40

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]