Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ММАиПР_01.docx
Скачиваний:
47
Добавлен:
29.05.2015
Размер:
195.19 Кб
Скачать
  1. Принятие решений на основе теории игр

Во многих задачах принятия решений необходимо учитывать, что интересы других участников процесса, в рамках которого принимаются решения, могут не совпадать с интересами ЛПР. Необходимость анализировать ситуации в условиях неопределённости и конфликта, вызванного столкновением интересов конфликтующих сторон, привела к созданию специального математического аппарата – теории игр. Неопределённость может быть вызвана стремлением игроков скрыть свои действия в игре, а так же дефицитом информации о рассматриваемом явлении, тогда говорят об играх с природой.

Всякая игра включает в себя три элемента: участников игры – игроков, правила игры, оценку складывающихся игровых ситуаций.

Целью теории игр является определение оптимальной стратегии для каждого игрока.

Определения.

Игрой называется всякая конфликтная ситуация, изучаемая в теории игр и представляющая собой упрощённую модель реальной ситуации, не учитывающая несущественные для ситуации факторы. Игра ведётся по правилам, которые могут нарушаться в реальной жизни. Стороны, участвующие в конфликте, называются игроками. Если интересы группы схожи, то они рассматриваются как один игрок. Игроки, имеющие противоположные по отношению друг к другу интересы, называются противниками. В игре могут сталкиваться интересы двух или более противников.

Стратегии – доступные для игроков действия (набор правил и ограничений).

Ситуации – возможные исходы конфликта, которые возникают в результате выбранной игроком стратегии.

Стратегические игры – игры, в которых конфликт отражает интересы активных участников, которые оказывают влияние на выбор стратегий.

Антагонистические игры – игры двух игроков, в которых выигрыш одного из игроков равен проигрышу другого в любой ситуации, ещё их называют играми с нулевой суммой. Антагонистические игры, в которых каждый игрок имеет конечное число стратегий, называются матричными играми. Для задания такой игры выписывают платёжную матрицу, в которой строки соответствуют стратегиям первого игрока, а столбцы второго. Элементами матрицы aij являются выигрыши первого игрока.

Bj

Ai

B1

B2

Bn

A1

a11

a12

a1n

A2

а21

а22

а2n

Am

аm1

аm2

аmn

Классификация игр.

По количеству игроков – двух игроков или n игроков, если играющих больше 2. Больше отработаны для двух игроков, во многих случаях могут быть распространены на n.

По количеству стратегий – конечные и бесконечные. Если хотя бы у одного игрока бесконечное множество возможностей, то игра считается бесконечной.

По взаимоотношению сторон – кооперативные, коалиционные и бескоалиционные. Если нельзя вступать в соглашения игрокам, то бескоалиционная игра, если могут, то коалиционная игра, если коалиции известны заранее, то кооперативная.

По характеру выигрышей – с нулевой суммой (попросить вспомнить, где уже говорили об этом) и игры с ненулевой суммой, например, игры, где нужно внести первоначальный взнос за участие в игре.

По виду функции выигрышей – матричные, биматричные, непрерывные, выпуклые, сепарабельные и др. Спросить, знают ли какие-либо из перечисленных. Биматричная - игра двух игроков с ненулевой суммой. Выигрыши каждого игрока задаются своей матрицей, размер каждой из матриц и её структура такие же как в матричной игре. Если функция выигрышей каждого игрока в зависимости от стратегий является непрерывной, то игра считается непрерывной, если выпуклая, то выпуклой. Если функция выигрышей может быть разбита на сумму произведений функций одного аргумента, то игра называется сепарабельной.

По количеству ходов – одношаговые (игра заканчивается после одного шага) и многошаговые (позиционные, стохастические, дифференциальные и др.)

По информированности сторон – с полной и неполной информацией. Если игрок на каждом ходу знает все применённые другими игроками стратегии на предыдущих ходах, то это игра с полной информацией, если не все, то с неполной.

По степени неполноты информации – статистические (в условиях частичной неопределённости) и стратегические (в условиях полной неопределённости). Игры с природой относятся к статистическим играм. Имеется возможность получения информации на основе статистического эксперимента.

Оценки стратегий матричной игры.

Если есть матрица выигрышей, состоящая из n столбцов и m строк, то это означает, что у первого игрока есть m различных стратегий, а у второго n. В каждой ячейке с номером строки i и номером столбца j записан выигрыш, который получит первый игрок, если применит стратегию с номером i, а второй при этом будет действовать в соответствии со своей j-ой стратегией. Выигрыш может быть и отрицательный, а у второго игрока выигрыш равен выигрышу первого с обратным знаком.

Подход первого игрока: он должен получить максимальный выигрыш при наихудших условиях. Игрок выбирает из каждой строки наименьшее значение (худший для себя вариант поведения второго игрока), обозначим их ai, и из этого столбца выбирает наибольшее значение, номер строки с этим значением и будет соответствовать его оптимальной стратегии (максиминной). Это означает, что первый игрок гарантирует себе выигрыш не меньше, чем найденное значение при любых стратегиях игрока 2. Значение , найденное таким образом значение называется чистой нижней ценой игры.

Подход второго игрока: он должен не дать второму игроку получить большой выигрыш, то есть он стремится уменьшить выигрыш первого игрока. Второй игрок выбирает из каждого столбца максимальное значение выигрыша первого, а из полученной строки выбирает минимальное значение, номер столбца с этим значением и будет соответствовать его оптимальной стратегии (минимаксной). Это означает, что второй игрок гарантирует, что первый игрок не получит выигрыш больший, чем найденное значение при любой выбранной им стратегии. Значение , найденное таким образом, называется чистой верхней ценой игры.

Чистая цена игры  - цена игры, если верхняя и нижняя цены совпадают, то есть ==. В этом случае игра называется игрой с седловой точкой.

Примеры: пусть есть платёжная матрица определить для этой игры стратегии, перечисленные выше, и наличие седловой точки: 1

Вj

Ai

B1

B2

B3

i

A1

1

2

3

1

A2

4

5

6

4

j

4

5

6

2

Вj

Ai

B1

B2

B3

B4

i

A1

2

7

6

10

2

A2

8

4

9

5

4

j

8

7

9

10

В игре с седловой точкой, если один игрок придерживается этой точки, тогда другой получит лучший результат, если тоже будет придерживаться этой точки. Оптимальные чистые стратегии – это чистые стратегии, образующие седловую точку.

В игре без седловой точки, если игрок 1 осведомлён о том, что игрок 2 будет придерживаться минимаксной стратегии, то он может выбрать оптимальную стратегию, которая не совпадает с максиминной. Пример: А=

3

5

8

6

11

8

4

12

7

9

Для игрока 1 в этом случае максиминная стратегия А2 , а для второго игрока минимаксная стратегия В2. В этом случае, если первый игрок знает, что второй придерживается этой стратегии, то для него оптимальной будет стратегия А1, при которой выигрыш составит 5, превышающий максиминный 4.

При многократном повторении игры в сходных условиях можно добиться гарантированного среднего выигрыша, превосходящего для игрока 1 максиминный.

В условиях полной неопределённости возможен и другой способ задания матрицы игры в виде матрицы рисков R или матрицы упущенных возможностей.

Величина риска – это размер платы за отсутствие информации о состоянии среды. Матрица рисков строится из условий задачи или из матрицы выигрышей. Риск при использовании стратегии Аi в состоянии среды Вj – это разность между выигрышем, который игрок получил бы , если бы он знал, что состояние среды Вj, и выигрышем, который игрок получит не имея этой информации.

Зная состояние среды, игрок выбирает ту стратегию, которая даёт максимальный выигрыш при этом состоянии.

Например, для матрицы выигрышей, представленной в последней таблице, матрица рисков будет выглядеть следующим образом.

8-3=5

5-5=0

12-8=4

7-6=1

11-11=0

8-8=0

5-4=1

12-12=0

7-7=0

11-9=2

Или

5

0

4

1

0

0

1

0

0

2

В условиях полной неопределённости используются и другие критерии выбора стратегий:

Критерий максимакса – используются стратегия максимизирующая максимальный выигрыш (критерий крайнего оптимизма). Пусть есть матрица выигрышей

Вj

Ai

B1

B2

B3

B4

A1

1

4

5

9

A2

3

8

4

3

А3

4

6

6

2

Для неё стратегия А1 будет наилучшей по этому критерию.

Этим критерием часто пользуются и в экономике, если ситуация безвыходная «или пан, или пропал».

Максиминный критерий Вальда – это тот же максиминный критерий, что и в стратегических играх, где противник настроен агрессивно по отношению к игроку. И решением является стратегия, при которой достигается нижняя цена игры. В нашем случае – это стратегия А2. Такая стратегия приемлема, если игрок хочет застраховать себя от неожиданных проигрышей. Выбор такой стратегии определяется отрицательным отношением игрока к риску.

Критерий минимаксного риска Сэвиджа аналогичен критерию Вальда, но игрок руководствуется не матрицей выигрышей, а матрицей рисков. Для нашей игры матрица рисков будет выглядеть следующим образом:

Вj

Ai

B1

B2

B3

B4

A1

3

4

1

0

A2

1

0

2

6

А3

0

2

0

7

Выбирается стратегия, у которой минимален максимальный риск, в нашем случае это будет стратегия А1.

Критерий пессимизма-оптимизма Гурвица. Согласно этому критерию, стратегия в матрице выигрышей выбирается в соответствии с максимальным значением Hi. Вычисленным для каждой строки в соответствии с заданным значением р – коэффициент пессимизма, заключённый в пределах от 1 до 0, по формуле Hi=p*min(aij)+(1-p)*max(aij).

При р=0, критерий Гурвица совпадает с максимаксным критерием, а при р=1, с критерием Вальда.

Посчитаем, какую стратегию в нашей игре лучше выбрать, при р=0,6.

Н1=0,6*1+0,4*9=4,2

Н2=0,6*3+0,4*8=5

Н3=0,6*2+0,4*6=3,6

В этом случае лучше выбрать вторую стратегию.

Критерий Гурвица можно использовать и для матрицы рисков, в этом случае выбирается минимальное значение Hi, которое рассчитывается по формуле

Hi=p* max(rij) +(1-p)* min(rij)

При выборе р=0 осуществляется выбор по критерию наименьшего из всех возможных рисков, при р=1 – по критерию минимаксного риска Сэвиджа.

Посчитать для предыдущей задачи вариант при р=0,6. Совпадёт ли он с полученным по матрице выигрышей.

В случае, если критерий даёт несколько решений, выбор между ними может осуществляться по дополнительному критерию, например, по среднему квадратичному отклонению от среднего выигрыша. Однозначного решения нет, всё зависит от склонности к риску ЛПР.

Для примера определить стратегии по всем приведённым критериям для следующей матрицы выигрышей

Вj

Ai

B1

B2

B3

B4

A1

20

30

15

15

A2

75

20

35

20

А3

25

80

25

25

А4

85

5

45

5

Если стратегия фигурирует по нескольким критериям, то лучше выбрать её, как более надёжную.

Смешанные стратегии в матричных играх.

Смешанная стратегия – это полный набор применения чистых стратегий игрока при многократном повторении игры в одних и тех же условиях с заданными вероятностями. В такой ситуации можно получить выигрыши в среднем большие нижней цены игры, но меньшие верхней.

Условия применения смешанных стратегий:

  • Игра без седловой точки;

  • Игроки используют случайную смесь чистых стратегий с заданными вероятностями;

  • Игра многократно повторяется в сходных условиях;

  • При каждом из ходов ни один игрок не информирован о выборе стратегии другим игроком;

  • Допускается осреднение результатов игры.

Для игрока 1 смешанная стратегия S1 задаётся матрицей

S1=, где =1, i=1…m

Для игрока 2 смешанная стратегия S2 задаётся матрицей

S2=, где =1, j=1…n

Задача в общем случае решается из соображений, что игрок 1 стремится увеличить свой средний выигрыш, а игрок 2 довести этот эффект до минимума.

Если известны все значения pi и qj, то средний выигрыш (математическое ожидание эффекта) M(A,P,Q) =

Пусть элементы матрицы А положительны (спросить, как этого добиться, если есть отрицательные элементы и как потом пересчитать цену выигрыша). Матрица, где каждый элемент увеличен на величину наименьшего из отрицательных, даст следующее математическое ожидание M(A1,P,Q) = = M(A,P,Q) +b* = M(A,P,Q) +b, то есть надо найденную цену игры уменьшить на b.

Существует теорема, доказывающая, что в этом случае всегда существует решение для выбора оптимальных смешанных стратегий следующим образом.

После обозначения - цены игры при оптимальных стратегиях обоих игроков, и ui=pi/, получают задачу линейного программирования для определения стратегии первого игрока:

Z=min

1 для всех j (AT*Uen), то есть будет j неравенств

для всех i решив эту задачу, получим решение игры в смешанных стратегиях для первого игрока. = 1/Z min, Р =UT* 

Аналогично для второго игрока получаем задачу линейного программирования = 1/Wmax

W=max

1 для всех i (A*Vem), то есть будет j неравенств

для всех j Такие задачи удобно решать в Excel, где мы их и рассмотрим на практических занятиях.

Мажорирование стратегий.

Очень похоже на выделение множества Парето. Отбрасываются стратегии, которые заведомо невыгодны игроку. Например, в матрице выигрышей А с позиции второго игрока его вторую стратегию можно отбросить, так как ему не выгодно её применять при любых действиях первого игрока и т.д.

Принятие решений на основе модели «игра с природой».

В экономической ситуации стратегические игры, описанные выше не совсем адекватны: решения принимаются, как правило, один раз, а если несколько, то чаще всего в изменяющихся условиях. Платёжную матрицу или матрицу рисков, однако, всегда желательно составить, чтобы хотя бы провести мажорирование своих стратегий (исключать стратегии природы нельзя, так как она действует случайным образом), но надо учитывать, что сознательно действуете только Вы, а природа не настроена к Вам враждебно, а просто выступает как игрок, не имеющий конкретной цели и действующий случайным образом. Термин «природа» здесь условный, это просто экономическая ситуация. Далее можно использовать любые критерии в зависимости от отношения к риску ЛПР.

Выводы.

  1. Игрой называется всякая конфликтная ситуация, изучаемая в теории игр и представляющая собой упрощённую модель реальной ситуации, не учитывающая несущественные для ситуации факторы. Игра ведётся по правилам, которые могут нарушаться в реальной жизни. Стороны, участвующие в конфликте, называются игроками.

  2. Матрица выигрышей состоит из n столбцов и m строк - это означает, что у первого игрока есть m различных стратегий, а у второго n. В каждой ячейке с номером строки i и номером столбца j записан выигрыш, который получит первый игрок, если применит стратегию с номером i, а второй при этом будет действовать в соответствии со своей j-ой стратегией.

  3. Величина риска – это размер платы за отсутствие информации о состоянии среды. Матрица рисков строится из условий задачи или из матрицы выигрышей. Риск при использовании стратегии Аi в состоянии среды Вj – это разность между выигрышем, который игрок получил бы , если бы он знал, что состояние среды Вj, и выигрышем, который игрок получит не имея этой информации.

  4. Зная состояние среды, игрок выбирает ту стратегию, которая даёт максимальный выигрыш при этом состоянии.

  5. Максиминной называется стратегия , которая даёт максимальный выигрыш при наихудших условиях

  6. Минимаксной называется стратегия, при которой игрок должен не дать второму игроку получить большой выигрыш.

  7. Критерий максимакса – используются стратегия максимизирующая максимальный выигрыш (критерий крайнего оптимизма).

  8. Максиминный критерий Вальда – это тот же максиминный критерий, что и в стратегических играх, где противник настроен агрессивно по отношению к игроку

  9. Критерий минимаксного риска Сэвиджа аналогичен критерию Вальда, но игрок руководствуется не матрицей выигрышей, а матрицей рисков. Выбирается стратегия, у которой минимален максимальный риск.

  10. Критерий пессимизма-оптимизма Гурвица. Согласно этому критерию, стратегия в матрице выигрышей выбирается в соответствии с максимальным значением Hi. Вычисленным для каждой строки в соответствии с заданным значением р – коэффициент пессимизма, заключённый в пределах от 1 до 0, по формуле Hi=p*min(aij)+(1-p)*max(aij).

  11. Смешанная стратегия – это полный набор применения чистых стратегий игрока при многократном повторении игры в одних и тех же условиях с заданными вероятностями.

  12. Мажорирование стратегий. Отбрасываются стратегии, которые заведомо невыгодны игроку.

  13. В экономической ситуации стратегические игры, описанные выше не совсем адекватны: решения принимаются, как правило, один раз, а если несколько, то чаще всего в изменяющихся условиях. Платёжную матрицу или матрицу рисков, однако, всегда желательно составить, чтобы хотя бы провести мажорирование своих стратегий. Далее можно использовать любые критерии в зависимости от отношения к риску ЛПР.