Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Konspekt_lektsiy.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.05 Mб
Скачать

Статистические игры

Специфическим видом игр, имеющих большое значение при анализе различных практических ситуаций, являются так называемые статистические игры. Во многих практических ситуациях приходится сталкиваться со случаями, когда один из игроков оказывается нейтральным, т.е. не стремиться извлечь для себя максимальной выгоды и, следовательно, не стремится обратить в свою пользу ошибки, совершенные противником. Например, проектируя гидротехнические сооружения, мы стремимся сделать их надежными, несмотря на непредсказуемые землетрясения, паводки; создавая систему профилактических и аварийных ремонтов, мы преследуем какую-то цель, не зная в точности времени возникновения аварий ит.п.

Если один из игроков не является сознательно действующим противником, то его называют природа, а соответствующие игры – игры с природой. В этом случае стратегиями природы будут ее возможные состояния. Сознательно действующий игрок может собрать дополнительную статистическую информацию о возможных состояниях природы. Цель статистических игр – выбор наилучших стратегий (с точки зрения возможно большего выигрыша или возможно меньшего проигрыша сознательно действующего игрока).

Такой выбор основывается на платежной матрице.

Пример 1. Предприятие производит скоропортящуюся продукцию.

В ближайшую неделю прогнозируется температура воздуха 20-28 градусов. Изучение спроса показало, сто при температуре 20-22 градуса продается 600 единиц продукции, при температуре 23-25 градуса 700 единиц, при температуре 26-28 градусов 800 единиц. Оборудование предприятия позволяет производить такое количество продукции. Стоимость производства единицы продукции составляет 15 д.е., предприятие реализует единицу продукции по 20 д.е. Если в течение недели продукция не продается, предприятие сдает её на переработку по цене 6 д.е. за штуку. Если спрос не удовлетворяется, то предприятие терпит убытки – 5 д.е. на единицу продукции.

Описать данную ситуацию количественно в терминах теории игр.

Решение. Представленная в данном примере ситуация является игрой. В качестве игроков в ней выступает руководство предприятия, принимающее решение об объемах производства, и природа – изменение температуры в интервале 20-28 градусов, что определяет уровень спроса. Тогда у руководства предприятия можно выделить три стратегии: А1 – производить 600 единиц продукции в неделю; А2 – производить 700 единиц продукции и А3 – производить 800 единиц продукции. У природы также можно выделить три стратегии: В1 – спрос на продукцию в неделю составит 600 единиц; В2 – 700 единиц и В3 – 800 единиц. Выигрыш предприятия опишем через показатель прибыли для различных стратегий предприятия и при различных состояниях природы. Таким образом, матрица выигрышей будет иметь размерность 3Χ3. Рассчитаем ее элементы.

Пусть ЛПР выберет стратегию А1 и природа в ответ противопоставит стратегию В1. Это соответствует элементу матрицы а11 и означает, что предприятие за неделю произведет 600 единиц продукции и спрос на неё также реализуется в объеме 600 единиц. Тогда прибыль предприятия составит:

а11 = (20-15) д.е. Χ 600=3000 д.е.

Пусть ЛПР выберет стратегию А1, а природа в ответ противопоставит стратегию В2, т.е. предприятие произведет 600 единиц продукции, а спрос составит 700 единиц продукции. Таким образом, будет неудовлетворен спрос на продукцию в объеме 100 единиц. Прибыль предприятия в этом случае будет равна:

а12 = (20-15) д.е. Χ 600-5 д.е. Χ 100 =2500 д.е.

Аналогично рассчитаем а13:

а13 = (20-15) д.е. Χ 600-5 д.е. Χ 200 =2000 д.е.

Если же ЛПР выберет стратегию А2, а природа реализует стратегию В1, что соответствует производству продукции в объеме 700 д. единиц, а спросу – 600 единиц, то 100 единиц продукции не будет продано, поэтому прибыль предприятия в такой ситуации составит:

а21 = - 15 д.е. Χ 700+20 д.е. Χ 600+6 д.е. Χ 100 = 2100 д.е.

Рассуждая подобным образом, получим:

а22 = (20-15) д.е. Χ 700 = 3500 д.е.

а23 = (20-15) д.е. Χ 700-5 д.е. Χ 100 = 3000 д.е.

а31 = - 15 д.е. Χ 800 + 20 д.е. Χ 600+6 д.е. Χ 200 = 1200 д.е.

а32 = - 15 д.е. Χ 800 + 20 д.е. Χ 700+6 д.е. Χ 100 = 2600 д.е.

а33 = (20-15) д.е. Χ 800 = 4000 д.е.

В результате платежная матрица в нашем примере будет иметь вид:

.

При выборе наилучших стратегий различают две ситуации: ситуацию, в которой вероятности состояний природы неизвестны, и тогда говорят о принятии решений в условиях неопределенности, и ситуацию, в которой вероятности состояний природы известны, тогда говорят о принятии решений в условиях риска [11]. Для каждой из ситуаций существуют свои критерии (принципы) выбора наилучших решений. Рассмотрим их.

Критериии выбора наилучших стратегий в условиях неопределенности.

Критерий Вальда. Этот критерий основан на принципе крайнего пессимизма. Принимающий решение считает, что какую бы стратегию он ни выбрал, природа реализует свое наихудшее состояние. В наихудших условиях принимающий решение находит наилучший выход.

Т

j

аким образом, принимающий решение для каждой стратегии Аi находит наименьший выигрыш аi=min аij, Затем среди наименьших выигрышей он находит наибольший:

(1)

Стратегия , соответствующая будет наилучшей по Вальду. Ее часто называют максиминной стратегией.

Пример 2. Для условий примера 1 определить наилучшую стратегию по критерию Вальда.

Решение. Для каждой из стратегий выберем наименьший выигрыш. Для стратегии А1 наихудшим будет состояние природы П3, наименьшим выигрышем предприятия будет прибыль 2000д.е., т.е., а1=2000д.е. Для стратегии А2 наихудшим будет состояние природы П1, а наименьшим выигрышем а2= 2100 д.е. Для стратегии А3 наименьшим выигрышем будет а3=1200д.е. Запишем наименьшие выигрыши в дополнительный столбец платежной матрицы:

Left Bracket 123 Right Bracket 124

В1 В2 В3 аi

Straight Connector 121

А1 3000 2500 2000 2000

Straight Connector 119

А2 2100 3500 3000 2100

А3 1200 2600 4000 1200

.

Далее из наименьших выигрышей принимающий решение выбирает наибольший, т.е. а2=2100= Наибольший из наименьших выигрышей соответствует стратегии А2. Это будет наилучшая стратегия по критерию Вальда. Таким образом, если руководствоваться принципом крайнего пессимизма (критерием Вальда), то следует производить 700 единиц продукции. При этом прибыль предприятия будет не меньше 2100 д.е. при любом спросе.

Критерий Сэвиджа. Этот критерий основан на принципе минимизации максимального риска и предполагает последовательную реализацию двух шагов: на первом шаге определяется матрица рисков как база для выбора наилучшей стратегии; на втором – проводится выбор наилучшей стратегии по критерию.

Шаг 1. Риском rij, , , называют разницу между тем выигрышем, который мог бы получить ЛПР, если бы знал, какое состояние реализует природа и его реальным выигрышем, то есть, rij=βij , где . Иначе говоря, риск rij – это потери для i-й ( ) стратегии от того, что в условиях j ( ) не была реализована лучшая стратегия.

Матрица рисков R имеет вид:

Left Bracket 111 Right Bracket 112 Straight Connector 114

П1 П2 … Пn

Straight Connector 108

R=

А1 r11 r12 … r1n

А2 r21 r22 … r2n

… … … … …

Аm rm1 rm2 … rmn

Пример. 3. Для примера 1 рассчитать матрицу рисков.

Решение. Рассчитаем риск для каждой пары стратегий природы и принимающего решение. Если бы менеджер предприятия точно знал, что природа реализует свое состояние П1, т.е. спрос составит 600 единиц продукции, то он бы выбрал стратегию А1; при этом предприятие получило бы прибыль 3000 д.е. – наибольшую для состояния природы П1, β1=3000. Для состояния природы П2 наибольшая прибыль равна β2=3500, а для состояния природы П3 - β3=4000. По определению, для стратегии А1 и состояния природы П1 риск, r11, составит β111=3000-3000=0, для стратегии А2 и состояния природы П1 риск r21 составит r21= β121=3000-2100=900, и так далее.

Получаем матрицу рисков:

П1 П2 П3

П1 П2 П3

А1 r11 r12 r13

Straight Connector 93

А1 0 1000 2000

Straight Connector 95

R=

=

А2 r21 r22 r23

А2 900 0 1000

.

А3 r31 r32 r33

А3 1800 900 0

Шаг 2. Далее ЛПР для каждой стратегии Аi находит максимальный риск ri, ri= . Затем из максимальных рисков выбирает минимальный:

, (2)

т.е. в данном случае критерий Вальда формально записывается с точностью до наоборот (см. (15.5))

Стратегия Аi0, соответствующая минимальному из максимальных рисков ri0, будет наилучшей по Сэвиджу.

Пример 4. Для условий примера 1 определить наилучшую стратегию по критерию Сэвиджа.

Решение. Ориентируясь на матрицу рисков примера 15.5 ЛПР для каждой стратегии выбирает максимальный риск. Для стратегии А1 максимальным будет риск, равный 2000, т.е. r1=2000. Аналогично r2=1000; r3=1800. В матрицу рисков добавляем столбец, содержащий максимальный риск для каждой стратегии:

Straight Connector 84

П1 П2 П3 ri

А1 0 1000 2000 2000

Straight Connector 80

R=

А2 900 0 1000 1000 101000

.

А3 1800 900 0 1800 1800

Из максимальных рисков принимающий решение выбирает минимальный: То есть минимальному из максимальных рисков соответствует вторая стратегия. Наилучшей по критерию Сэвиджа стратегией будет стратегия А2. Если предприятие будет производить 700 единиц продукции, то его потери, связанные с упущенной выгодой будут не больше 1000 д.е.

Критерий Гурвица. Критерий Гурвица является критерием пессимизма-оптимизма. Наилучшей по Гурвицу является стратегия Аi0, соответствующая числу аi0, которое рассчитывается по формуле:

(3)

Значение параметра γ характеризует вес пессимизма при принятии решения и задается на основании опыта и характера ЛПР. Если γ=1, то критерий Гурвица преобразуется в критерий крайнего пессимизма:

.

Если γ=0, то получаем критерий крайнего оптимизма:

.

Обычно, на практике, выбирают 0<γ<1.

Пример 5. Для условий примера 1 определить наилучшую стратегию по критерию Гурвица.

Решение. Пусть в примере 1 ЛПР в большей мере является оптимистом, он использует критерий Гурвица, в котором γ=1/5.

Для каждой стратегии Аi рассчитаем число аi; :

а1=1/5*2000+4/5*3000=2800,

а2=1/5*2100+4/5*3500=3220,

а3=1/5*1200+4/5*4000=3440.

.

Числу а3=3440 соответствует стратегия А3, т.е. при таком выборе параметра γ наилучшим по Гурвицу вариантом является производство предприятием 800 единиц изделий.

Таким образом, в задаче 1 лучшей по всем критерию Вальда и Сэвиджа будет вторая стратегия, а по критерию Гурвица – третья. Выбор третьей стратегии на основе критерия Гурвица объясняется тем, что этот выбор определяется числом γ, определяемым ЛПР на основе собственного опыта и склонности к риску. Поэтому критерий Гурвица является более субъективным, чем критерии Вальда и Сэвиджа. И хотя использование игры с природой при принятии решений в условиях неопределенности не всегда дает однозначный результат, принимающий решение упорядочивает данные, определяет состояния природы и свои возможные решения, оценивает потери и выигрыши для различных вариантов, что способствует повышению качества принимаемых решений.

Критерий выбора наилучших решений в условиях риска. Как уже было сказано ранее, в этой ситуации известны вероятности, с которыми реализуются состояния природы. Эти вероятности либо рассчитываются на основе статистических данных, либо определяются экспертным путем. Для принятия решений в условиях риска используется критерий Байеса. Пусть принимающий решение имеет m стратегий, а природа n, причем состояние природы Пj реализуется с вероятностью рj, для каждой стратегии Ai рассчитывается ожидаемый выигрыш ,

Наилучший по Байесу будет стратегия Аi, соответствующая наибольшему ожидаемому выигрышу

, (4)

Пример 15.8. Пусть, в примере 15.3, спрос на изделия предприятия в объеме 600единиц устанавливаются с вероятностью р1=1/5, в объеме 700 единиц с вероятностью р2=3/5 и в объеме 800единиц с вероятностью р3=1/5. Определить наилучшую по Байесу стратегию производства изделий.

Решение.

Для каждой стратегии Аi рассчитаем ожидаемую прибыль

,

,

.

Согласно критерию Байеса наилучшей будет стратегия, соответствующая наибольшему ожидаемому выигрышу: . Т.е. при таких вероятностях спроса на продукцию предприятия наилучшей по Байесу стратегией будет вторая: предприятию следует производить 700 единиц изделий в неделю, и тогда ожидаемая прибыль предприятия составит 3120д.е.

Кроме ожидаемого выигрыша ЛПР может рассчитать его вариацию для каждой стратегии. Обозначим вариацию выигрыша для стратегии Аi через Vi, .

Тогда V1=1/5(3000-2500)2+3/5(2500-2500)2+1/5(2000-2500)2=100000;

V2=1/5(2100-3120)2+3/5(3500-3120)2+1/5(3000-3120)2=297600;

V3=1/5(1200-2600)2+3/5(2600-2600)2+1/5(4000-2600)2=784000.

Самую большую вариацию имеет третья стратегия, следовательно она самая рискованная. Наименее рискованной является первая стратегия. Но и ожидаемый средний выигрыш меньше, чем у второй стратегии. ЛПР придется выбирать: либо стратегию А1 с меньшим риском и меньшим ожидаемым выигрышем, либо стратегию А2 с большим ожидаемым выигрышем и большим риском. Выбор будет зависеть от склонности ЛПР к риску.

Индивидуальное задание по теме «Статистические игры»

Банк планирует объем привлеченных ресурсов на следующий месяц. По прогнозам аналитиков спрос на ресурсы в следующем месяце может возникнуть в объеме либо а1, либо а2, либо а3 млн. д. ед. Средняя процентная ставка по привлеченным ресурсам планируется в размере p1 процентов, а по размещенным p2 процентов. Если спрос на ресурсы окажется больше, чем объем привлеченных ресурсов, т.е. у банка ухудшится ликвидность, то банк понесет убытки в размере c1 процентов от недостающих средств. Если же объем привлеченных ресурсов окажется больше, чем спрос на них, то убытки банка составят c2 процентов от неработающих средств. Какой объем привлеченных ресурсов следует планировать банку, чтобы иметь возможно большую прибыль или возможно меньшие убытки. Использовать все критерии. Число и вероятности стратегий природы выбирать самостоятельно.

№ варианта

a1

a2

a3

p1

p2

c1

c2

1

500

600

700

10

15

4

3

2

450

550

650

15

20

5

2

3

425

525

625

20

25

10

6

4

430

530

630

18

22

12

8

5

560

660

760

21

25

11

7

6

575

675

775

16

20

9

7

7

630

730

830

17

20

13

11

8

620

720

820

19

25

12

9

9

624

724

824

18

24

9

7

10

735

835

935

22

26

12

8

11

345

445

545

13

17

5

4

12

445

555

655

15

22

10

8

13

469

569

669

21

25

9

5

14

765

865

965

19

24

11

6

15

628

728

828

23

27

12

7

16

370

470

570

16

20

13

8

17

355

455

555

17

21

12

9

18

645

745

845

15

19

9

6

19

230

330

430

14

21

8

6

20

255

355

455

19

24

7

5

21

445

545

645

15

21

10

7

22

470

570

670

14

19

7

4

23

870

970

1070

20

25

10

5

24

670

770

870

16

22

11

7

25

640

740

840

17

26

12

8

26

375

475

575

15

20

11

9

27

435

535

635

18

21

9

6

28

485

585

685

19

25

13

10

29

360

460

560

14

22

10

5

30

545

645

745

17

23

12

8

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]