Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
теория игр.pdf
Скачиваний:
418
Добавлен:
20.06.2014
Размер:
759.16 Кб
Скачать

Саратовский государственный университет им. Н.Г Чернышевского

Кафедра теории вероятностей, математической статистики и управления стохастическими процессами

Теория игр

Составители курса:

1.Теоретический материал: Луньков А.Д.

2.Вопросы для самоконтроля: Луньков А.Д.

3.Тестовые задания: Луньков А.Д.

Саратов 2008 г.

Оглавление

 

ВВЕДЕНИЕ.........................................................................................................................

3

1.

ПРИНЯТИЕ РЕШЕНИЯ В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ..................

4

2.

ПРИНЯТИЕ РЕШЕНИЯ В УСЛОВИЯХ РИСКА..................................................

8

3.

АНТАГОНИСТИЧЕСКИЕ ИГРЫ ..........................................................................

13

4.

ТЕОРИЯ МАТРИЧНЫХ ИГР..................................................................................

20

5.

МЕТОДЫ РЕШЕНИЯ МАТРИЧНЫХ ИГР..........................................................

29

6.

БИМАТРИЧНЫЕ ИГРЫ ..........................................................................................

42

Вопросы для самоконтроля по курсу "Теория игр"...............................................

53

Задачи для самостоятельного решения......................................................................

57

Тесты по курсу "Теория игр" .......................................................................................

59

СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ.....................................................

70

ВВЕДЕНИЕ

Игра - это идеализированная математическая модель коллективного поведения: несколько игроков влияют на исход игры, причем их интересы различны.

Э. Мулен

Что общего у шахмат, карточных игр, войн, переговоров, рыночной конкуренции, аукционов? Все эти ситуации можно описать c помощью теории игр - раздела прикладной математики, ставшей неотъемлемой частью экономической теории. Всюду, где только имеет место взаимодействие самостоятельных рациональных (или частично рациональных) субъектов, возникает игра. Главный вопрос теории игр заключается в предсказании поведения участников игры: какие ходы сделают шахматисты, чем завершатся войны и переговоры, какие цены сформируются на рынке и т.д. Оказывается, теория игр позволяет сделать достаточно сильные предсказания. Механизмы конкуренции, функционирования рынка, возникновения или краха монополий, способы принятия ими решений в условиях конкурентной борьбы, то есть механизмы игры монополий, действующие в экономической реальности, - все это является предметом анализа теории игр. Уже в момент ее зарождения многие предсказали революцию в экономических науках благодаря использованию нового подхода. Революции, возможно, и не произошло, но тенденции развития экономики показал плодотворность методов теории игр в прикладной сфере. Так, в 1994 году Дж. Харшаньи и Р. Зельтен получили Нобелевскую премию по экономике за работы в области теории игр (приложения их исследований, например – переговоры с односторонними трансакционными затратами, равновесие рынка с продавцом и несколькими потенциальными покупателями).

Теория игр имеет не очень длинную историю. Решающий поворот в ее развитии произошел в 1928 году благодаря американцу Дж. фон Нейману. Именно тогда он представил математическое обоснование общей стратегии для игры двух участников в терминах минимизации и максимизации. Одним из родоначальников теории игр был и французский математик Э. Борель. Но первым систематизированным изложением идей и методов в этой области была вышедшая в 1944 году работа фон Неймана и О. Моргенштерна "Теория игр и экономическое поведение", которая распространила теорию игр на произвольное число участников и применила эту теорию к экономическому поведению. Предложенная в ней стратегия - "минимакс", или минимизация максимальных потерь, - определяется как рациональный курс в условиях неопределенности.

Теория игр и решений получила сильный импульс в годы второй мировой войны, когда был введен термин "исследование операций". В типичной задаче этой тематики рассматривалась "дуэль" между самолетом и

подводной лодкой. Первому требовалось найти оптимальную схему патрульного поиска в определенном районе; другой было необходимо изыскать наилучший способ уйти от наблюдения. Математики Группы исследования операций по противолодочной защите, используя материалы фон Неймана, относящиеся к 1928 году, решили эту задачу.

Статистические критерии для принятия решений в условиях неопределенности были обоснованы математиком из Колумбийского университета А. Вальдом в 1939 году. Они определяют "максимин" - критерий, которым пользуются в ожидании наихудшего результата. Л. Гурвиц и Л. Сэвидж разработали и другие критерии, подобные "критериям сожаления", где субъективные вероятности могут заставить увеличить или уменьшить риск.

Обычно теория игр определяется как теория математических моделей выбора оптимальных решений в условиях неопределенности. При этом тип неопределенности, изучаемый в теории игр, характеризуется тем, что рассматриваются ситуации, исход в которых определяется действием нескольких сторон, каждая из которых преследует собственные цели (такие взаимодействия нескольких сторон называются играми). Несовпадение целей действующих сторон, а также определенные ограничения на обмен информацией между ними, приводят к тому, что эти взаимодействия носят конфликтный характер, поэтому в прикладном аспекте теория игр может рассматриваться как наука о рациональном поведении в условиях конфликта.

Очевидно, что взаимодействия между производителями и потребителями, из которых фактически складывается экономическая реальность, имеют именно такой характер, как указано выше, поэтому теория игр является наиболее адекватной теорией для изучения экономического поведения. Следует иметь в виду, что теория игр изучает не фактическое поведение участников, а их гипотетическое поведение, направленное на получение наилучшего в некотором смысле (оптимального) результата.

В настоящем пособии мы ограничиваемся рассмотрением той части теории игр, которая связана с приложениями в экономике. Игры более чем двух игроков в пособие не включены. Представлены следующие классы теоретико-игровых моделей: игры с природой, антагонистические игры, биматричные игры.

1. ПРИНЯТИЕ РЕШЕНИЯ В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ

Системное описание задачи принятия решения в условиях неопределенности состоит в следующем. Имеется некоторая система, в которой выделена управляющая подсистема, и вся система погружена в некоторую среду. Управляющая подсистема может воздействовать на систему с помощью альтернативных управляющих воздействий, приводящих

к изменению состояния этой системы. Выбор управляющего воздействия происходит в соответствии с целями управляющей подсистемы. Принятие решения, то есть выбор одной из имеющихся альтернатив, - является центральным моментом управления.

Состояние системы определяется двумя факторами: выбранным управляющим воздействием со стороны управляющей подсистемы и состоянием среды.

Математическая модель задачи принятия решения (далее – ЗПР) в условиях неопределенности представляет собой формализацию указанной конструкции. Пусть Х – множество управляющих воздействий (альтернатив) управляющей подсистемы. Y – множество состояний среды. В соответствии со сказанным выше, состояние системы однозначно определяется парой (x,y), где x X и y Y. Управляющая подсистема оценивает каждое состояние системы некоторым числом, выражающим "полезность" этого состояния для управляющей подсистемы; таким образом, возникает функция F: X×Y→R. Значение функции F(x,y) есть оценка полезности (с точки зрения управляющей подсистемы) того состояния системы, которое возникает, если управляющая подсистема выбирает управляющее воздействие х, а среда принимает состояние у. Принципиальным является то обстоятельство, что при принятии решения управляющая система "не знает", в каком состоянии находится среда, то есть она не имеет информации о наличном состоянии среды. Именно это обстоятельство имеют в виду, когда говорят, что принятие решения происходит в условиях неопределенности. Отметим, что эта неопределенность не является абсолютной, так как принимающему решение известно множество состояний среды (то есть множество Y) и известна функция F(x,y).

Втеории игр описанную выше ЗПР называют игрой с природой, причем управляющую подсистему принято называть игроком, выбираемые им альтернативные воздействия – стратегиями, а функцию F(x,y) – функцией выигрыша игрока. Таким образом, в теоретико-игровой терминологии задача принятия решения в условиях неопределенности формулируется следующим образом. Пусть Х – множество стратегий игрока, Y – множество состояний среды (природы), F(x,y) – функция выигрыша игрока. Требуется указать наилучшую в некотором смысле альтернативу, или, как говорят в теории игр, найти оптимальную стратегию. Подчеркнем еще раз, что основная сложность данной задачи, носящая принципиальный характер, связана с отсутствием у игрока информации о состоянии среды (если бы игрок такую информацию имел, то его функция выигрыша стала бы функцией одной переменной х и задача нахождения оптимальной стратегии превратилась бы в задачу нахождения наибольшего значения этой функции).

Вслучае, когда и Х, и Y конечны, функцию выигрыша F(x,y) удобно

задавать в виде матрицы A = (ai j ), i =1,n, j =1,m , считая Х={1,…,n},

Y={1,…,m}; при этом ai j есть значение функции выигрыша F в ситуации, когда игрок выбирает стратегию i, а среда принимает состояние j.

Замечание. Так как в математической модели "природа" стратегий игрока и состояний среды несущественна, удобно различать их по номерам,

полагая Х={1,…,n}, Y={1,…,m}.

Изложим основные принципы, по которым из конечного множества стратегий выбираются оптимальные. Далее в 1-й и 2-й главах мы будем рассматривать только конечные множества.

Надо иметь некоторый способ сравнения двух стратегий. Самый простой и естественный принцип, по которому можно их сравнить - это принцип доминирования, состоящий в следующем: стратегия i1 называется

доминирующей стратегию i2 (записывается i1i2), если при любом состоянии среды выигрыш игрока при выборе им стратегии i1 будет не меньше, чем выигрыш при выборе стратегии i2 (то есть ai1 j ai2 j при всех j=1,…,m).

Очевидно, что если i1i2, то независимо от состояния среды стратегия i1 является лучшей для игрока, чем стратегия i2, поэтому стратегию i2 можно исключить из дальнейшего рассмотрения. Итак, принцип доминирования состоит в том, что исключаются доминируемые стратегии.

Для того, чтобы выбрать из оставшихся стратегий оптимальную, нужны какие-то дополнительные соображения.

Основной метод, позволяющий найти оптимальную стратегию в ЗПР в условиях неопределенности, состоит в следующем:

формулируется некоторая гипотеза о поведении среды, позволяющая дать единственную численную оценку каждой стратегии. Оптимальной считается та стратегия, для которой численная оценка является максимальной.

Заметим, что задание оценки каждой стратегии позволяет сравнить любые две стратегии: из двух стратегий лучшей считается та, которая имеет большую оценку (стратегии, имеющие одинаковую численную оценку, считаются эквивалентными). Таким образом, задание оценок стратегий устанавливает критерий для сравнения стратегий. Рассмотрим теперь важнейшие критерии, используемые для задач принятия решений в условиях неопределенности.

КРИТЕРИЙ ЛАПЛАСА L основан на гипотезе равновероятности и содержательно может быть сформулирован следующим образом: «поскольку мы ничего не знаем о состояниях среды, их надо считать равновероятными». Иногда этот принцип называется также принципом недостаточного основания. При принятии данной гипотезы в качестве оценки стратегии i надо брать соответствующий ей средний выигрыш, то есть

L(i) = 1 m ai j m j=1 .

Оптимальная по данному критерию стратегия L0 находится из условия

L(i0) = max L(i) .

1in

КРИТЕРИЙ ВАЛЬДА V основан на гипотезе крайней осторожности (крайнего пессимизма), которая формулируется так: "При выборе той или иной стратегии надо рассчитывать на худший из возможных вариантов". Если принять эту гипотезу, то оценкой стратегии i является число

V (i) = min

a

ij

. Оптимальная по данному критерию стратегия i0 находится

1jm

 

 

 

 

 

 

 

из условия V (i

 

) = max V (i) , то есть

min

a

= max

min

a .

 

 

 

0

1in

1jm

ij

1in1jm

ij

Принцип оптимальности, основанный на критерии Вальда, называется

принципом максимина.

Замечание. Если значения функции выигрыша имеют характер потерь (то есть, фактически они являются не выигрышами, а проигрышами), то

оценкой стратегии i является max

a

ij

, а оптимальной будет та стратегия

1 j m

 

 

i0, при которой указанный максимум достигает наименьшего значения, то

есть

max ai

j = min

max aij . Такая стратегия i0 называется

 

1jm 0

1in1jm

минимаксной, а соответствующий принцип оптимальности называется

принципом минимакса.

КРИТЕРИЙ ГУРВИЦА G связан с введением числа 0≤ α ≤1, называемого "показателем пессимизма-оптимизма". Гипотеза о поведении среды состоит в том, что наихудший вариант реализуется с вероятностью α , а наилучший - с вероятностью 1-α . Тогда оценкой стратегии i является число

G(i) =α

min

a

ij

+ (1 α)

 

max a

ij

, а

оптимальная

стратегия i0

1 j m

 

 

 

1 j m

 

 

 

находится

из

условия

G(i

0

) =

max

 

G(i).

Ясно, что при

α =1 данный

 

 

 

 

 

 

1

i n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

критерий превращается в критерий крайнего пессимизма (то есть в критерий Вальда), а при α =0 - в критерий крайнего оптимизма. Содержательная трудность при использовании критерия Гурвица - назначение показателя пессимизма α .

Известны и другие критерии. Критерий Сэвиджа определяется так:

S(i) = max ( max

a

kj

a ) .

1jm 1 k n

 

ij

В отличие от предыдущих критериев,

оптимальная стратегия – та, что

минимизирует значение S(i). Этот критерий - мера сожаления о незнании

истинного

состояния

среды.

Критерий Ходжа-Лемана –линейная

комбинация

критериев

Вальда и

математического ожидания . Более

сложным образом рассчитываются критерии Гермейера и произведения. Замечание. В общем случае оптимальные решения, полученные по

указанным критериям, могут не совпадать (как говорят, критерии противоречат друг другу). Это неудивительно, ибо эти критерии основаны на разных гипотезах. Вводя ту или иную гипотезу, мы тем самым "снимаем неопределенность", однако, гипотеза является только предположением, а не