Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

TI_v_EMM_2014

.pdf
Скачиваний:
8
Добавлен:
27.05.2015
Размер:
3.52 Mб
Скачать

Конспект лекций по дисциплине «Теория игр»

Тема 1. Лекция 1. История теории игр. Основные понятия теории игр. Классификация игр.

Теория игр – часть теории математических моделей принятия оптимальных решений (исследования операций), а именно, она моделирует ситуации принятия оптимальных решений в условиях

конфликта.

История теории игр.В 1911 г. Э. Цермело описал теоретико-игровой подход к шахматной игре. В 1921г. Э. Борель начал систематическое изучение матричных игр. В 1928г. вышла работа Дж. Фон-Неймана «К теории стратегических игр», содержащая основные идеи современной теории игр. В 1943г. после публикации книги Дж. Фон-Неймана и О Моргенштерна «Теория игр и экономическое поведение» теория игр окончательно сформировалась как самостоятельная наука.

2.Модель принятия оптимальных решений.

2.1.Базовая модель рационального поведения. В настоящем разделе описываются два

«варианта» модели рационального поведения субъекта, осуществляющего выбор. В первой модели предпочтения моделируются функцией полезности, и рациональность поведения заключается в стремлении выбора альтернатив, максимизирующих полезность. Во второй модели предпочтения моделируются бинарным отношением предпочтения, и рациональность поведения заключается в стремлении выбора недоминируемых с точки зрения этого отношения предпочтения альтернатив.

2.1.1. Функции полезности. Как описывается поведение человека? В экономике с середины XIX века существует концепция максимизации полезности, т.е. концепция экономического человека (homo economicus), который ведет себя таким образом, чтобы максимизировать свою полезность. Несмотря на всю априорную ограниченность этой теории (потому что не всегда понятно, что такое полезность, почему человек стремиться ее максимизировать), концепция оказалась плодотворной.

Пусть имеется один субъект (агент), который может выбирать действия из какого-то множества.

Предположим, что предпочтения этого субъекта описывается функцией полезности f ( y) : A 1 (или

целевой функцией, функцией предпочтения – будем использовать в настоящем разделе эти термины как синонимы), которая отображает множество его допустимых действий (альтернатив) A на числовую ось 1. Значения этой функции позволяют сравнивать разные альтернативы (действия). Если есть два варианта – два элемента из множества допустимых действий, то лучшим будет тот, который приводит к большему значению функции. Предположим, что агент будет максимизировать свою полезность и производить выбор из множества выбора, которое представляет собой множество максимумов его целевой функции:

(1) P( f ( ), A) Arg max f ( y) .

y A

Значит, множество выбора агента зависит от его предпочтений f( ) и от того множества A, из которого он производит выбор.

Множество выбора зависит от двух составляющих: от функции и от допустимого множества. Предположение, что агент производит выбор из множества выбора (то есть, стремится максимизировать свою целевую функцию) называется гипотезой рационального поведения, которая заключается в том, что агент выбирает с учетом всей имеющейся у него информации наилучшую с его точки зрения допустимую альтернативу, т.е. одну из альтернатив y*, на которых достигается максимум его целевой функции:

(2) y* = arg max f(y).

y A

Пример 1. Рассмотрим экономического агента – производственное предприятие – принимающего решение об объеме выпускаемой продукции y. Технология производства такова, что может быть произведен любой объем продукции, не превышающий технологического ограничения y+ > 0, то есть множество допустимых действий агента A = [0; y+]. Предположим, что известна рыночная цена > 0 на продукцию, производимую агентом, и известна функция затрат агента c(y) = y2 / 2 r, где r > 0 – тип агента (параметр, отражающий эффективность его деятельности).

Если считать, что агент заинтересован в максимизации своей прибыли (разности между выручкой от

продаж и затратами), то его функция полезности примет вид:

(3) f(y) = y y2 / 2 r.

Максимум этой функции на положительной полуоси достигается при выборе действия ymax = r.

Значит решение задачи (2) имеет вид:

(4) y* = min { r, y+},

то есть агенту следует выбирать объем производства, максимизирующий его прибыль (если такой объем является технологически допустимым), либо максимально возможный (с точки зрения технологических ограничений) объем производства.

21

2.3. Принятие решений в условиях игровой неопределенности. Возможно, помимо рассматриваемого агента, существуют другие агенты, с которыми он взаимодействует, а, значит, необходимо отразить в моделях принятия решений и это взаимодействие. В теории игр это взаимодействие принято называть конфликтом.

Модель конфликта. Практической стороной конфликта может быть любая ситуация реальной человеческой деятельности (война, экономика, юриспруденция, семейная жизнь, групповое взаимодействие, конкуренция за приз, карточная, спортивная или интеллектуальная игра и т.п.). Во всех реальных конфликтах есть нечто общее: конфликтом называется всякое явление, характеризуемое набором участников, набором их интересов (целевых функций), набором их стратегий поведения, набором исходов явления. Действующей стороной (т.е. стороной, выбирающей ту или иную стратегию) конфликта может быть как отдельный участник игры, так и коалиция, т.е. множество участников. Причем могут складываться коалиции действия и коалиции интересов. Если коалиции интересов и коалиции действия совпадают, участников игры принято называть игроками. Ситуация, когда каждая из сторон конфликта выбрала свою стратегию, называется исходом конфликта (игры).

В математической теории игр все множества (игроков, целевых функций, стратегий, исходов) считаются абстрактными (точечными, числовыми, функциональными и т.п.). Исход игры не всегда детерминирован: допустимыми являются исходы, представляющие собой множества, случайные величины. Некоторые комбинации выбранных стратегий могут быть неосуществимыми, тогда считается, что конфликт (игра) не состоялся. Интерес игрока состоит в том, что каждый исход игры представляет для него определенную ценность, т.е. все исходы упорядочены (допуская эквивалентные исходы) с его точки зрения. Другими словами, для каждого игрока определены бинарные соотношения на множестве исходов игры. Частным случаем упорядоченности служат функции (функции выигрыша), заданные на множестве исходов.

Итак, формальная модель конфликта (игры) есть следующий кортеж:

{множество игроков, множество стратегий, множество исходов, множество функций выигрыша}

Некоторые из действующих сторон в игре могут и не существовать реально, а только в воображении других сторон конфликта. Например, одной из действующих сторон деятельности человека является природа. Непознанные природные закономерности, представляющие угрозу для деятельности (такие как стихийные бедствия, засухи и пр.) могут восприниматься человеком как противодействующая сторона конфликта. Такие конфликты получили название «игры с природой». Об этом говорилось выше.

Формализация принятия решений. Как игрок определяет множество своих стратегий или различает элементы этого множества? Если множество стратегий конечно и дискретно, это не является проблемой. Как отражается на множестве стратегий и функций выигрыша динамическая природа внешней среды? Если игра разыгрывается однократно и мгновенно, это не является проблемой. В случае же повторяющихся игр учет зависимостей от внешних обстоятельств достаточно важен (такие игры получили название динамических игр). Важно также отметить, что определение элементов игры отражает не реальность, а представления игроков о ней, т.е. носит субъективный характер. Каждое информационное состояние игрока можно понимать как некоторый класс его истинных состояний который объединяет в себе неразличимые на данный момент стратегии игрока. Функции выигрыша в этом случае определяются теми же обстоятельствами, которые вызвали данное информационное состояние игрока. Поэтому учет информированности игроков вносит существенный вклад в определение всех компонентов игры.

Оптимальность решения, принимаемого в условиях конфликта труднее поддается формализации. Эта задача всегда была основной в теории игр. Действительно, оптимальность в условиях конфликта всегда есть некоторый компромисс между его сторонами и/или между стратегиями каждой из сторон. До сих пор в теории игр не сложилось единого понимания оптимальности: в разных концепциях игр существуют разные понятия оптимальности. Понятие оптимальности тесно связано с понятием устойчивости. Возможный исход игры только тогда будет реализуемым практически. Если он устойчив, т.е. ни у одной из сторон не должно возникать соблазна его изменить. Поэтому реализуемые исходы называют игровым равновесием. Это обстоятельство существенно уменьшает оптимальность исходов для каждого из участников игры.

Тема 1. Лекция 2. Игры в развернутой форме. Переход от игры в развернутой форме к игре в нормальной форме. Смешанные стратегии.

1. Определение игры в развернутой форме

Развернутая форма – естественный способ представления салонных игр, вроде шахмат или преферанса. Однако и другие игры (по крайней мере, дискретные), обычно сначала рассматриваются в развернутой форме.

22

Игры в развернутой форме представляются в виде дерева, вершины которого представляют собой текущие игровые ситуации. Вершины соединяются дугами, которые означают возможные переходы между ситуациями, Если из данной вершины выходят несколько дуг, это значит, что в данной ситуации ход игры зависит от выбора одного из игроков или от реализации внешнего события. Самая левая вершина («корень» дерева) означает ситуацию в начале игры, конечные (терминальные) вершины означают возможные исходы игры. Каждой конечной вершине поставлен в соответствие вектор выигрышей игроков. В случае двух игроков этот вектор состоит из пары чисел – значений полезности игроков при заданном исходе игры.

Для каждой нетерминальной вершины необходимо указать, какой игрок контролирует данную вершину, то есть осуществляет выбор. Вершина может и не контролироваться ни одним из игроков, тогда эту вершину контролирует природа. Вершина, контролируемая игроком с номером i, называется еще

«точкой выбора i-го игрока».

При каждом розыгрыше игроки (и реализация природных факторов) выбирают путь в этом дереве от стартовой вершины до одной из терминальных вершин.

Для описания игры n лиц в развернутой форме необходимо определить: 1) Дерево, ребрам и вершинам которого присвоены следующие метки:

2) Каждой терминальной вершине Fi ставится в соответствие метка-«вектор выигрышей», то есть числовой вектор f Fi ( f1, f2 , , fn ) (размерности n) выигрышей (полезностей) игроков.

3) Каждой нетерминальной вершине ставится в соответствие метка контроля – номер игрока i N 1,2, , n , контролирующего вершину. Если данную вершину контролирует природа (внешние обстоятельства, случай и т.д.), то эта метка равна нулю.

4)Каждой нетерминальной вершине ставится в соответствие метка информационного состояния игрока (обычно она отделяется от номера игрока точкой).

5)Каждое ребро помечено возможными альтернативами, доступными для выбора игрока, контролирующего вершину, из которой выходит данное ребро. Если вершину контролирует природа, метки должны обозначать вероятности реализации данной альтернативы, причем сумма вероятностей должна равняться единице.

6)Набор исходящих ребер множества вершин с одним информационным состоянием имеет одинаковый набор маркировок.

Определение 1:Игрой в развернутой форме называется система 1-6.

Описание игры в развернутой форме довольно сложно, хотя и содержательно богато. Поэтому вместо того, чтобы подробно исследовать игры в развернутой форме, введем новую, более простую форму игры (нормальную, или стратегическую форму), определим формальную процедуру перехода от игр в развернутой форме к играм в нормальной форме.

2.Определение игры в нормальной форме

Предполагается, что игроки имеют возможность лишь один раз выбрать альтернативу (действие) из множества возможных действий. Также предполагается, что выбор действия игроки производят одновременно и независимо друг от друга, не зная выбора противников. После выбора всех действий реализуется определенный исход. Каждому исходу соответствуют значения полезности игроков, их выигрыши.

Всем игрокам известны как зависимость их выигрышей от исхода игры, так и выигрыши противников. То есть в таком виде определение игры в нормальной форме подходит только для игр с полной информированностью.

В соответствии с введенной выше классификацией, среди игр в нормальной форме можно выделить антагонuстuческuе игры, в которых сумма выигрышей игроков при любом исходе равна нулю, и игры с непротивоположными интересами, в которых сумма выигрышей может быть различной для разных ситуаций.

Для экономических задач и задач организационного управления типична ситуация, когда интересы игроков не противоположны. Тогда, в принципе, игроки могут быть заинтересованы в совместных действиях, например, в обмене информацией. Однако, иногда подобное кооперирование запрещено правилам и игры.

Определение 2 Игрой в нормальной форме п лиц с произвольной суммой называется система

Г Х i

, Ki

,i N

, где X i – непустые множества действий,

Ki – функции выигрыша игроков,

 

 

 

Ki : X1 X n 1.

Обычно множества действий считаются компактами, то есть ограниченными замкнутыми множествами. Определения замкнутости и ограниченности подразумевают, что на множестве действий определено понятие сходимости, то есть задана, как минимум, топология. Часто в доказательствах

23

необходимо наличие метрики на множестве действий. На практике множества действий игроков обычно представляют собой подмножества векторного пространства, для которых можно использовать евклидову метрику.

Если множества действий игроков конечны, то действия каждого игрока можно последовательно пронумеровать. Если, к тому же, игроков двое, выигрыши первого игрока можно представить в виде матрицы, в которой он выбирает действие – номер строки, его противник выбирает действие – номер столбца, а на пересечении столбца и строки находится число, соответствующее выигрышу первого игрока. Аналогичную матрицу можно построить и для второго игрока. Определенная с помощью пары таких матриц игра в нормальной форме называется биматричной.

3. Переход от игры в развернутой форме к игре в нормальной форме

Постановка игры в нормальной форме гораздо проще для изучения и формализации, чем игра в развернутой форме, поэтому ниже будут рассматриваться только решения игр в нормальной форме. Для игр же в развернутой форме построим формальную процедуру перехода от них к играм в нормальной форме.

Сначала введем для игры в развернутой форме понятие стратегии игрока.

Определение 3:Стратегией игрока для игры в развернутой форме называется функция, отображающая множество информационных состояний игрока на множество его ходов таким образом, что каждому информационному состоянию ставится в соответствие один из возможных в данном состоянии ходов.

Таким образом, стратегия определяет, какую альтернативу игрок должен выбирать в каждом из своих информационных состояний.

Множество стратегий каждого игрока будем обозначать X.

Элементы x декартова произведения множеств стратегий всех игроков будем называть профилями стратегий, а само декартово произведение будем обозначать X.

Для каждой вершины Q графа игры в развернутой форме и каждого профиля стратегий x X определим вероятность P Q / x реализации данного состояния Q при использовании игроками стратегий x

спомощью рекуррентной процедуры, а именно:

если Q – корневая вершина, то для произвольных x, P(Q / x) 1;

если вершина R предшествует вершине Q в графе игры, переход из R в Q определяется природой и происходит с вероятностью p, то P(Q / x) P(R / x) p;

если вершина R предшествует Q в графе игры и переход из R в Q определяется одним из игроков,

то P(Q / x) P(R / x) в случае, если данный переход содержится в профиле стратегий игроков, в противном случае P(Q / x) 0 .

Таким способом для каждой терминальной вершины Fi можно определить соответствующие вероятности P(Fi / x) попадания в них при условии использования игроками профиля стратегий x.

Теперь можно определить ожидаемые значения выигрышей игроков при использовании ими

профиля x по формуле:

 

Ki (x1, x2 , xn ) fi (Fj )P(Fj / x) ,

(1)

Fi

где Fj - терминальные вершины графа игры.

Теперь можно определить игру в нормальной форме, которая соответствует исходной игре в развернутой форме. Множество игроков новой игры совпадает с множеством игроков исходной игры,

множествами действий будут определенные выше множества стратегий X i , а функция выигрыша

определяется формулой (1). Эта игра вполне эквивалентна в исследовании исходной игре в развернутой форме и, если определить, что для нормальной формы игры целесообразными является набор действий x X , тем самым полностью определяется и поведение игроков в исходной игре.

Отметим, что, поскольку выше было дано описание лишь дискретных игр в развернутой форме, то и получающиеся с помощью рассмотренной процедуры игры в нормальной форме также будут дискретными.

Пример. Рассмотрим следующую игру. Случайно выбирается некоторое число z из множества {1,2,3,4} . Каждое имеет вероятность 1/4 . Игрок А, не зная результата, выбирает целое число x , а игрок Б аналогично – число y. Выигрыш определяется следующим образом: |y-z|-|x-z|, (|x-z|-|y-z|) . Т.е. целью является выбор числа, наиболее близкого к z.

В этой игре каждый игрок реально имеет 4 стратегии {1,2,3,4}. (Остальные заведомо плохи.) Если, например, игрок А выбирает 1, а игрок Б выбирает 3, то выигрыш будет равен (2,-2) с вероятностью

24

¼,

(0,0) с вероятностью ¼,

(-2,2) с вероятностью ½. Ожидаемый выигрыш,

таким образом, равен

m(1,3)=(-1/2, 1/2). Подсчитывая все значения m(i,j)Б получим таблицу:

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

3

 

4

1

 

(0,0)

 

(-1/2, 1/2)

(-1/2, 1/2)

 

(0,0)

2

 

(1/2, -1/2)

 

(0,0)

(0,0)

 

(1/2, -1/2)

3

 

(1/2, -1/2)

 

(0,0)

(0,0)

 

(1/2, -1/2)

4

 

(0,0)

 

(-1/2, 1/2)

(-1/2, 1/2)

 

(0,0)

Таким образом, мы получили игру в нормальной форме.

Тема 2. Лекция 3-4. Различные концепции решения игр.

С формальной точки зрения можно разделить задачи принятия решений в теории игр, когда игра рассматривается с точки зрения одного из игроков, которому (на основании исследования игры) рекомендуется то или иное поведение, и задачи прогнозирования результатов игры, то есть описательные задачи, когда исследователь занимается поиском возможных исходов игры при рациональном поведении игроков. Понятно, что, в силу специфики теории игр, эти задачи взаимосвязаны, так как задача принятия решений в теории игр с неизбежностью требует прогнозирования поведения других рациональных игроков.

Решением игры в самом общем смысле можно назвать любое описание того, каким образом должны вести себя игроки в той или иной игровой ситуации. Это не обязательно должен быть набор рекомендуемых для каждого игрока действий. Решением, например, может быть набор исходов игры. Такое решение можно интерпретировать как набор ситуаций, рациональных относительно некоторых предположений о поведении игроков. То есть при рациональном поведении игроков должны реализовываться только ситуации, принадлежащие решению. Решением игры может быть и набор смешанных стратегий, если одних только чистых стратегий недостаточно.

Внастоящее время в теории игр не существует единой концепции решения, одинаково подходящей для всех классов игр. Связано это, во-первых, с тем, что формальное описание игры представляет собой лишь очень грубый «слепою» с чрезвычайно сложных реальных процессов, про исходящих в ходе игры обмена информацией, возможных договоров между игроками, самостоятельных действий игроков по увеличению своей информированности. Нельзя исключать и возможности иррационального поведения игроков, которое практически не поддается формализации.

Если ставить целью включить все подобные детали в описание игры, то оно может стать слишком сложным для продуктивного анализа.

Другая сложность состоит в том, что само понимание того, что такое рациональное поведение, различно у разных людей. То, что кажется рациональным одним, может показаться не рациональным другим, и современная наука зачастую не знает объективных причин, лежащих за этими различиями в поведении.

Всвязи с этим теория игр не всегда может точно предсказать поведение игроков в реальной игровой ситуации или дать однозначную рекомендацию по принятию решения.

Это общая проблема всех формальных, модельных исследований, не только в теории игр, но и в физике, экономике и т.д. Тем не менее, ценность модельных исследований конфликта бесспорна, поскольку они дают возможность, исследуя достаточно простые модели, выяснять основные закономерности, которые лежат в основе рационального поведения в конфликтных ситуациях.

Задачей теории игр на современном этапе ее развития является не поиск единственного решения игры, то есть полного предсказания поведения игроков, а, скорее, отсечение ситуаций и способов поведения игроков, которые рациональными, разумными, назвать нельзя.

Формально теоретико-игровую концепцию решения можно представить, как некоторое отображение множества игр на множество решений. Это отображение может не охватывать все возможные игры, то есть решение может не существовать для некоторых игр или их классов, может быть неоднозначным, то есть ставить в соответствие некоторой игре несколько решений, которые представляются разумными с точки зрения этой концепции.

Определение любой концепции решения невозможно без некоторых предположений относительно психологии игроков, того, что они понимают под рациональным поведением. По сути, любое такое предположение, которое позволяет сузить множество альтернатив в игровой задаче выбора, определяет некоторую концепцию решения. После этого можно говорить о формализации концепции решения, проверке существования или единственности решения для всех игр или некоторых классов игр, исследовать свойства решений, разрабатывать алгоритмы их нахождения.

25

Сами предположения о рациональном поведении при этом остаются на заднем плане. Их обоснование не является, на самом деле, сферой действия теории игр или теории принятия решений, и относятся скорее к сфере психологии, социологии и философии.

Этот подход был продемонстрирован выше при определении условий, которым должно удовлетворять отношение предпочтения, чтобы на его основе можно было определить функцию полезности. Эти условия формулировались в виде набора аксиом. Аналогично можно поступить и при формулировке концепции решения:

Шаг 1. Определить аксиомы, фиксирующие некоторое представление о рациональном поведении. Шаг 2. Проверить, что аксиомы не противоречат друг другу.

Шаг 3. Убедиться, что аксиомы позволяют сузить множество рассматриваемых игроками альтернатив.

Шаг 4. На основе введенных аксиом построить механизм нахождения решения игры.

Шаг 5. Исследовать свойства решений: их существование для всех (или некоторых) классов игр, единственность решения и т.д.

Шаг 6. Разработать алгоритмы вычисления решения. Известные на сегодняшний день концепции решения обладают одним из двух недостатков: либо решение существует не для всех игр, либо существуют игры, для которых это решение противоречит здравому смыслу. Трудности с поиском приемлемой общей концепции решения привели к появлению многочисленных частных концепций, удовлетворяющих требованиям здравого смысла, но существующих только для ограниченного класса игр.

Таким образом, основные вопросы теории игр состоят в следующем:

1.В чем состоит оптимальное решение игры?

2.Существует ли оптимальное решение игры?

3.Как найти существующее оптимальное решение игры?

Ответ на эти вопросы в значительной степени определяется структурой игры, т.е. структурой

множеств игроков, их стратегий и функций выигрыша. Такая определенность является настолько сильной, что служит основой классификации игр, которая отражается в их названии.

Классификация игр. Существует несколько оснований классификаций игр.

-по числу участников (два или несколько);

-по ограничению на выигрыш (игры с нулевой суммой или антагонистические и игры с произвольной суммой);

-по информированности сторон (с полной и неполной информированностью);

-по количеству повторений (однократные и динамические (с дискретным временем – повторяющиеся, с непрерывным – дифференциальные);

-по мощности множеств стратегий (дискретные и непрерывные игры);

-по возможности совместных действий (некооперативные и кооперативные игры);

-по последовательности ходов (одновременные и иерархические);

и др.

Игры в нормальной форме. Игровые равновесия.

Пусть задано множество игроков N {1,2,...,n}. i -ый игрок выбирает действие yi из множества своих

допустимых действий yi Ai ,

i N . Действия всех игроков называются ситуацией игры (игровой

ситуацией): y ( y1 ,..., yn ) . Целевая функция i-го игрока зависит от вектора действий всех игроков y и

 

1

 

Ai . Т.е. каждой комбинации действий игроков

является отображением fi ( y) : A

, где

A

 

 

 

i N

соответствует некоторый выигрыш каждого из них. Совокупность множества игроков (агентов), целевых функций и допустимых множеств агентов Г 0 {N ,{ fi ( )}i N ,{Ai }i N } называется игрой в нормальной

форме. При этом предполагается, что каждый из игроков выбирает свои действия однократно, одновременно с другими игроками и независимо, то есть, не имея возможности договариваться с ними о своих стратегиях поведения (так называемая модель некооперативного поведения). Решением игры

(равновесием) называется множество устойчивых в том или ином смысле векторов действий агентов. Давайте возьмем i-го игрока и попробуем применить к нему гипотезу рационального поведения. Так

как игрок рационален и выбирает i-ю компоненту вектора y, то своим выбором он пытается

максимизировать свою целевую функцию: « fi ( y) max». Но то его действие, на котором достигается

yi Ai

максимум целевой функции, будет зависеть от выбора других агентов. Задача такого вида в некотором смысле бессмысленна, т.к. ее решением будет действие yi* ( y i ) , зависящее от действий всех других игроков – вектора y i ( y1 ,..., yi 1 , yi 1 ,..., yn ) , который называется обстановкой игры для i-го агента.

26

Рассмотрим возможные рассуждения отдельного игрока (агента): «Если остальные будут вести себя таким-то образом, то мне нужно вести себя таким образом, который максимизирует мою целевую функцию при данной обстановке. Но для того, чтобы выбрать свое действие, мне нужно знать, как будут себя вести остальные. Значит, мне нужно делать предположения о поведении остальных игроков». По аналогии с тем, как мы устраняли неопределенность в случае, когда имелся субъект, здесь присутствует множество игроков с так называемой игровой неопределенностью, т.е. неопределенностью, порождаемой целенаправленным поведением других игроков. Каждый игрок не может априори сказать, что сделают остальные. Рассмотрим возможные варианты.

Гарантирующее равновесие. Пусть i-ый игрок считает, что все остальные игроки действуют против него. Это – критерий пессимизма (максимального гарантированного результата – МГР, см. также раздел 2.2.1), который соответствует тому, что игрок выбирает действие

(1) y г Arg max min

f

( y

, y

i

) ,

i

yi Ai y i A i

i

i

 

 

 

 

 

 

 

 

где A i Aj . Он считает, что остальные игроки, независимо от своих собственных интересов, будут

j i

действовать против него, а уж выбором своего действия он будет максимизировать то, что зависит от него. Конструкция аналогична рассмотренному выше принципу максимального гарантированного результата в условиях интервальной неопределенности: берется сначала минимум по тому, что не зависит от рассматриваемого субъекта, потом – максимум по тому, что от него зависит. Такой принцип хорош тем, что всегда дает решение. Плох такой принцип тем, что игрок, принимающий решения, считает, что все остальные играют «против него», и забывает про то, что у других есть свои интересы, и, наверное, цель каждого игрока – максимизировать свою целевую функцию, а не сделать хуже партнеру (это может быть частным случаем целевой функции, но, к счастью, не всегда в жизни так бывает).

Определенный выше вектор действий игроков (состоящий из компонентов, описываемых (1), i N) называется максиминным, или гарантирующим равновесием. Это один из вариантов определения исхода игры. Можно сказать, что один из возможных вариантов поведения игроков – каждый из них выберет гарантирующую стратегию, т.е. реализует максиминное равновесие.

Пример 2. Обобщим Пример 1 на случай двух игроков (экономических агентов), принимающих решения об объемах выпускаемой продукции. То есть: N = {1; 2}, yi 0 – действие i-го игрока, ci(yi, ri) = (yi)2 / 2 ri – его функция затрат, i = 1, 2. Предположим, что рыночная цена на продукцию, производимую агентами, зависит от суммарного предложения: (y) = 0 – y1 – y2. Тогда целевые функции

игроков примут вид (рассматриваемая модель называется дуополией Курно [5]):

(2) fi(y) = ( 0 y1 – y2) yi (yi)2 / 2 ri, i = 1, 2.

Целевая функция каждого агента убывает по действию его оппонента, поэтому максиминным равновесием будет выбор всеми агентами нулевых объемов производства. Выигрыши агентов в этом равновесии равны нулю, то есть максиминное равновесие дает оценку выигрышей снизу. Однако с практической точки зрения такое равновесие выглядит неправдоподобным – никто ничего не производит.

Рассмотренный вариант (максиминное равновесие) не единственен. И основная проблема теории игр на сегодняшний день заключается в том, что не существует единственной общепринятой концепции решения игры, т.е. мы не можем, глядя на целевые функции и допустимые множества, сказать, что игроки сыграют именно так. Необходимо вводить дополнительные предположения, что приводит к разным прогнозируемым исходам игры. Ввели предположение о гарантирующей стратегии – получили максиминное равновесие. В разных моделях используются разные предположения, которые приводят к различным концепциям равновесия. Поэтому рассмотрим некоторые другие варианты.

Равновесие в доминантных стратегиях. Представим ситуацию, в которой целевая функция i-го игрока fi(y) достигает максимума по его действию в точке, которая не зависит от действий других игроков, т.е. у игрока существует его действие, которое является наилучшим независимо от того, что делают оппоненты. Это оптимальное действие, не зависящее от обстановки, называется доминантной стратегией агента.

Формально: стратегия yid будет доминантной, если какая бы обстановка игры не складывалась и какое

бы действие не выбирал i-ый игрок при этой обстановке, его выигрыш будет максимальным при выборе именно доминантной стратегии:

(3)

y

A

y

i

A

f

( y d , y

i

) f

( y

, y

i

) .

 

i

i

 

i

i

i

i

i

 

 

Отметим, что в обеих частях неравенства фигурирует произвольная, но одна и та же обстановка.

Если у каждого игрока существует доминантная стратегия, то совокупность доминантных стратегий называется равновесием в доминантных стратегиях (РДС) {yid }i N . Это – идеальная ситуация для

исследователя, описывающего математическую модель. Если удалось построить такую модель, в которой есть равновесие в доминантных стратегиях игры управляемых субъектов – это замечательно, т.к. сложно

27

описывать взаимодействие субъектов между собой, учитывать, как они друг на друга влияют, как они принимают решения. Если есть равновесие в доминантных стратегиях, то каждый агент принимает решение независимо. А описывать независимое принятие решений гораздо проще. Но такая ситуация встречается очень редко.

Если рассмотреть Пример 2 то окажется, что в нем не существует РДС. Хрестоматийным примером игр, в которых существует РДС являются игры с сепарабельными целевыми функциями агентов, то есть такими целевыми функциями, которые монотонны по действию агента, независимо от обстановки игры. Частным случаем сепарабельных целевых функций, являются аддитивные.

Пример 3. Пусть целевые функции агентов аддитивны и линейны

(4) fi(y) = i0 + ij y j ,

j N

где { ij} и { i0} – известные константы, причем без потери общности можно считать, что Ai = [0; 1], i N. В линейном случае у каждого агента существует доминантная стратегия:

yid = Sign( ii), i N.

 

 

1, z 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где Sign (z) =

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0, z

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Определение

9: Стратегия

xi* называется

доминантной стратегией

игрока i,

 

если

для любой

обстановки

x

i

X

i

и для любых

x

i

X

i

справедливо неравенство

K

i

(x*

/ x

i

) K

i

x

i

/

x

i

.

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

Это определение означает, что, если у игрока, независимо от действий противников, есть стратегия, дающая ему максимальный по сравнению с другими его стратегиями выигрыш, то эта стратегия называется

доминантной.

Целесообразность использования каждым игроком своих доминантных стратегий очевидна.

Определение 10: Если для каждого игрока i существует доминантная стратегия xi* ,то исход

x* x*

называется равновесием в доминантных стратегиях (РДС).

i i N

 

Равновесие в доминантных стратегиях существует далеко не для всех игр. Приведем несколько

лемм, определяющих некоторые классы игр, в которых существует равновесие в доминантных стратегиях.

Лемма 2.

Если в игре n лиц

 

xi ai , bi ,

функции выигрыша непрерывны по совокупности

стратегий и для каждого игрока частная производная

K i

x

, x

i

существует и везде знакопостоянна, то

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

существует РДС. При этом доминантной стратегия xi* , i-го игрока будет стратегия

a

,

 

Ki

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

i

,i N.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi* =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b ,

Ki

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

x

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Идею леммы 2 можно обобщить на значительно более широкий класс игр.

Лемма 3. Если в игре п лиц xi

 

ai , bi

, а функция выигрыша произвольного игрока i сепарабельна

по стратегии этого игрока, то есть

K

i

(x

, x

i

) K 0

(x

) K

1

x

i

, i N , иK 0 . имеет единственный

 

 

 

 

 

 

 

 

i

 

 

i

i

 

 

i

 

 

i

максимум на множестве действий X i то существует РДС, причем для игрока i его доминантная стратегия:

xi* arg max Ki0 (xi ),i N.

xi

Для доказательства лемм 2 и 3 достаточно проверить определение РДС.

Равновесие Нэша. Гораздо чаще, чем РДС, существует равновесие Нэша (РН). Джон Нэш, американский математик, в начале 50-х годов XX века предложил следующее: устойчивым исходом взаимодействия агентов можно считать такой вектор их действий, от которого в одиночку никому из них не выгодно отклоняться. Это значит, что ни один из агентов, в одиночку меняя свою стратегию на другую, не может увеличить свой выигрыш при условии, что остальные своих стратегий не меняют.

Формальное определение равновесия Нэша y N A таково:

28

(5) i N

y

A

f

( y N , y N ) f

( y

, y N ) ,

 

i

i

i

i i i

i

i

то есть для любого агента и для любого допустимого его действия выбор им равновесного по Нэшу действия дает ему выигрыш не меньший, чем при выборе любого другого действия при условии, что остальные игроки играют равновесные по Нэшу стратегии.

Отличие между изложенными подходами (РДС и равновесием Нэша) заключается в том, что в формулировке равновесия в доминантных стратегиях (3) фигурирует произвольная обстановка, то есть доминантная стратегия – наилучшая при любой обстановке. А стратегия по Нэшу – наилучшая при «нэшевской» обстановке (см. (5)).

Равновесие Нэша хорошо тем, что в большинстве моделей оно существует. Одним из его недостатков является то, что оно не всегда единственно. Ведь если есть два равновесия, то как предсказать, в каком из них окажутся агенты. Нужны дополнительные предположения.

Кроме того, равновесие по Нэшу не устойчиво к отклонению двух и более игроков. По определению одному агенту не выгодно отклоняться, но это не значит, что если два агента договорились и одновременно отклонились от равновесной ситуации, то они не смогут оба выиграть. То есть равновесие Нэша – существенно некооперативная концепция равновесия.

Пример 4. Возьмем Пример 2 и найдем для него равновесие Нэша игры агентов, выбрав 0 = 5, r1 = 1, r2 = 2. Для этого продифференцируем целевую функцию каждого агента по его действию, приравняем

производную нулю, и решим систему уравнений. Получим равновесные действия агентов: y1N = 15/13, y2N = 20/13.

Пример 5. Пусть целевая функция i-го агента fi(y, ri) представляет собой разность между доходом hi(y) от совместной деятельности и затратами ci(y, ri), где ri – параметр эффективности (тип) агента, то есть

(6) fi(y, ri) = hi(y) – ci(y, ri), i N.

Выберем следующий вид функций дохода и затрат:

(7) hi(y) = i Y, i N,

 

 

 

yi2

(8) ci(y, ri) =

 

 

, i N,

2(ri i y j )

 

 

 

 

j i

где Y = yi , i

1. Для случая, когда в знаменателе выражения (8) стоит знак «–», предполагается,

i N

 

i N

 

 

что y j

 

ri

.

 

 

 

 

 

 

j i

i

 

 

Содержательно набор агентов может интерпретироваться как некоторая фирма, подразделения которой (агенты) производят однородную продукцию, реализуемую на рынке по цене . Суммарный доход Y распределяется между агентами в соответствии с фиксированными долями { i}. Затраты агента возрастают по его действиям, а эффективность деятельности (знаменатель выражения (8)) определяется типом агента. Взаимодействие агентов моделируется зависимостью затрат (эффективности деятельности) каждого из них от действий всех (других) агентов. Знак «+» в знаменателе выражения (8) соответствует эффективному взаимодействию агентов (убыванию затрат на масштаб) – чем большие действия выбирают другие агенты, тем меньше затраты (выше эффективность деятельности) рассматриваемого агента, что на практике может соответствовать снижению удельных постоянных издержек, обмену опытом, технологиями и т.д. Знак «-» в знаменателе выражения (8) соответствует неэффективному взаимодействию агентов (возрастанию затрат на масштаб) – чем большие действия выбирают другие агенты, тем больше затраты (ниже эффективность деятельности) рассматриваемого агента, что на практике может соответствовать нехватке основных фондов, ограничениям на побочные показатели (например, загрязнение окружающей среды) и т.д. Коэффициенты {i 0} отражают степень взаимозависимости агентов.

Пусть рыночная цена известна всем агентам. Тогда, дифференцируя целевые функции агентов, приравнивая производные нулю и складывая получившиеся при этом выражения

yi = i (ri i y j ), i N,

j i

получим следующую зависимость суммарных действий от параметра :

 

 

 

 

i ri

 

 

 

 

 

i i

 

 

Y( ) =

i N 1

 

.

1

 

i i

 

 

 

 

 

 

1 i i

 

 

 

i N

 

 

29

n 1 1
j i
fi ( y) yi

Пусть n = 2, i = i = 1/2, i = 1, 2, тогда суммарное действие и равновесные по Нэшу действия агентов равны, соответственно:

(9) Y( ) = 2 R / (4

),

(10) y*i( ) =

2

 

(4 ri r-i), i = 1, 2.

 

 

16 2

 

 

Эффективность по Парето. Помимо перечисленных выше концепций равновесия (которые далеко не исчерпывают имеющегося на сегодняшний день разнообразия определений равновесия), необходимо ввести понятие эффективности по Парето (названное в честь предложившего это понятие итальянского экономиста

В. Парето). Вектор действий агентов y

P

A

 

(точка Парето), принадлежащий множеству A' допустимых

 

 

векторов действий, будет эффективным по Парето, если для любого другого вектора действий найдется агент такой, что значение его целевой функции будет строго меньше, чем в точке Парето:

y y P i N fi ( y) fi ( y P ) .

Т.е. точка Парето – такая точка, отклоняясь от которой, мы не можем одновременно увеличить значения целевых функций всех игроков. Концепция эффективности по Парето хороша тем, что позволяет говорить, что, если мы можем увеличить выигрыши всех без исключения агентов, то это надо делать.

Один из ключевых вопросов, исследованием которого занимается теория игр, заключается в том, как соотносятся все вышеперечисленные концепции равновесия (максиминное равновесие, РДС и равновесие Нэша) с эффективностью по Парето, т.к. хочется, чтобы результат, приносящий индивидуальный оптимум, был бы еще эффективным для общества (коллектива агентов) в целом. Оказывается, что эффективность по Парето, к сожалению, никак не соотносится ни с одной из трех концепций решения игры (равновесия),

изложенных выше.

 

 

Пример 6. Рассмотрим Пример 3, в котором обозначим j = ij , 0

= i0 . Тогда суммарный

 

i N

i N

выигрыш агентов равен

 

(11) (y) = 0 + j

y j .

 

j N

 

 

Доставляющее максимум выражению (11) и эффективное по Парето действие i-го агента есть:

(12) yiP = Sign( i), i N.

 

Если i N

Sign( ii) = Sign( i), то РДС является эффективным

по Парето. Если i N:

Sign( ii) Sign( i), то требуется согласование интересов агентов.

Пример 7. Рассмотрим хрестоматийный пример с конкретными целевыми функциями. Пусть каждый игрок выбирает действия из отрезка Ai = [0; 1]. Выигрыш i-го агента – (1 y j ) .

Исследуем, существует ли равновесие в доминантных стратегиях или равновесие по Нэшу.

Если внимательно посмотреть на целевую функцию, то видно, что i-му агенту выгодно, максимизируя свою целевую функцию, выбирать максимальное значение своего действия независимо от того, что делают остальные (производная по действию i-го агента строго положительна независимо от обстановки). Значит, каждый агент будет выбирать максимальное значение своего действия, т.е. для него существует доминантная стратегия. Чтобы не выбрали остальные, он, увеличивая свое действие, выигрывает, а больше

единицы он выбрать не может, значит, yid 1 , i N.

Вычислим выигрыш каждого агента от равновесия в доминантных стратегиях. Если все выбрали по единице, то каждый получил выигрыш, равный единице: fi ( y d ) 1 , i N.

Рассчитаем теперь один из векторов действий, эффективных по Парето (вычислив, например,

максимум суммы целевых функций всех агентов). Это – вектор нулевых действий:

y P

0

, i N. Если все

 

 

 

 

i

 

 

агенты выбирают нулевые действия, то выигрыш i-го агента равен

f

i

( y P ) n 1 ,

i N, и нельзя

 

 

 

 

 

 

увеличить выигрыш одновременно всех агентов. Если мы хотим увеличить выигрыш i-го агента и начинаем увеличивать его действие, то тем самым уменьшаем выигрыши остальных, потому что это действие входит с минусом в целевые функции других агентов.

Если играют три или более агентов, то, выбирая действия, эффективные по Парето, они получают строго больше, чем играя доминантные стратегии, так как при n 3.

Спрашивается, будет ли точка Парето точкой равновесия Нэша (ведь любое РДС является равновесием Нэша), то есть рациональной с точки зрения индивидуального поведения. Если кто-то из игроков выберет ненулевую стратегию, он выиграет. Поэтому он увеличит свое действие до единицы, остальные поступают

30

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]