Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Рязанский Государственный Университет им. С.А. Есенина

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Теория игр / Петросян_Теория_игр

.pdf

Скачиваний:

Добавлен:

13.02.2015

Размер:

6.14 Mб

Скачать

☆

<<< < Предыдущая 7 8 9 10 11 12 13 14 15 16 17 18 1920 / 3120 21 22 23 24 25 26 27 28 29 30 31 > Следующая >>>

ляет осуществить попятную рекуррентную процедуру нахождения значения игры и оптимальных стратегий игроков. Действительно, пусть значения всех подыгр Tz длиной l(z)^k— 1 известны и равны

v(z),	пусть	Г,, — некоторая подыгра длины 1(у) = к. Тогда	если
уеХ1г	то v(y) определяется по формуле (3.3), если же уеХ2, то v(y)
находится		по формуле (3.4). При этом значения функции	v(z)

в формулах (3.3), (3.4) известны, поскольку соответствующие подыг ры имеют длину не более чемfe—1. Эти же формулы указывают способ построения оптимальных стратегий игроков. Действитель

но, если уеХи	то игрок 1 (максимизирующий) должен	выбрать
в точке у вершину zeFy, для которой значение следующей		подыгры

максимально. Если жеуеХ2, то игрок 2 (минимизирующий) должен выбрать позицию zeFy, для которой значение следующей подыгры минимально.

В случае, когда выборы игроков в антагонистической многоша говой игре чередуются (поочередная игра), уравнения (3.3), (3.4) могут быть записаны в виде одного уравнения. Действительно, рассмотрим подагру Г, и пусть, для определенности, хеХх. Тогда

в следующей позиции ходит игрок 2 или эта позиция является (игра поочередная) окончательной, т. е. Fx с Х2 \J X3. Поэтому можно

записать
v (x)=max		v (у), xeXt;	(3.6)
yeFx
v(y)=mmv(z),yeFxczX2[jXz.			(3.7)
zeFy
Подставляя (3.7) в (3.6), получаем
v(х)=max	[min v(z)], xeXv		(3.8)
yeFx	zeFy
Если хеХ2, то аналогично имеем			(3.9)
v (x)=min		[max v (z)].	(3.9)
	yeFx	zeFy

Уравнения (3.8), (3.9) эквивалентны и должны рассматриваться

сначальным условием « (х) |,6^2=Н1 (х).

3.4.Теорема п. 2.1, рассматриваемая применительно к антагони стическим поочередным многошаговым играм, позволяет утверж дать существование ситуации равновесия в «шахматах», «шашках»,

вклассе чистых стратегий, а уравнения (3.8), (3.9) показывают путь для нахождения значения игры. Вместе с тем очевидно, что никогда

вобозримом будущем решение указанных функциональных уравне ний для нахождения значения игры и оптимальных стратегий не будет реализовано на ЭВМ и мы так и не узнаем, может ли

190

какой-либо игрок «белый» или «черный» гарантировать победу в любой партии или всегда возможна «ничья»? Однако в шахматах и шашках делаются небезуспешные попытки построения прибли женно оптимальных решений путем создания программ, думающих на несколько шагов вперед, и использования всевозможных (полу ченных, как правило, эмпирическим путем) функций оценки текущих позиций. Такой подход возможен и при исследовании общих ан тагонистических многошаговых игр с полной информацией. После довательное итерирование оценочных функций на несколько шагов вперед может привести к желательным результатам.

§4. СТРАТЕГИИ НАКАЗАНИЯ

4.1.В п. 2.1 доказано существование ситуации абсолютного равновесия (по Нэшу) в многошаговых играх с полной информаци ей на конечном древовидном графе. В то же время при исследова нии конкретных игр этого класса можно обнаружить целое семейст во ситуаций равновесия, сужения которых необязательно являются ситуациями равновесия во всех подаграх исходной игры. К числу таких ситуаций равновесия относятся равновесия в стратегиях нака зания. Проиллюстрируем это понятие на примере.

Пример 5. Пусть игра Г происходит на графе, изображенном на рис. 19. Множество N={1, 2} состоит из двух игроков. Как и в при мере п. 2.2, на рис. 19 кружками изображены вершины, состав ляющие множество Хи квадратиками — множество Х2. Вершины графа перенумерованы двойными индексами, дуги — одинарными.

Нетрудно убедиться в том, что ситуация и\ = {\, 1, 2, 2, 2), и*2 = {\, 1) является абсолютно равновесной в игре Г. При этом выигрыши

игроков равны 8 и 2 единиц соответственно. Рассмотрим теперь
ситуацию й1 = (2, 1, 2, 1, 2), й2 = (2, 2). В этой ситуации выигрыши
игроков равны соответственно 10	о ш»	(?) it) am	w
и 1, тем самым игрок 1 получает
больше, чем в ситуации (ии и'2).
Ситуация (t/j, Й2) является равно

весной в игре Г, но не является абсолютно равновесной. Действи тельно, в подагре Гх 4 сужение стратегии Лх диктует игроку 1 вы бор левой дуги, что не является для него оптимальным в позиции 1.4. Такое действие игрока 1 в по зиции 1.4 можно интерпретиро вать как угрозу «наказания» игро ка 2, если он отклонится от жела тельного для игрока 1 выбора ду ги 2 в позиции 2.2, лишив тем

191

самым игрока 1 максимального выигрыша 10 единиц. Однако по существу такую угрозу «наказания» едва ли следует считать действенной, поскольку наказывающий (игрок 1) при этом сам может потерять в выигрыше пять единиц (действуя не оптимально в Г\ J.

4.2. Дадим строгое определение стратегий наказания. Для про стоты ограничимся случаем неантагонистической игры двух лиц. Пусть задана неантагонистическая многошаговая игра двух лиц

r = <UvU2,KvK2).

С игрой Г свяжем две антагонистические игры Г2 и Г2 следующим образом. Игра Гх — это антагонистическая игра, построенная на основе игры Г, в которой игрок 2 играет против игрока 1, т. е. К2=—К1. Игра Г2 — это антагонистическая игра, построенная на основе игры Г, в которой игрок 1 играет против игрока 2, т. е. К1 = —К2- Графы игр Г15 Г,, Г и множества стратегий в них совпадают. Обозначим через (и\х, и21) и (и'п, и'22) ситуации абсолют ного равновесия в играх 1\ и Г2 соответственно. Пусть Tix, Г2х —

подыгры игр Г\, Г2; vt(x), v2(x)— значения этих подыгр. Тогда


ситуации	{(и'ц)х, (u2i)x} и {(ип)х, («и)}		являются равновесными
в играх	Ги,	Гг* соответственно и	v1(x)=Kx((un)x, (и21)х),
«2(х)=^((М;2)1,(и22)1).			u2) стратегий в игре Г.
Рассмотрим произвольную пару (uv
Разумеется, эта пара стратегий является таковой и в играх Ги				Г,.
Пусть Z=(x0=z0,		zv .... zi) — путь, реализуемый в ситуации (uv		и2).

Определение. Стратегия йх(-) называется стратегией нака зания игрока 1, если:

йх (z*)=zk+, для zk 6 Z(]Xt,	(4.1)
"i (у) = Щг(У) Для yeXv уфг.

Стратегия й2(*) называется стратегией наказания игрока 2, если:

й2 (zk)=гк+1дпягке Zf]X2,		(4.2)
"2 (У) = "2i (У) Для у е Х2,	у фZ.
4.3. Из определения стратегий наказания сразу получаем следу
ющие свойства:
1°. ^(2i(-)), u2 (-))=^(z,), ^ ( u ^ - ) ,		u2(-)) = H2(z,).
2°. Пусть один из игроков, например игрок 1, использует страте
гию !<! (• )> Для которой позиция zkeZf]Xx	является первой в пути Z,

где иД-) диктует выбор следующей позицииt z'k+u отличной от выбора, диктуемого стратегией и ^ ) , т. е. z'k+i^zk+i. Тогда из

192

определения наказывающей стратегии й2 (•) следует, что
*!(«!(), й2(-)Х«>1Ы-	(4-3)

Аналогично, если игрок 2 использует стратегию ы2(") л л я которой позиция zkeZ(~]X2 является первой в пути Z, где и2(') диктует

выбор следующей позиции z'k+u отличной от диктуемой стратегией й2('), т. е. z'lc+i^Zk+i, то из определения наказывающей стратегии

йл (•) следует, что

^(SiOWO)^**)- (4-4)

Отсюда, в частности, получаем следующую теорему.

Теорема. Пусть (2Х (•), и2 ()) — ситуация в стратегиях нака зания. Для равновесности ситуации (ы1(-), м2(')) достаточно, что бы для всех fc=0, 1, ..., /—1 выполнялись неравенства

КЛйЛ-Х u2(-))>Vl(zk),	(4.5)
#2 ("i(- ), u2(-))>v2(zk),

где z0, z1( .... zt — путь, реализовавшийся в ситуации (й^ (•), и2 (•)).

4.4. Пусть и'ц(-) и Ми(') — оптимальные стратегии игроков 1 и 2 во вспомогательных антагонистических играх Г1 и Г2 соответ ственно и Z = {z0, zlf .... z,}—путь, соответствующий ситуации

(и'ц (•), Ии (• ^Предположим, что стратегии наказания t^ (•) и й2 (•) таковы, что м1(гл) = м1,(5л) для zkeZf]Xt и й2(г*) = Ы22&) для zkeZf]X2. Тогда ситуация («].(•)» й2(-)) образует ситуацию равно весия по Нашу в стратегиях наказания. Для доказательства этого утверждения достаточно показать, что

К, («;,(•), t 4 ( ) ) = * i ( 2 i ( - ) , 52 (-))>«i&),

(4-6)

K2(UnC), и22(-))=К2{й1{-), й2(-))>*2&)> fc=0, l, . . . / - 1 ,

и воспользоваться теоремой п. 4.3. Неравенства (4.6) следуют из оптимальности стратегий м1] (-)им22 (')в играх Г\ и Г2 соответст венно, обоснование предлагаем в качестве упражнения. Таким об разом, получена следующая теорема.

Теорема. В игре Г всегда существует ситуация равновесия в стратегиях наказания, при этом выигрыши в этой ситуации равны ^|(мп(")> м22('))> где м*,(-) и и\2{') — оптимальные стратегии иг роков 1 и 2 во вспомогательных антагонистических играх Гх и Г2 соответственно.

193

Смысл стратегий наказания заключается в том, что игрок заста вляет партнера придерживаться определенного пути в игре (опреде ленных выборов), используя постоянную угрозу переключения на стратегию, оптимальную в антагонистической игре против партне ра. Множество ситуаций равновесия в классе стратегий наказания достаточно представительно, однако эти стратегии не следует счи тать очень «хорошими», поскольку, наказывая партнера, игрок может еще сильнее наказать самого себя.

§ 5. ИЕРАРХИЧЕСКИЕ ИГРЫ

Важнейшим подклассом неантагонистических многошаговых игр являются иерархические игры. Иерархические игры моделируют конфликтно управляемые системы с иерархической структурой. Та кая структура определяется последовательностью уровней управле ния, следующих друг за другом в порядке определенного приорите та. В математической постановке иерархические игры классифици руются по числу уровней и характеру вертикальных связей. Про стейшей из них является двухуровневая система, схема которой изображена на рис. 20.

5.1. Двухуровневая конфликтно управляемая система функци онирует следующим образом. Управляющий (координирующий) центр А0, находящийся в первом уровне иерархии, выбирает вектор u=(u1,..., м„) из заданного множества управлений U, где ut — управ ляющее воздействие центра на подчиненные ему подразделения Д,

/ = 1 , 2, ..., п, находящиеся на втором уровне иерархии. В свою очередь, Д, i= 1, ..., и, выбирают управления «,е Г,(и,), где Vi(u,) —

множество управлений подразделения Д, предопределенное управ лением и центра А0. Таким образом, управляющий центр имеет право первого хода и может ограничивать возможности подчинен ных ему подразделений, направляя их действия в нужное русло.

Цель центра А0	заключается в максимизации					по и функционала
К0 (и, vu ..., «„), а подразделения Д, /= 1,..., п, обладая собственными
	целями,	стремятся		максимизировать				по
	v, функционалы A, (u„ v,).
	5.2. Формализуем эту задачу как беско
	алиционную игру Г(л+1)-го лица (админи
	стративного центра А0				и производственных
	подразделений		Bit	....	В„) в		нормальной
	форме.	игрок	А0	выбирает			вектор	ueU,
	Пусть
	где
Рис. 20	U={u = {uv .... u„):Ui>0,					UteR1, / = 1 , ..., n,

194

— множество стратегий игрока А0 в игре Г. Вектор щ будем ин терпретировать как набор ресурсов / наименований, выделяемых центром А0 для i'-го производственного подразделения.

Пусть в исходной задаче п. 5.1 каждый из игроков Д, зная выбор А0, выбирает вектор vte Vi(ui), где

VAud^faelfivtA^Ut+a,, v,>0}. (5.1) Вектор v, интерпретируется как производственная программа 1-го производственного подразделения по различным видам продукции; At — производственная или технологическая матрица i-ro произ водственного подразделения (4,^0); <х( — вектор наличных ресурсов г-го производственного подразделения (<х,^0).

Под стратегиями игрока Д в игре Г будем понимать множество функций »,(•)> ставящих в соответствие каждому элементу ы,: (ы1(..., «,, .... м„)е Uвектор »,(ы;)е Vt(ui). Множество таких функций будем обозначать через V„ i=l, ..., п.

Определим функции выигрышей игроков в игре Г. Для игрока А0 функция выигрыша имеет вид

Ко(и, «!(•), ...,«»(•))= Е * »'("')>

где в,>0, ateRm — фиксированный вектор, /=1, ..., л; a(Vi(Ui) — ска лярное произведение векторов а, и к,(и(). Функцию выигрыша игрока Д полагаем равной

Ki(u, V^),

..., Vn()) = CiV,(u,),

где с,>0, Cje.Rm — фиксированный вектор, i=l, ..., и.

Таким образом, игра Г имеет вид Г=(С/, Vv .... F„, K0, Kv .... .£„).

5.3. Построим ситуацию равновесия по Нэшу в игре Г.

Пусть ю,*(м()е Vt(u,) — решение задачи параметрического линей

ного программирования (параметром является вектор ц)
max С/ «г=с, «* («О, i= 1, ..., л,	(5.2)
t)(eK,(uj)

195

а и* £ U — решение задачи
max K0(и, v\(•), ..., v'„(.)).	(5.3)
lieU

Для простоты предполагаем, что максимумы в (5.2) и (5.3) достигаются. Заметим, что (5.3) — задача нелинейного програм мирования с существенно разрывной целевой функцией (максимиза ция ведется по и, a v'(u,), вообще говоря, — разрывные функции

параметра и,). Покажем, что точка (и*, «[(•), ..., v*n()) является ситуацией равновесия в игре Г. Действительно,

К0(и*. v\0, ..., v*())>K0(u, .;(.), ..., «JO), ue U.

Далее, при всех /= 1, ..., п справедливо неравенство

К,(и*. «!(•), ..., v'„()) = ct v'i(u')^Ci «,(«*) =

=Kt(u*, •!(.), ..., «*-i(), «<(•), «*+i(), -., v'„())

для любой »,(•)£ Vt. Таким образом, никому из игроков А0, Вх, ....

Ви невыгодно в одностороннем порядке отклоняться от ситуации

(и*. «!(•), -ч ««(•))> т- е- о н а является равновесной. Заметим, что эта ситуация также устойчива против отклонения от нее любой ко алиции Sc{Bl,.... В„}, поскольку выигрыш Kt i-ro игрока не зависит

от стратегий vj(),je{l, ..., n},j¥=i.

§6. ИЕРАРХИЧЕСКИЕ ИГРЫ (КООПЕРАТИВНЫЙ ВАРИАНТ)

Вэтом параграфе рассматривается кооперативный вариант ряда простейших иерархических игр (в том числе игры, определенной

вп. 5.1, 5.2). Строятся характеристические функции и исследуются условия существования непустого С-ядра.

6.1. Исходя из содержательного смысла задачи п. 5.1, 5.2 и с ис пользованием стратегией, образующих равновесие по Нэшу, для каждой коалиции S<=.N= {А0, Bv .... В„} определим ее гарантирован ный доход v (S) следующим образом:

'	0, если S= {A0};			(6.1)
	£	с/»?(0), если Л0 #Я		(6.2)
v(S)=i	IBieS
	max		£ (cii+Ct) v*(ud, если А0 еS,	(6.3)
	{«el/:	£ «i=*}	i-BjeS

»i:BeS

196

где v*(u,), i= 1,..., и — решение задачи параметрического линейного программирования (5.2).

Равенство (6.1) имеет место, поскольку коалиция {Blt ..., В„}

может добиться получения нулевого выигрыша игроком А0, выби рая все v,=0, 2 = 1, ..., л; равенство (6.2) справедливо, так как игрок

А0 всегда может гарантировать для S выигрыш не более чем (6.2), направляя каждому Д е 5 нулевой ресурс; равенство (6.3) имеет

место, поскольку коалиция S, содержащая в своем составе А0, всегда может обеспечить распределение всего ресурса только между своими членами.

Пусть S — произвольная коалиция, содержащая А0. Обозначим через и=(и\, ..., и'„) вектор, доставляющий максимум в задаче нелинейного программирования (6.3) (для i'.BrfS выполнено усло вие И(=0). Тогда для любой коалиции S<zS, 5фА0, А0еS справед ливо следующее выражение:

		£	(а,+С,К(и?)^		I	(а,+с,)„;(«?)=
		I-.BJBS			i:BteS
	=	I	(a,+c,K(«J)+		£		(а,+с,)«;(0).
		i-.BieS			i:BieS\S
Пусть S, RcN,		Sf]R=0		и А0еБфА0.			Тогда А0фЯ. Принимая во
внимание условия а(^0, с,^0, «(>0, /=1, ..., п, имеем
		i:BteS\jR					i:BieS[jR
		= £ (ai+ci)v'i(ud+				E	(а,+сО«*(0) =
		i-.BjeS				i.BjeR
		=v(S)+v(R)4>. £			a,v'(0)>v(S)+v(R),
				UBjeR
где £	a,-i>*(0)>0— прибыль центра						А0	от «нефинансируемых»
i:BieR					. .		или	S=A0фR неравенство
предприятий. В случаях A0fS\jR							или	S=A0фR неравенство
v(S[jR)>v(S)+v(R)			очевидно.
Таким образом, функция v(S), определяемая (6.1) — (6.3), супер
аддитивна и			можно	рассмотреть				кооперативную	игру
({А0, Вх,	.... В„}, v) в форме характеристической функции v.
6.2. Рассмотрим (и+ 1)-мерный вектор
			я
		£ = (£а,ь'(й(), с,v\(й,), ..., с„г'„(щ)),							(6.4)
			/ - 1

197

где u = uN. Вектор £ является дележом, поскольку выполнены следу ющие сотношения:

fc—0 i - 1

2){o=I>.e?(Ui)>0=«0*o).

^=c,«;(«i)>c,i;*(0)=i;(5(), / = 1 , ..., п.

Напомним условие принадлежности дележа С-ядру. Согласно теореме п. 10.1 гл. III необходимым и достаточным условием принадлежности дележа (£0, £t, ..., £„) С-ядру является выполнение

неравенства
Е&>«(5)	(6.5)
ieS

для всех коалиций Scz{A0, Вх, .... В„}.

Выведем условие, при котором дележ £' принадлежит С-ядру. Если S={A0], либо S e ^ , ..., В„}, то условие (6.5) выполнено,

поскольку

£0=2>^(".)>0=*({Л0}),

i - l

Х&= Е<^&)> I c,*;(o)=e(s).

/Е5 i-.BjeS i-.BidS

Если i40 e5/^0 , то условие (6.5) можно записать в виде

	^а^(йд+	£ с(«*(йО=
f:2»,eS	i:B,-6S	(:Л(#£	i:B,6S

Следовательно, дележ (6.4) принадлежит С-ядру, если для всех S:A0eSвыполнено неравенство

£ а,«;(й,)> £ (a,+cf) [«'("О-v.'("Л-

Заметим, что в данном случае мы определили характеристичес кую функцию игры, используя выигрыш в ситуации равновесия по

198

Нэшу, и величина v(N)=ma.x £ (a,+ci)v'(u), вообще говоря, мень-

	» < - 1
ше максимального суммарного выигрыша всех игроков, равного
max	max	X(a+CH
ueU	vkeVk(u0	\_кш1	J

(в этом отличие от принятого в гл. III определения характеристичес кой функции).

6.3.	Характеристическую функцию игры можно	построить
и обычным способом, а именно: для каждой коалиции S определить
ее как	значение антагонистической игры между этой	коалицией

и коалицией остальных игроков N\S. Построим теперь характери стическую функцию именно таким образом. При этом несколько обобщим предыдущую задачу, введя в рассмотрение произвольные функции выигрышей участников игры.

Как и ранее, будем предполагать, что центр А0 распределяет ресурсы между подразделениями Blt.... В„, которые используют эти

ресурсы для производства продукции. Выигрыши управляющего центра А0 и «производственных» подразделений Б1,..., В„ зависят от

продукции, производимой Bt, .... В„. Вектор ресурсов, имеющийся

в распоряжении центра А0, обозначим через Ь. Центр (игрок) А0 выбирает систему и векторов и=(ц1, .... ип) из множества

U={u=(u1, ..., Un):uk>0, икев!, £ы*«$6, к=Т7п}.

* - i

Здесь ик интерпретируется как вектор ресурса, выделяемый центром А0 производственному подразделению Вк. Возможности предпри ятия (игрока) Вк определяются ресурсом ик, получаемым от А0, т. е. предприятие Вк выбирает свою производственную программу хк из

множества Bk(uk)<zfT неотрицательных векторов. Будем предпола гать, что множества Вк(ик) при всех щ содержат нулевой вектор и монотонно возрастают по включению, т. е. из ик>ик следует

Вк{и'к) •=>Вк(ик), кроме того, выполнено условие Вк(0) = 0 (невозмож ность производства при отсутствии ресурсов).

Пусть x=(xlt .... хп). Выигрыш игрока А0 определяется с помо щью неотрицательной функции /0 (х)^0, а выигрыши игроков Вк по лагаем равными 1к(хк)^0, к=\, ..., п (выигрыш игрока Вк зависит

199

<<< < Предыдущая 7 8 9 10 11 12 13 14 15 16 17 18 1920 / 3120 21 22 23 24 25 26 27 28 29 30 31 > Следующая >>>

Соседние файлы в папке Теория игр

#
13.02.2015975.72 Кб50Лекция 6.pdf
#
13.02.20151.99 Mб44Лекция 7.pdf
#
13.02.2015606.31 Кб40Лекция 8.pdf
#
13.02.20151.05 Mб43Лекция 9.pdf
#
13.02.2015804.89 Кб40Методические указания по выполнению лабораторной работы.pdf
#
13.02.20156.14 Mб55Петросян_Теория_игр.pdf
#
13.02.2015608.26 Кб28Семинар 1.ppt