Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Рязанский Государственный Университет им. С.А. Есенина

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Теория игр / Петросян_Теория_игр

.pdf

Скачиваний:

Добавлен:

13.02.2015

Размер:

6.14 Mб

Скачать

☆

<<< < Предыдущая 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2627 / 3127 28 29 30 31 > Следующая >>>

ния захвата, и область С={х, у: V(х, у, Г)=/} — зону нейтраль ного исхода.

Пусть х, уеА. По определению А при любом е>0 игрок Р об ладает такой стратегией и\ (•), что

K(x,y;u;0,v())<V(x,y,T)+E

при всех стратегиях v (•) игрока Е. Выбрав подходящим образом б>0, можно обеспечить выполнение неравенства

К (х, у; и,' (•), v (•))< V (х, у, Г)+е</.

Последнее означает, что стратегия и] игрока Р гарантирует ему /-встречу с игроком Е из начальных состояний х, у за время Т. В результате получаем следующее уточнение теоремы п. 4.5.

Теорема. Для любого фиксированного Т>0 все пространство делится на три неперескающиеся области А, В, С, обладающие следующими свойствами:

1) при любых х, уеА игрок Р обладает стратегией и', (•), кото рая гарантирует l-встречу с игроком Е на отрезке [О, Т] независимо от действий последнего;

2) для х, уеВ игрок Е обладает стратегией v\ (•), которая гарантирует избежание l-встречи с игроком Р на отрезке [О, 7] независимо от действий последнего;

3) если х, уеС и е>0, то игрок Р обладает стратегией и', (•), гарантирующей (1+е)-встречу с игроком Е за время Т независимо от действий последнего.

§ 5. НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ СУЩЕСТВОВАНИЯ ОПТИМАЛЬНОЙ ПРОГРАММНОЙ

СТРАТЕГИИ УБЕГАЮЩЕГО

5.1. Важным подклассом игр преследования являются игры, в которых оптимальная стратегия убегающего игрока является только функцией времени (так называемый регулярный случай).

Ограничимся рассмотрением игры преследования с предписан ной продолжительностью, хотя все результаты могут быть перене сены и на игры преследования по быстродействию. Пусть СТР (х) (СЕ(УУ) — множество достижимости игрока Р (Е) из начального состояния х (у) к моменту времени Г, т. е. множество тех позиций,

вкоторые может попасть игрок Р (Е) из начального состояния х (у)

вмомент Т, используя всевозможные измеримые программные управления и (/), (v (/)), /е[0, 7] при условии, что движение проис

ходит в соответствии с системой x=f(x,		и) (y=g	(у, v)). Введем
в рассмотрение величину
Рт(хо, Уо)= max	min	p (x, у),	(5.1)
> 6 W	*6C,r<V

260

называемую иногда (см. [7, 39, 40]) гипотетическим рассогласовани ем множеств С\ (у0) и С£ (х0) (см. пример 8 п. 2.6 гл. II).

Функция рт (х0, у0) обладает следующими свойствами:

1°. Рт (х0, Уо)>0, рт (х0, у0)\тшо = Р (хо, УоУ,

2°. рт (х0, уо)=0, если С? (*о) => С | (у0);

3°. Если V (х0, у0, Т) — значение игры Г (х0, Уо, Т) с предписан ной продолжительностью и терминальным выигрышем р (х (Т), у (Г)), то

У(х0,Уо, Т)^рт(х0,Уо).

Действительно, свойство 1° следует из неотрицательности функ ции р (х, у). Пусть Ср (хо) з С ? (уо). Тогда для любого у'е С\ (у0)

существует такое jc'eCj (х0), что р (х', у')=0, {х'=уг), откуда полу чаем 2°. Свойство 3° следует из того, что игрок Е, выбирая направ ление движения на точку МеС| (у0),ДОЯкоторой

Рт (хо, Уо)= min р (х, М),

хеСЦхо)

всегда гарантирует получение выигрыша рт (х0, уо). Точка М назы вается центром преследования.

5.2. Пусть Г4 (х0, уо, Т) — дискретная игра преследования с ша гом 8 (S = tk+l — tk), предписанной продолжительностью Г, дискри минацией игрока Е и начальными состояниями х0, у0. Тогда справе длива следующая теорема.

Теорема. Для того чтобы для любых х0, Уо^И"		и	Т=дк,
к= 1, 2, ..., выполнялось равенство
РТ (ХО, УО)=УЯ\ Г, (Х0, УО, Т),			(5.2)
необходимо и достаточно, чтобы для всех х0, y0elC,		5>0	и Т=5к,
к= 1, 2, ..., имело место соотношение
Рт(х0,Уо)= max	min pT-s (x, у)		(5.3)

(Val Ts (хо, Уо, Т) — значение игры Г6 (х0, у0, Т)).

Доказательство теоремы опирается на следующий результат.

261

Лемма. Для любых х0, y<>eR , Т^Ь				выполняется неравенство
Рт(х0, Уо)< max			min	pT-s(x, у).
	yeC^tm) xeC'r(x0)
Доказательство. По определению функции рт имеем
	max	min pT_s (х, y) =
	уеС'^о)	дгбС«(д:о)
= max	min	max		min p (x, y).
уеС'ж(у0)	хеС1г(хй)	увС^Чу)	ieCj< (дс)

Для всех хе С? (х0) имеет место включение Cp~s (х) cz Ср (x0). Сле

довательно, для любых хеСр					(х0), уеС~Е~6 (у)
		min		p(x,y)^		min		p (х, у).
		«CJ-'M				ieCTr(xo)
Тогда для всех хеСР			(х0), yeCsE(y0)
	max	min		р (х, у)^		max			min р (x, у)
уеСт-Чу)		«с; - '**)				уеСт-'(у)		хеСЦхо)
И
min	max		min		р(х,у)^		max		min	p(x,y).
xeC^xo) yeCT-'(y) хпС^Чх)							уеС^Чу)		xeC^xo)
Таким образом,
max	min	рТ-ь (x, y)^			max		max		min	p (x, y)=
yeC^o)	xeC^(xo)				yeC^lyo)		yeC^fy)		хеСЦхо)
	=	max		min p (x, y) = pT					(x0, yQ);
		>eCjOo)		xeCTr(xo)

— лемма доказана.

Перейдем к доказательству теоремы.

Необходимость. Пусть выполняется условие (5.2) и не выпол няется условие (5.3). Тогда согласно лемме существуют такие <5>0,

хо, уо е R", ТО = 8к0, к0^1, что

ho (*o, Уо)< max	min pVo-a (л:, у).	(5.4)
yeC'^fyo)	хеС'^хо)

262

Пусть u° (•) — оптимальная стратегия игрока Р в игре Гг (х0, у0, Т0) и на 1-м шаге игры игрок Е выбирает точку j*eCi(y0 ), Для которой

min рГо-г (х, у*)= max

min рГо_г (х, у).

(5.5)

Пусть х° (8) — состояние, в которое переходит Р на 1-м шаге при использовании стратегии м° (•), а й° (•) — оптимальная страте гия Е в игре Г« (х° (8), у*, Тй—8). Рассмотрим следующую страте гию v (•) игрока £ в игре rs (х0, у0, Т0): в момент /=0 он выбирает точку у*, а начиная с момента t=8, игрок Е использует стратегию

z ° <•>•

Обозначим через й° (•) сужение стратегии и° (•) на отрезке [8, Г0]. Из (5.2), (5.4), (5.5) (согласно формуле (5.2) рт (х0, у0) — значение игры Т{ (хо, уо, Т) находим

Ртй (х0, у0)Ж		(и0 (), v (•); XQ, уо, Т0)=
=К(й°(.),;°(.);х°			(8), У, Т0-д) =
=Рто-Лх°(Ь),У*)>			min pTo-S(x,y*) =
			xeC'r(xo)
= max	min	PT0-S(X, y)>pTQ (x0, y0).
уеС'г(уо)	xeC^lxo)

Полученное противоречие доказывает необходимость условия (5.3). Достаточность. Заметим, что условие (5.3) совместно с усло вием рт(хо, .Ио)|г-о=Р (хо, уо) показывает, что функция рт(х0, у0)

удовлетворяет функциональному уравнению для функции значения игры Fs (хо, уо, Т). Как следует из доказательства теоремы п. 2.2, это

условие является достаточным для того, чтобы рт(х0, Уо) было значением игры Гв (х0, у0, Т).

5.3. Лемма. Для того чтобы в игре Г (х0, уо, Т) существовала

оптимальная программная стратегия игрока Е (т. е. стратегия, являющаяся функцией только времени), необходимо и достаточно, чтобы

Val Г (ль, Уо, Т) = рТ (хо, уо).

(5.6)

Доказательство. Достаточность. Пусть v* (0, te[0, T] — допустимое управление игрока Е, переводящее точку у0 в некоторую

263

точку М такую, что

Рт (хо, у0) = min р (х, М).

хеСтг(х0)

Обозначим v* () = {ff, v* (/)}, где разбиение а отрезка [0, 7] состоит
из двух точек t0=0, tx	= T. Очевидно, v* (-)еЕ. Согласно теореме п.
3.4 гл. I v* ()еЕ — оптимальная			стратегия игрока	Е в игре
Г (х„, Уо, Т), если
Val Г (х0, уа, Т)=М		К (и (), ** (•); х0, у0, Т).
	« ( ) 6 Р
Но это равенство следует из (5.6), поскольку
inf К (« (•), v* (); х0, уо, Т)=рг (хо, у0).
и()бР
Необходимость. Пусть в игре Г (х0, у0, Т) существует оп
тимальная программная стратегия игрока Е, тогда
Val Г (хо, у0, Т)= sup		inf	К (и (•), v (•); х0, у0,	Т)=
	»()6Б	и()еР
= max	inf	р (х (Г), у)=рт (х0, у0).

Лемма доказана.

Теорема. Для того чтобы при любых х0, Уо^Л?, Т>0 в игре Г (х0, Уа, Т) игрок Е имел оптимальную программную стратегию,

необходимо и достаточно, чтобы для любых <5>0, х0, Уо^Я", Т^Ь выполнялось равенство

Рт(хо,Уо)= max	min рГ-г (*. у).	(5.7)
уеС'^о)	*еС'г(х0)

Доказательство. Достаточность. Из условия (5.7) соглас но теореме п. 5.2 следует соотношение (5.2), из которого предель ным переходом (см. теорему п. 3.7) получим

Рт (х0, у0) = Val Г (х0, уо, Т).

Отсюда согласно лемме п. 5.3 следует существование оптимальной программной стратегии игрока Е.

264

Необходимость условия (5.7) следует из теоремы п. 5.2, по скольку существование оптимальной программной стратегии игро ка Е в игре Г (х0, у«, Т) влечет существование таковой во всех играх

Га (х0, у0, Т), Т=8к, к^ 1, и справедливость соотношения (5.3).

§6. ОСНОВНОЕ УРАВНЕНИЕ

Вданном параграфе будет показано, что при определенных условиях функция значения дифференциальной игры удовлетворяет уравнению в частных производных, которое называется основным. Впервые в монографической литературе оно было рассмотрено

Р.Айзексом [1] и его часто называют уравнением Айзекса—Бел- лмана.

6.1.Используя теорему п.5.3, выведем уравнение в частных про изводных для функции значения дифференциальной игры. Будем предполагать, что для игры Г (х, у, Т) выполнены условия теоремы п. 5.3. Тогда функция рт(х, у) представляет собой значение игры

Г (х, у, Т) продолжительностью Т из начальных состояний х, у.

Пусть в некоторой области ft пространства Л" х Л" х [О, оо) функция рт(х, у) имеет непрерывные частные производные по

всем переменным. Покажем, что в этом случае функция рт (х,

у) в области ft удовлетворяет дифференциально-экстремальному уравнению

— -max £ — gi (у, «)-mm £ —// (х, «)=0,						(6.1)
01 veV	(_]	oyt		ueu ,_! OX,-
где функции ft (х, и), gt		(у, v), i= 1, ..., п, определяют закон движения
игроков в игре Г (см. (3.1), (3.2)).				выполняется в	некоторой	точке
Предположим,	что	(6.1)	не
(х, у, Г) eft. Пусть, для определенности,
дР	V д'Р /		ч	V д'Р г <	\ п

— -max £ — gi (У, »)-max £ — ft (х, и)<0.

ОТ „6 у ,_, ОУх			ueV	iml	OXi	точке (х, у, Г)eft
Пусть veV таково, что	в	рассматриваемой				точке (х, у, Г)eft
выполнено соотношение
V д'Р	(	~\	V	д'Р	<	\

h — gi(y. «)=max 2^ — gi (У, v).

Тогда при любом и е U в точке (х, у, Т) е ft имеет место неравенство:

265

£ - t £ f t ( y . 3 - l £ y i ( * . . i ) < 0 .		(6.2)
ST ~ dyt	~ Эх,'

Из непрерывной дифференцируемости функции р по всем перемен ным следует, что неравенство (6.2) вьшолняется и в некоторой окрестности S точки (х, у, Т). Выберем число 8>0 настолько малым, чтобы точка (х (т), у (т), T—x)eS при всех те[0, 8]. Здесь

т	х
х (т) = х + j Д * (0, и (0) А,	У (t)=y+\g(y (0, * (0) А
о	о

— траектории систем (3.1J, (3.2), отвечающие некоторому допусти мому управлению и (/) и v (t) = v соответственно и начальным усло виям х (0) = х, у (0)=у. Определим функцию

8Т \(х (т), у (т), Г-т)

. _ , 8yt |(х (т), , (т), Т-х)

-£?, у;(х(т),«(т)),т€[о,г].

Функция G (т) непрерывна по г, поэтому найдется число с<0 такое, что (7 (т)<с при те[0, 3]. Отсюда имеем

{G (т) е?г<с<5.

(6.3)

Нетрудно убедиться в том, что

Afo^jW . T-x)

Из (6.3) получаем

Рг (*. У)~РТ-Й (х (8), у (8))^с8.

Отсюда в силу произвольности и (*) следует

Рт (х, у)< max	min рТ-з (х', у1),
у'бС'ж(у)	х'еС^х)
что противоречит (5.7).

Таким образом, мы показали, что в том случае, когда у игрока

Е в игре Г (х, у, Т) при любых х, у е R", Т> 0 существует оптималь ная программная стратегия, значение игры V (х, у, Т) (оно совпада-

266

ет с рт (х, у)	согласно	лемме п.	5.3) в	области пространства
R" х Я" х [0, оо), где существуют непрерывные частные производные
у этой функции, удовлетворяет уравнению
dV	"	dV	"	dV
—=max £		— gi (У. «)+min £		— ft (x> ")	(6-4)

при начальном условии V (x, у, Т)\Тш0=р (х, у). Предположим, что каким-то образом удается определить й, v, доставляющие max и min

8V 3V

в (6.4) как функции от х, у и —, —, т. е.

дх ду

(6.5)

Подставляя выражения (6.5) в (6.4), получаем

(6.6)

при условии

V(x,y,T)\T.Q=p(x,y). (6.7)

Таким образом, для определения V (х, у, Т) имеем задачу Коши для уравнения в частных производных первого порядка (6.6) при начальном условии (6.7).

Замечание. При выводе функциональных уравнений (6.4), (6.6) и доказательстве теоремы п. 5.3 мы не использовали конкретный вид функции выигрыша, поэтому теорема остается справедливой для любого непрерывного терминального выигрыша Я (х (Г), у (Г)). Однако в этом случае вместо величины рт (х, у) необходимо

рассмотреть величину
Нт (х, у)= max	min	H(x',yr).

Уравнение (6,4) также справедливо для значения дифференциаль ной игры с предписанной продолжительностью и любым терми нальным выигрышем, т. е. если в дифференциальной игре с пред писанной продолжительностью Г (х, у, Т) и терминальным выиг рышем Я (х (Г), у (Г)) у игрока Е существует оптимальная про граммная стратегия, то значение игры V (х, у, Т) в области про странства ЯпхДпх[0, оо), где существуют непрерывные частные производные, удовлетворяет уравнению (6.4) при начальном усло-

267

вии V (х, у, Г)|у=о=Я (х, у) или уравнению (6.6) с тем же началь ным условием.

6.2. Рассмотрим теперь игры преследования, в которых функция выигрыша равна времени до момента встречи. Предположим, для определенности, что терминальное многообразие ^является сферой р (х, у)=1, />0. Будем предполагать, что множества С£ (х) и С'Е (у) непрерывны по t в нуле равномерно относительно х и у.

Пусть имеет смысл величина

в (х, у, /)=max min t'„ (х, у; и (/), v (/)),

• м «ю

где t '„ (х, у; и (t), v (/)) — время сближения на / — расстояние иг роков Рта. Е, движущихся из начальных точек х, у при использова нии измеримых программных управлений и (t) и v (t) соответствен но. Предположим также, что функция в (х, у, /) непрерывна по совокупности аргументов.

Игру на быстродействие будем обозначать через Г (х0, у0). Так

же как это было сделано в § 4, 5, можно вывести необходимые и достаточные условия существования оптимальной программной стратегии игрока Е в игре преследования на быстродействие. Спра ведлива следующая теорема.

Теорема. Для того чтобы игрок Е при любых х0, y0eR" в игре

Г (XQ, уо) имел оптимальную программную стратегию, необходимо

и достаточно, чтобы при любом S>0 и любых Xu,yuetC выполнялось равенство

в (хо, Уо, l)=5+ max min в (х', у', I).

Для игры преследования по быстродействию уравнение (6.4) принимает вид

" дв

при начальном условии

0(x,y,t)Wy)-,=0. (6.9)

Здесь предполагается существование непрерывных частных произ водных первого порядка функции в (х, у, I) по х, у. Полагая, что каким-то образом можно определить и, v, доставляющие max и min

„ „ч	t	дв дв	- - ( 8в\ -
в (6.8) как функции		от х, у, —, —, т. е. и=и\х,		— 1, i> =
		дх ду	\	дх)

268

4-Эперепишем уравнение (6.8) в виде

при условии

0(Х,У,1)\Р(*.У)-1=0-

(6.11)

Вывод уравнения (6.8) аналогичен выводу уравнения (6.4) для игры преследования с предписанной продолжительностью.

Обе задачи Коши (6.4), (6.7) и (6.8), (6.9) являются нелинейными относительно частных производных, поэтому при их решении воз никают значительные трудности.

6.3. Перейдем теперь к выводу уравнений характеристик для (6.4). Предполо жим, что функция V (х, у; Т) имеет непрерывные вторые смешанные производные на

всем пространстве, функции g, (у,		в), /( (х,					. . /	dV\	.	/
всем пространстве, функции g, (у,		в), /( (х,			и) и функции и=и\х,			— I ,		v=v\y,
3Dимеют непрерывные первые производные по всем переменным, а множества U,
V имеют вид параллелепипедов am^um<Am, m=\,						..., к и c9<v9<<7f, q=\,			..., /, где
и=(щ, ..., uk)eU, »=(»i,..., vj)eV. Обозначим
	dV	n dV				" dV
в (x. у, т)-—-		Z—Л			С*. «)- Z г- ft СУ. ")•
Функция В (х, у, Г)=0, поэтому беря частные производные по xj								хт получим
ВВ	8*V	"	8*V			*SV	df,
дхк	-	I r	r	/ r l		(_{дх,дхк
дхк	дТдхк	imldx,dxk				(_{дх,дхк
-Z п82-V* ' - Z — I Z -rfA-—
,_,	8ytdxk	m-\	dUl»		\-l	dx>	' dx*
		m-\	dUl»		\-l	dx>	' dx*
'	д (	• 8V	\		Xf	k"hn-
- Z - [ Т - г Ч Т Г ' 0 '						k"hn-				(612)

Для каждой фиксированной точки (х,_у, T)eR хЛ ж [0, оо) максимизирующее значение v и минимизирующее значение й в (6.4) лежат либо внутри, либо на границе интервала ограничений. Если это внутренняя точка, то

д ( " 3V \	д ( » dV	\
г- Z-/<	.-о. - 1 т б	--0-

Если же й (v) лежит на границе, то здесь могут представиться два случая. Исследуем

269

<<< < Предыдущая 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2627 / 3127 28 29 30 31 > Следующая >>>

Соседние файлы в папке Теория игр

#
13.02.2015975.72 Кб50Лекция 6.pdf
#
13.02.20151.99 Mб44Лекция 7.pdf
#
13.02.2015606.31 Кб40Лекция 8.pdf
#
13.02.20151.05 Mб43Лекция 9.pdf
#
13.02.2015804.89 Кб40Методические указания по выполнению лабораторной работы.pdf
#
13.02.20156.14 Mб55Петросян_Теория_игр.pdf
#
13.02.2015608.26 Кб28Семинар 1.ppt