книги / Математические методы в системах поддержки принятия решений
..pdfполнение условия 2) следует из того, что у1 минимизирует Дх®, у) по у из N0.
Если выполнено условие б), то существуют у1 у2 е N(xP). у1^ у2 и
выполняется условие 2), поскольку у1 и у2 реализуют minF(x ,у).
y e N
Теперь отметим некоторые особенности доказанных условий. В ус ловии 1) число уравнений равно п + 1 и совпадает с числом неизвест
ных; можно надеяться на успех нахождения х° и у1.
В условии 2) также 2п + 1 уравнений и 2л + 1 неизвестных у ), у 2,
j = 1,л и х®.
В общем случае решений может быть много, и из них следует вы брать оптимальные.
Система уравнений в 1) и 2) полна в том смысле, что ни одно из условий1) и 2) нельзя отбрасывать. Так, если F(x,y) строго выпукла по у из N, то условие 2 может не выполняться, так как будут иметь место у1е N ( A и выполнение условия 1). Естественно, возможны случаи, ко
гда условие 1) не выполняется, а условие 2) выполняется. С2. Необходимые условия отыскания седловой точки
(*с> Ус) = ( А У°) е М0х N.
Определение. Точка (хс ус) будет седловой для функции F(x, у) на мно жестве М0х N, если для всех х е М0 и у е N
F(x, ус) £ F(xc, ус) £ F(xc, у).
Отсюда следует, что F(xc, ус) = maxF(x,y°) = minF(x°,y). хеЛ/о yeN
Пусть F(x, у) — непрерывно дифференцируемая на M0x N функция и множества М0 и N — выпуклые компакты.
Теорема. Для того чтобы (хс, ус) G М0х N была седловой точкой функ ции F(x, у), необходимо, а если F(x, у) — вогнуто-выпуклая функция на М0 x N , то и достаточно, чтобы
p F ( x c,yc) |
^ |
. (dF( xc,y ) |
\ , |
шах| |
|
|
|
хе М о
До к а з а т е л ь с т в о . Сформулированное условие вытекает из выра жений
max |
min |
т |
- . |
) |
= 0, |
х е М о у е Я ( х с |
|
|
|
|
|
max |
. |
( dF(x |
,у ) |
|
^ |
min |
Эу |
|
= 0, |
||
x e A f о у е Я |
|
) |
121
так как в рассматриваемом случае каждое множество R(xc) и /P(yc) по
существу может представляться всего одним элементом, но тогда имеем утверждение теоремы.
Если множества М0 = Е ”, N = Е , то необходимое условие для оты
скания седловой точки записывается в виде
dF(xc, yc) _ dF(xc,ye) _ 0
Эх Эу
Подчеркнем также, что когда хс или ус лежат на границах множеств М0, N, необходимо выполнить дополнительные проверки оптимально сти хс, у с. Так, при
|
|
Л/0 = {х € |
Е ”\а, < х, < А„ / = 1,т), |
|
|
|
|
N = { y e |
E ^C j^yj< dp j = 1 ,n), |
|
|
если |
х, = а„ |
то должно |
быть F ' (хс,ус)^0; если |
х, = Ь„ то |
|
К , (Хс,ус)>0, если у, = с„ то F ' |
(хс,ус)>0, если y, = d„ то F ' |
(хс,ус) £ 0 |
|||
V,e [1:/я] |
и у ,€ |
[1:и]. |
|
|
|
При реализации необходимых условий могут быть выделены и ло кальные решения. Тогда путем соответствующего перебора всех реше ний необходимо определить седловую точку из множества полученных возможных пар (х, у) — претендентов на седловую точку.
СЗ. Пусть F(x, у) строго выпукла по у е N п т Vx е М0 и непрерывна на компакте М0х N. Следовательно, m in /fo y ) реализуется в единствен
ной стратегии у1е N(x) с N. Но тогда для того чтобы х° € А/0 была опти
мальной гарантирующей стратегией, необходимо, чтобы из теоремы в С1 выполнялось хотя бы одно из двух условий:
а) х° — граничная точка множества М0; б) х° — внутренняя точка множества М0, существует единственная
у 1е ЛГ(х°) и Fx'(x °,у) = 0= *х°.
При этом если F(x, у) дифференцируема по у е N, то левая и правая
производные в точке у1должны быть
aF(x°,y')
Эу
соответственно. Если F(x, у) строго вогнута по х е М0для y e N H непре
рывна на компакте М0х N, то min/^x.y) реализуется на двух различных y*N
стратегиях у1 у2 е N(x) c N u для того чтобы х° € М„ была оптимальной
гарантирующей стратегией, необходимо, чтобы из упомянутой теоремы выполнялось хотя бы одно из следующих условий:
122
а) — граничная точка множества М0, существует единственная у' е ЛГ(х°);
б) х° — внутренняя точка множества М0, существуют у 1, у 1е N(x),
у 1^ у2, такие, что F(x°, у1) = Дх°, у2) = minF(x°,y), и если F(x, у) диффе-
y&N
ренцируема по х е М0, то левая и правая производные должны быть со
ответственно
3 Q £ V ) 20 „ |
о. |
Эу |
ду |
Следствием СЗ является следующая теорема.
Теорема. Пусть F(x, у) — непрерывная по двум переменным функция выигрыша в конфликте двух сторон, строго выпуклая по у е Y для Vx е X, Y = [0,1], X — [0,1] и имеющая в единичном квадрате конечную первую про изводную по у е Y Тогда существует единственная оптимальная чистая стратегия для второй стороны, являющаяся ступенчатой функцией I (у) со скачком в точке у0, разрыв в которой равен единице. Ступенчатая функция представляет функцию распределения вероятностей на Y Причем константа у0е Y есть единственное решение уравнения
т а xF(x,y0) = d,
х е Х
где 0 = min max F(x, у). Оптимальная гарантирующая стратегия первой
y e Y х е Х
стороны определяется в зависимости от значения у0. Если у0 = 0 или у0 = \ , т о у первой стороны имеется оптимальная стратегия 1Щ, где кон станта 0 <;х0 й \, удовлетворяющая условиям
F(xо, у0) = Ъ, F 'y(xо, у0) > 0 при у0 = 0, F 'y(x0, у0) < 0 при у0 = 1.
При 0 £ х0 й 1 для первой стороны оптимальная гарантирующая стратегия будет выпуклой комбинацией точек х ь х2е X,
х0 = « / Х| (х)+ (1 -а)1Х2(х),
где 0 < а < 1, 0 < х, < 1, 0 й х2< 1,
F(x,, у0) = F(X 2, у0) = б, F 'y(xu у0) > 0, F'yiXi, у0) < О
а Fy{xx,у0) +(1 - a ) F '( x 2,y 0) = 0.
Эта теорема представляет стандартный способ отыскания стратегий сторон в конфликте с выпуклыми функциями выигрыша на единичном квадрате. Согласно теореме стратегии х0) у0 находятся по следующей схеме:
1. Проверка функции F(x, у) на выпуклость по переменной у € Удля Vxe X.
123
2. Нахождение б как значения минимума по у функции максимума Fix, у) по х; эту операцию можно выполнять графически: начертить две кривые Д х,, у) и F(X2, у) и найти минимальную точку их огибающей.
3. Нахождение у0 из соотношения
b = min max Fix, у),
y e Y х е Х
где у0 — значение у е Y, на котором достигается минимум справа.
4. Нахождение решений уравнения на X из условия б = Fix, у0) и со ставление пары хь *2 его решений, для которых
F'yix„ у0) > 0 при у0 = 0, F 'yix2, у0) < 0 при у0 = 1.
3. Для каждой найденной пары х ь х г составление уравнения
o.Fyix{ ,y 0) + il- a ) F 'ix 2 ,у0) = 0
и нахождение его решения а. Решение этого уравнения либо единст венно, либо — любая точка из Х = [0,1].
6.Составление решения задачи в целом
<а = р(х,),(1 -а )р (х 2),д>.
5.1.2. Необходимые и достаточные условия оптимальности стратегий в динамическом непрерывном конфликте
двух сторон
Согласно принципу максимина, отыскиваются также оптимальные решения в динамических конфликтных ситуациях с дискретным и не прерывным временем.
Пусть исследуется конфликтная ситуация двух сторон, динамика хода которой описывается векторным дифференциальным уравнением
М = M z i t ) , u i f ) , m ) , t ^ t < T , at
где /„ и Т — фиксированные значения,
г € £*, и е U c E " , б е V<zE, г(0) = го, г(7) = гГ — заданы. На движениях (г(0) и управлениях uit), bit) задан функционал
т
Jizit), uit), bit)) = JЛ izix),и(т),б(т))</т. 1
Требуется установить необходимые условия оптимальности управлений, которые бы реализовывали
max min Jizit),uit),bit)).
«(OsK
124
Предварительно положим
т
Ф 4 U ) = max min JV. (г(т),«(т),^(т))<Лг,
u(t)eU d(/)eH
эта функция должна удовлетворять граничному условию в t — Т, т.е. в рассматриваемом случае <р(Т, с(7)) — 0, так как в критериальном функ ционале отсутствует терминальный член Ф(Г, z(T)). Имеем:
<p°(f,z(0) = |
max min • |
’/+Д/ |
т |
| / 0(г(х),и(т),О(т))</т+ |
} / 0(г(т),ы(т),д(т))</т |
||
т |
B(OeU«(/)eK |
t |
t+Д/ |
|
|
где А/ > 0.
Если считать, что на [t + А/, 7] управления сторон оптимальны, то
Г/+д/
Ф ° ('.г (0 ) = m i n i |/ о Ш ,и ( т ) ,д ( т ) ) < / т +
+<р°(/+Д0, г(/+Д0)к те [/, И-Д*]. |
(1) |
Лемма. Пусть функция ф(t, z(0) существует, непрерывна и имеет не прерывные первые производные по z и по t, за исключением конечного числа гиперплоскостей вида tk, к =1,2,..., на которых производные функции ф(/, z) могут терпеть разрывы, тогда
W (t,z(t)M *),W ) = ^ + (grad(p, |
М О, W ) +/о |
at |
|
Д о к а з а т е л ь с т в о . Преобразуем (1), применяя к
/+Д/
|/о(г(т),й(т),А(т))Л
/
теорему о среднем и разложение функции <p°(f + Дt,z(t + ДО)
в ряд Тейлора:
<р°(0 z(0) =/о(г(0, «(0, $ (')№ + Ф°(0 z(0) + ^ - A t + ^ - A z + o ( A / ) ,
здесь Az = / 0(г(0, «(0, <Н0)Д0 ^ - |
= grad<p°(0z(0)> ^-77 |
d7 |
Д/ |
125
При Д/ —»0 получаем равенство
О =/о(г(0. м°(0, 6°(0) + ^ + ( g r a d 9 °,/(г (/)У (0,<>0(0)), at
которое очевидным образом преобразуется в искомое равенство при введении функции W(t, z{f), u(t), 6(f)) для V(«(t), 6(f)) e U x V .
Введем обозначение
Я(ф(0, z(t), и(0, 6(0) = (grad<p,7(z(0» и(0, Ш ) ) +
+ 1 /о(г(0, и(0, Ш ) = ( ¥ , / ) .
H — функция Гамильтона;
при этом W(t, z(t), u(t), б(/)) = - ^ + Н (у, z, и, 6). at
Теперь запишем необходимое и достаточное условие оптимальности гарантирующей стратегии управления первой стороны. Если функция <p(f, z(t)) непрерывно дифференцируема по z и по t до первого порядка за исключением конечного множества (4), к = 1,2,..., и при этом
то и°(0, 6°(0 являются оптимальными гарантирующими стратегиями по отношению к функционалу J(z(t), u(t), 6(0), т.е. в смысле
max min /(z(f),«(f),6(f)).
Условия W(t, и0, 6°) = 0, W(t, z, и, 6) * 0 объединим в условие
для оптимальной функции <р(/, z(t)).
Запишем также достаточные условия оптимальности в форме Кро това. Если существует функция <p(f, z(t)), непрерывная по совокупности аргументов и имеющая непрерывные частные производные по z(t) и t, за исключением, быть может, конечного числа сечений {tk}, к = 1,2,...
..., пространства [f0, 7] х £”, и такая, что
— выражение функции Кротова
126
достигает max min по г(0. "(О, Ф(0 как по независимым переменным tiOMO в(О
при г°(0, и°(/), Ф°(0 для почти всех t €[г0, 7];
— начальное и конечное значения z(t) удовлетворяют требованиям
г°(/0) = aigmax<p(z(/o)» 'о)> Л Т ) = aigmawp^T), 7);
— тройка |
«°(0. fl°(0) допустима по условиям задачи, то реше |
ние z(t), u(t), m |
является оптимальным для исходной задачи. |
Проиллюстрируем формирование и применение необходимых усло вий принципа максимума Понтрягина и функции Кротова конкретно.
Задача. Найти оптимальные максиминные стратегии управления движением системы по критерию
т
J(u,v) = |( и 2( 0 - v2(t))dt+ х,(7,) + х2(Г )-> max min,
о
при условии, что движение системы описывается уравнениями, *1 ( 0 = *i(0 + КО + v(0, Х|(0) = х ,о ,
* 2 ( 0 = *г(0+ КО, х2(0)= «jo, 0Ш Т .
1. Р е ш е н и е с о г л а с н о н е о б х о д и м ы м у с л о в и я м п р и н ц и п а м а к с и м у м а . Составим функцию Гамильтона
Я(х,(0, *г(0, “(0, КО, V i(0. У г(0 ,0 -
= КО - КО + Vi(0(*i(0+ и(0+ КО) + у2(0(*2(0 + КО) -»maxm'n-
Функция Гамильтона разделима по КО и КО» поэтому оптимальные управления най дем из условий
^ = 0 =» “ °(,)’ - ~ = 0 = > v°(0, и°(0 - -0 ,5 у ,(0 , v°(0 = 0,5(у,(0 + V2(0).
Составим сопряженную систему дифференциальных уравнений
у,(')=- |£ , V2(0=-|^-, у,(7) = 1 у2(7) = 1.
I OXj
Имеем систему у,<0—у,(1Х У2( 0 = - ¥ 2 (0 , решение которой
Vi(e) = е-', Vj(,) = е -', 0 £ f £ Г.
Вычислим «°(0 и v°(0:
«V) = - i e-'( v°(0 = j(e_,+ «•')*«■'•
127
Находим оптимальную траекторию движения системы |
из решения основной системы |
|
уравнений |
|
|
х ,(0 = х ,( 0 - 1 е - ', |
x,(0) = xlo, |
|
* 2 (0 жх 2(/)+ е~‘, |
х2(0) = JC20: |
|
Г + в ,,Jt2(0 = x2oe '+ te ', J(u0V),v°(t)) = i ( e -T - l)+ Xi(T) + х2(Т). |
||
|
|
8 |
2. Р е ш е н и е с о г л а с н о д о с т а т о ч н ы м |
у с л о в и я м . Составим функцию Кротова |
д(0, v(0, ф(х1} х2, О, *) =
= U2(t) - у2(/) + ф'Х1(дс,(/) + W(/) + v(0) + Я^ОД*) + v(0) + ф'„
где у(хь х2, 7) = *,(7) + х2(Т).
Найдем u°(t) и v°(/) из решения задачи вида
Д(*1(0 , х2(1), и(/), цг), ф(Х|(г), х2( 0 ,0» 0 -> max min,
U
С учетом, что терминальный член
ф(*(7), 7)-*,(7)+**(7)
является линейной функцией, восстановим функцию <P(*i(0, *г(0> 0 в базисе (хь х2)
линейной функцией вида
V(*i(0. х2(г), /) = \у,(/)х, + у 2(фс2.
Подставим функцию <p(X|(f), х->М, 1) в выоажение для «Ьункиии Кпотова с учетом того,
Теперь потребуем, чтобы maxmin этого выражения не зависел от (х,,х2), т-е- чтобы maxmin функции Кротова достигался при любых (х,,х2), тогда
v, + V = О у2 + V2 = 0. Vi(T)X|(7) + V2(7)X2(7) = х,(7) +х2{Т).
Отсюда следует, что
Vi = VI >VI(7) = 1, V2=-V2> V2(T) = 1-
При этом также видно, что операция
128
для v° того же вида, что и в варианте 1, приводит к выражению,
v°=j(Vl + V2>-
После решения полученной системы дифференциальных уравнений очевидно, что оптимальные управления и траектория движения системы будут теми же, что и в преды дущем варианте.
5.1.3.Необходимые условия оптимальности стратегий в конфликте, аппроксимируемом матричной игрой
Рассмотрим конфликт двух сторон, критериальные функции кото рых удовлетворяют равенству
Щ(х, у) = - W 2(x, у) = Щ х, у), х € X, у е Y,
где X, Y — конечные множества чистых стратегий. Соответствующая ан
тагонистическая игра представляется тройкой
Г = {X, У Щ х, у)),
где Щх, у) — матрица выигрыша одной (проигрыша другой) стороны, определенная на X x Y ; размерность матрицы m x n , m — число страте гий одной стороны, а п — другой.
Выбор стратегий стороны осуществляют независимо одна от другой и не обмениваются информацией при выборе своих оптимальных реше ний, т.е. стороны пользуются принципом наилучшего гарантированного результата. Каждая сторона оценивает эффективности как своих страте гий, так и стратегий противоположной стороны и на основе этого уста навливает приемлемые стратегии х е X, у' € Y.
Стратегия х* € X приемлема для первой стороны, если обеспечивает
ся наилучший гарантированный результат
maxminfF(x,y),
хеХ уеУ
аналогично стратегия у* е Y приемлема для второй стороны, если обес
печивается для нее наилучший гарантированный результат
min шах^ (х , у).
у€.У хеХ
Стратегии (х * ,/) образуют ситуацию, которая будет седловой точ кой, если
Щ х ,у ) ^ Щ х ,у ) < Щ х ,у ) .
Для существования седловой точки в конечной (матричной) игре необ ходимо и достаточно, чтобы
т ахт т Щ х, v) = min тахИ^х, v).
хеХ уеУ |
уеУ хеХ |
® — 5396 |
129 |
Если это условие не выполняется, то седловой точки в чистых стра тегиях не существует. Для обеспечения ее существования необходимо расширить множества стратегий X и У, что можно осуществить введени
ем всевозможных линейных комбинаций на множестве чистых страте гий, описываемых распределениями вероятностей на множествах Х и У.
В результате конструируется смешанное расширение матричной игры
r= (P (X ),Q iY ),lV (p >q)), |
|
т |
___ |
где Р(Х) = {р(х1),р(х1), ...,р(хя)}, ]Гр(х, ) = 1 0 </>(*,) < 1, / = |
Ця, |
1=1 |
|
Q (Y) = Ш \ ) , Я(Уг)> ••• ?(л)}> |
= |
^ 1>У = l.«> |
|
|
|
у'=1 |
|
W ip,q) = Y |
L |
W ^ i ,Уj)P(Xi)q(y j)- |
|
i |
J |
|
|
Теорема. Всякая матричная игра имеет ситуацию равновесия в сме шанном расширении (доказательство — простое следствие известной тео
ремы [47; 6]).
Теперь для установления необходимых и достаточных условий оп тимальности стратегий преобразуем задачи
maxminW(p,q), minxmxW(p,q)
к виду эквивалентных задач математического программирования. Это преобразование осуществляется путем введения новой переменной X, имеющей смысл нижней границы для всех значений Щр, q) при дан ном q, и введением переменной ц, имеющей смысл верхней границы для всех значений Щр, q) при данном р. В результате получим следую
щие эквивалентные задачи:
а) найти максимум X при ограничениях |
|
|
ВТ*,.,у j )р (х,) - X > 0 ,у = |
1,и, ^ /> (х,) = 1 |
0</>(*,)< 1, /= 1,/я; |
/=1 |
/=i |
|
б) найти min ц при ограничениях |
|
|
^ Щ ( х пУ ;)Ч(у ,)-»< < ), i = T jn, j^ q (y j) = l |
0 < q (y j)< l,j= U n . |
|
7=1 |
7=1 |
|
Задача а) — прямая, а задача б) — двойственная; отсюда необходи мые и достаточные условия оптимальности стратегий сторон формули руются в виде равенства max X = min ц; решение задач а) и б) может быть найдено с помощью симплекс-метода [20; 21; 24], п. 6.4.
130