Управление и оптимизация / Novikov - Refleksiya i upravleniye 2013
.pdf(координаты в пространстве или мнения и т.д. – см. обзоры в [163, 255]), агрегированной ситуации – среднее значение координат
агентов: Q(x) = 1 åxi . Целевой функцией агента будем считать его
n iÎN
«отклонение» от агрегированной ситуации:
(1) f(xi, Q(x)) = – (xi – Q(x))2, i N.
Критерием эффективности будем считать «дисперсию» положе- ний агентов (в данном примере целевая функция центра зависит не только от агрегированной ситуации игры, но и от всего вектора действий агентов):
(2) F(x) = – 1 å(Q(x) − xi )2 .
n iÎN
С теоретико-игровой точки зрения ситуация тривиальна – если бы целевые функции агентов были бы среди них общим знанием, то агенты легко вычислили бы, что равновесием Нэша является любой вектор одинаковых действий. Отметим, что при этом полностью отсутствует конфликт интересов агентов, а любое равновесие Нэша
однопериодной игры одновременно максимизирует и критерий эффективности (2). Однако в случае (даже одношагового) коллек- тивного поведения агентов в условиях неполной их информирован- ности все не так просто.
Ранг 0. При заданных начальных положениях агентов x0 i-й агент в соответствии с выражением (3.4.2) выберет действие
(3) xi = |
1 |
åx0j = |
1 |
|
(nQ(x0 ) − xi0 ) , i N, |
|
n −1 |
||||
|
n −1 j¹i |
|
|||
равное среднему положению остальных агентов, i N. Сделанный вывод остается в силе и в случае, когда целевые функции агентов зависят не от агрегированной ситуации, а от агрегированной обста-
новки: g(xi, Qi(x-i)) = – (xi – Qi(x-i))2, где Qi(x-i) = |
1 |
åxj , i N. |
|
||
|
n −1 j¹i |
|
Из выражения (3) следует, что Q(x) = Q(x0), то есть среднее зна- чение координат агентов не изменяется, а значение критерия эффек-
тивности возрастает в (n – 1)2 раз: F(x) = |
1 |
F(x0). |
(n −1)2 |
381
Ранг 1. Пусть имеются n1 агентов, обладающих первым рангом рефлексии, а остальные n0 = n – n1 агентов имеют нулевой ранг. Агенты нулевого ранга рефлексии выберут действия, определяемые выражением (3), а агенты первого ранга – следующие действия:
|
nQ(x) − x |
j |
|
n2 (n − 2)Q(x0 ) + x0 |
|
|
(4) x1j = |
|
|
= |
j |
, j N1. |
|
|
n −1 |
|
(n −1)2 |
|||
|
|
|
|
|
||
Если |
все агенты |
обладают первым рангом рефлексии, то |
||||
Q( x1j N ) = Q(x) = Q(x0), т. е. среднее значение координат агентов не
изменяется (такой случай является идеальным с точки зрения ста- бильности рефлексивного разбиения – все агенты наблюдают ожи- даемые значения). Значение критерия эффективности возрастает еще
в (n – 1)2 раз: F( x1 |
j N |
) = |
1 |
F(x) = |
1 |
F(x0). |
|
(n −1)2 |
(n −1)4 |
||||||
|
|
|
|
Рассмотрим пример – пусть n = 2. Получаем, что в зависимости от своих рангов рефлексии агенты выберут следующие действия:
|
|
Агент 1 |
Агент 2 |
|
Начальные действия |
x0 |
x0 |
||
|
|
1 |
2 |
|
|
0 |
x0 |
x0 |
|
Ранг |
|
2 |
1 |
|
1 |
x0 |
x0 |
||
рефлексии |
|
1 |
2 |
|
2 |
x0 |
x0 |
||
|
||||
|
|
2 |
1 |
|
Видно, что, во-первых, вектор действий обоих агентов, обла- дающих вторым рангом рефлексии, совпадает с вектором действий нерефлексирующих агентов. Во-вторых, при одинаковых рангах
рефлексии обоих агентов значение критерия эффективности не зависит от ранга. В-третьих, все четыре возможные комбинации
действий агентов исчерпываются нулевым и первым рангами их рефлексии. В-четвертых, максимальное (равное нулю) значение критерия эффективности (2) достигается в случае, когда один из агентов (любой) имеет нулевой ранг рефлексии, а другой агент – первый ранг.
Следовательно, в рассматриваемом примере максимальный це- лесообразный ранг рефлексии равен единице.
382
4.26.5. Активная экспертиза
Рассматриваемый в настоящем подразделе пример свидетельст- вует, что наличие рефлексирующих агентов может приводить к последствиям, негативным, условно говоря, с точки зрения группы в целом (см. также модели формирования команд в [105]).
Содержательная интерпретация модели активной экспертизы следующая (см. также раздел 4.15): имеются n экспертов – агентов, сообщающих информацию организатору экспертизы – центру.
Центр принимает решение Q(x) = 1 åxi , равное среднему арифме-
n iÎN
тическому мнений агентов.
Пусть на сообщения агентов наложено требование неотрица- тельности. Целевой функцией агента будем считать «отклонение» итогового мнения от его начального (истинного) мнения [112]:
(1) f(xi, Q(x)) = – ( xi0 – Q(x))2, i Î N.
Пусть агенты упорядочены по возрастанию их начальных мне-
ний: x10 < x20 < … < xn0 .
С теоретико-игровой точки зрения, если бы целевые функции агентов были среди них общим знанием, то агенты легко вычислили
бы равновесие Нэша: xN |
= 0, i = |
|
|
= n x0 . |
|
|
1,n −1, xN |
|
|
||||
i |
|
|
n |
n |
|
|
Определим множество агентов M(x0) = {i Î N | xi0 ³ |
1 |
åxl0 }. |
||||
|
|
|
|
|
n |
l¹i |
Ранг 0. При заданных начальных мнениях агентов x0, они в со- ответствии с выражением (10) выберут действия
(2) xi = max {n xi0 – åxl0 , 0}, i Î N.
l¹i |
|
|
Вычислим Q(x) = å xi – |
1 |
å åxl0 . |
iÎM ( x0 ) |
n |
iÎM ( x0 ) l¹i |
Ранг 1. Пусть имеются n1 агентов, обладающих первым рангом рефлексии, а остальные n0 = n – n1 агентов имеют нулевой ранг. Агенты нулевого ранга рефлексии выберут действия, определяемые выражением (2), а агенты первого ранга – следующие действия:
(3) x1j = max {n x0j – å xl ; 0}, j Î N1.
lÎM (x0 )\{ j}
383
Рассмотрим числовой пример. Пусть имеются 10 агентов, чьи начальные мнения равны их номеру. Действия агентов приведены в следующей таблице:
№ |
1 |
2 |
3 |
4 |
5 |
|
6 |
7 |
8 |
9 |
10 |
x0 |
1 |
2 |
3 |
4 |
5 |
|
6 |
7 |
8 |
9 |
10 |
Q(x0) |
|
|
|
|
|
5,5 |
|
|
|
|
|
x |
0 |
0 |
0 |
0 |
0 |
|
11 |
22 |
33 |
44 |
55 |
Q(x) |
|
|
|
|
|
16,5 |
|
|
|
|
|
x1 |
0 |
0 |
0 |
0 |
0 |
|
0 |
0 |
0 |
0 |
0 |
Варьируя число рефлексирующих агентов первого ранга (от 0 до 10), центр может менять результаты экспертизы (одиннадцать возможных точек) от 0 до 16,5. Отметим, что этот диапазон шире, чем интервал истинных мнений экспертов (ср. с результатами анали- за информационной рефлексии в задачах экспертизы в разделе 4.15), то есть, центр, осуществляя рефлексивное управление, имеет значи- тельные возможности по манипулированию результатами эксперти- зы.
Ранг 2. Агенты второго ранга рефлексии выберут действия:
(4) x2j = max {n x0j – |
å |
x1l – |
å |
xl ; 0}, j N2. |
|
lÎN ÈN |
ÇM ( x0 )\{ j} |
lÎN |
ÇM ( x0 )\{ j} |
|
|
1 |
2 |
|
0 |
|
|
Пусть центр использует следующее рефлексивное разбиение:
N0 = {1, 2, 3, 4, 5}, N1 = {6, 7, 8, 9}, N2 = {10}. Тогда в соответствии с выражениями (2)-(4) все агенты, кроме десятого, выберут нулевые действия, а десятый агент – действие, равное 100. То есть в рассмат- риваемом примере второго ранга рефлексии достаточно, чтобы получить ситуацию, совпадающую с равновесной по Нэшу.
4.26.6. Транспортные потоки и эвакуация
Рассмотрим помещение, в котором находятся n агентов. В по- мещении имеются два выхода, условно назовем их «левым» (L) и «правым» (R). Время выхода определяется моментом времени, когда из данного выхода вышел последний агент, направившийся к нему. Каждый агент однократно принимают решение, из какого выхода он будет выходить. Скорости движения всех агентов в отсутствие пробок примем одинаковыми. Обозначим nL (nR) – число агентов, направившихся к левому (правому) выходу, nL + nR = n.
384
Пусть известна зависимость T(k) времени выхода в зависимости от числа агентов k ³ 0. Зависимость эту будем считать непрерывной, выпуклой (отражение эффекта «пробок») и равной нулю в нуле (когда имеется один агент, пробки отсутствуют, и он покидает по- мещение без задержек). Обозначим через TL (TR) время движения агента до левого (правого) выхода, причем TL > TR, то есть правый выход расположен ближе левого. Итак, полное время выхода налево
равно T(nL) = TL + T(nL), направо: T(nR) = TR + T(nR).
Оптимальное с точки зрения времени эвакуации T* – покидания помещения последним из агентов (а именно этот критерий использу- ется в моделях эвакуации) – распределение агентов по направлениям
движения ( n*L ; n*R ) является решением следующей системы уравне- ний (см. также Рис. 98):
ì |
* |
* |
, |
T (nL ) + TL = T (nR ) + TR |
|||
(1) í |
|
nL* + nR* = n. |
|
î |
|
|
|
Минимальное время эвакуации равно
(2) T* = T (nL* ) +TL = T (n*R ) +TR .
T(k) + TL
T(k) + TR
T*
TL
TR
k
0 |
nL* |
nR* |
Рис. 98. Зависимость времени эвакуации от числа агентов,
выбирающих правый или левый выход
Рассмотрим теперь коллективное поведение агентов, считая, что каждый из них стремится покинуть помещение как можно скорее. Агенты нулевого ранга рефлексии будут выбирать правый выход (до
385
него они в рамках введенных предположений доберутся быстрее), агенты первого ранга рефлексии, прогнозируя, что в правом выходе агенты нулевого ранга создадут пробку, выберут левый выход.
Время выхода в зависимости от числа агентов первого ранга рефлексии (см. Рис. 99) равно
(3) T1(n1) = max {T (n1) +TL ; T (n − n1) +TR }.
Видно, что как малое, так и очень большое число рефлекси- рующих агентов плохо, так как увеличивает время эвакуации (см. Рис. 99). Т. е. существует оптимальное число рефлексирующих агентов, при котором время эвакуации минимально.
Из свойств функции T(×) и предположения TL > TR следует, что минимум выражения (3) достигается при числе агентов первого
ранга рефлексии n1* , определяемом из следующего соотношения:
(4) T (n1* ) + TL = T (n − n1* ) +TR .
Последнее условие совпадает с условием (2), т. е. n1* = n*L ,
T1( n1* ) ≡ T*, значит, первый ранг рефлексии является максимальным целесообразным в рамках рассматриваемой модели.

T(n) + TL






T(n) + TR
T*
TL
TR
n1
0 |
n1* |
n |
Рис. 99. Зависимость времени эвакуации от числа агентов
первого ранга рефлексии
В рассматриваемой модели можно добавлять агентов второго, третьего и более высоких рангов рефлексии, однако это вряд ли
386
целесообразно, так как не позволит улучшить уже достигнутое за
счет введения агентов первого ранга значение времени эвакуации
(2). Описание имитационных моделей транспортных потоков и эвакуации можно найти в [62].
4.26.7. Фондовый рынок
В настоящем разделе обсуждаются возможные расширения опи- санного выше метода рефлексивных разбиений, а именно – на при- мере частной модели фондового рынка рассматривается стратегиче- ская рефлексия агентов «над» их равновесными по Нэшу стратегиями. Фондовый рынок является объектом моделирования, для которого наиболее часто используют «рефлексивные» рассужде- ния – см., например, [11, 45, 46, 147]. В работе [49] рассмотрена теоретико-игровая модель фондового рынка, в которой каждый агент в каждый момент времени обладает некоторым количеством (для которого выполняются динамические балансовые ограничения) денег и актива, который он может приобретать или продавать по сложившейся на рынке цене. Последняя зависит как от тренда q (внешний фактор, являющийся общим знанием), так и от соотноше- ния между спросом и предложением – с ростом спроса рыночная цена на актив растет, с ростом предложения – падает. В указанной работе показано, что в условиях общего знания агентов обо всех параметрах игры структура равновесия Нэша такова: либо все аген- ты приобретают актив на все имеющиеся у них средства (если они тем самым «увеличивают» относительную цену актива), либо все агенты продают все имеющиеся у них активы (если они тем самым «уменьшают» относительную цену актива).
Рассмотрим следующую модель. Пусть каждый агент обладает в начальный момент времени суммой u0 ³ 0 и активом x0 ³ 0. В соот- ветствии с результатами [49] в начальный момент времени у агента имеются две альтернативы: либо приобрести актив на всю сумму u0, либо продать все x0 единиц актива (рынок при этом не ограничен).
В зависимости от действий x агента сложится следующая цена: если все агенты приобретают актив, то цена p будет равна p+ = p0 + θ + α n x0; если агенты продают актив, то цена p будет равна
387
p- = p0 + θ – α n x0, где α – коэффициент зависимости цены от спро- са/предложения.
Начальное значение целевой функции агента равно u0 + x0 p0, конечное:
♦(x0 + u0 / p0) p+ – u0, если актив приобретается с намерением последующей продажи;
♦u0 + x0 p0, если актив продается;
♦u0 + x0 (p0 + θ), если агент не предпринимает никаких дейст-
вий.
Для того чтобы выяснить, какое из трех действий (покупать, продавать или ничего не делать) предпримет рациональный агент, необходимо сравнить три полученные величины. Получаем, что,
если имеет место положительный тренд (θ ³ 0) или если тренд от- сутствует (θ = 0), то актив следует приобретать. При отрицательном тренде (θ < 0) дело обстоит сложнее, а именно актив следует приоб-
ретать при условии
(1) θ ³ |
|
p0u0 |
|
– α n x0. |
p x + u |
0 |
|||
|
0 |
0 |
|
|
Последнее условие означает, что если агенты, приобретая актив и повышая тем самым его цену в следующем периоде, могут «пере- бороть» отрицательный тренд, то актив следует приобретать. В противном случае актив им следует продавать.
Если подходить более корректно и исследовать все соотноше- ния между параметрами, то есть для каждого из трех действий найти условия, при которых данное действие оптимально, то получим, что рациональный агент должен придерживаться следующего алгорит- ма: приобретать актив, если выполнено условие (1), и продавать его, если верно обратное соотношение. Интересно, что пассивное пове- дение – не предпринимать никаких действий – невыгодно ни при одной комбинации параметров модели.
Качественный вывод из проведенного анализа следующий. Су- ществование постоянного тренда цены актива относительно «стои- мости» денег, приводит к тому, что, если этот тренд положительный, то следует вкладывать все деньги в приобретение актива. Если тренд отрицательный, то наоборот – целесообразно избавляться от актива. Возможность влияния агентами на цену актива за счет своих дейст- вий (покупки или продажи) приводит к тому, что приобретать актив
388
в случае отрицательного тренда имеет смысл только в том случае, если этими действиями можно «преодолеть» тренд.
Итак, мы описали равновесие Нэша агентов. Рассмотрим теперь рассуждения рефлексирующего агента первого ранга. Если выпол- нено условие (1), то он может спрогнозировать, что все агенты нуле- вого ранга будут приобретать актив. Если условие (1) не выполнено, то он может спрогнозировать, что все агенты нулевого ранга будут продавать актив (цена на него упадет) и ему выгодно действовать так же. Получаем, что действия рефлексирующих агентов будут такие же, как и нерефлексирующих, то есть в рассмотренной модели добавление рефлексирующих агентов любого ранга не меняет ры- ночной цены.
Сделанный вывод является следствием того, что мы рассмотре- ли достаточно «интеллектуальных» нерефлексирующих агентов. Действительно, предполагалось, что они способны прогнозировать изменение рыночной цены в зависимости от своих действий.
Рассмотрим другую модель с менее «интеллектуальными» аген- тами нулевого ранга, а именно предположим, что они ориентируют- ся лишь на знак тренда. Тогда при положительном тренде агенты нулевого ранга будут приобретать актив, в результате чего его цена будет расти, и рефлексирующим агентам лишь остается следовать их примеру. Ситуация меняется при отрицательном тренде – агенты нулевого ранга будут продавать актив, в результате чего цена «еще более снизится». Но, рефлексирующие агенты могут попытаться своими действиями (приобретая актив) «переломить тренд». Для этого, правда, им необходимо быть уверенными, во-первых, что доля q рефлексирующих агентов является среди них общим знанием, а во- вторых, что эта доля достаточна для того, чтобы цена выросла. Последнее условие по аналогии с условием (1) можно записать в виде:
(2) θ ³ |
|
p0u0 |
|
|
+ α n (1 – 2 q) x0, |
|
|||||
p x |
+ u |
0 |
|
||||||||
т. е. |
0 |
0 |
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
1 |
é |
p0u0 |
|
ù |
|
(3) q ³ q* = |
+ |
ê |
|
-θ ú . |
|||||||
2 |
2αnx |
|
|
||||||||
|
|
|
|
|
ë |
p x |
+ u |
0 |
û |
||
|
|
|
|
|
|
0 |
0 0 |
|
|||
Отметим, что критическая доля q* рефлексирующих агентов со- ставляет не менее половины от общего числа агентов (условие q* £ 1
389
эквивалентно условию (1)). Рассмотрим числовой пример. Пусть n = 100, u0 = 1000, p0 = 10, x0 = 100, α = 0.001, θ = – 1. Условие (1)
выполнено. Из выражения (3) находим q* = 53 %.
Подчеркнем, что предположение о том, что доля рефлексирую- щих агентов является среди них общим знанием, противоречит введенному выше предположению о структуре субъективных реф- лексивных разбиений (см. раздел 3.4), так как последнее предполага- ет, что рефлексирующие агенты «не знают о существовании» других агентов того же ранга рефлексии (и более высоких рангов). К росту
рыночной цены при отрицательном тренде будет приводить любое рефлексивное разбиение, при котором доли рефлексирующих аген- тов любых рангов (кроме нулевого) в сумме превышают q*, и эта информация является общим знанием среди рефлексирующих аген- тов соответствующих уровней. Данное утверждение, имеющее прозрачные содержательные интерпретации, свидетельствует, что структура субъективных рефлексивных разбиений, введенная в
разделе 3.4 и используемая в разделах 4.26.3-4.26.6, не является единственно возможной и адекватной всем моделям, представляю- щим интерес для практики. То есть, перспективным направлением
будущих исследований представляется рассмотрение и других структур субъективных рефлексивных разбиений.
Таким образом, метод рефлексивных разбиений множества ра- циональных агентов на подмножества агентов, обладающих различ- ными рангами стратегической рефлексии, позволяет:
∙с точки зрения теории принятия решений – расширить класс моделей коллективного поведения интеллектуальных агентов, осу- ществляющих совместную деятельность в условиях неполной ин- формированности и отсутствия общего знания;
∙с дескриптивной точки зрения – расширить множество ситуа- ций, которые в рамках модели могут быть «объяснены» как устой- чивые исходы взаимодействия агентов; соответственно, в рамках задач управления – расширить область управляемости;
∙с нормативной точки зрения – ставить и решать задачи груп-
пового управления за счет подбора структуры информированности агентов.
390
