Добавил:

Teana Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Таврический Национальный Университет им. В.И. Вернадского

Предмет:

Экономика

Файл:

Механизмы управления динамическими активными системами - Новиков Д.А., Смирнов И.М., Шохина Т.Е

..pdf

Скачиваний:

Добавлен:

24.05.2014

Размер:

741.36 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 136 7 8 9 10 11 12 13 > Следующая >>>

x1,T	T
x1,T	является решением задачи åδt F t ( y1,t ) →	max	для
	t =1	y1,T Y 1,T

распределения дальновидности {δt}, тогда, если для распределе-

ния дальновидности {δ ′} выполняется соотношение: δt′+1						> δt +1 ,
			t		δt′	δt

t =		, и для	любого	y1,T	выполняется	условие
	1,T
Y t ( y1,t −1) Y t (x1,t −1) ,			тогда	x1,T является решением задачи с

распределением дальновидности {δt′}.

Завершив описание результатов, приведенных в [80], отме- тим, что при решении многих экономических задач полагают, что

распределение дальновидности имеет специфический вид δt (τ ) = δ t −τ , где δ является некоторой константой (так называе-

мым коэффициентом дисконтирования – см. также выше). Оказы- вается, что в этом случае задача сводится к исходной с помощью

замены Φ~ t ( y1,t ) = δ tΦt ( y1,t ) . Действительно, в каждый момент

принятия	решения τ			центр	ищет максимум функции
M
åδ t −τ F t ( y1,t ) , что эквивалентно отысканию максимума функ-
t =τ
M ~t	( y	1,t	) . Таким	образом,	ограничимся в дальнейшем
ции åF	( y		) . Таким	образом,	ограничимся в дальнейшем

t =τ

постановкой задачи без учета зависимости распределения даль- новидности от момента принятия решений.

Вернемся к оценке эффективности различных режимов управления и ГПР. Фиксируем некоторое распределение дально-

видностей центра ξ0(t), t = 1,T , и будем исследовать эффектив- ность режимов управления при этом распределении дальновидно-

стей. Обозначим L1,T = (L0(1), L0(2), ..., L0(T)) – ГПР центра (как
	0	L0(t) ≤ ξ0(t)); τ1 = 1,	τ2 = τ1 + L0(τ1),
отмечалось	выше,
τ3 = τ2 + L0(τ2)	и т.д. – моменты принятия решений центром в
модели ДАС3	с обязательствами (как отмечалось выше, ДАС3
отличается от	ДАС2	наличием обязательств),	следовательно

[τi; τi+1] – интервалы времени, на которые центр фиксирует планы в моменты времени τi, i = 1, 2, ..., imax( L10,T ) – 1, где imax: τimax = T.

Если, с учетом решения задачи согласованного стимулирова-

ния

(см.

теоремы 1-2), целевая

функция

центра

имеет вид

Φ t(y1,t) = H t(y1,t) – ct(y1,t),

t =

то

оптимальные

в моделях

1,T

ДАС1-ДАС4 плановые траектории x1,T ,

x1,T

, x1,T и x1,T , соот-

ветственно, определяются следующим образом1:

(8)

1,t-1

)= arg

max

1,t-1

(x1

Φ (x1

, y ), t = 1,T ;

y t At ( x11,t−1 )

(9)

(x2

1,t-1

) =

= Projt arg		max
	y t,t+ς0 (t) A0t,t+ς0
(10) xτ3i ,τi+1 = arg	max	Φ t( x

yτi ,τi+1 A0τi ,τi+1

	t+ς0( t )
(t )	å	Φ t(x21,t-1, yt,τ), t = 1,T ;
(t )	τ =t
	τ =t

13,τi −1 , yτi ,τ ), i = 1,imax −1;

				T
(11) xt	= Projt arg	max		å	Φ t(y1,t), t =	1,T	.
4	y	1,T	1,T	å
	y		A0	t =1

Рисунки 2-5 иллюстрируют последовательность принятия решений центром в моделях ДАС1-ДАС4 (черная точка обозна- чает горизонт дальновидности, стрелка – горизонт принятия решений с обязательствами).

1 В принципах планирования (2), (5) (6), (8)-(11) планы на текущий и будущий периоды (в зависимости от распределения дальновидности и горизонта принятия решений) определяются исходя из максимизации целевой функции центра в предположении, что действия АЭ в преды- дущих периодах совпадали с планами. Как отмечалось выше, отказ от этого предположения, то есть зависимость будущих планов от наблю- даемой траектории реализаций, является эффективным средством борьбы с эффектом обмена ролями и т.д.

					...
								t
1	2	3	4	5	...	T-2	T-1	T
	Рис. 2. Последовательность принятия решений центром
					в модели ДАС1

					...
					...			t
1	2	3	4	5	...	T-2	T-1	T
	Рис. 3. Последовательность принятия решений центром
					в модели ДАС2

					...
								t
1	2	3	4	5	...	T-2	T-1	T
	Рис. 4. Последовательность принятия решений центром
					в модели ДАС3

								t
1	2	3	4	5	...	T-2	T-1	T
	Рис. 5. Последовательность принятия решений центром
					в модели ДАС4

Обсудим специфику модели ДАС3. Пусть центр обладает фиксированной дальновидностью ξ0 (1 < ξ0 < T), принимает ре- шения через каждые m0 периодов, и фиксирует свои планы на L0 периодов вперед. Условием того, что центр распланирует каждый период времени, является 1 ≤ m0 ≤ L0. Таким образом, предпола- гая что центр в каждый момент времени может принимать реше- ния только на те периоды, которые лежат в пределах его дально-

видности, получаем условие 1 ≤ m0 ≤ L0 ≤ ξ0 < T (последнее нера- венство отличает ДАС 3 от ДАС4).

Лемма 1. Пусть центр обладает фиксированной дальновидно- стью ξ0 (1 < ξ0 < T), принимает решения через каждые m0 перио- дов, и фиксирует свои планы на L0 периодов вперед (см. рисунки 6а) и 6б)). Такой способ принятия решения центром эквивалентен тому, что в первый период времени центр принимает и фиксирует план на L0 периодов вперед с дальновидностью ξ0, далее центр принимает и фиксирует решение на m0 периодов вперед в момен-

ты	времени		L0 + 1, L0 + m0, L0 + 2 m0, …, L0 + n m0,						где
é	T - L0	ù
n = ê	T - L0	ú , с дальновидностью ξ0 – L0 + m0 (см. рисунок 6б).
n = ê	m0	ú , с дальновидностью ξ0 – L0 + m0 (см. рисунок 6б).
ë	m0	û
Доказательство. В первый момент принятия решений центр
находит планы по следующей формуле:
		x1,L0	= Pr oj arg			max		ξ0 [Fτ ( y1,τ )]
			y	1,L	y	1,ξ0	1,ξ0	å
			y	0	y		A0	τ =1

Опишем поведение центра в следующий момент m0 принятия решения. Согласно описанной выше модели поведения ДАС3, в

этот момент центр должен принять и зафиксировать решения на следующие L0 периодов. Но так как в прошлый раз (в первый момент времени) он уже фиксировал план на L0 первых периодов, а рассматривается момент принятия решения m0, и план на L0 – m0 периодов вперед уже существует, то центр не имеет права его менять. Таким образом, в момент m0 центр принимает и фиксиру- ет план на m0 периодов, начиная с L0 + 1. Оптимальные планы находятся по следующей формуле (здесь и далее до окончания

настоящего раздела в целях упрощения обозначений зависимость множеств допустимых действий от истории будет опускаться):

xL0+1,K,xL0+m0	= Proj	arg		max			m0+ξ0
							å Fτ (x1,min(τ,L0),
	yL0+1,L0+m0	yL0	+1,m0	+ξ0 AL0+1×L×Am0+ξ0			τ=m0
y L0 +τ ) =	Pr oj arg			max			L0	+
						{ åFτ (x1,τ )
yL0 +1,L0 +m0		yL0 +1,m0 +ξ0 AL0 +1×L×Am0			+ξ0		τ =m0

	m0 +ξ0			+1,τ ) } =
	+	å Φτ (x1,L0 , yL0		+1,τ ) } =
	τ = L0 +1
= Pr oj arg		max
yL0 +1,L0 +m0	yL0 +1,m0 +ξ0 AL0 +1×L×Am0		+ξ0

L0 +(ξ0å+m0 − L0 ) Φτ (x1,L0 , yL0 +1,τ ) .

τ = L0 +1

Последнее соотношение означает, что поведение центра в момент времени m0 равносильно такому его поведению, при котором он принимает решения в момент L0 + 1 на m0 периодов вперед с дальновидностью ξ0 + m0 – L0.

Аналогично можно показать, что задача оптимального выбо- ра L0 (фактически – выбора m0) планов в периоде n m0 (где n-

целое и n ≤	T − L0	) для центра с дальновидностью ξ0, эквива-

	m0

лентна задаче оптимального выбора m0 планов в периоде L0 + (n –

1) m0 + 1 с дальновидностью ξ0 + m0 – L0. Действительно:

xL0 +(n−1)m0 +1,K, xL0 +nm0 =

Proj	arg	max
yL0+(n−1)m0+1,L0+nm0		yL0+(n−1)m0+1,ξ0+nm0 AL0+(n−1)m0+1,ξ0+nm0
		ξ0å+nm0 Φτ (x1,min(L0 +(n−1)m0,τ ) , yL0 +(n−1)m0 +1,τ ) =
		τ =nm0
Proj	arg	max
yL0+(n−1)m0+1,L0+nm0		yL0+(n−1)m0+1,ξ0+nm0 AL0+(n−1)m0+1,ξ0+nm0 L 0 + ( n − 1 ) m 0	τ ( x	1 , τ )	+
		τ =ånm 0 Φ			+

ξ0 +nm0

åΦτ (x1,L0 +(n−1)m0 , yL0 +(n−1)m0 +1,τ ) =

τ= L0 +(n−1)m0 +1

Proj	arg	max
yL0+(n−1)m0+1,L0+nm0		yL0+(n−1)m0+1,ξ0+nm0 AL0+(n−1)m0+1,ξ0+nm0

L0 +(n−1)m0å+(ξ0 +m0 −L0 ) Φτ (x1,L0 +(n−1)m0 , y L0 +(n−1)m0 +1,τ ) . ∙

τ =L0 +(n−1)m0 +1

На рисунке 6, иллюстрирующем лемму 1, ромбиком обозна- чен момент принятия решения, жирной стрелкой – горизонт

принятия решения (или на какие периоды принимаются решения
в данный момент времени), жирной точкой обозначен горизонт
дальновидности.
	a)
				...
							t
1	2	3	4	...	T-2	T-1	T
	б)
				...
							t
1	2	3	4	...		T-2 T-1	T
		Рис. 6а), 6б). Принятие решений в модели ДАС3
			в соответствии с леммой 1

Завершив обсуждение специфики модели ДАС3, введем сле- дующие функции1:

1 Отметим, что при переходе к целевым функциям вида (12) «автома- тически» учитывается требование принадлежности плановой траек- тории соответствующей допустимой области (см. описание метода штрафов в [59]), что позволяет в (13)-(16), в отличие от (8)-(11),

искать в каждом периоде максимумы по независимым от предыстории

		ì	t
t	1,t	ï	åFτ (x1,τ ),	x1,t Î A01,t

(12) F (x		) = í				, t = 1,T ,
		τ =1			1,t	1,t
		ï	- ¥,	x
		î				Ï A0

тогда плановые траектории (8)-(11) можно определить следую- щим образом (положим F0(×) = 0):

1,t-1

t-1

1,t-1

(13)

) Î Arg

)], t = 1,T ;

= x1

(x1

max [F (x1

, y ) – F

(x1

y t At

(14)

1,t-1

) Î

= x2

(x2

[ F t +ξ0 (t) (x21,t-1,

yt,t +ξ0 (t) ) –

Î Projt Arg

max

y t,t+ς0 (t) At × At+1 ×...× At+ξ0 (t)

F t(x21,t-1)], t =

;

xτ3i ,τi+1 Î Arg

1,T

(15)

max

[ Fτi+1 ( x31,τ i

−1 , yτ i ,τ i+1 ) –

yτi ,τi+1 Aτi ×Aτi +1×...×Aτi+1

Fτ i ( x31,τ i

−1 )], i =

;

1,imax -1

(16)

Î Projt Arg max

F T(y1,T), t =

1,T

4y1,T A1,T

Всоответствии с выражениями (13)-(16), эффективности управления в моделях ДАС1-ДАС4 можно записать в виде:

(17)Ki = FT( xi1,T ), i = 1, 4 .

Вернемся к сравнению эффективностей различных режимов

управления в динамических АС.

Обозначим J(t) – множество периодов, от которых зависит выигрыш в периоде t. В силу принципа причинности и введенных

выше предположений " t Î J(t) t £ t, t = 1,T . Положим также,

что t Î J(t), t = 1,T .

Обозначим N(t) – множество периодов, выигрыши в которых зависят от стратегий, выбираемых в периоде t. В силу принципа причинности и введенных выше предположений " t Î N(t) t ³ t,

t Î N(t), t = 1,T .

Множества J(t) и N(t) взаимозависимы:

допустимым множествам.

(18) J(t) = {t £ t | t Î N(t)}, N(t) = {t ³ t | t Î J(t)}, t = 1,T .

Предположим, что существуют целые числа J и N не мень- шие единицы и не большие T, такие, что

(19)" t = 1,T J(t) = {max (1, t – J); …; t},

(20)" t = 1,T N(t) = {t; …; min (t + N, T)}.

Очевидно, что, если выполнено (18)-(20), то J = N.

Параметр J назовем памятью АС (точнее – памятью центра),

так как он отражает максимальное число предыдущих периодов (исключая текущий), влияющих на выигрыш в текущем периоде.

Напомним, что выше были введены такие параметры центра как: x0(t) – его дальновидность, отражающая число будущих периодов (исключая текущий период), которые он принимает во внимание при выборе своей стратегии в текущем периоде (перио- де t), и горизонт принятия решений L0(t), который в модели ДАС3 соответствует числу будущих периодов (включая текущий пери- од), на которые центр берет обязательства в текущем периоде.

Обозначим

(21) x0 = min	x0(t), L0 = max L0(t)
t =1,T	t =1,T

и рассмотрим соотношение между памятью J, дальновидностью x0 и обязательствами L0. Введем следующее условие:

(22)J + (L0 – 1) £ x0.

Выполнение условия (22) можно назвать принципом адек-

ватности1 для ДАС (адекватности возможностей системы управ- ления – центра – условиям функционирования и сложности управляемой системы), так как оно требует, чтобы в любой мо- мент времени дальновидность центра, то есть его возможности по учету будущих последствий принимаемых решений, были не ниже суммы сложности системы (отражаемой ее памятью) и условий функционирования (отражаемых вынужденными обяза- тельствами).

Принцип адекватности позволяет выявить условия, при кото-

рых взятие обязательств не изменяет эффективности управления

– ниже приводится ряд формальных результатов.

1 См. аналоги и ссылки в [51].

Теорема 5а. Если выполнены предположения А.0, А.1, А.2’’, А.3, А.4 и условие (22), то в ДАС со связанным стимулированием режимы управления ДАС2 и ДАС3 эквивалентны: K2 = K3.

Теорема 5а является частным случаем формулируемой и до- казываемой ниже теоремы 5б.

Если условия типа (22) не выполняются,1 то существуют ДАС, в которых реализуются любые соотношения между эффек- тивностями K2 и K3 (обоснованием справедливости этого утвер- ждения являются приводимые ниже примеры 6 и 7).

Интуитивно можно было бы предположить, что ДАС1 долж- на обладать минимальной эффективностью, далее должна была бы следовать ДАС3 (дальновидность увеличилась по сравнению с ДАС1, но имеются обязательства), затем – ДАС2 (отказ от обяза- тельств), и, наконец, ДАС4. То, что ДАС4 обладает максимальной (среди базовых четырех ДАС) эффективностью очевидно. Одна- ко, оказывается, что возможны любые соотношения между эф- фективностями ДАС1 и ДАС2, а также ДАС2 и ДАС3. Ниже приводятся примеры, иллюстрирующие противоречия "здравому смыслу": в примере 6 рассматривается модель ДАС, в которой эффективность ДАС1 выше, чем ДАС2 (то есть увеличение даль- новидности не приводит к увеличению эффективности), а в при- мере 7 – модель ДАС, в которой эффективность ДАС3 выше, чем ДАС2 (наличие обязательств приводит к повышению эффектив- ности).

Пример 6. (эффективность ДАС1 выше эффективности ДАС2).

Рассмотрим трехпериодную модель, в которой человек (на- пример, чиновник) выбирает свою судьбу – быть ли ему богатым, но брать взятки, или не купаться в роскоши, но быть честным. Чиновник имеет два возможных действия: "Воровать" или рабо- тать честно ("Не воровать"). Во все три периода у него для выбо- ра есть эти два действия.

В первом периоде, если он выбирает "Не воровать", то его полезность Φ1( y1) равна 3. Если он выбирает действие "Воро-

1 Для этого достаточно нарушения принципа адекватности в одном периоде.

<<< < Предыдущая 1 2 3 4 56 / 136 7 8 9 10 11 12 13 > Следующая >>>

Соседние файлы в предмете Экономика