Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский ядерный университет (МИФИ)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Vlasov_Metody_optimizacii_i_optimalnogo_upravle...doc

Скачиваний:

Добавлен:

01.05.2025

Размер:

2.03 Mб

Скачать

☆

<<< < Предыдущая 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2021 / 2921 22 23 24 25 26 27 28 29 > Следующая >>>

6.3. Динамическое программирование

1. Принцип оптимальности.

Каждый конечный участок оптимальной траектории есть опти-мальная траектория. Это следствие аддитивности критерия опти-

мальности.

2. Уравнение Беллмана.

Пусть S (x , t) есть наименьшее значение функционала

J = ^T_∫G (x₁ ,..., x_n ,u ,τ)dτ , если в момент времени t динамический

объект находится в состоянии x . Для функции S (x , t) можно полу-

чить дифференциальное уравнение, называемое уравнением Белл-мана. Это уравнение в частных производных, оно имеет вид

− ^∂_∂^S_t = min{G (x , u , t )+ < grad S , f >} , где наименьшее значение

рассматривается по аргументу u , градиент вычисляется по аргу-ментам x₁ ,..., x_n .

3. Получение уравнения Беллмана.

Запишем для малого значения t очевидное равенство:

S ( x , t ) = min[G ( x , u , t ) t + ^T_∫ G ( x , u , t ) dτ] + 0( t) ,

t′

где 0( t) – бесконечно малая величина достаточно высокого по-

рядка, минимальное значение правой части рассматривается по ар-гументу u .

За интервал	времени	t система перейдет в	состояние
x′ = x +Δx , где	x = f ( x , u , t )	t . Начиная с состояния	x′будем оп-

тимально управлять системой, тогда будет выполняться соотноше-ние

	S ( x , t ) = min[ G ( x , u , t )			′ ′	t) .
	S ( x , t ) = min[ G ( x , u , t )			t + S ( x , t )] + 0(	t) .
Разложим	функцию			′ ′	в	ряд
Разложим	функцию			S ( x , t )	в	ряд
′ ′		t +	∂S	t и подставим это в послед-
S (x ,t ) ≈ S (x , t )+ < grad S , f >		t +	∂t	t и подставим это в послед-

нее соотношение. После чего разделим обе части полученного ра-венства на t и перейдем к пределу при t →0 . В итоге получим уравнение Беллмана

^∂_∂^S_t = min[G (x , u , t )+< grad S , f >] .

Примеры применения динамического программирования

Пример 6.4.1. Пусть имеется динамическая система первого по-рядка, описываемая дифференциальным уравнением

10 ^dx_dt + x = u , (6.4.1)

и задан критерий оптимальности

J = ^T_∫x ² (t )dt .	(6.4.2)
0

Требуется оптимально перевести систему за время T = 3 с. из начального состояния x₀ =1 в конечное состояние x_T =10 .

Будем решать задачу приближенно с применением дискретного варианта метода динамического программирования. Для этого вве-дем дискретный шаг времени t =1 и запишем разностное уравне-

ние x_k ₊₁ = ₁₀¹ (9x_k +u_k ) , соответствующее уравнению (6.4.1), а так-

же заменим выражение (6.4.2) интегральной суммой J_d = ∑x_k² .

k =0

Решение ведется шагами и начинается с предпоследнего значе-ния x₂ переменной x . На первом шаге записываем разностное

уравнение x₃ = ₁₀¹ (9x₂ + u₂ ) и выражение для значения критерия

оптимальности на первом шаге J_d1 = x₂² . Считаем неизвестное зна-чение x₂ параметром и для каждого значения x₂ находим опти-

мальное u₂ из условия x_T = ₁₀¹ (9x₂ + u ₂ ) =10 . Поскольку последнее

уравнение является линейным, то существует его единственное решение:

u ₂ = 10 x₃ − 9 x ₂ = Φ₂ ( x₂ ) .									(6.4.3)
Минимальное значение J ^M критерия J			d1		равно J ^M = x ²				= ψ( x ) .
1			d1			1	2		2
После того, как получены функции u	2	= Φ	2	( x )		и J ^M = ψ	2	( x ) пер-
	2		2		2	1	2		2

вый шаг считаем законченным.

На втором шаге задача состоит в том, чтобы получить зависи-

мости J ^M = ψ ( x )			и u	= Φ	( x )			от переменной состояния			x	. Для
2	1	1	1	1		1					1
этого записываем разностное уравнение
				x		=		1	(9x +u )			(6.4.4)
				x		=			(9x +u )			(6.4.4)
					2		10		1	1
							10

и значение критерия J_d2 = x₁² + x₂² , соответствующее двум послед-ним шагам, и считаем переменную x₁ параметром.

Для каждого значения x₁ будем искать оптимальное u₁ , предпо-лагая, что, начиная со следующего шага, движение является опти-

мальным, т.е. J_d2 = x₁² + x₂² = x₁² + J₁^M .

Воспользуемся разностным уравнением (6.4.4) и получим

						J		= x ²	+ [	1	(9 x + u ) ² ] .								(6.4.5)
							d2
								1	10			1	1

	Минимальное					значение J₂^M критерия								получается		при			условии
u	= Φ	( x ) = −9x				и равно J ^M = x ²						= ψ ( x ) . Второй шаг закончен.
1	1			1	1				2		1		1	1
	На третьем шаге поиску подлежат зависимости															u ₀ = Φ₀ ( x₀ )				и
J ^M = ψ				( x ) . Записываем разностное уравнение x =												1	(9x		+u )	и,
			0
3					0									1	10			0	0

предполагая оптимальность движения со следующего шага, выра-жение для критерия оптимальности

= J

= x ²

+ x ²

= x ²

+ J ^M = x ²

+ x ²

= x ²

+ [

(9x + u )²

] .

После

этого

легко

получаются

выражения

u₀ =Φ ₀ ( x₀ ) = −9 x₀ , J ₃^M = ψ ₀ (x₀ ) = x₀² .

Вспоминаем, что согласно постановке задачи x₀ =1 . Поэтому

u ₀ = − 9, x₁ = 0, u₁ = 0, x ₂ = 0, u₂ =100 .

Важно отметить следующие особенности дискретного метода динамического программирования:

метод применим, если ограничения заданы разностны-ми уравнениями;

итоги шагов зависят только от значений переменных со-стояния;

предположение об оптимальности движения со следую-щего шага приводит к возможности исключения после-дующих значений переменных состояния, относящихся

к последующим шагам (это важно при малом шаге дис-кретизации, т.е. при большом числе шагов).

Пример 6.4.2. В условиях примера 6.4.1 решить задачу опти-мального управления при ограничениях на управляющее воздейст-

вие u ≤12 .

Разностные уравнения имеют прежний вид, но имеется ограни-чение 10 x_k ₊₁ − 9 x_k ≤12 . Это накладывает ограничения на возмож-ные значения переменных состояния на каждом из шагов. В данной

задаче границы диапазонов значений переменных состояния можно найти на основе соотношений

_xmin ₌

ax_k ₊₁ −c

_xmax ₌

ax_k ₊₁ + c

, если

k +1

−bx

≤ c .

Первый шаг осуществляется так же, как и в предыдущем приме-ре, только теперь ⁸⁸₉ ≤ x₂ ≤ ¹¹²₉ .

Второй шаг уже выполняется сложнее. Казалось бы, что на ос-

нове разностного уравнения x₂ = ₁₀¹ (u₁ +9x₁ ) следовало бы поло-

жить u₁ = −12 и получить наименьшее значение величины x₂ . Од-

нако			на значение переменной			x₁	имеется ограничение
	772	≤ x ≤		1228	. Рассмотрим точку	x =	772	и возьмем u		= −12 ,
									2
81			1	81		2	81

тогда оказывается, что x₂ = ⁶⁶⁴₉₀ и это значение выходит за пределы

допустимого интервала. Будем искать управляющее воздействие из условия x₂ = ⁸⁸₉ . Это приводит к зависимости u₁ = ⁸⁸⁰₉ −9x₁ . Но не

всегда это правило может быть использовано. Например, если x₂ = ¹²²⁸₈₁ , то u₂ = −39 . Поэтому после проведения несложных рас-

суждений получим, что

										880				− 9 x₁		,( x₁	≤ x_g ),
						u₁
										9
								=		9

								12,( x ≥ x_g ),
где	x_g	=	988	,
где	x_g	=	81	,
			81
					_x 2				+ (		88		)²		, (x ≤ x			),
					_x 2				+ (				)²		, (x ≤ x		g	),
				M			1		9						1		g
				J₁	=					1
					_x²				+ [	1		(−12 + 9 x )² ], (x ≥ x							g	).
					_x²				+ [			(−12 + 9 x )² ], (x ≥ x								).
							1		10						1
									10

Третий шаг следует проводить на основе тех же рассуждений, которые были использованы на втором шаге.

Контрольные вопросы

С какой целью используется принцип максимума?

С какой целью используется метод динамического про-граммирования?
Как формулируется принцип оптимальности?
Как применяется дискретный вариант динамического про-граммирования?
Каковы трудности применения дискретного варианта мето-да динамического программирования для систем высокого порядка?

Используется ли равенство нулю вариации функционала при применении принципа максимума?

<<< < Предыдущая 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2021 / 2921 22 23 24 25 26 27 28 29 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.03.2025842.24 Кб0Varianty_MGTU.doc
#
04.06.201537.89 Кб68variant_2.doc
#
20.12.2018697.34 Кб22Vech-logics-09.doc
#
01.05.202592.16 Кб0vkk_-_metodichka_-_uroki_18-19 (1).doc
#
01.07.20251.75 Mб0VKK_vse.doc
#
01.05.20252.03 Mб3Vlasov_Metody_optimizacii_i_optimalnogo_upravle...doc
#
01.07.20259.11 Mб1voprosi_00_all_2016_new.rtf
#
01.07.2025328.74 Кб0voprosi_1_2015.docx
#
06.09.201990.22 Кб2Voprosy_k_ekzamenu-1 (1).docx
#
19.09.2019150.02 Кб2Voprosy_k_ekzamenu_macro 7-12.doc
#
01.07.2025278.86 Кб0Voprosy_k_ekzamenu_po_GPPiAS-1.docx

6.3. Динамическое программирование

Примеры применения динамического программирования