2.Динамическое программирование

2.1. Суть метода динамического программирования

В основу метода динамического программирования положен принцип оптимальности, сформулированный в 1957г. американским математиком Ричардом Беллманом: «Оптимальное поведение обладает тем свойством, что каковы бы ни были первоначальные состояние и решение в начальный момент времени, последующие решения должны составлять оптимальное поведение относительно состояния, получающегося в результате первого решения».

Рассматривается следующая общая задача. Имеется некоторая физическая система, в которой происходит какой-то процесс, состоящий из n шагов. Эффективность процесса характеризуется некоторым показателем W, который называют выигрышем. Пусть общий выигрыш W за все n шагов процесса складывается из выигрышей на отдельных шагах

W= , (2.1)

где w_i– выигрыш на i-м шаге. Если W обладает таким свойством, то его называют аддитивным критерием.

Процесс, о котором идет речь, представляет собой управляемый процесс, т.е. имеется возможность выбирать какие-то параметры, влияющие на его ход и исход, причем на каждом шаге выбирается какое-то решение, от которого зависит выигрыш на данном шаге. Это решение называется шаговым управлением. Совокупность всех шаговых управлений представляет собой управление процессом в целом. Обозначим его буквой U, а шаговые управления – буквами u₁,u_{2,
. . . ,}u_n. Тогда U = (u₁,u_{2,
. . . ,}u_n_).

Шаговые управления u₁,u_{2,
. . . ,}u_nв общем случае не числа, а, как правило, векторы, функции и т.п.

В модели динамического программирования процесс на каждом шаге находится в одном из состояний s множества состояний S. Считается, что всякому состоянию сопоставлены некоторые шаговые управления. Эти управления таковы, что управление, выбранное в данном состоянии при любой предыстории процесса, определяет полностью следующее состояние процесса. Обычно выделены два особых состояния: s₀– начальное и s_w – конечное.

Итак, пусть каждому состоянию s_iЄ S поставлено множество допустимых шаговых управлений , и каждому шаговому управлению u Є , соответствует s_j= σ (s_i, u) Є S – состояние, в которое процесс попадает из s_iв результате использования шагового управления u. Пусть процесс находится в начальном состоянии s₀. Выборu₁ Є переводит процесс в состояние s₁= σ(s₀, u₁), выбор u₂Є - в состояние s₂=σ(s₁,u₂) и т.д. В результате получается траектория процесса, которая состоит из последовательности пар

(s₀, u₁), (s₁,u₂), . . . , (s_w, u_w₊₁) и заканчивается конечным состоянием. Для единообразия можно считать, что включает только одно состояние u_w₊₁, оставляющее процесс в том же конечном состоянии. Следует отметить, что множества допустимых состояний и управлений

S = { s₀, s_{1,
. . . ,}s_w}, (2.2)

(2.3)

конечны и U_sдля различных s не пересекаются.

В общем виде задача динамического программирования формулируется следующим образом: найти такую траекторию процесса, при которой выигрыш (2.1) будет максимальным.

То управление, при котором достигается максимальный выигрыш, называется оптимальным управлением. Оно состоит из совокупности шаговых управлений

U^* = ( , , . . . , ). (2.4)

Тот максимальный выигрыш, который достигается при этом управлении обозначим W_max:

W_max= max_U{W(u)}. (2.5)

1 / 91 2 3 4 5 6 7 8 9 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
18.09.20195.68 Mб24ИТ.doc
#
04.06.20152.16 Mб27ИТ_ТО_лаб.doc
#
20.11.2019759.3 Кб9иту курсовой дневное 2012 задание.doc
#
01.05.2025711.17 Кб0иту курсовой заочники 2013 задание.doc
#
20.11.2019744.96 Кб13ИТУ теория курсовой дневные 2012.doc
#
01.05.2025464.38 Кб0ИТУ теория курсовой заочники 2012.doc
#
01.03.202578.21 Кб0ИЭУ Ответы.docx
#
01.03.2025382.46 Кб0ИЭУ.doc
#
01.03.2025149.5 Кб0К. И. Т..doc
#
10.09.2019279.04 Кб8К.И.Могилевский, К.А.Соловьев - П.А. Столыпин,...doc
#
01.04.202594.21 Кб1К08-ПрБД_ сам_раб_КРА_мет 2013.doc