3.1. Поиск оптимальной последовательности (цепочки) управлений методом динамического программирования

Оптимизация управления n-шагового процесса состоит в том, чтобы найти такую последовательность управлений и₀, и₁ ,..., и_п-1, при которой критерий качества Q(x₀, u) принимает минимальное значение. Это минимальное значение критерия качества управления n-шагового процесса будет зависеть от начального состояния х₀ и его можно обозначать f_n(x₀). По определению имеем:

(5)

Заметим, что первое слагаемое этого выражения Q(x₀,u₀) зависит только от управления u₀, тогда как остальные слагаемые зависят как от u₀, так и от управлений на других шагах. Так, Q(x₁,u₁) зависит от u₁, но оно зависит и от и₀, так как x₁₌ T(x₀, u₀). Аналогично обстоит дело и с остальными слагаемыми. Поэтому выражение (5) можно записать в виде

Заметим далее, что выражение

представляет собой минимальное значение критерия качества управления (п-1)- шагового процесса, имеющего начальное состояние . В соответствии с определением эту величину можем обозначить через f_n_-1(x₁). Таким образом, получаем:

Эти рассуждения можно повторить, если рассмотреть (п-1)- шаговый процесс, начинающийся с начального состояния . Минимальное значение критерия качества управления для этого случая

Продолжая эти рассуждения, получаем аналогичное выражение для (п-l)-шагового процесса, начинающегося с состояния х_l.

Уравнение, называемое часто уравнением Беллмана, представляет собой рекуррентное соотношение, позволяющее последовательно определять оптимальное управление на каждом шаге управляемого процесса и является основой динамического программирования.

Сама идея оптимизации управления на каждом шаге отдельно, если трудно оптимизировать сразу весь процесс в целом, не является оригинальной и широко используется на практике. Однако при этом часто не принимают во внимание, что оптимизация каждого шага еще не означает оптимизацию всего процесса в целом. Так, жертва фигуры в шахматной партии никогда не бывает выгодна с точки зрения отдельного хода, но она может быть выгодна с точки зрения всей партии. Расход средств на амортизацию может быть невыгоден с точки зрения конъюнктуры на отдельный момент, но он выгоден с точки зрения работы предприятия за длительный период.

Особенностью метода динамического программирования является то, что оно совмещает простоту решения задачи оптимизации управления на отдельном шаге с дальновидностью, заключающейся в учете самых отдаленных последствий этого шага.

В методе динамического программирования выбор управления на отдельном шаге производится не с точки зрения интересов данного шага, выражающихся в минимизации потерь на данном шаге, т. е величины Q(x_l, u_l), а с точки зрения интересов всего процесса в целом, выражающихся в минимизации суммарных потерь Q(x_l, u_l) +f_n_-(_l₊₁₎(x_l₊₁) на всех последующих шагах. Отсюда следует основное свойство оптимального процесса, заключающееся в том, что каковы бы ни были начальное состояние и начальное управление, последующие управления должны быть оптимальными относительно состояния, являющегося результатом применения первого управления.

Из основного свойства оптимального управления следует, что оптимизация управления для произвольной стадии многошагового процесса заключается в выборе только последующих управлений. Поэтому бывает удобно учитывать не те шаги, которые уже были пройдены, а те, которые осталось проделать, для того чтобы привести процесс в конечное состояние. С этой точки зрения уравнение удобно записать в иной форме.

Величина п-l означает число шагов до конца процесса. Обозначим эту величину через k. При этом величины и будем обозначать просто через х и и. Они будут означать состояние объекта и примененное управление за k шагов до конца процесса. Последующее состояние, т. е. то, к которому объект переходит из состояния х при применении управления и, обозначим через х'. Это будет x_n_-(_l₊₁₎ в прежних обозначениях. При этом уравнение запишется в виде

(1)

а рекуррентное соотношение примет вид:

(2)

Динамическое программирование является численным методом решения задачи оптимизации управления.

Определение оптимального управления на произвольном k-м шаге, отсчитываемом от момента окончания процесса, находится на основании соотношений (1) и (2), которые для удобства проведения численных расчетов удобно записать в несколько иной форме. Обозначим через F_k(x, и) величину критерия качества управления k-шагового процесса при оптимальном управлении на последних k—1 шагах и произвольном управлении на начальном шаге. Тогда соотношение (2) может быть записано в виде

где х' определяется из (1).

<<< < Предыдущая 1 2 3 4 5 6 78 / 178 9 10 11 12 13 14 15 16 17 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
22.08.20191.74 Mб7main (Автосохраненный).docx
#
15.04.201563.49 Кб59Makroekonomika_Itogovye_testy_s_otvetami.doc
#
01.03.20253.18 Mб0malenkie.docx
#
15.04.2015791.69 Кб8mal_dial.pdf
#
15.04.201516.95 Кб17Market Economy.docx
#
01.07.20251.34 Mб0Matematicheskie_osnovy_optimalnogo_upravlenia.doc
#
21.03.20161.14 Mб26Matematika7-1.doc
#
06.09.2019333.31 Кб13Mathcad1.doc
#
01.05.20255.48 Mб0MATLAB_R2013a_SimEvents_маг.doc
#
05.12.2018158.21 Кб4mayor - копия.doc
#
17.12.20185.57 Mб104Metoda_BZhD.doc