Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Казахская академия транспорта и коммуникаций им. М. Тынышпаева

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

OTAU lecture 1.docx

Скачиваний:

Добавлен:

01.07.2025

Размер:

1.96 Mб

Скачать

☆

<<< < Предыдущая 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 3839 / 4439 40 41 42 43 44 > Следующая >>>

8.5. Оптимальное позиционное управление (динамическое программирование)

Среди задач оптимального управления различают задачи программного оптимального управления и позиционного оптимального управления. В первом случае (см. подглаву 8.5) управляющее воздействие U формируется в виде функции времени. Во втором случае управляющее воздействие U формируется в виде стратегии управления по принципу обратной связи, как функция от доступных значений фазового вектора состояний объекта управления (задача синтеза, о которой говорилось в главе 1).

Нахождение оптимального управления U⁰(t, X) сразу в виде функции текущего состояния связано с использованием метода динамического программирования. Этот метод представляет собой обширный раздел математики, посвященный решению многошаговых задач оптимального управления. При этом выбор управления на каждом шаге осуществляется в соответствии с конечной целью управления и состоянием системы, полученным в результате управления, принятого на предыдущем шаге.

В ряде задач автоматического управления многошаговость проистекает из существа процесса. Например, определение оптимальных размеров ступеней в многоступенчатой ракете. Часто многошаговость вводится искусственно, чтобы обеспечить возможность применения данного метода. Термин «динамическое» указывает на существенную роль времени и порядка в выборе управления.

Основная идея метода. Пусть процесс управления некоторой системой X состоит из m шагов. На i-м шаге управление U_i - переводит систему из состояния X_i_-1, достигнутого в результате (i-1)-го шага, в новое состояние X_i. Этот процесс перехода осуществляет заданная функция f_i(X,U), и новое состояние определяется значениями X_i_-1, U_i:

X_i=f_i(X_i_-1,U_i). (8.5.1)

Таким образом, управления U₁,U₂,...,U_m переводят систему из начального состояния Х₀ в конечное состояние Х_т, причем требуется, чтобы заданный функционал F(X₀,U₁,Х₁,U₂,...,U_т, Х_т) достигал экстремального значения F*, то есть, например,

(8.5.2)

Важной особенностью метода динамического программирования является то, что он применим лишь для аддитивной целевой функции. Это означает в данном примере, что

(8.5.3)

В основе этого метода лежит принцип оптимальности, сформулированный Р. Беллманом. Этот принцип утверждает, что отрезок оптимальной траектории есть снова оптимальная траектория. В применении к рассматриваемому примеру этот принцип может быть переформулирован следующим образом: предположим, что осуществляя управление системой X, мы уже выбрали некоторые управления U₁,U₂, ..., U_k и тем самым траекторию Х₀, Х₁, ..., X_k и хотим завершить процесс, то есть выбрать U_k₊₁, U_k_+2,…,U_m (а значит, и X_k₊₁, X_k₊₂,…, Х_т). Тогда, если завершающая часть процесса не будет оптимальной в смысле достижения максимума

(8.5.4)

то и весь процесс не будет оптимальным.

Используя этот принцип, получим основное функциональное соотношение метода динамического программирования, называемое уравнением Беллмана. Определим последовательность функций переменной х:

ω_m(X)=0, (k=1,2,…,m) (8.5.5)

Здесь максимум берется по всем управлениям, допустимым на шаге k. Смысл функций ω_k_-1(X) ясен: если система на шаге k - 1 оказалась в состоянии X, то ω_k_-1(X) - максимально возможное значение функции F. Одновременно с построением функции ω_k_-1(X) находятся условные оптимальные управления U_k(X) на каждом шаге, то есть значения оптимального управления при всевозможных предположениях о состоянии х системы на шаге k-1.

Уравнения Беллмана позволяют рассчитать всю последовательность значений ω_k(X), начиная с Х_т, U_mвплоть до Х₀ - произвольного начального состояния. При этом расчете U(X,t) может интерпретироваться как оптимальный закон управления с обратной связью по измерениям текущего (шаг k) состояния объекта.

Из сказанного очевидна следующая особенность метода динамического программирования - с его помощью решается не одна конкретная задача при определенном Х₀, а сразу все подобные однотипные задачи при любом начальном состоянии.

Численная реализация метода динамического программирования весьма сложна и применяют его обычно в тех случаях, когда необходимо многократно решать типовые задачи, например такие, как определение оптимального режима полета самолета при меняющихся погодных условиях. Основная идея метода динамического программирования переносится и на непрерывные во времени системы автоматического управления.

Рассмотрим вновь оптимальную задачу

(8.5.6)

на траекториях системы

(8.5.7)

Введем функцию

(8.5.8)

где минимизация производится при условиях

(8.5.9)

Выведем уравнение Беллмана в этом случае, имея в виду, что оптимальное значение критерия

(8.5.10)

Рассмотрим два момента времени τ и τ+Δ, Δ > 0. Согласно определению В(Х,τ) имеем

(8.5.11)

Здесь вновь используется основная идея метода динамического программирования, дающая возможность провести сначала выбор управления, начиная с момента τ+Δ до Т, а затем осуществить минимизацию по значениям управления в пределах отрезка [τ,τ+Δ].

Считая, что функции F(X,U,t) и f(X,U,t) непрерывны по всем аргументам, допустимые траектории X(t) непрерывны по t и U(t) принадлежат к классу кусочно-непрерывных функций, причем отрезок [τ, τ+Δ] не включает точек разрыва, имеем с точностью до членов более высокого порядка малости по Δ:

Δx_i (τ)=fi(x(τ), и (τ), τ) Δ (i=1, 2,...,n), (8.5.12)

(8.5.13)

Считая, что функция В(Х,τ) дифференцируема, разложим ее в ряд Тейлора, пренебрегая более высокими членами малости, чем Δ:

(8.5.14)

Подставив (8.4.12), (8.4.13), (8.4.14) в (8.4.11) и заменяя τ на t, получаем искомое уравнение Беллмана в непрерывном случае:

(8.5.15)

Так же как и в дискретном случае, важно понимать, что функция U(X,t), минимизирующая выражение

(8.5.16)

по явно входящему U в пределах допустимой области U при фиксированных X и t, определяет оптимальный закон управления с обратной связью по измерениям текущего состояния системы X = X(t). Сравнивая выражения (8.5.16) с основным условием принципа максимума Понтрягина (8.4.7), нетрудно усмотреть, что обозначив -∂B/∂x_i=ψ_i(t) и определив функцию Гамильтона, как и ранее, приходим к требованию ее максимизации при U(t) U. Отметим в заключение, что материал данной главы сложен, и это надо ясно себе представлять. Строгое его изложение потребовало бы от читателя знаний функционального анализа и топологии, а кроме того, значительного объема учебника. Хотя в подзаголовке учебника обозначено «математические методы», что вроде бы неявно подразумевает обучение некоей вычислительной технике решения задач автоматического управления, следует все же различать основополагающие идеи, заложенные в тот или иной метод и технику его численной реализации. В данной главе учебника основной акцент сделан именно на идеях, в них заложенных, вернее, на развитии идеи Лагранжа, цитируемой в подглаве 8.1. Вычислительная же техника этих методов - это умение составления корректных алгоритмов, реализация которых возможна, как правило, только на самых современных и мощных ЭВМ.

<<< < Предыдущая 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 3839 / 4439 40 41 42 43 44 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.20251.36 Mб4NOK_ASSUD_745.rtf
#
08.04.201573.73 Кб28OBZh_surak.doc
#
01.07.202526.73 Кб4OET.docx
#
01.05.2025676.89 Кб9OPPT Ustno OK.docx
#
01.07.2025731.65 Кб6Ordabekova_A_VOLS_KR.doc
#
01.07.20251.96 Mб9OTAU lecture 1.docx
#
08.04.201596.91 Кб32Otvety_2.docx
#
01.07.2025202.24 Кб4Otvety_GOSY_30b.docx
#
01.07.20251.04 Mб3P3.RTF
#
14.03.2016741.04 Кб14pf.rtf
#
01.07.2025180.91 Кб9philosophy_1-8 (2).docx