Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Лекция №5.doc

Скачиваний:

Добавлен:

17.09.2019

Размер:

339.46 Кб

Скачать

☆

1 / 31 2 3 > Следующая >>>

4. Метод динамического программирования.

4.1. Принцип оптимальности

Рассмотрим систему

(4.1)

и функционал

(4.2)

который требуется минимизировать. Правый конец фазовых координат является свободным.

Наряду с этой вариационной задачей рассмотрим вспомогательную, когда процесс рассматривается в интервале и минимизируется функционал

. (4.3)

Пусть сначала найден минимум J (4.2) и соответствующее ему оптимальное управление (рис. 1а):

(4.4)

а потом – минимум (4.3) и оптимальное управление (рис. 1б):

. (4.5)

В последнем случае предполагается, что в момент процесс начинается с состояния , достигнутого к моменту времени при оптимизации процесса в интервале .

Вообще говоря, управления и отличаются интервалом и значениями. Принцип оптимальности утверждает, что оптимальные управления и в общей части интервала совпадают, не зависимо от предыстории процесса и вполне определяются состоянием в момент .

В случае со свободным правым концом принцип оптимальности доказывается. В самом деле, допустим, что на участке управления и не совпадают и

. (4.6)

Рис. 1а Рис.1б

Тогда для первой задачи введем управление

(4.7)

и вычислим функционал

При управлении u (4.7) функционал (4.2) принимает меньшее значение, чем при (4.4). Но управление является оптимальным. Поэтому допущение (4.6) неверно.

A предположение

противоречит тому, что - управление, минимизирующее (4.3).

Таким образом, остается, что

и если оптимальное управление единственное, то

Кратко принцип оптимальности можно сформулировать так: последний участок оптимальной траектории является оптимальным независимо от предыстории процесса.

4.2. Основное уравнение метода динамического программирования

Применим принцип оптимальности к решению вариационной задачи (4.1), (4.2). Для этого сначала рассмотрим функционал (4.3). Наименьшее значение его при связях (4.1) обозначим:

. (4.8)

Если - оптимальное управление,

то .

Оптимальное управление зависит от начального состояния y(t) в момент t. Следовательно, v является функцией от y и t: v = v(y, t), а от управления u и его вариаций функция v = v(y, t) не зависит. Она вполне определяется значениями y, t .

Интервал (t, T) разделим на два интервала (t, t + t) и (t + t, T) и выражение (4.8) запишем в виде:

Согласно принципу оптимальности последний участок также является оптимальным:

(4.9)

Обозначим:

, (4.10)

где - приращение вектора фазовых координат за время . Оно определяется согласно уравнениям движения (4.1). Подставляя из (4.10) в равенство (4.9), получим:

Хотя функция зависит только от фазовых координат и времени, ее нельзя выносить за знак . Значение приращения за время зависит от управления в интервале . Но не зависит от управления в интервале , и ее можно внести под знак . Введем под знак минимума и разделим на :

Учитывая, что

;

получим основное уравнение метода динамического программирования:

. (4.11)

Это соотношение состоит из двух утверждений:

выражение достигает минимума. Это утверждение служит для определения оптимального управления ;
выражение при оптимальном управлении равняется нулю. Утверждение служит для определения функции .

Если - управление, минимизирующее выражение , то основное уравнение метода динамического программирования

(4.12)

Здесь зависит от управления по определению, функция же не зависит от него. Тем не менее, производная от управления зависит. В этом можно убедиться, если ее представить в виде

и y_i’ заменить согласно системе (4.1):

. (4.13)

Подставляя (4.13) в (4.12) получим уравнение Р.Беллмана:

. (4.14)

Это уравнение в частных производных относительно , которое после подстановки становится нелинейным. Согласно определению v (4.8) при должно выполняться конечное условие

В случае бесконечного интервала при процесс должен быть асимптотически устойчивым, т.е. .

В том случае, когда рассматривается функционал Больца

(4.15)

Уравнение (4.12) сохраняет силу, функция v в момент должна удовлетворять условию

. (4.16)

1 / 31 2 3 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.202543.75 Кб0Лекция №4 новая.docx
#
01.05.202575.78 Кб0Лекция №4 по СД в гериатрии-3.doc
#
09.11.2018415.74 Кб14Лекция №4. ММД как биол омнова ЗПР.doc
#
15.11.2018145.41 Кб3Лекция №4.doc
#
01.05.202595.8 Кб0лекция №4.docx
#
17.09.2019339.46 Кб6Лекция №5.doc
#
13.07.2019557.06 Кб1Лекция №5.doc
#
01.05.202599.84 Кб0Лекция №6 по гериатрии-3.doc
#
27.11.2019199.68 Кб1Лекция №6 Синтаксис.doc
#
01.05.202590.11 Кб0Лекция №6.doc
#
01.05.202581.92 Кб0Лекция №7 по СД в гериатрии-3.doc