Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Пермский национальный исследовательский политехнический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

MU_po_SR_po_dists_MOR_polnaya_ZO.docx

Скачиваний:

Добавлен:

01.07.2025

Размер:

2.92 Mб

Скачать

☆

<<< < Предыдущая 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1718 / 2618 19 20 21 22 23 24 25 26 > Следующая >>>

§2. Принцип оптимальности и уравнения Беллмана

Принцип оптимальности впервые был сформулирован Р. Беллманом в 1953 г. Он заключается в следующем:

Каково бы ни было состояние S системы в результате какого-либо числа шагов, на ближайшем шаге нужно выбирать управление так, чтобы оно в совокупности с оптимальным управлением на всех последующих шагах приводило к оптимальному выигрышу на всех оставшихся шагах, включая данный.

Беллманом четко были сформулированы и условия, при которых принцип верен. Основное требование — процесс управления должен быть без обратной связи, т.е. управление на данном шаге не должно оказывать влияния на предшествующие шаги.

Принцип оптимальности утверждает, что для любого процесса без обратной связи оптимальное управление таково, что оно является оптимальным для любого подпроцесса по отношению к исходному состоянию этого подпроцесса. Поэтому решение на каждом шаге оказывается наилучшим с точки зрения управления в целом. Если изобразить геометрически оптимальную траекторию в виде ломаной линии, то любая часть этой ломаной будет являться оптимальной траекторией относительно начала и конца.

Уравнения Беллмана. Вместо исходной задачи ДП (см. §1) с фиксированным числом шагов п и начальным состоянием S₀рассмотрим последовательность задач, полагая последовательно n=1, 2, ... при различных S — одношаговую, двухшаговую и т.д., — используя принцип оптимальности.

Введем ряд новых обозначений. Обозначения в ДП несут большую информационную нагрузку, поэтому очень важно их четко усвоить.

На каждом шаге любого состояния системы S_k_₁ решение X_k нужно выбирать «с оглядкой», так как этот выбор влияет на последующее состояние S_k и дальнейший процесс управления, зависящий от S_k. Это следует из принципа оптимальности.

Но есть один шаг, последний, который можно для любого состояния S_n_₁ планировать локально-оптимально, исходя только из соображений этого шага.

Рассмотрим n-й шаг: S_n_₁ — состояние системы к началу n-го шага, S_n= — конечное состояние, X_n — управление на n-м шаге, f_n(S_n_₁, Х_n) — целевая функция (выигрыш) n-го шага.

Согласно принципу оптимальности, Х_п нужно выбирать так, чтобы для любых состояний S_n_₁ получить максимум целевой функции на этом шаге.

Обозначим через (S_n_₁) максимум целевой функции — показателя эффективности n-го шага при условии, что к началу последнего шага система S была в произвольном состоянии S_n_₁,, а на последнем шаге управление было оптимальным.

(S_n_₁) называется условным максимумом целевой функции на п-м шаге. Очевидно, что

(S_n_₁)= f_n(S_n_₁, Х_n). (2.1)

Максимизация ведется по всем допустимым управлениям Х_n.

Решение Х_n, при котором достигается (S_n_₁), также зависит от S_n_₁ и называется условным оптимальным управлением на п-м шаге. Оно обозначается через (S_n_₁).

Решив одномерную задачу локальной оптимизации по уравнению (2.1), найдем для всех возможных состояний S_n_₁ две функции: (S_n_₁) и (S_n_₁).

Рассмотрим теперь двухшаговую задачу: присоединим к n-му шагу (n1)-й (рис. 2).

Для любых состояний S_n_₂, произвольных управлений X_n_₁ и оптимальном управлении на n-м шаге значение целевой функции на двух последних шагах равно:

f_n_₁(S_n_₂, Х_n_₁)+ (S_n_₁) (2.2)

Согласно принципу оптимальности для любых S_n_₂ решение нужно выбирать так, чтобы оно вместе с оптимальным управлением на последнем (n-м) шаге приводило бы к максимуму целевой функции на двух последних шагах. Следовательно, нужно найти максимум выражения (2.2) по всем допустимым управлениям Х_n_₁. Максимум этой суммы зависит от S_n_₂, обозначается через (S_n_₂) и называется условным максимумом целевой функции при оптимальном управлении на двух последних шагах. Соответствующее управление Х_n_₁ на (n1)-м шаге обозначается через (S_n_₂) и называется условным оптимальным управлением на (n1)-м шаге. Имеем

(S_n_₂)= {f_n_₁(S_n_₂, Х_n_₁)+ (S_n_₁)} (2.3)

Следует обратить внимание на то, что выражение, стоящее в фигурных скобках (2.3), зависит только от S_n_₂ и X_n_₁, так как можно найти из уравнения состояний (1.2) при k=п1:

S_n_₁=_n_₁(S_n_₂, Х_n_₁)

и подставить вместо S_n_₁ в функцию (S_n_₁).

В результате максимизации только по одной переменной Х_n_₁ согласно уравнению (2.3) вновь получаются две функции:

(S_n_₂) и (S_n_₂).

Далее рассматривается трехшаговая задача: к двум последним шагам присоединяется (n2)-й и т. д.

Обозначим через (S_k_₁) условный максимум целевой функции, полученный при оптимальном управлении на пk+1 шагах, начиная с k-го до конца, при условии, что к началу k-го шага система находилась в состоянии S_k_₁. Фактически эта функция равна

(S_k_₁)= (S_i_₁, Х_i).

Тогда

(S_k)= (S_i_₁, Х_i).

Целевая функция на пk с последних шагах (рис. 3) при произвольном управлении Х_k на k-м шаге и оптимальном управлении на последующих пk шагах равна

f_k(S_k_₁, Х_k)+ (S_k).

Согласно принципу оптимальности, Х_k выбирается из условия максимума этой суммы, т.е

(S_k_₁)= {f_k(S_k_₁, Х_k)+ (S_k)}, k=n1, n2, …, 2, 1. (2.4)

Управление Х_k на k-м шаге, при котором достигается максимум в (2.4), обозначается через (S_k_₁) и называется условным оптимальным управлением на k-м шаге (в правую часть уравнения (2.4) следует вместо S_k подставить выражение S_k=_k(S_k_₁, Х_k), найденное из уравнений состояния).

Уравнения (2.4) называют уравнениями Беллмана. Это рекуррентные соотношения, позволяющие найти предыдущее значение функции, зная последующие. Если из (2.1) найти (S_n_₁), то при k=п1 из (2.4) можно определить, решив задачу максимизации для всех возможных значений S_n_₂, выражения для (S_n_₂) и соответствующее (S_n_₂). Далее, зная (S_n_₂), находим, используя (2.4) и (1.2), уравнения состояний.

Процесс решения уравнений (2.1) и (2.4) называется условной оптимизацией.

В результате условной оптимизации получаются две последовательности:

(S_n_₁), (S_n_₂), …, (S₁), (S₀) 

условные максимумы целевой функции на последнем, на двух последних, на ... n шагах и

(S_n_₁), (S_n_₂), …, (S₁), (S₀) 

условные оптимальные управления на n-м, (п1)-м, ..., 1-м шагах.

Используя эти последовательности, можно найти решение задачи ДП при данных п и S₀. По определению (см. §1) (S₀)  условный максимум целевой функции за п шагов при условии, что к началу 1-го шага система была в состоянии S₀, т.е.

Z_max= (S₀). (2.5)

Далее следует использовать последовательность условных оптимальных управлений и уравнения состояний (1.2).

При фиксированном S₀ получаем = (S₀). Далее из уравнений (1.2) находим =₁(S₀, ) и подставляем это выражение в последовательность условных оптимальных управлений:

= ( ) и т.д. по цепочке¹:

= (S₀)  =₁(S₀, )  = ( ) 

 =₂( , )  = ( )  … 

 =_n_₁( , )  = ( ).

Получаем оптимальное решение задачи ДП:

=( , , …, ).

(Стрелка  означает использование уравнений состояния, а стрелка  — последовательности условных оптимальных управлений).

<<< < Предыдущая 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1718 / 2618 19 20 21 22 23 24 25 26 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
03.09.2019742.4 Кб19Mufty_mehanicheskie_2011.doc
#
01.07.202542.7 Кб1Munitsipalnoe_avtonomnoe_obscheobrazovatelnoe_uchrezhdenie.docx
#
29.03.20154.95 Mб92MU_Istoria_po_sam_rab.pdf
#
01.07.202562.89 Кб1MU_kurs_osnovy_marketinga_docx.docx
#
01.07.2025153.59 Кб1MU_k_VKR_KOMMERTsIYa.docx
#
01.07.20252.92 Mб3MU_po_SR_po_dists_MOR_polnaya_ZO.docx
#
13.03.2016655.4 Кб57Mylnikov_otvety.docx
#
01.07.202571.25 Кб1NAChALO_33__33__33.docx
#
01.03.20251.27 Mб1Nachertalka_25-35.doc
#
29.03.20153.52 Mб9NADEGN_1.docx
#
01.05.202571.17 Кб0Nalogi.doc