Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Российский экономический университет им. Г.В. Плеханова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ЭММ (ОЗО) новое.doc

Скачиваний:

Добавлен:

29.04.2019

Размер:

4.12 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 78 / 228 9 10 11 12 13 14 15 16 17 18 19 20 21 22 > Следующая >>>

2. Модели динамического программирования Динамическое программирование

Динамическое программирование (ДП) – метод оптимизации приспособленный к операциям, в которых процесс принятия решения может быть разбит на этапы (шаги). Начало развития ДП относится к 50-м годам XX в. Оно связано с именем Р. Беллмана.

Общая постановка задачи ДП заключается в следующем. Рассматривается управляемый процесс, например, экономический процесс распределения средств между предприятиями, использования ресурсов в течении ряда лет и т.п. В результате управления система (объект управления) S переводится из начального состояния S₀ в состояние Ŝ. Пусть управление можно разбить на n шагов, т.е. решение принимается последовательно на каждом шаге, а управление, переводящее систему S из начального состояния в конечное, представляет собой совокупность n пошаговых управлений.

Пусть X_k – управление на к-ом шаге (k= ). Переменные X_kназываются допустимыми (X_k может быть числом, точкой в n – мерном пространстве, качественным признаком).

Пусть Х (Х₁, Х₂,... Х_n) – управление, переводящее систему S из состояния S₀ в состояние Ŝ. Обозначим через S_kсостояние системы после k-го шага управления. Получаем последовательность состояний S₀, S₁, ..., S_k-1, S_k, ..., S_n-1, S_n = Ŝ, которую изобразим схематично:

Показатель эффективности рассматриваемой управляемой операции -целевая функция - зависит от начального состояния и управления Z=F(S₀,X).

Пусть состояние S_kсистемы в конце k-го шага зависит только от предшествующего состояния S_k-1 и управления на k–ом шаге X_k и не зависит от предшествующего состояний и управлений. Это требование называется «отсутствием последействия». Сформулированное положение записывается в виде уравнений S_k=φ_k (S_k-1, Х_k), которые называются уравнениями состояний. Целевая функция является аддитивной от показателя эффективности каждого шага. Обозначим показатель

З адача пошаговой оптимизации (задача ДП) формулируется так: определить такое допустимое управление Х, переводящее систему S из состояния S₀ в состояние Ŝ, при котором целевая функция принимает наибольшее (наименьшее) значение.

Особенности модели ДП:

а) задача оптимизации интерпретируется как n–шаговый процесс управления;

б) целевая функция равна сумме целевых функций каждого шага;

в) выбор управления на k–ом шаге зависит только от состояния системы к этому шагу, не влияет на предшествующие шаги (нет обратной связи);

г) состояние S_k после k–го шага управления зависит только от предшествующего состояния S_k-1 и управления X_k (отсутствие последействия);

д) на каждом шаге управление X_k зависит от конечного числа управляющих переменных, состояние S_k – от конечного числа параметров.

В основе ДП лежит

Принцип оптимальности /Р. Беллман/. Каково бы ни было состояние S системы в результате какого-либо числа шагов, на ближайшем шаге нужно выбирать управление так, чтобы оно в совокупности с оптимальным управлением на всех последующих шагах приводило к оптимальному выигрышу на всех оставшихся шагах, включая данный.

Принцип оптимальности утверждает, что для любого процесса без обратной связи оптимальное управление таково, что оно является оптимальным для любого подпроцесса по отношению к исходному состоянию этого подпроцесса. Поэтому решение на каждом шаге является наилучшим с точки зрения управления в целом.

Вместо исходной задачи ДП с фиксированным числом шагов n и начальным состоянием S₀ рассмотрим последовательность задач, полагая последовательно n=1,2, ... при различных S – одношаговую, двухшаговую и т.д. – используя принцип оптимальности.

Введем ряд новых обозначений.

Рассмотрим n–й шаг: S_n-1 состояние системы к началу n–го шага, S_n = Ŝ – конечное состояние, Х_n управление на n–ом шаге, а f _n (S_n-1,Х_n) – целевая функция (выигрыш) n–го шага.

Согласно принципу оптимальности Х_n нужно выбирать так, чтобы для любых состояний S_n-1 получить максимум (минимум) целевой функции на этом шаге.

Обозначим через Z_n^* (S_n-1) максимум целевой функции – показателя эффективности n – го шага, при условии, что к началу последнего шага система S была в произвольном состоянии S_n-1, а на последнем шаге управление было оптимальным.

Z_n^* (S_n-1) называется условным максимумом целевой функции на n–ом шаге. Очевидно что

(1)

Максимизация ведется по всем допустимым управлениям Х_n. Решение Х_n, при котором достигается Z_n^* (S_n-1) также зависит от S_n-1и называется условным оптимальным управлением на n–ом шаге. Оно обозначается через X_n^* (S_n-1)

Z_n^* (S_n-1) - условно оптимальный выйгрыш на n – м шаге

Рис.1

f _n-1 (S_n-1, X_n-1) – значение целевой функции (n-1) – го шага при произвольном управлении X_n-1 и состоянии S_n-2

Решив одномерную задачу локальной оптимизации по управлению (1) найдем

для всех возможных состояний S_n-1 две функции Z_n^* (S_n-1) и Х_n^* (S_n-1).

Рассмотрим теперь двухшаговую задачу: присоединим к n–му шагу (n-1)–й (рис. 1).

Для любых состояний S_n-2,произвольных управлений Х_n-1 и оптимальном управлении на n-ом шаге значение целевой функции на двух последних шагах равно:

f_n-1(S_n-2, Х_n-1)+ Z_n^* (S_n-1) (2)

Согласно принципу оптимальности для любых S_n-2 решение нужно выбирать так, чтобы оно вместе оптимальным управлением на последнем (n-ом) шаге приводило бы к максимуму целевой функции на двух последних шагах. Следовательно, нужно найти максимум выражения (2) по всем допустимым управлениям Х_n-1 .Максимум этой суммы зависит от S_n-2 , обозначается через Z_n^* (S_n-2) и называется условным максимумом целевой функции при оптимальном управлении на двух последних шагах. Соответствующее управление Х_n-1 на (n-1)–ом шаге обозначается через Х_n^* (S_n-2) и называется условным оптимальным управлением на (n-1)–ом шаге.

(3)

Выражение, стоящее в фигурных скобках (3) зависит только от Sn-2 и Хn-1, так как Sn-1 можно найти из уравнения состояний Sk=φk (Sk-1,Хk) (k= ) при k=n-1, т.е. Sn-1=φn-1 (Sn-2,Хn-1) и подставить вместо Sn-1 в функцию Zn* (Sn-1).

В результате максимизации только по одной переменной Х_n-1 согласно уравнению (3) вновь получаются две функции Z_n-1^* (S_n-2) и Х_n-1^* (S_n-2).

Далее рассматривается трехшаговая задача: к двум последним шагам присоединяется (n-2)–ой и т.д.

Обозначим через Z_k^* (S_k-1) условный максимум целевой функции, полученный при оптимальном управлении на n-k+1 шагах, начиная с k–го до конца, при условии, что к началу k–го шага система находится в состоянии S_k-1. Фактически эта функция равна

Тогда

Рис. 2

Целевая функция на n–k последних шагах при произвольном управлении Х_k на k–ом шаге и оптимальном управлении на последующих n–х шагах равна f_k(S_k-1, X_k)+ Z_k+1^* (S_k).

Согласно принципу оптимальности, X_kвыбирается из условия максимума этой суммы, т.е. управление X_k на k–ом шаге, при котором достигается максимум в (4) обозначается

(4)

через X_k^* (S_k-1) и называется условным оптимальным управлением на k–ом шаге (в правую часть уравнения (4) следует вместо Sk подставить выражение S_k=φ_k (S_k-1,Х_k) , найденное из уравнений состояния).

Уравнения (4) называются уравнениями Беллмана. Это рекуррентные соотношения, позволяющие найти предыдущее значение функции, зная последующие. Если из (1) найти Z_n^* (S_n-1), то при k=n-1 из (4) можно определить, решив задачу максимизации для всех возможных значений S_n-2, выражения для Z_n-1^* (S_n-2) и соответствующее Х_n-1^* (S_n-2). Далее, зная Z_n-1^* (S_n-2) находим уравнения состояний.

Процесс решения уравнений (1) и (4) называется условной оптимизацией.

В результате условной оптимизации получаются две последовательности:

Z_n^*(S_n-1), Z_n-1^*(S_n-2), ..., Z₂^*(S₁), Z₁^*(S₀) – условные максимумы целевой функции на последнем, на двух последних, на ... n шагах и

Х_n^*(S_n-1), Х_n-1^*(S_n-2), ..., Х₂^*(S₁), Х₁^*(S₀) – условные оптимальные уравнения на n–ом шаге, (n-1)-м, ..., 1–м шагах.

Используя эти последовательности, можно найти решение задачи ДП при данных n и S₀. По определению Z₁^*(S₀) – условный максимум целевой функции за n шагов при условии, что к началу первого шага система была в состоянии S₀, т.е. Z_max = Z₁^*(S₀).

Далее следует использовать последовательность условных уравнений и уравнения состояний.

При фиксированном S₀ получаем Х₁^*=Х₁^*(S₀). Далее из уравнений состояний находим S₁^*=φ(S₀, Х₁^*) и подставляем это выражение в последовательность условных оптимальных управнений:

Х₂^*=Х₂^*(S₁) и т.д. по цепочке:

Получаем оптимальное решение задачи ДП: Х^* =(Х₁^*, Х₂^*, ..., Х_n^*). (Здесь  означает использование уравнений состояния, а  -последовательности условных оптимальных управлений.)

<<< < Предыдущая 1 2 3 4 5 6 78 / 228 9 10 11 12 13 14 15 16 17 18 19 20 21 22 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.03.202533.99 Кб2Элементарные и комплекстные состовляющие информ...docx
#
01.07.20251.16 Mб2Элементарные популяции рыб - для семинара.docx
#
30.08.201971.2 Кб8Элита в России.docx
#
01.04.202533.34 Кб2Эллада.docx
#
01.05.20251.41 Mб2эллектив__ПРЕП_методы ЦНС препод.doc
#
29.04.20194.12 Mб21ЭММ (ОЗО) новое.doc
#
01.05.2025891.73 Кб1ЭММ-1гл.docx
#
01.05.20252.48 Mб1ЭММ.ТЗ..doc
#
01.03.20253.14 Mб3ЭМММ лекции.docx
#
18.07.2019124.42 Кб8Эмоции - Рубинштейн, Леонтьев.doc
#
01.04.2025139.78 Кб1Эмпирич. соц сокр.doc