6.2. Оптимальное распределение ресурсов между несколькими этапами и между несколькими объектами Последовательная (многоэтапная) оптимизация с использованием метода динамического программирования

Метод динамического программирования (ДП) – это метод оптимизации, приспособленный к операциям, в которых процесс принятия решения может быть разбит на этапы (шаги). Такие операции называются многошаговыми (многоэтапными).

Развитие ДП относится к 50-м годам XXвека. В 1953г. американский математик Р. Беллман сформулировал принцип оптимальности многошаговых решений. В основе метода ДП теория марковских процессов, разработанная русским ученым А.А. Марковым.

Значительный вклад в решение подобных оптимизационных задач внес Л.В. Понтрягин, предложивший так называемый «принцип максимума Понтрягина»

Типичными задачами ДП является:

задача последовательного распределения средств между предприятиями;
задачи календарного планирования;
задачи распределения инвестиций во времени;
задачи замены оборудования;
задачи отыскания оптимальной последовательности обработки изделий на станках и т.п.

Метод ДП основан на принципе оптимальности Р. Беллмана.

Принцип оптимальности Р. Беллмана формулируется следующим образом:

Независимо от того, каким образом система пришла в данное состояние, последующие решения должны быть оптимальными.

Независимость от «прошлого» является характерной для так называемых марковских систем, примерами которых может быть кошелёк, склад и т.п.

Основное функциональное уравнение ДП строится на основе того, что решение на каждом шаге должно выбираться с учетом всех последствий в будущем, т.е. решение должно максимизировать сумму выигрыша на данном шаге и условного оптимального выигрыша на последующих шагах.

Решение задач ДП начинается с последнего (конечного) шага и развивается в направлении начального состояния.

Дело в том, что решение на последнем шаге выбирается исходя только из характеристик этого шага.

Последовательность действий в методе ДП состоит в том, что для каждого состояния определяется условный оптимальный выигрыш и условное оптимальное управление (решение).

Рассмотрим идеи метода ДП на примере, в котором система может находиться в трех состояниях (S_0,S₁,S₂) и необходимо принять два решения (х₁, х₂) по переводу оптимальным образом системы первый раз из состоянияS₀вS₁и затем второй раз изS₁вS₂.

Графическое представление системы показано на рис.6.10.

Рис. 6.10. Схема принятия решений при двух этапах

Приведенный рисунок соответствует уравнению Беллмана для двух этапов (шагов) принятия решения.

Z*₁(S₀) = max {F₁(S₀,x₁) + Z*₂ (S₁)}

х₁

Здесь:

S₀– начальное состояние;

S₁– промежуточное состояние;

S₂– конечное состояние;

х₁и х₂– возможные решения соответственно на 1-ом и 2-ом шаге;

х*₁и х*₂– оптимальные решения соответственно на 1-ом и 2-ом шаге;

F₁иF₂– значения выигрышей (целевой функции) при произвольном управленииxи соответствующих состоянияхS₀иS₁;

Z*₁иZ*₂– условные оптимальные выигрыши соответственно на 1-ом и 2-ом шаге.

<<< < Предыдущая 34 35 36 37 38 39 40 41 42 43 44 4546 / 9646 47 48 49 50 51 52 53 54 55 56 57 58 > Следующая >>>

Соседние файлы в предмете Экономика