3.4. Условия, которым должна удовлетворять задача, описываемая моделью дп

1. Задача должна интерпретироваться как n-шаговый процесс управления, а показатель эффективности процесса должен быть представлен в аддитивной форме, например, как сумма показателей эффективности на каждом шаге.

2. Структура задачи (или алгоритм решения) должна быть инвариантна относительно числа шагов n, т.е. должна быть определена для любого n и не зависеть от него.

3. На каждом шаге состояние системы определяется конечным числом переменных состояния и управляется конечным числомпеременных управления, причемs и r не зависят от числа шагов n.

4. Выбор управления на k-м шаге не влияет на предшествующие шаги, а состояние в начале этого шага есть функция только предшествующего состояния и выбранного на нем управления (отсутствие последствия!).

3.5. Вычислительная схема дп для обратного хода

Несмотря на единообразие моделей, любая вычислительная схема в ДП строится в зависимости от конкретной задачи. Однако при этом можно отметить некоторые общие черты такого построения:

1. Решение уравнений (4) проводят последовательно, начиная с уравнения (3), т.е. обратным ходом. Этот этап называют условной оптимизацией.

2. В результате последовательного решения n частных задач на условный оптимум определяют две последовательности функций: условные оптимумы суммарного показателя эффективности на k-м шаге {Z_k(S_k_–1)} и соответствующие им условные оптимальные управления {u_k(S_k_–1)}, k = n, n – 1,…, 1. Эти последовательности функ-ций в дискретных задачах получают в табличной форме.

3. После выполнения I этапа приступают ко II этапу – безусловной оптимизации.

Если задано единственное начальное состояние S₀, т.е. то оптимум целевой функции определяется непосредственно:opt Z = Z₁ (S₀), а затем искомое безусловное оптимальное управление определяется по цепочке: S₀  u₁  S₁  u₂  …  u_n  S_n. В этой цепочке переход от состояния к управлению (S_k_–1  u_k) проводится по последовательности {u_k(S_k_–1)}, а переход от управления к состоянию (u_k S_k) – с помощью уравнения состояний (1).

Если же задано множество начальных состояний {S₀}, т.е. то дополнительно решают еще одну задачу на оптимум:

откуда находится конкретное оптимальное S₀ и оптимальное управление u₀, а затем, как и раньше, по цепочке – безусловное оптимальное управление.

3.6. Особенности вычислительной схемы дп для прямого хода

Особенности вычислительной схемы ДП для прямого хода следуют из особенностей модели ДП для прямого хода. Уточним их.

Уравнение состояний удобно записать в виде:

(тип 1')

Оно может быть получено решением уравнения (1) относительно S_k_–1. Иногда уравнение (1') удобно записать в виде:

Введем в рассмотрение показатель эффективности k-го шага f_k (S_k, u_k). Тогда суммарный показатель (целевая функция)

(тип 2')

Введя условные оптимумы показателя эффективности за первые k шагов и условные оптимальные управления наk-м шаге u_k(S_k), получим функциональные уравнения Беллмана в следующей форме: