2.Функциональное уравнение метода динамического программирования.

В основу динамического программирования положен достаточно очевидный принцип оптимальности Беллмана. Его можно сформулировать следующим образом. Оптимальная стратегия обладает тем свойством, что независимо от того, каким было первоначальное состояние и первоначальное решение, последующие решения должны быть оптимальными относительно состояния, которое возникло после принятия первого решения. Поясним принцип оптимальности. Пусть - оптимальная последовательность решений для ^ N-шагового процесса, который начинается из состояния p. Тогда очевидно является оптимальной последовательностью решений для N-1 шагового процесса, который начинается из состояния . Рассмотрим многошаговый процесс принятия решений (4.2). Будем качество этого процесса оценивать функционалом (4.5) здесь h - скалярная функция векторного аргумента. Функционал (4.5) для дискретных многошаговых процессов играет ту же роль, что и функционал вида для непрерывных процессов. Максимальное значение функционала (4.5) однозначно определяется начальным значением вектора состояния p и числом шагов N. Обозначим максимальное значение функционала . Функцию будем считать определенной для любого значения вектора состояния p и любого числа шагов N. Воспользуемся принципом оптимальности Беллмана. Пусть на первом шаге выбрано некоторое решение , а в последующем в соответствии с принципом оптимальности принимаются оптимальные решения. Тогда функционал (4.6) Для того, чтобы оптимизировать N-шаговый процесс, необходимо, очевидно, вектор выбрать таким образом, чтобы он максимизировал правую часть равенства (4.6). В результате получим соотношение (4.7) К равенству (4.7) следует добавить уравнение (4.8) Функция задает максимальное значение функционала (4.5), когда он содержит только одно слагаемое. Равенство (4.7) связывает между собой максимальное значение функционала для N-шагового процесса с максимальным значением функционала для (N-1)-шагового процесса и называется основным функциональным уравнением Беллмана. Равенство (4.7) задает рекуррентное соотношение, которое решается последовательно. Из уравнения (4.8) определяется функция и подставляется в правую часть равенства (4.7), положив N=1. Максимизировав правую часть равенства (4.7), получим функцию . Затем по функции определяется функция и т.д. При этом наряду с последовательностью функций , которые задают максимальное значение функционала, получим последовательность функций , задающих оптимальную стратегию. Последовательность состоит из функций, которые максимизируют правую часть уравнения (4.7) (при N=0 правую часть уравнения (4.8)). Запишем уравнения (4.7) и (4.8), используя скалярные функции и скалярные переменные: Отметим одну важную особенность метода динамического программирования. Данным методом оптимальные решения определяются в виде функции стратегии. Если использовать терминологию главы 2, то можно сказать, что метод позволяет определять оптимальное управление только в виде синтезирующей функции. Рассмотрим еще несколько функционалов. Пусть качество многошагового процесса принятия решений (4.2) оценивается функционалом Принцип оптимальности Беллмана в этом случае приводит к функциональному уравнению Для вариационного исчисления весьма сложными являются функционалы вида (4.9) Обозначим максимальное значение функционала (4.9). Применяя принцип оптимальности Беллмана, получим функциональное уравнение Если рассматривается бесконечношаговый процесс, то функционал (4.5) принимает вид (4.10) Будем предполагать, что ряд (4.10) сходится при любых значениях векторов . Максимальное значение функционала (4.10) в этом случае однозначно определяется начальным значением вектора p. Принцип оптимальности Беллмана приводит к функциональному уравнению