Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ekonomikomatematicheskie_metody_i_modeli_prinya...docx
Скачиваний:
4
Добавлен:
01.07.2025
Размер:
1.08 Mб
Скачать

Вопрос 36. Принцип оптимальности Беллмана и алгоритм решения задач динамического программирования

В основе метода динамического программировании лежит замена решения исходной мно­гомерной задачи последовательностью задач меньшей раз­мерности.

Необходимые условия применения метода ДП:

объектом исследования является управляемая сис­тема (объект) с заданными допустимыми состояниями и допустимыми управлениями;

задача должна позволять интерпретацию как многошаговый процесс, каждый шаг которого состоит из принятия реше­ния о выборе одного из допустимых управлений;

состояние, в котором оказывается система пос­ле выбора решения на k-м шаге, зависит только от данного решения и состояния к началу k-го шага. Это важнейшее свойство называется отсутствием последействия.

Важно понимать, что в ДП речь не идет о простой оптимизации каждого шага управления независимо от других шагов. Напротив, шаговое управление должно проводиться дальновидно, с учетом всех его последствий в будущем. Это означает, что управление на i-м шаге выбирается не так, чтобы выигрыш (например, прибыль) именно на данном шаге был максимален, а так, чтобы была максимальна сумма выигрышей на всех оставшихся до конца шагах, включая данный.

Более строго это положение формулирует принцип оптимальности Беллмана, лежащий в основе решения всех задач ДП:

Каково бы ни было состояние системы S перед очередным шагом, надо выбирать управление на этом шаге так, чтобы выигрыш на данном шаге плюс оптимальный выигрыш на всех последующих шагах был максимальным.

Принципиально важно, что среди всех шагов есть один, который можно планировать без учета его последствий. Очевидно, это последний шаг, который может быть реализован таким образом, чтобы он принес наибольшую выгоду.

В связи с этим, процесс ДП обычно проводится в направлении от конца к началу, т.е. планируется сначала последний шаг (шаг номер n). Планируя последний шаг, делаются различные предположения о том, чем кончился предпоследний -й шаг, и для каждого из этих предположений находится условное оптимальное управление на -м шаге (термин «условное» означает, что управление выбирается исходя из условия, что предпоследний шаг закончился каким-то конкретным образом). После того, как определено условное оптимальное управление на -м шаге для каждого из возможных исходов предпоследнего ( )-го шага, процесс продолжается. Аналогично проводится оптимизация управления на предпоследнем ( )-м шаге с учетом всех возможных предположений об окончании теперь уже ( )-го шага. Процесс продолжается вплоть до первого шага.

После того, как определены все условно оптимальные управления на всех шагах, определяется оптимальное управление для всего процесса.

Сформулируем алгоритм решения задачи методом ДП:

Выбираются параметры состояния управляемой системы;

Операция расчленяется на этапы;

Определяется набор шаговых управлений ;

Определяется, какой выигрыш приносит на i-м шаге управление , если перед этим система была в состоянии i-1 ( ), т.е. записывается “функция выигрыша”;

Определяется, как изменяется состояние системы под влиянием управления на i-м шаге

(переход системы из состояния в состояние ; при этом, естественно, должны быть определены «функции изменения состояния» (5));

Записывается основное рекуррентное соотношение ДП (уравнение Беллмана), выражающее условный оптимальный выигрыш (начиная с -го шага и до конца) через уже известную функцию :

Этому выигрышу соответствует условное оптимальное управление на i-м шаге;

Производится условная оптимизация последнего ( -го шага) по формуле

и определяется соответствующее условное оптимальное управление;

Производится условная оптимизация ( )-го, ( )-го, и т.д. шагов по формуле (6), полагая в ней и т.д. и для каждого из шагов определяется условное оптимальное управление, при котором максимум достигается;

Производится безусловная оптимизация управления с учетом соответствующих рекомендаций на каждом шаге. Она осуществляется путем перемещения по оптимизируемому многошаговому процессу в прямом направлении – от первого шага к последнему