Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Белорусский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ekonomikomatematicheskie_metody_i_modeli_prinya...docx

Скачиваний:

Добавлен:

01.07.2025

Размер:

1.08 Mб

Скачать

☆

<<< < Предыдущая 9 10 11 12 13 14 15 16 17 18 19 2021 / 3421 22 23 24 25 26 27 28 29 30 31 32 33 > Следующая >>>

Вопрос 36. Принцип оптимальности Беллмана и алгоритм решения задач динамического программирования

В основе метода динамического программировании лежит замена решения исходной многомерной задачи последовательностью задач меньшей размерности.

Необходимые условия применения метода ДП:

объектом исследования является управляемая система (объект) с заданными допустимыми состояниями и допустимыми управлениями;

задача должна позволять интерпретацию как многошаговый процесс, каждый шаг которого состоит из принятия решения о выборе одного из допустимых управлений;

состояние, в котором оказывается система после выбора решения на k-м шаге, зависит только от данного решения и состояния к началу k-го шага. Это важнейшее свойство называется отсутствием последействия.

Важно понимать, что в ДП речь не идет о простой оптимизации каждого шага управления независимо от других шагов. Напротив, шаговое управление должно проводиться дальновидно, с учетом всех его последствий в будущем. Это означает, что управление на i-м шаге выбирается не так, чтобы выигрыш (например, прибыль) именно на данном шаге был максимален, а так, чтобы была максимальна сумма выигрышей на всех оставшихся до конца шагах, включая данный.

Более строго это положение формулирует принцип оптимальности Беллмана, лежащий в основе решения всех задач ДП:

Каково бы ни было состояние системы S перед очередным шагом, надо выбирать управление на этом шаге так, чтобы выигрыш на данном шаге плюс оптимальный выигрыш на всех последующих шагах был максимальным.

Принципиально важно, что среди всех шагов есть один, который можно планировать без учета его последствий. Очевидно, это последний шаг, который может быть реализован таким образом, чтобы он принес наибольшую выгоду.

В связи с этим, процесс ДП обычно проводится в направлении от конца к началу, т.е. планируется сначала последний шаг (шаг номер n). Планируя последний шаг, делаются различные предположения о том, чем кончился предпоследний -й шаг, и для каждого из этих предположений находится условное оптимальное управление на -м шаге (термин «условное» означает, что управление выбирается исходя из условия, что предпоследний шаг закончился каким-то конкретным образом). После того, как определено условное оптимальное управление на -м шаге для каждого из возможных исходов предпоследнего ( )-го шага, процесс продолжается. Аналогично проводится оптимизация управления на предпоследнем ( )-м шаге с учетом всех возможных предположений об окончании теперь уже ( )-го шага. Процесс продолжается вплоть до первого шага.

После того, как определены все условно оптимальные управления на всех шагах, определяется оптимальное управление для всего процесса.

Сформулируем алгоритм решения задачи методом ДП:

Выбираются параметры состояния управляемой системы;

Операция расчленяется на этапы;

Определяется набор шаговых управлений ;

Определяется, какой выигрыш приносит на i-м шаге управление , если перед этим система была в состоянии i-1 ( ), т.е. записывается “функция выигрыша”;

Определяется, как изменяется состояние системы под влиянием управления на i-м шаге

(переход системы из состояния в состояние ; при этом, естественно, должны быть определены «функции изменения состояния» (5));

Записывается основное рекуррентное соотношение ДП (уравнение Беллмана), выражающее условный оптимальный выигрыш (начиная с -го шага и до конца) через уже известную функцию :

Этому выигрышу соответствует условное оптимальное управление на i-м шаге;

Производится условная оптимизация последнего ( -го шага) по формуле

и определяется соответствующее условное оптимальное управление;

Производится условная оптимизация ( )-го, ( )-го, и т.д. шагов по формуле (6), полагая в ней и т.д. и для каждого из шагов определяется условное оптимальное управление, при котором максимум достигается;

Производится безусловная оптимизация управления с учетом соответствующих рекомендаций на каждом шаге. Она осуществляется путем перемещения по оптимизируемому многошаговому процессу в прямом направлении – от первого шага к последнему

<<< < Предыдущая 9 10 11 12 13 14 15 16 17 18 19 2021 / 3421 22 23 24 25 26 27 28 29 30 31 32 33 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
23.09.2019221.07 Кб82Ekonomika_organizatsii.docx
#
01.05.202591.77 Кб14Ekonomika_predpriati!!!!!!!!!a.docx
#
21.09.201962.3 Кб43Ekonomika_predpriatia_gos_ekzamen.docx
#
26.09.201973.15 Кб57EKONOMIKA_shpory_k_ekzamenu_1-15.docx
#
21.09.20192.33 Mб286Ekonomika_uchebnik.doc
#
01.07.20251.08 Mб4ekonomikomatematicheskie_metody_i_modeli_prinya...docx
#
17.11.2018548.86 Кб40Ekonomisty_LOGIKA.doc
#
15.04.2019910.34 Кб86ekonomteoria.doc
#
12.11.2018273.92 Кб27Ekonom_teoriya_Zaochniki_Kontrol_naya_rabota.doc
#
27.11.201965.54 Кб28Ekoom_teoria_Plany_SZ_2012_09_Komplekt_22_cha.doc
#
01.07.2025158.34 Кб0Ekzamenatsionnye_voprosy-1_1__1.docx