2.2. Задача о рюкзаке. Уравнение Беллмана для задачи о рюкзаке.

Задача о рюкзаке.

Рассмотрим на примере задачи о рюкзаке, что понимается под шагом, состоянием, управлением и выигрышем.

Загрузку рюкзака можно представить себе как процесс, состоящий из n шагов. На каждом шаге требуется ответить на вопрос: взять данный предмет в рюкзак, или нет? Таким образом, шаг процесса – присваивание переменной x_iзначения 1 или 0.

Теперь определим состояния. Очевидно, что текущее состояние процесса характеризует остаточная грузоподъемность рюкзака – вес, который остался в нашем распоряжении до конца (до полной укладки рюкзака). Следовательно, под состоянием перед i-м шагом понимается величина

s_i_-1= b - , i=2, . . . , n, (2.6)

при этом s₀ является начальным состоянием, которому соответствует величина b – исходная грузоподъемность рюкзака.

Управление на i-м шаге означает присваивание двоичной переменной x_i значения 0 или 1. Значит, на каждом шаге имеем всего два управления. Причем допустимость управления u_i, устанавливающего x_i=1, определяется условием

s_i = σ(s_i-1,u_i) = s_i-1– a_ix_i =b - ≥ 0 (2.7)

Далее везде вместо переменных x₁, x₂, . . . , x_nбудем использовать соответствующие управления u₁, u₂, . . . , u_n. Тогда формулы (2.6), (2.7) примут следующий вид:

s_i_-1= b - , i = 2, . . ., n, (2.8)

s_i = σ(s_i_-1,u_i) = s_i_-1- a_iu_i = b - ≥ 0 (2.9)

Шаговый выигрыш можно определить как w_i = c_iu_i. Поэтому

W = = . (2.10)

Требуется найти оптимальное управление U^* = ( , , . . . , ), при котором величина выигрыша (2.10) обращается в максимум.

Уравнение Беллмана для задачи о рюкзаке.

Пусть к началу n- шага остаточная грузоподъемность равна s. Оптимальное управление определяется следующим образом:

если s-a_n≥ 0, то последний предмет можно положить в рюкзак, что соответствует оптимальному управлению U_n(s) = u_n
=1;
иначе U_n(s) = u_n
=0.

Ясно, что оптимальный условный выигрыш на n-ом шаге составит

W_n(s) = c_nu_n.

Рассмотрим (n-1)-й шаг. Предположим, что остаточная грузоподъемность равна s. Если на этом шаге выбрать управление u, то на начало последнего шага остается вес s-a_n_-1u. Тогда выигрыш двух последних шагах будет равен

c_n_-1u + W_n(s –a_n_-1u).

Нужно найти такое u, при котором этот выигрыш максимален

W_n-1(s) = max {c_n-1u + W_n(s –a_n-1u)} ,

Где максимум берется по всем допустимым управлениям – управлениям, для которых верно ограничение (2.9). Напомним, что u может принимать лишь два значения: 0 или 1.

Рассуждая далее аналогичным образом, приходим к рекуррентному уравнению

W_i(s) =max {c_iu + W_i+1(s – a_iu)}, (2.11)

которое позволяет для любого i-го шага вычислить условный оптимальный выигрыш и найти соответствующее ему условное оптимальное управление U_i(s)=u^*. Здесь u^*- значение, при котором достигается максимум в (2.11). [6]

<<< < Предыдущая 1 2 3 4 56 / 136 7 8 9 10 11 12 13 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025186.51 Кб1история экзамен.docx
#
18.12.201843 Кб3ИСЭ.docx
#
18.09.20195.68 Mб26ИТ.doc
#
04.06.20152.16 Mб31ИТ_ТО_лаб.doc
#
20.11.2019759.3 Кб10иту курсовой дневное 2012 задание.doc
#
20.11.2019744.96 Кб16ИТУ теория курсовой дневные 2012.doc
#
01.03.202578.21 Кб3ИЭУ Ответы.docx
#
01.03.2025382.46 Кб0ИЭУ.doc
#
01.03.2025149.5 Кб0К. И. Т..doc
#
10.09.2019279.04 Кб8К.И.Могилевский, К.А.Соловьев - П.А. Столыпин,...doc
#
01.04.202594.21 Кб2К08-ПрБД_ сам_раб_КРА_мет 2013.doc