Теория принятия решений / pdf / Dec_make1
.pdf
управлять оптимально, то величина оптимального выигрыша Wi+1 (S′). Если на i −ом
шаге Ui |
- любое управление, |
то |
~ |
неоптимальный выигрыш, который станет |
|
W (S )− |
|||||
|
|
|
|
i |
|
оптимальным, если: |
|
|
|
||
Wi (S )= max{Wi (S,Ui )+Wi+1 |
(S′)}; |
S′=ϕi (S,Ui ) |
|||
|
Ui |
= max Wi (S,Ui )+Wi+1[ϕi (S,Ui )] |
|||
|
Wi (S ) |
||||
|
неизвестно |
Ui известно |
|
неизвестно |
|
Это функциональное уравнение Беллмана. Его решают, начиная с последнего |
|||||
шага: |
i = m |
|
|
|
|
1) |
|
|
|
|
|
Wm (S )= max{fm (S,Um )}. |
|
|
|
||
|
|
Um |
|
|
2) |
fm(S,Um) |
|
|
S=3 |
||
|
|
S=2 |
|
|
|
|
|
|
|
|
|
|
|
S=1 |
|
|
|
Um
i = m −1
Wm−1 (S )= max{fm−1 (S,Um−1 ) +Wm [ϕm−1 (S,Um−1 )]}
Um−1
Идя от конца интервала управления к началу, последовательно получают:
W m (S ),W m − 1 (S ),...,W1 (S ) Um (S ),Um−1 (S ),...,U1 (S )
Придя в начальное состояние W1(S), можно подставить реальное начальное состояние S = S0 и W1(S0) = Wmax – это безусловный выигрыш.
Теперь необходимо получить, идя от начала интервала управления к концу по цепочке, безусловно оптимальное уравнение:
U1 (S )=U1 (S0 )=U1*
ϕ1 (S,U1 )=ϕ(S0 ,U1* )= S1*
U2 (S )=U2*
ϕ2 (S,U2 )=ϕ(S1* ,U2* ).
В результате получим оптимальный процесс:
U1* ,U2* ,...,Um* ;Wmax .
1.5.4. Задача распределения ресурсов
Это едва ли не самая распространённая в экономике задача. Под ресурсом в общем случае понимают физическую или абстрактную величину, которую система использует для производства полезного продукта. Например: горючее, деньги, время, объём склада. Как правило, ресурс ограничен, поэтому встаёт задача так распределить ресурс между отдельными элементами системы, чтобы суммарный эффект был
максимальным. Рассмотрим классическую задачу распределения ресурсов. |
|
|
Пусть меется начальное количество ресурсов |
k0 , которые |
необходимо |
распределить между двумя отраслями. Каждая отрасль работает в течение |
m лет. Если |
|
в первую отрасль в i −ый год вкладываются средства X i |
, то доход f (X i ), если же во |
|
21
вторую вкладываютсяYi , тогда доход g(Yi ). Средства тратятся, принося доход, новых средств не поступает, и полученный доход не вкладывается.
m
Нас интересует суммарный доход: W = ∑[f (X i )+ g(Yi )]. Суммарный выигрыш
i=1
равен сумме выигрышей на каждом шаге. Состоянием системы является количество средств перед i −ым шагом. Так как новых средств не поступает, то ресурсы "тают".
Управление Yi может быть записано как Yi = k − X i . После i −го шага в первой отрасли остаются средства ϕ(X i ), а во второй ψ(Yi )=ψ(k − X i ). Эти функции
называются функциями траты. В этой задаче на i-ом шаге одно управление X i и одно |
|||||||||||||||
состояние k . Уравнение Беллмана принимает вид: |
|
|
|||||||||||||
Wi (k )= max{f (X i )+ g(k − X i )+Wi+1 [ϕ(X i )+ψ(k − X i )]} |
|||||||||||||||
|
X i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i = m : Wm (k )= max{f (X m )+ g(k − X m )} и т.д. |
|
|||||||||||||
|
(k ), k = k |
|
|
(k |
|
X m |
|
|
|
(k |
|
)= X * , Y * = k |
|
− X * |
|
W |
0 |
,W |
0 |
)=W |
max |
; |
X |
1 |
0 |
0 |
|||||
1 |
|
1 |
|
|
|
|
|
1 1 |
1 |
||||||
Исследуя функции траты, получим количество средств после i −го шага: Задача о распределении ресурсов допускает геометрическую интерпретацию.
X1 +Y1 = k0
ϕ(X * ) +ψ(Y * ) = k * ; X |
2 |
(k * ) = X * |
и т.д. |
|||
1 |
1 |
1 |
1 |
2 |
|
|
Y
k0
Y1
ψ (Y1)
ϕ(X1) X1 |
k0 X |
Распределение на первом шаге – указание точки на гипотенузе. После этого средства тратятся. Распределение средств – движение внутрь треугольника. Рассмотрим частные случаи задач о распределении ресурсов.
1.5.5. Распределение по неоднородным этапам
Выше мы считали, что все функции одинаковы на всех этапах. Во многих задачах функции меняются от этапа к этапу: fi (X i ), gi (Yi );ϕi (X i ),ψi (Yi ). Процедура
динамического программирования при этом принципиально не меняется. Уравнение Беллмана принимает вид:
Wi (k )= max{fi (X i )+ gi (k − X i )+Wi+1[ϕi (X i )+ψi (k − X i )]}.
Xi
Распределение ресурсов между тремя и более отраслями
В этом случае на каждом шаге будет уже n управлений, но одно из них может
22
n−1
быть выражено как: X in = k −∑X ij . В этом случае, в правой части уравнения Беллмана
j=1
будет две и более переменных, по которым ищется максимум, и задача усложняется.
Распределение ресурсов с резервированием
В такой модели, если средства распределяются между двумя отраслями, то какое-то количество средств можно оставить до последующего распределения. В этом случае задача имеет смысл даже для одной отрасли. Начальное количество средств
разделяется на первом этапе на X1 и на k − X1 (резерв), на втором этапе подлежат
разделению средства из резерва. Такую задачу можно представить как распределение средств между одной реальной и одной фиктивной (не приносящей доход и не расходующей средства) отраслью. Решение такой задачи сводится к классической, если для фиктивной отрасли заданы нулевые функции дохода и трат.
Подставив их в уравнение Беллмана, можно решить задачу как классическую. Задача может быть упрощена до следующей:
m |
|
W = ∑f (X i )→ max |
(1) |
i=1 |
|
m |
|
∑X i ≤ k0 (2) |
|
|
|
i=1 |
|
Это задача линейного программирования с одной переменной.
Пусть вид функции f (X i ) не убывающий, в этом случае недоиспользовать средства не выгодно. В этом случае решение дают следующие теоремы: если
1)f (X ) неубывающая и выпуклая вверх, то оптимальное распределение ресурсов равномерное.
2)f (X ) возрастающая и выпуклая вниз, то оптимальное решение – вложить
все средства в один этап, и ничего не резервировать. Таким образом, приходим к классической задаче.
Трата || оси Х.
Частные случаи: |
х1 |
х0 |
Задача с резервированием в одной отрасли при параллельных функциях траты.
Все функции траты ϕ(хi )= 0 .
В этом случае задача сводится к более
простой.
ϕ(хi )= 0
W= ∑fi (xi ) → max
i=1
∑xi ≤ x0 .m
23
Рассмотрим еще более частный случай: все функции одинаковые на всех шагах. fi (x) = f (x), i
Эти функции неубывающие.
m |
|
W = ∑f (xi ) → max |
(1.1) |
i=1 |
|
∑xi = x0 |
(1.2) |
(1.2) – равенство, т.к. функция неубывающая и недоиспользование средств невыгодно. Это имеет теоретическое обоснование:
если функция неубывающая и выпуклая вверх, то оптимальным распределением является равномерное распределение;
если функция неубывающая и выпуклая вниз, то оптимальным распределением является такое: все распределение в один этап (элемент), и ничего в другие.
Распределение ресурсов "с вложением доходов в производство"
В классической задаче считается, что полученный доход на i −ом шаге в производство не вкладывается, т.е. он отчисляется и подсчитывается как эффект. Во многих задачах полученный эффект можно использовать как ресурс для следующего шага, объединяя его с оставшимся ресурсом. Если ресурс не деньги, то средства можно привести к единому эквиваленту с оставшимися средствами. Такая модель является развитием классической модели. Так как оставшиеся средства и доход объединяются, то можно ввести единую интегральную функцию – функцию изменения средств.
F(X i )−количество оставшихся средств плюс доход после i −го шага, если вложили
X i .
I. F(X i )
II. G(Yi )=G(k − X i ),
где k −количество средств перед i −м шагом.
Выигрыш на i −ом шаге зависит от того, как подсчитывается доход (эффект) от управления всеми ресурсами. Поставим задачу получить максимальный доход в конце
m −го шага. Тогда на всех шагах i =1,m −1 , доход = 0, Wi = 0 . На m −ом шаге выигрыш Wm = Fm (X m )+Gm (k − X m ). Подставив эти выражения в уравнение Беллмана, надо решать задачу от начала к концу, если имеется начальное количество средствk0 .
Здесь функция траты: k′= Fi (X i )+Gi (k − X i ).
Когда F и G неубывающие, то, чем больше значение доход + средства получается в конце i −го шага, тем лучшим условием это будет для проведения (i +1)−
го шага. Поэтому можно не заботиться о следующих шагах, достаточно обеспечить максимум на каждом шаге. Таким образом, процедура оптимизации возможна в одном
направлении - от начала к концу, т.е. задача динамического программирования |
|||||||||||||
вырождается в задачу последовательной оптимизации: |
|||||||||||||
max{F (X |
)+G |
(k |
0 |
− X |
|
)}= k* |
|
||||||
1 |
|
i |
1 |
|
|
1 |
|
|
1 |
|
|
||
X1 |
|
|
)+G |
(k* − X |
|
|
)}= k |
|
|
||||
max{F (X |
2 |
2 |
* |
|
|||||||||
2 |
|
2 |
|
1 |
|
|
|
2 |
* |
||||
X2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Wmax = km |
|
max{F (X |
m |
)+G (k* |
|
− X |
m |
)}= k* |
|
||||||
m |
|
m |
m−1 |
|
|
|
|
m |
|
||||
Xm |
|
|
|
|
|
|
|
|
|
|
|
|
|
Рассмотрим задачу распределения ресурсов с вложением доходов в производство и отчислением. Это наиболее общий случай. Разделим функции дохода и
24
f (X i ), g(Yi) |
и максимальный суммарный отчисленный |
доход + |
|||||
функции траты: ϕ(X |
i |
),ψ(Y ) |
|||||
|
i |
|
|
|
(Di ); |
|
|
оставшиеся средства после |
m −го шага. Введём функцию отчисления ri |
D − |
|||||
доход. Тогда выигрыш на каждом шаге: |
|
|
|||||
Wi = ri [f (X i )+ g(k − X i )], i = |
|
|
|
|
|||
1,m −1 |
|
|
|||||
Wm = rm [f (X m )+ g(k − X m )]+ϕ(X m )+ψ(k − X m ) (*) |
|
|
|||||
|
|
|
m |
|
|
||
|
|
W = ∑Wi → max |
|
|
|||
|
|
|
i=1 |
|
|
||
k′=ϕ(X i )+ψ(k − X i )+ f (X i )+ g(k − Xi)−ri [f (X i )+ g(k − X i )] |
|
|
|||||
Уравнение Беллмана для i −го шага будет выглядеть так: |
|
|
|||||
Wi (k)= max{ri [f (X i |
)+ g(k − X i )]+Wi+1[ϕ(X i )+ψ(k − X i )+ f (X i )+ g(k − X i )−ri [f (X i |
)+ g(k − X i )]]} |
|||||
Xi |
|
|
|
|
|
|
|
i =1,m −1
для i = m надо учесть уравнение (*).
Если ri =1 , то получим классическую задачу.
1.5.6. Учёт предыстории процесса
До сих пор мы считали, что функции как выигрыша, так и траты зависят от состояния перед i −ым шагом, т.е. не зависят от более ранних состояний. Такие процессы называются процессами без памяти. Но иногда при рассмотрении процессов, связанных с "живыми" организациями, требуется помнить всю историю происходящего. Такая задача более сложна. Введём расширенное состояние:
S = (S, Si−1 , Si−2 , , Si−L )
Si−L −состояние |
за |
L шагов до i −го. |
Тогда |
можно |
определить |
Wi (S,Ui ),ϕi (S,Ui ). Но |
задача |
сложна вычислительном |
аспекте. |
Пусть |
S имеет k |
координат, и предыстория распространяется на L шагов, тогда сложность пропорциональна k ×L . Вот почему подобные задачи можно решать, если k ×L ≤3 .
1.5.7. Задача с мультипликативным критерием
Выше считалось, что суммарный выигрыш равен сумме выигрышей до i −го шага. Но есть задачи, где общий критерий равен произведению критериальных величин на каждом шаге. В этом случае также можно применить уравнение Беллмана.
m
W =∏Wi , но вместо этого можно взять функцию W ′= lnW . Тогда оптимальные
i=1
решения можно искать, как это делалось выше. Но можно и в уравнении Беллмана учесть, что:
Wi (S )= max{Wi ×Wi+1 (S′)}
U
W = F(W1,W2 , ,Wn )=iF(W1 ) F(W2 ) F(Wn )
Пример: устройство состоит из n узлов. Имеется некоторое устройство k0 ,
которое может использоваться для повышения надёжности каждого узла. Необходимо так распределить ресурс, чтобы суммарная надёжность была максимальной.
25
m
q(X i )−надёжность каждого узла. Q =∏qi (X i )→ max . ∑X i ≤ k0 .
i=1
1.5.8. Операции, не связанные со временем
Во многих задачах распределение ресурсов не связано с временными шагами. Ресурс обычно распределяется по объектам. Например, если расписать распределение ресурсов между n объектами, и на каждый объект задана функция выигрыша, то такая задача эквивалентна рассмотренной ранее задаче о распределении ресурсов с резервированием в одной отрасли по n шагам.
1.6. Введение в теорию управляемых систем
1.6.1. Понятие системы
Многообразие различных систем предполагает возможность их классификации с разных позиций. Разделение систем на классы позволяет облегчить проведение исследований. Для выделения классов можно использовать различные признаки (свойства). Тем не менее, остановимся лишь на одном классификационном признаке - характере поведения системы. В соответствии с этим признаком выделяют системы с управлением и без управления. Системы с управлением отличаются тем, что в них реализован процесс управления. Естественно, что в системах без управления этот процесс отсутствует.
Системы с управлением имеют черты, не обязательно присущие системам других классов:
1.в сохранении целостности системы решающая роль принадлежит информационным связям. Без регулярно осуществляемого обмена информацией эти системы не могут функционировать и сохранять целостность;
2.информация, поступающая в такие системы и содержащаяся в них, используется для управления;
3.каждая система с управлением имеет одну или несколько целей, разнесенных во времени. Если цель неизвестна, то функционирование системы становится бессмысленным;
4.системы с управлением способны переходить в состояние нарушения целостности. Смена состояний осуществляется в соответствии с управляющими воздействиями. Воздействие осуществляется не мгновенно, а в некоторый промежуток времени;
5.существует некоторое множество допустимых линий поведения системы, из которых осуществляется выбор предпочтительного поведения;
6.для таких систем характерна определенная структура, которая отражает контуры управления;
7.системы с управлением являются открытыми.
Эти черты дают новое качество систем - системы с управлением. Такие системы могут быть естественными и искусственными системы. Закономерности управления в искусственных системах изучаются кибернетикой.
1.6.2. Сущность управления с кибернетических позиций
26
Кибернетика предполагает исследование систем в информационном плане, абстрактно от других сторон. Суть процесса управления с позиций кибернетики сводится к следующему:
1.сбор информации о состоянии элемента системы, которым управляют, и среды;
2.сравнение существующего и требуемого состояния системы с управлением и выработка управляющего воздействия (решения) для перехода в новое состояние, приближающее систему к цели;
3.доведение решения до управляемого элемента.
Эта последовательность образует цикл управления.
Среда
КПС
УО КОС ОУ
Система управления Система с управлением
Чтобы осуществлять управление, необходимо наличие управляющего объекта (УО), объекта управления (ОУ), а также каналов связи между ними.
Управляющий объект предназначен для выработки информационных воздействий на основе собранной информации и выдаче их объекту управления. В качестве УО выступают живые организмы, ЭВМ.
Объект управления воспринимает информацию от управляющего объекта, а также выдает информацию о своем состоянии управляющему объекту. В качестве ОУ выступают живые организмы (их части) или технические устройства.
Система связи предназначается для обмена информацией между ОУ и УО. В системе связи могут быть каналы прямой и обратной связи.
Управляющий объект вместе с системой связи образуют систему управления. Существование системы с управлением бессмысленно, если отсутствует один из ее элементов.
Процесс функционирования систем с управлением осуществляется следующим образом.
Управляющий объект получает по каналам обратной связи информацию о состоянии объекта управления и среды. Это информация состояния. Исходя из полученной информации, определяется текущее состояние системы и среды. Текущее состояние сравнивается с требуемым, и вырабатывается информационное воздействие - командная информация, которое определяет новое состояние управляемого объекта. Совокупность правил, по которым информация состояния перерабатывается в командную информацию - алгоритм управления.
Путь, по которому циркулирует информация между ОУ и УО - контур управления. В системах с каналом обратной связи контур управления замкнут, в системах без обратной связи - разомкнут. Если имеется не один, а множество ОУ, то целесообразно говорить о многоконтурной системе с управлением.
27
