
- •Московский государственный открытый университет коломенский институт
- •1. Введение.
- •2. Основные понятия теории марковских процессов.
- •3. Классификация состояний марковских цепей
- •4. Марковские процессы принятия решений
- •5. Модель динамического программирования с конечным числом этапов
- •6. Модель с бесконечным числом этапов.
- •7. Метод полного перебора
- •8. Метод итерации по стратегиям
- •9. Порядок работы с программой ²Имитационное моделирование марковского процесса на бесконечном горизонте планирования²
- •10. Задание к лабораторной работе.
- •Структура отчета
- •12 Литература.
8. Метод итерации по стратегиям
Если число стратегий велико, то метод полного перебора реализовать трудно. В этом случае используется метод итерации по стратегиям. Суммарный доход за этапы с n-го по N-й определяется рекуррентным уравнением :
.
Для сокращения записи индекс s - номер стратегии - опущен. Здесь n - номер этапа управления. Пусть h - число оставшихся этапов. Тогда рекуррентное уравнение примет вид:
,
здесь zh - суммарный ожидаемый доход за h оставшихся этапов.
Пусть
- вектор установившихся вероятностей
матрицы переходных вероятностей P
и
- ожидаемый доход за этап. Тогда при
большом h
(n®¥)
имеет место
соотношение:
zh(i) = hE + z(i) ,
где z(i) - постоянный член, не зависящий от h и описывающий асимптотическое поведение zh(i) при заданном состоянии i. Тогда рекуррентное уравнение перепишется в виде:
.
Проведем преобразование данного уравнения:
Таким образом имеем систему из m уравнений с m+1 неизвестными: z(1), ... , z(m), E. Целью задачи является определение оптимальной стратегии, которой соответствует max{E}. Оптимальное значение E из полученной системы уравнений определить за один шаг нельзя. Поэтому выбирается произвольная стратегия и определяются соответствующие ей значения Е. Затем определяется новая стратегия, дающая лучшее значение Е. Процесс продолжается до тех пор, пока Е не перестанет улучшаться. Итеративный процесс состоит из двух шагов.
Шаг оценивания параметров. Выбрать произвольную стратегию s. Используя матрицы PS , RS и произвольно полагая zs(m) = 0 решить систему уравнений:
относительно переменных ES, zs(1), ... , zs(m-1).
Шаг улучшения стратегии. Для каждого состояния i определить управленческую альтернативу k, обеспечивающую:
.
В качестве величин zs(i) принимаются значения, полученные на шаге оценивания. Результирующая оптимальная стратегия k(1), ... ,k(m) формирует новую стратегию t. Если s и t совпадают, то вычисления заканчиваются, в противном случае принимается, что s = t, и производится переход к новому шагу оценивания.
Задача, решаемая на шаге улучшения стратегии:
эквивалентна задаче определения max{E}, так как:
но z(i) не зависят от выбора стратегии k , поэтому данные задачи эквивалентны.
Пример.
Решим задачу модернизации оборудования методом итерации по стратегиям.
В качестве 1-го приближения оптимальной стратегии выберем стратегию, исключающую модернизацию (1-я стратегия). Матрицы переходных вероятностей и дохода имеют вид:
,
.
Ожидаемые одношаговые доходы определены ранее и равны:
Таблица 8.
-
i
1
5.3
4.7
2
3.0
3.1
3
-1.0
0.4
Уравнения шага оценивания параметров имеют вид:
Считая z(3) = 0, получим следующее решение:
E = -1, z(1) = 12.88, z(2) = 8, z(3) = 0.
Расчеты на шаге улучшения стратегии проведем в таблице:
Таблица 9.
|
|
оптимальное решение |
||
i |
k=1 |
k=2 |
z(i) |
k* |
1 |
11.875 |
13.36 |
13.36 |
2 |
2 |
7 |
9.19 |
9.19 |
2 |
3 |
-1 |
4.24 |
4.24 |
2 |
Новая стратегия предусматривает применение модернизации при любом состоянии станков. Новому приближению соответствуют матрицы:
,
.
Ожидаемые одношаговые доходы текущей стационарной стратегии:
.
Уравнения шага оценивания параметров:
Считая z(3) = 0, получим:
E = 2.256, z(1) = 6.75, z(2) = 3.79, z(3) = 0.
Расчеты на шаге улучшения стратегии проведем в таблице:
Таблица 10.
|
|
оптимальное решение |
||
i |
k=1 |
k=2 |
z(i) |
k* |
1 |
8.54 |
8.99 |
8.99 |
2 |
2 |
4.89 |
6.05 |
6.05 |
2 |
3 |
-1 |
2.25 |
2.25 |
2 |
Новая стратегия совпадает с предыдущей, поэтому она оптимальна. Полученная оптимальная стратегия совпадает с оптимальной стратегией, полученной методом полного перебора.