Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
LAB-MAR.DOC
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
1.1 Mб
Скачать

8. Метод итерации по стратегиям

Если число стратегий велико, то метод полного перебора реализовать трудно. В этом случае используется метод итерации по стратегиям. Суммарный доход за этапы с n-го по N-й определяется рекуррентным уравнением :

.

Для сокращения записи индекс s - номер стратегии - опущен. Здесь n - номер этапа управления. Пусть h - число оставшихся этапов. Тогда рекуррентное уравнение примет вид:

,

здесь zh - суммарный ожидаемый доход за h оставшихся этапов.

Пусть - вектор установившихся вероятностей матрицы переходных вероятностей P и - ожидаемый доход за этап. Тогда при большом h (n®¥) имеет место соотношение:

zh(i) = hE + z(i) ,

где z(i) - постоянный член, не зависящий от h и описывающий асимптотическое поведение zh(i) при заданном состоянии i. Тогда рекуррентное уравнение перепишется в виде:

.

Проведем преобразование данного уравнения:

Таким образом имеем систему из m уравнений с m+1 неизвестными: z(1), ... , z(m), E. Целью задачи является определение оптимальной стратегии, которой соответствует max{E}. Оптимальное значение E из полученной системы уравнений определить за один шаг нельзя. Поэтому выбирается произвольная стратегия и определяются соответствующие ей значения Е. Затем определяется новая стратегия, дающая лучшее значение Е. Процесс продолжается до тех пор, пока Е не перестанет улучшаться. Итеративный процесс состоит из двух шагов.

Шаг оценивания параметров. Выбрать произвольную стратегию s. Используя матрицы PS , RS и произвольно полагая zs(m) = 0 решить систему уравнений:

относительно переменных ES, zs(1), ... , zs(m-1).

Шаг улучшения стратегии. Для каждого состояния i определить управленческую альтернативу k, обеспечивающую:

.

В качестве величин zs(i) принимаются значения, полученные на шаге оценивания. Результирующая оптимальная стратегия k(1), ... ,k(m) формирует новую стратегию t. Если s и t совпадают, то вычисления заканчиваются, в противном случае принимается, что s = t, и производится переход к новому шагу оценивания.

Задача, решаемая на шаге улучшения стратегии:

эквивалентна задаче определения max{E}, так как:

но z(i) не зависят от выбора стратегии k , поэтому данные задачи эквивалентны.

Пример.

Решим задачу модернизации оборудования методом итерации по стратегиям.

В качестве 1-го приближения оптимальной стратегии выберем стратегию, исключающую модернизацию (1-я стратегия). Матрицы переходных вероятностей и дохода имеют вид:

, .

Ожидаемые одношаговые доходы определены ранее и равны:

Таблица 8.

i

1

5.3

4.7

2

3.0

3.1

3

-1.0

0.4

Уравнения шага оценивания параметров имеют вид:

Считая z(3) = 0, получим следующее решение:

E = -1, z(1) = 12.88, z(2) = 8, z(3) = 0.

Расчеты на шаге улучшения стратегии проведем в таблице:

Таблица 9.

оптимальное решение

i

k=1

k=2

z(i)

k*

1

11.875

13.36

13.36

2

2

7

9.19

9.19

2

3

-1

4.24

4.24

2

Новая стратегия предусматривает применение модернизации при любом состоянии станков. Новому приближению соответствуют матрицы:

, .

Ожидаемые одношаговые доходы текущей стационарной стратегии:

.

Уравнения шага оценивания параметров:

Считая z(3) = 0, получим:

E = 2.256, z(1) = 6.75, z(2) = 3.79, z(3) = 0.

Расчеты на шаге улучшения стратегии проведем в таблице:

Таблица 10.

оптимальное решение

i

k=1

k=2

z(i)

k*

1

8.54

8.99

8.99

2

2

4.89

6.05

6.05

2

3

-1

2.25

2.25

2

Новая стратегия совпадает с предыдущей, поэтому она оптимальна. Полученная оптимальная стратегия совпадает с оптимальной стратегией, полученной методом полного перебора.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]