Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
методы и модели 4_6.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
2.47 Mб
Скачать

Глава V Вероятностное динамическое программирование

5.1. Введение

Вероятностное динамическое программирование (ДП) отличается от детерминированного динамического программирования, описанного в главе 10, тем, что состояния и прибыли на каждом этапе являются случайными. Модели вероятностного ДП возникают, в частности, при рассмотрении стохастических моделей управления запасами и в теории марковских процессов принятия решений. Этим двум темам посвящены главы 16 и 19, поэтому в настоящей главе они не рассматриваются. В этой главе описываются некоторые примеры достаточно общего содержания, призванные показать стохастическую природу ДП.

5.2. Азартная игра

Одна из разновидностей игры в русскую рулетку состоит во вращении колеса, на котором по его периметру нанесены п последовательных чисел от 1 до п. Вероятность того, что колесо в результате одного вращения остановится на цифре i, равна рi,. Игрок платит х долларов за возможность осуществить т вращений колеса. Сам же игрок получает сумму, равную удвоенному числу, которое выпало при последнем вращении колеса. Поскольку игра повторяется достаточно много раз (каждая до т вращений колеса), требуется разработать оптимальную стратегию для игрока.

Мы сформулируем задачу в виде модели ДП, используя следующие определения.

1. Этап i соответствует i-му вращению колеса, i = 1, 2, ..., m.

2. Альтернативы на каждом этапе состоят в следующем — либо покрутить колесо еще раз, либо прекратить игру.

3. Состояние системы j на каждом этапе i представляется одним из чисел от 1 до п, которое выпало в результате последнего вращения колеса.

Пусть fi(j) — максимум ожидаемой прибыли при условии, что игра находится на этапe (вращении) i и исходом последнего вращения есть число j Имеем следующее.

Рекуррентное уравнение для fi(j) можно записать следующим образом.

Обоснование рекуррентного уравнения сводится к следующему. При первом вращении колеса (i = 1) состоянием системы является j = 0, ибо игра только началась. Следовательно, f1(0) = p1f2(l) + + ... + pnf2(n). После выполнения последнего вращения колеса (i = т) имеется лишь один выбор — закончить игру независимо от исхода j mго вращения. Следовательно fm+1(j) = 2j.

Рекуррентные вычисления начинаются с fm+1, заканчиваются при f1(0) и сводятся таким образом к т + 1 вычислительному этапу. Так как f1(0) представляет собой ожидаемую прибыль от всех т вращений колеса, а игра обходится игроку в х долларов, имеем следующее.

Ожидаемая прибыль = f1(0) – x.

Пример 5.2-1

Предположим, что по периметру колеса русской рулетки расставлены числа от 1 до 5. Вероятности рi остановки колеса на числе i соответственно равны следующему: p1 = 0.3, р2 =0.25, p3 = 0.2, p4 = 0.15, р5 = 0.1. Игрок платит 5 долларов за возможность сделать не более четырех вращений колеса. Определим оптимальную стратегию игрока для каждого из четырех вращений и найдем соответствующий ожидаемый выигрыш.

Этап 5.

Исход 4-го вращения

Оптимальное решение

j

f5(j)

Решение

1

2

Закончить

2

4

Закончить

3

6

Закончить

4

8

Закончить

5

10

Закончить

Этап 4.

Исход 3-го вращения

Ожидаемая прибыль

Оптимальное решение

j

Закончить

Вращать

f4(j)

Решение

1

2

5

5

Вращать

2

4

5

5

Вращать

3

6

5

6

Закончить

4

8

5

8

Закончить

5

10

5

10

Закончить

Этап 3.

Исход 2-го вращения

Ожидаемая прибыль

Оптимальное решение

j

Закончить

Вращать

f3(j)

Решение

1

2

6.15

6.15

Вращать

2

4

6.15

6.15

Вращать

3

6

6.15

6.15

Вращать

4

8

6.15

8.00

Закончить

5

10

6.15

10.00

Закончить

Этап 2.

Исход 1-го вращения

Ожидаемая прибыль

Оптимальное решение

j

Закончить

Вращать

f3(j)

Решение

1

2

6.81

6.81

Вращать

2

4

6.81

6.81

Вращать

3

6

6.81

6.81

Вращать

4

8

6.81

8.00

Закончить

5

10

6.81

10.00

Закончить

Этап.1.

В начале игры единственным выбором является вращение колеса.

Из предыдущих таблиц следует, что оптимальным решением будет следующая последовательность действий.

Номер вращения

Оптимальная стратегия

1

Начало игры; вращать

2

Продолжить игру, если исходом первого вращения есть 1, 2 или 3; иначе закончить игру

3

Продолжить игру, если исходом первого вращения есть 1, 2 или 3; иначе закончить игру

4

Продолжить игру, если исходом первого вращения есть 1 или 2; иначе закончить игру

Ожидаемая прибыль от игры составляет 7.31 – 5 = 2.31 доллара.