- •Содержание 3.
- •Глава IV 116
- •Глава V 139
- •5.1. Введение 139
- •5.3. Задача инвестирования 142
- •Глава IV Детерминированные модели динамического программирования
- •4.1. Введение
- •4.2 Рекуррентная природа вычислений дп
- •Упражнения 4.2,а
- •4.3. Рекуррентные алгоритмы прямой и обратной прогонки
- •Упражнения 4. 3,а
- •4.4. Некоторые приложения динамического программирования
- •4.4.1. Задача о загрузке
- •Упражнения 4. 4,а
- •4.4.2. Задача планирования рабочей силы
- •Упражнения 4. 4,b
- •4.4.3. Задача замены оборудования
- •Упражнения 4.4,с
- •4.4.4. Задача инвестирования
- •Упражнения 4.4, d
- •4.4.5. Модели управления запасами
- •4.5. Проблема размерности
- •Упражнения 4.5,а
- •4.6. Заключение
- •Литература
- •Комплексная задача
- •Глава V Вероятностное динамическое программирование
- •5.1. Введение
- •5.2. Азартная игра
- •Упражнение 5.2, а
- •5.3. Задача инвестирования
- •Упражнения 5.3,а
- •5.4. Максимизация вероятности достижения цели
- •Упражнения 5.4,а
- •Литература
- •Комплексные задачи
Глава V Вероятностное динамическое программирование
5.1. Введение
Вероятностное динамическое программирование (ДП) отличается от детерминированного динамического программирования, описанного в главе 10, тем, что состояния и прибыли на каждом этапе являются случайными. Модели вероятностного ДП возникают, в частности, при рассмотрении стохастических моделей управления запасами и в теории марковских процессов принятия решений. Этим двум темам посвящены главы 16 и 19, поэтому в настоящей главе они не рассматриваются. В этой главе описываются некоторые примеры достаточно общего содержания, призванные показать стохастическую природу ДП.
5.2. Азартная игра
Одна из разновидностей игры в русскую рулетку состоит во вращении колеса, на котором по его периметру нанесены п последовательных чисел от 1 до п. Вероятность того, что колесо в результате одного вращения остановится на цифре i, равна рi,. Игрок платит х долларов за возможность осуществить т вращений колеса. Сам же игрок получает сумму, равную удвоенному числу, которое выпало при последнем вращении колеса. Поскольку игра повторяется достаточно много раз (каждая до т вращений колеса), требуется разработать оптимальную стратегию для игрока.
Мы сформулируем задачу в виде модели ДП, используя следующие определения.
1. Этап i соответствует i-му вращению колеса, i = 1, 2, ..., m.
2. Альтернативы на каждом этапе состоят в следующем — либо покрутить колесо еще раз, либо прекратить игру.
3. Состояние системы j на каждом этапе i представляется одним из чисел от 1 до п, которое выпало в результате последнего вращения колеса.
Пусть fi(j) — максимум ожидаемой прибыли при условии, что игра находится на этапe (вращении) i и исходом последнего вращения есть число j Имеем следующее.
Рекуррентное уравнение для fi(j) можно записать следующим образом.
Обоснование рекуррентного уравнения сводится к следующему. При первом вращении колеса (i = 1) состоянием системы является j = 0, ибо игра только началась. Следовательно, f1(0) = p1f2(l) + + ... + pnf2(n). После выполнения последнего вращения колеса (i = т) имеется лишь один выбор — закончить игру независимо от исхода j m – го вращения. Следовательно fm+1(j) = 2j.
Рекуррентные вычисления начинаются с fm+1, заканчиваются при f1(0) и сводятся таким образом к т + 1 вычислительному этапу. Так как f1(0) представляет собой ожидаемую прибыль от всех т вращений колеса, а игра обходится игроку в х долларов, имеем следующее.
Ожидаемая прибыль = f1(0) – x.
Пример 5.2-1
Предположим, что по периметру колеса русской рулетки расставлены числа от 1 до 5. Вероятности рi остановки колеса на числе i соответственно равны следующему: p1 = 0.3, р2 =0.25, p3 = 0.2, p4 = 0.15, р5 = 0.1. Игрок платит 5 долларов за возможность сделать не более четырех вращений колеса. Определим оптимальную стратегию игрока для каждого из четырех вращений и найдем соответствующий ожидаемый выигрыш.
Этап 5.
Исход 4-го вращения |
Оптимальное решение |
|
j |
f5(j) |
Решение |
1 |
2 |
Закончить |
2 |
4 |
Закончить |
3 |
6 |
Закончить |
4 |
8 |
Закончить |
5 |
10 |
Закончить |
Этап 4.
Исход 3-го вращения |
Ожидаемая прибыль |
Оптимальное решение |
||
j |
Закончить |
Вращать |
f4(j) |
Решение |
1 |
2 |
5 |
5 |
Вращать |
2 |
4 |
5 |
5 |
Вращать |
3 |
6 |
5 |
6 |
Закончить |
4 |
8 |
5 |
8 |
Закончить |
5 |
10 |
5 |
10 |
Закончить |
Этап 3.
Исход 2-го вращения |
Ожидаемая прибыль |
Оптимальное решение |
||
j |
Закончить |
Вращать |
f3(j) |
Решение |
1 |
2 |
6.15 |
6.15 |
Вращать |
2 |
4 |
6.15 |
6.15 |
Вращать |
3 |
6 |
6.15 |
6.15 |
Вращать |
4 |
8 |
6.15 |
8.00 |
Закончить |
5 |
10 |
6.15 |
10.00 |
Закончить |
Этап 2.
Исход 1-го вращения |
Ожидаемая прибыль |
Оптимальное решение |
||
j |
Закончить |
Вращать |
f3(j) |
Решение |
1 |
2 |
6.81 |
6.81 |
Вращать |
2 |
4 |
6.81 |
6.81 |
Вращать |
3 |
6 |
6.81 |
6.81 |
Вращать |
4 |
8 |
6.81 |
8.00 |
Закончить |
5 |
10 |
6.81 |
10.00 |
Закончить |
Этап.1.
В начале игры единственным выбором является вращение колеса.
Из предыдущих таблиц следует, что оптимальным решением будет следующая последовательность действий.
Номер вращения |
Оптимальная стратегия |
1 |
Начало игры; вращать |
2 |
Продолжить игру, если исходом первого вращения есть 1, 2 или 3; иначе закончить игру |
3 |
Продолжить игру, если исходом первого вращения есть 1, 2 или 3; иначе закончить игру |
4 |
Продолжить игру, если исходом первого вращения есть 1 или 2; иначе закончить игру |
Ожидаемая прибыль от игры составляет 7.31 – 5 = 2.31 доллара.
