Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Все шпоры.doc
Скачиваний:
56
Добавлен:
22.09.2019
Размер:
3.24 Mб
Скачать

68. Вероятное динамическое программирование. Модель дп в задаче азартная игра.

Задача азартная игра: Человек вращает рулетку, на которой по периметру нанесены n последовательных чисел от 1 до n. Вероятность того, что колесо в результате одного вращения остановится на цифре i, равна pi. Игрок платит x$ за возможность осуществить m вращений колеса. Сам же игрок получает сумму равную удвоенному числу, которое выпало при последнем вращении колеса. Поскольку игра продолжается достаточно много раз (каждая до m вращений), требуется разработать оптимальную стратегию для игрока.

Модель:

Этап i соответствует i-му вращению колеса, i=1,2, … m.

Альтернативы на каждом этапе состоят в следующем – либо крутить колесо, либо нет.

Состояние системы j на каждом этапе i предоставляется одни из чисел от 1 до n, которое выпало в результате последнего вращения.

69. Вероятное динамическое программирование. Функция состояния в задаче азартная игра.

Пусть fi(j) – max ожидаемой прибыли при условии, что игра находиться на этапе i и исходном последнего вращения есть число j. Тогда:

Рекуррентное уравнение для fi(j) можно записать следующим образом

Обоснование рекуррентного уравнения сводиться к тому, что при первом вращении (i=1) состоянием системы является j=0 (игра только началась). Следовательно, f1(0) = p1f2(1)+p2f2(2)+…pnf2(n). После выполнения последнего вращения колеса (i=m) имеется лишь один выбор – закончить игру независимо от исхода j m-го вращения. Следовательно, fm+1(j)=2j.

Вычисления начинаются с fm+1 , заканчиваются при f1(0) и сводятся таким образом к m+1 вычислительному этапу. Так как f1(0) представляет собой ожидаемую прибыль от всех m вращений, а игра обходится игроку в x$, имеем ожидаемую прибыль, равную f1(0)-x$.

70. Вероятное динамическое программирование. Пример этапа в задаче азартная игра.

Предположим, что по периметру колеса русской рулетки расставлены числа от 1 до 5. Вероятности pi остановки колеса на числе i соответственно равны следующему: p1=0.3; p2=0.25; p3=0.2; p4=0.15; p5=0.1; Игрок платит 5$ за возможность сделать не более 4-ех вращений. Определить оптимальную стратегию игрока для каждого из 4-ех вращений и найдем соответствующий ожидаемый выигрыш.

Этап №5. Функция состояния: f5(j)=2j

Исход 4-го вращения

Оптимальное решение

j

f5(j)

Решение

1

2

Закончить

2

4

Закончить

3

6

Закончить

4

8

Закончить

5

10

Закончить

Этап №4. f4(j)=max{2j; p1f5(1) + p2f5(2) + p3f5(3) + p4f5(4) + p5f5(5)} = max{2j; 0.3*2 + 0.25*4 + 0.2*6+0.15*8+0.1*10}=max{2j; 5}.

Исход 3-го вращения

Ожидаемая прибыль

Оптимальное решение

j

Закончить

Вращать

f4(j)

Решение

1

2

5

5

Вращать

2

4

5

5

Вращать

3

6

5

6

Закончить

4

8

5

8

Закончить

5

10

5

10

Закончить