Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Все шпоры.doc
Скачиваний:
57
Добавлен:
22.09.2019
Размер:
3.24 Mб
Скачать

37. Марковские процессы. Основной смысл решений, принимаемых садовником.

Характер задачи решения, стоящей перед садовником:

1). Необходимо установить, будет ли работа садовника продолжаться ограниченное число лет или бесконечно, т.е. задача будет с конечным или бесконечным числом этапов. В обоих случаях, имея результаты химического анализа почвы (состояние системы), садовник должен выбрать наилучшую стратегию поведения (удобрять или не удобрять почву). При этом процесс оптимизации основывается на максимизации ожидаемого дохода.

2). Нужно установить, будет ли садовник применять стационарные стратегии. Например, будет ли он применять удобрения, когда состояние почвы будет плохим. Тогда марковская цепь будет такой:

1

2

3

1

0,2

0,5

0,3

P =

2

0

0,5

0,5

3

0,05

0,4

0,55

1

2

3

1

7

6

3

R =

2

0

5

1

3

6

3

-2

38. Марковские процессы. Представление задачи садовника как задачи динамического программирования с конечным числом этапов (основные элементы).

В задаче садовника предположим, что он планирует прекратить занятия садоводством через N лет. В этом случае необходимо определить стратегию поведения (удобрять или не удобрять почву) для каждого года при конечном горизонте планирования. Очевидно, что оптимальной стратегией будет такая, при которой садовник получит наибольший ожидаемый доход через N лет.

Пусть k = 1 или 2 обозначает возможные (альтернативные) стратегии поведения садовника.

Задачу садовника можно представить как задачу динамического программирования с конечным числом этапов следующим образом. Пусть число состояний для каждого этапа (года) равно m (= 3 в примере с садовником). Обозначим через fn(i) оптимальный ожидаемый доход, полученный на этапах от n до N включительно при условии, что система находится в начале этапа n в состоянии i.

Обратное рекуррентное уравнение, связывающее fn и fn+1, можно записать в виде

,

где для всех j.

k – альтернативы.

- вероятности перехода системы из i в j при альтернативе k.

- элемент матрицы доходов R при переходе системы из i в j при альтернативе k.

- доход, который был получен на этапе n+1, когда система была в состоянии j.

Приведенное уравнение основано на том, что накапливающийся доход получается в результате перехода из состояния i на этапе n в состояние j этапе n+1 с вероятностью . Введя обозначение , рекуррентное уравнение ДП можно записать следующим образом:

,

Для промежуточных значений функция состояния:

.