Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ekonomikomatematicheskie_metody_i_modeli_prinya...docx
Скачиваний:
4
Добавлен:
01.07.2025
Размер:
1.08 Mб
Скачать

Вопрос 37. Вероятностное динамическое программирование и его использование в марковских процессах принятия решений

Вероятностное динамическое программирование (ВДП) отличается от детерминированного динамического программирования (ДП) тем, что состояния и значения выигрышей на каждом шаге являются случайными. Модели вероятностного ДП лежат в основе теории марковских процессов принятия решений.

Эволюция экономических систем часто описывается с помощью случайных процессов, наиболее простыми и хорошо изученными из которых являются марковские процессы.

В экономических исследованиях наиболее важное место получили так называемые марковские процессы с доходами. В таких процессах каждому состоянию соответствует множество стратегий, характеризуемых некоторыми вероятностями переходов и значениями доходов за один переход (этап) .

Суммарный доход при функционировании системы в течение некоторого времени есть случайная величина, которая зависит от распределения вероятностей соответствующего марковского процесса. Поэтому под общей величиной дохода за m переходов понимается средний ожидаемый доход (математическое ожидание). Так, если переход системы осуществляется из состояния , то средний ожидаемый дохода за один переход из этого состояния равен

Матрица переходных вероятностей и матрица доходов зависят от имеющихся альтернатив решения. Целью использования ВДП является нахождение оптимальной стратегии, максимизирующей ожидаемый доход от процесса, имеющего конечное или бесконечное число этапов.

При решении задач ВДП очень важно установить, конечно или бесконечно число этапов функционирования системы. Соответственно рассматриваются задачи принятия решений с конечным или бесконечным числом этапов.

Может ставиться также задача оценки ожидаемого дохода при заранее определенной стратегии поведения в случае того или иного состояния системы. В нашем случае ЛПР может принять решение всегда применять удобрения, если состояние почвы плохое. В таком случае говорят, что процесс принятия решений описывается стационарной стратегией.

Например, для стационарной стратегии, требующей применения удобрений только тогда, когда состояние почвы плохое (состояние 3), результирующие матрицы переходных вероятностей и доходов задаются следующими выражениями

Эти матрицы отличаются от только третьей строкой включенных в них из матриц .

Вопрос 38. Модель вероятностного динамического программирования с конечным числом этапов (конечный горизонт планирования)

Рассмотрим сначала алгоритм решения задачи выбора оптимального управления для случая конечного числа этапов.

Предположим, что в нашем примере срок аренды участка земли агрофирмой истекает через N лет. В этом случае необходимо определить стратегию поведения для каждого года при конечном горизонте планирования. Очевидно, оптимальной стратегией будет такая, при которой агрофирма получит наибольший ожидаемый доход за этот срок.

Пусть обозначает две возможные (альтернативные) стратегии поведения фирмы. Будем использовать матрицы переходных вероятностей и функций дохода , заданные формулами (1)-(4).

Задачу вероятностного динамического программирования можно сформулировать следующим образом. Пусть число состояний для каждого этапа (года) равно m (в нашей задаче m = 3).

Обозначим через оптимальный ожидаемый доход, полученный на этапах от n до N включительно при условии, что система находится в начале этапа n в состоянии .

Обратное рекуррентное соотношение, связывающее , имеет вид:

причем

Уравнение (5) учитывает то, что накапливающийся доход образуется в результате перехода из состояния на этапе n +1 с вероятностью . Введя обозначение

рекуррентное уравнение ВДП можно записать в виде:

Задача может быть обобщена с учетом того, что переходные вероятности и функции дохода могут меняться от года к году. При этом значения доходов и переходные вероятности станут функциями этапа (года), т.е. .