Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шпоры ТПР.doc
Скачиваний:
30
Добавлен:
22.09.2019
Размер:
3.1 Mб
Скачать

39. Марковские процессы. Ожидаемый доход, обусловленный одним переходом.

Ожидаемый доход , обусловленный переходом из состояния i в j при заданной альтернативе k, находится по формуле:

,

где - вероятности перехода системы из i в j при альтернативе k.

- элемент матрицы доходов R при переходе системы из i в j при альтернативе k.

m – число состояний системы.

k – альтернативные стратегии.

40. Марковские процессы. Понятие обратной прогонки в задаче динамического программирования.

Для задачи садовника функция состояния fn(i) определяется для каждого этапа (n = 1…N). Решение будет оптимальным, когда функции примет максимальное значение. Динамическая задача решается методами прямой и обратной прогонки.

Если применятся метод обратной прогонки, то обратное рекуррентное уравнение, связывающее fn и fn+1, можно записать в виде

,

где для всех j.

k – альтернативы.

- вероятности перехода системы из i в j при альтернативе k.

- элемент матрицы доходов R при переходе системы из i в j при альтернативе k.

- доход, который был получен на этапе n+1, когда система была в состоянии j.

41. Марковские процессы. Рекуррентное уравнение динамического программирования при условии изменения переходных вероятностей и функции дохода во времени.

Обозначим за k – возможные (альтернативные) стратегии поведения, при этом матрицы и будут представлять переходные вероятности и функцию дохода для альтернативы k.

Пусть число состояний для каждого этапа (года) равно m. Обозначим через оптимальный ожидаемый доход, полученный на этапах от n до N включительно при условии, что система находится в начале этапа n в состоянии i.

Обратное рекуррентное уравнение, связывающее и , можно записать в виде:

где для всех j.

Приведенное уравнение основано на том, что накапливающийся доход получается в результате перехода из состояния i на этапе n в состояние j на этапе (n+1) с вероятностью . Введя обозначение:

рекуррентное уравнение ДП можно записать следующим образом:

42. Марковские процессы. Коэффициент дисконтирования. Его учет в рекуррентном уравнении динамического программирования при конечном числе этапов.

При решении задачи при конечном горизонте планирования можно использовать коэффициент переоценки (дисконтирования) ожидаемых доходов для последовательных этапов, вследствие чего значения будут представлять собой приведенные величины ожидаемых доходов по всем этапам.

Пусть α (<1) – годовой коэффициент переоценки (дисконтирования), тогда D долларов будущего года равны αD долларам настоящего года. При введении коэффициента дисконтирования рекуррентное уравнение выглядит следующим образом:

43. Марковские процессы. Общая характеристика методов решения задачи с бесконечным числом этапов.

Поведение Марковского процесса на долгосрочном горизонте характеризуется его независимостью от начального состояния. В этом случае говорят, что система достигла установившегося значения.

Существует два метода решения этих задач.

Первый метод основан на переборе всех возможных стационарных стратегий в задаче принятия решений. Оптимальное решение может быть найдено путем оценивания каждой стратегии. Его можно использовать только тогда, когда общее число стационарных стратегий с точки зрения практических вычислений достаточно мало.

При использовании второго метода, называемого методом итераций по стратегиям, вычислительные трудности уменьшаются. Этот метод определяет оптимальную стратегию за малое число итераций, он более эффективен.

44. Марковские процессы. Алгоритм метода полного перебора. Общая характеристика.

Предположим, что в задаче принятия решений имеется S стационарных стратегий. Пусть и - матрицы переходных (одношаговых) вероятностей и доходов, соответствующие применяемой стратегии, s = 1,2,…, S. Метод перебора включает следующие шаги:

Шаг 1. Вычисляем - ожидаемый доход, получаемый за один этап при стратегии s для заданного состояния i, i = 1,2,…,m.

Шаг 2. Вычисляем - долгосрочные стационарные вероятности матрицы переходных вероятностей , соответствующие стратегии s. Эти вероятности (если они существуют) находятся из уравнений:

где

Шаг 3. Вычисляем - ожидаемый доход за один шаг (этап) при выбранной стратегии s:

.

Шаг 4. Оптимальная стратегия s* определяется из условия, что

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]