Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ВМИО.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
3 Mб
Скачать
    1. Модели с бесконечным горизонтом планирования

Рассмотрим задачу управления марковским процессом в случае, когда число этапов планирования бесконечно. Метод динамического программирования, использованный в предыдущем параграфе, даже при умеренных значениях приводит к значительному количеству вычислений. Поэтому мы ограничимся в этом параграфе только стационарными стратегиями, т.е. такими стратегиями, в которых выбор управления зависит от состояния, но не зависит от момента времени (номера этапа). Если число состояний равно , а в каждом состоянии у нас есть выбор из управлений, то число возможных стационарных стратегий равно . Поэтому при небольших значениях и можно попытаться просто перебрать все стационарные стратегии.

Обозначим множество всех стационарных стратегий через . Каждая стратегия задается набором управлений . Пусть – среднее значение дохода за один этап при стратегии для состояния :

.

Обозначим через матрицу переходных вероятностей за один шаг, соответствующую стратегии :

.

Предположим, что все матрицы удовлетворяют условиям теоремы о предельных вероятностях (см. теорему 3.1), и соответствующие им марковские цепи имеют предельные вероятности . Как известно из главы 3, вектор является левым собственным вектором матрицы с собственным числом 1:

,

.

имеет смысл вероятности того, что система находится в состоянии (при условии, что прошло достаточно много времени), для всех .

Поскольку мы имеем дело с бесконечным числом этапов планирования, то можно считать, что для всех этапов, кроме конечного их числа, вероятность того, что система находится в состоянии приблизительно равна . Поэтому естественно определить величину – среднее значение (математическое ожидание) дохода при стратегии за один этап:

.

Тогда оптимальную стационарную стратегию можно найти, выполнив полный перебор:

.

Количество вычислений быстро растет с ростом .

Теперь мы обсудим так называемый метод итераций по стратегиям, который является менее трудоемким по сравнению с полным перебором.

Пусть – какая-то стационарная стратегия. Ей соответствует матрица переходных вероятностей и матрица доходов за один этап . Чтобы упростить обозначения, будем опускать индекс :

.

Предположим, что мы имеем дело с -этапной моделью. Обозначим через среднее значение суммарного дохода за этапов до конца, т.е. за этапы при использовании стратегии . Предположим, что финальная плата равна 0. Для величин можно написать рекуррентные соотношения:

,

. (6.29)

Пусть обозначает вектор-столбец средних доходов за один этап:

,

,

– вектор-столбец:

.

Тогда соотношения (6.29) можно записать в векторной форме

, (6.30)

где – единичная матрица.

Предполагая, что для матрицы выполнены условия теоремы о предельных вероятностях, мы можем написать, что , где все строки матрицы совпадают с вектор-строкой предельных вероятностей . Поэтому при

,

где .

Пусть обозначает -ую компоненту в вектор-столбце . При . Так как

, (6.31)

то в разложении (6.18) при увеличении новые слагаемые стремятся к . Поэтому естественно ввести величины

, (6.32)

которые называются относительными весами состояний . Средний доход за этапов может быть представлен в виде:

, (6.33)

где при , . Действительно, перепишем (6.29) как

.

Определим векторы

, (6.34)

. (6.35)

Так экспоненциально быстро (см.(3.15)), то суммы в (6.34) и (6.35) корректно определимы и, более того, . Отсюда следует существование предела в (6.32) и справедливость разложения (6.33).

Подставим разложения (6.33) в (6.30):

.

Используя то, что и устремляя , получаем уравнения

. (6.36)

Итак, мы имеем уравнений и неизвестных величин . Заметим, что уравнения (6.36) остаются неизменными при сдвиге , для произвольной константы . Поэтому можно положить одну из переменных равной 0, и тогда систему (6.36) можно будет однозначно разрешить. Уравнения (6.36) называются уравнениями Ховарда [32]. Метод итераций по стратегиям основан на использовании этих уравнений.

Выберем произвольную стационарную стратегию . Используя уравнения (6.36), найдем относительные веса (полагая ), а также величину . В качестве матриц и используются матрицы и . На следующем шаге производится улучшение стратегии . Для каждого состояния находим управление :

, (6.37)

где , максимум берется по всем возможным управлениям. Набор управлений образует новую стационарную стратегию .

Заметим, что

, (6.38)

где обозначает матрицу переходных вероятностей для стационарной стратегии ,  вектор относительных весов для стратегии ,

.

Неравенство (6.38) понимается в том смысле, что все компоненты вектора в левой части больше (либо равны) соответствующих компонент вектора в правой части.

Предложение 6.1. Пусть в (6.37) выполнено строгое неравенство. Тогда , где обозначает средний доход за один этап при стационарной стратегии .

Доказательство. Пусть

,

 вектор-столбец размера . Из (6.36) следует, что

,

.

Вычитая из 1-го уравнения 2-е, получим

, (6.39)

где , . Умножим обе части равенства (6.39) слева на вектор-строку предельных вероятностей и получим

,

так как все компоненты вектора и некоторые компоненты вектора положительны.

Таким образом, если хотя бы при одном значении , то надо переходить к стратегии . Далее мы повторяем процедуру: рассчитываем величины и вектор относительных весов и строим стратегию , пользуясь соотношением (6.37), в котором вместо должно стоять . Поскольку множество стационарных стратегий конечно, то рано или поздно мы получим стратегию , которую уже нельзя будет улучшить. Легко видеть, что полученная стратегия будет иметь наибольший средний доход за один этап среди всех стационарных стратегий.

Задачи

1. Используя метод математической индукции, докажите утверждение (6.4).

2. Дайте обоснование качественного описания ответа в задаче о замене оборудования и докажите формулу (6.16).

3. Состояние продаж некоторого товара может оцениваться как хорошее (состояние 1), удовлетворительное (состояние 2), и плохое (состояние 3). Руководство фирмы может принять решение о рекламе продукта или об отказе от рекламы. В отсутствии рекламы матрица переходных вероятностей и матрица доходов за один сезон имеет вид

.

В случае, когда товар рекламируется, соответствующие матрицы имеют вид

.

а) Найдите оптимальную стратегию в этой задаче, если горизонт планирования равен 3 годам.

б) Найдите оптимальную стационарную стратегию в задаче с бесконечным горизонтом планирования методом перебора.

в) Найдите оптимальную стационарную стратегию в задаче с бесконечным горизонтом планирования методом итераций по стратегиям.

4. Докажите предельные соотношения (6.27) и (6.28).

5. Докажите, что стационарная стратегия, на которой происходит остановка алгоритма итераций по стратегиям, имеет наибольший средний доход за один этап среди всех стационарных стратегий.