Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ВМИО.doc
Скачиваний:
0
Добавлен:
17.01.2020
Размер:
3 Mб
Скачать

6.2. Задача о наилучшем выборе

Пусть у нас имеется некоторый марковский процесс, в эволюцию которого мы можем вмешаться следующим образом: остановить этот процесс или не останавливать и продолжать наблюдения за ним до определенного момента времени. И в том, и в другом случае мы можем получать какие-то доходы (положительные или отрицательные). Задача состоит в том, чтобы остановить процесс в нужный момент времени.

Примером такой задачи является задача о выборе момента исполнения опциона американского типа. Напомним, что опцион колл американского типа позволяет купить акцию по заранее фиксированной цене в любой момент времени . Тогда доход, который вы можете получить, исполняя опцион в момент времени , равняется

,

где обозначает цену акции в момент времени . Если имеется статистическая информация о случайной эволюции цены акции в интервале , то возникает естественное желание угадать наиболее выгодный момент исполнения опциона.

Другим примером является задача об обнаружении разладки. Пусть автоматическая линия выпускает какую-то деталь или продукт. Основная характеристика , определяющая качество этого продукта, является случайной величиной с плотностью . В некоторый случайный момент времени происходит разладка оборудования, что приводит к изменению распределения величины . Пусть плотность величины после

разладки равна . Задача состоит в том, чтобы по наблюдениям за характеристикой как можно скорее обнаружить разладку и провести переналадку оборудования. Задачи такого типа относятся к классу задач об оптимальной остановке.

Рассмотрим в качестве примера знаменитую задачу о наилучшем выборе (другое название – «задача о разборчивой невесте»). Предположим, что нужно просмотреть кандидатов на какую-то работу и выбрать среди них наилучшего кандидата. Собеседование с кандидатами происходит в порядке очередности. В конце каждого собеседования вы должны определиться – брать этого человека на работу или отказать ему. В случае отказа кандидат уходит и вы больше не должны к нему обращаться. Предположим, что все кандидаты сравниваются по какой-то единой шкале и все имеют разные баллы. Формализуем эту задачу как задачу теории марковских процессов принятия решений.

Горизонт планирования равняется , обозначает количество просмотренных кандидатов на момент времени . Определим множество состояний как множество :

состояние 1 означает, что рассматриваемый кандидат не является наилучшим из всех просмотренных к данному моменту времени;

состояние 2 означает, что рассматриваемый кандидат является лучшим среди всех просмотренных к данному моменту времени;

состояние 3 означает, что собеседование закрыто (оно может закончиться в любой момент времени).

Множество управлений в состояниях 1 и 2 равны , где означает продолжить собеседование, означает остановить собеседование. Множество управлений в состоянии 3 состоит только из одного элемента .

Пусть обозначает вероятность перехода из состояния в состояние при выборе управления в момент времени . Заметим, что в отличие от модели, рассмотренной в предыдущем параграфе, переходные вероятности в задаче о наилучшем выборе зависят не только от управления , но и от момента времени.

Для управления имеем следующие вероятности перехода:

, (6.17)

, (6.18)

. (6.19)

Для управления :

, (6.20)

, (6.21)

, (6.22)

. (6.23)

Поясним соотношение (6.17). Обозначим через состояние процесса выбора в момент времени . Пусть – ранги (рейтинги) кандидатов в порядке их просмотра (мы не останавливали собеседования до момента ). Ясно, что любая перестановка этих рангов равновероятна. Число вариантов, в которых -й кандидат имеет наивысший ранг среди ранее просмотренных, равно . Поэтому

,

.

Отсюда

.

Аналогично,

.

Поскольку из состояний 1 и 2 при продолжении собеседования можно перейти только в состояния 1 и 2, то вероятности (6.18) являются дополнительными к вероятностям (6.17). Соотношения (6.20) – (6.23) следуют из определения управления .

Заметим, что если -й кандидат является наилучшим из ранее просмотренных, то вероятность того, что он будет наилучшим из всех кандидатов, равна . Поэтому определим доход (текущую плату) от того, что мы останавливаем собеседование в момент времени в состоянии 2 как вероятность того, что -ый кандидат будет наилучшим из всех:

.

Ясно, что не имеет смысла останавливаться в состоянии 1, поэтому

.

Финальная плата равна

.

Такой выбор текущих и финальной плат означает, что мы хотим максимизировать вероятность выбора наилучшего кандидата.

Пусть обозначает максимальный доход, который можно получить за этапы при условии, что в момент времени мы находимся в состоянии . Выпишем рекуррентные соотношения для функций . Ясно, что

,

а также то, что при любом

(попав в состояние 3, мы уже не выходим из него и не получаем никаких доходов). Далее, для

,

,

(первый член под знаком соответствует выбору управления , второй – выбору управления ).

Из этих уравнений следует, что

,

(6.24)

и, следовательно, оптимальное управление для всех ,

(6.25)

и, следовательно, , если . Из (6.25) следует, что , и в силу (6.24) получаем, что . Значит, если , то . Поэтому множество оптимальных управлений в состоянии 2 устроено следующим образом:

.

Для всех

. (6.26)

Итерируя соотношение (6.26) и используя то, что , получаем

.

Так как и , то определяется как :

.

Очевидно, что при . Легко видеть, что

. (6.27)

С другой стороны

. (6.28)

Отсюда получаем, что

.

Таким образом, надо пропустить -ую часть кандидатов и после этого остановиться на первом кандидате, который будет лучше всех предыдущих. Приблизительно так следует поступать разборчивой невесте, выбирающей жениха «по науке». Конечно, при таком выборе надо заранее оценить, сколько будет кандидатов.

Эта задача имеет различные обобщения [3].