Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка по теории игр.doc
Скачиваний:
45
Добавлен:
15.06.2014
Размер:
2.14 Mб
Скачать

3.5. Задания для самостоятельной работы

Решить задачу коммивояжера с матрицей расстояний:

3.1

3.2

3.3

3.4

3.5

3.6

3.7

3.8

3.9

3.10

3.11

3.12

4.Динамическое программирование

4.1. Постановка задачи

Методом динамического программирования (ДП) решаются задачи математического программирования, удовлетворяющие принципу последовательной оптимизации: решение исходной задачи оптимизации большой размерности заменяется решением последовательности задач оптимизации малой размерности. В силу этого основным условием применимости метода ДП является возможность разбиения процесса принятия решений на ряд однотипных шагов или этапов, каждый из которых планируется отдельно, но с учетом результатов, полученных на других шагах.

Рассмотрим как происходит разбиение процесса принятия решений (который мы будем рассматривать как процесс функционирования некоторой системы) на шагов. Обозначим через начальное состояние всего процесса, в то же время будет начальным состоянием первого шага. Тогда - состояние системы после первого шага (или начальное состояние второго шага), - состояние системы после второго шага (или начальное состояние третьего шага) и т.д.

Переход от начального состояния - го шага к конечному состоянию - го шага происходит так.

Имеется набор допустимых управлений (способов действия на шаге ) , каждое из которых позволяет перейти из состояния к одному из возможных конечных состояний -го шага . Выбраное на - м шаге управление обозначим через, а состояние, в которое перейдет процесс из состоянияпод воздействием управления, обозначим.При этом предполагается, что состояние зависит от и и не зависит от того, каким образом процесс перешел в состояние (принцип отсутствия последействия). Это предположение записывается в виде уравнений состояний

, .

С учетом введенных понятий состояний и управлений запишем показатели эффективности для всего многошагового процесса и для каждого - го шага процесса. Предполагая, что показатель эффективности - го шага зависит от начального состояния на этом шаге и от управления на этом шаге , получаем целевую функцию на - м шаге в виде и целевую функцию всего многошагового процесса в виде

.

Сформулируем теперь задачу ДП. Определить совокупность допустимых управлений переводящих процесс из начального состояния в конечное состояние и максимизирующих или минимизирующих показатель эффективности .

Управление, при котором достигается максимум (минимум) целевой функции F, назывется оптимальным управлением .

Основное правило ДП, сформулированное американским математиком Р. Беллманом, называется принципом оптимальности}:

оптимальное управление обладает таким свойством, что каково бы ни было начальное состояние на любом шаге и управление, выбранное на этом шаге, последующие управления должны выбираться оптимальными относительно состояния, к которому придет процесс в конце данного шага.