Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
61-64,67-74.doc
Скачиваний:
5
Добавлен:
25.09.2019
Размер:
394.75 Кб
Скачать

67. Простейшая задача оптимального управления.

Постановка задачи. Пусть движение управления объекта описывается: (1)

- непрерывна по всем аргументам и непрерывна .

Опр. Допустимым управлением называется r-мерная кусочно-непрерывная функция u(t), t∊T и принимающая значение из заданного множества U.

u(t)∊U.

Каждому допустимому управлению u(t) соответствует некоторое решение х(t) системы (1), которая называется допустимой траекторией.

Качество процесса оценивается некоторой величиной

(2)- положение объекта в момент времени

скалярная

Среди допустимых управлений найти то, на котором критерий качества (2) достигает минимального значения.

- оптимальное управление

- оптимальная траектория

Задача называется задачей управления конечным состоянием.

68.Простейшая задача терминального управления. Формула приращения критерия качества.

Имеем

u(t) оптим., если (3), (4), , следовательно на левом конце: .

Рассмотрим функцию и некоторую вспомогательную функцию - кусочно-гладкая непрерывная функция.

Рассмотрим и продифференцируем это произведение по t, получим: .

С учетом этого приращение функции будет иметь вид:

- формула приращения качества.

69. Простейшая задача терминального управления. Игольчатые вариации

Рассматривается вариация управления простейшего вида:

v– управление константа, т.е. v,u(t)∊U, ,

График надо нарисовать

Вариация управления вызывает вариацию траектории. Доказывается, что , т.е. мало чем отличается, но от отличается очень сильно. Поэтому игольчатые вариации наз сильными вариациями.

Систему рассмотрим сначала на промежутке . Здесь

График надо нарисовать

Есть теорема об интегральной непрерывности дифференциальных уравнений. Согласно теореме решения: , имеет порядок точности

Теорема о непрерывной зависимости решений ДУ от начальных условий.

Решение на последнем промежутке имеет порядок малости как начальное условие.

Игольчатая вариация определяет малое применение траектории за счет малого применения вариации.

имеет порядок малости такой же как и ,

Если - оптимальное управление, то выполняется

в формуле приращения интеграл д.б. <=0, а >=0

70. Простейшая задача терминального управления. Принцип максимума Понтрягина.

Пусть - оптимальное управление задачи 1-2:

(1)

(2)

соответствующая оптимальная траектория

решение ДУ

тогда выполняется условие максимума Понтрягина:

71. Метод динамического программирования.

Динамическое программирование (ДП) – это методы решения многошаговых (многоэтапных) и динамических задач оптимизации.

Основная идея методов ДП состоит в разбиении исходной (сложной) задачи оптимизации на ряд более простых, однотипных, меньшего размера задач, анализируя последовательно каждый шаг процесса в поисках варианта его наилучшего продолжения. При этом на каждом шаге оптимизируется простейшая задача не изолированно от других, а в тесной связи с остальными.

Итак, важным условием применимости метода ДП является возможность разбиения процесса принятия решений на ряд однотипных шагов, каждый из которых планируется отдельно, но с учетом результатов, полученных на предыдущих шагах .

ДП основывается на двух главных принципах: принцип оптимальности или принцип погружения (вложения).

Принцип оптимальности: необходимо всегда обеспечивать оптимальное продолжение процесса относительно уже достигнутого состояния (результата). Это реализуется в составлении неких рекуррентных соотношений.

Принцип погружения (вложения). Природа задачи, для которой используется метод ДП, не меняется при изменении числа шагов, поэтому задача погружается в семейство подобных задач, являясь одной из них.

Реализация названных принципов дает гарантию, что 1)решение, принимаемое на очередном шаге, окажется лучшим с точки зрения всего процесса; 2) последовательность решений одношаговой, двухшаговой и т.д. задач приведет к решению исходной n-шаговой задачи. Схема ДП чаще всего, но не всегда, строится так, что первым исследуется последний (конечный) шаг задачи. Этот завершающий этап может быть спланирован наилучшим образом с точки зрения критерия Z сам по себе. Но с учетом ожидаемых исходов предыдущего этапа, еще не исследованного. Поэтому получаем набор условно оптимальных решений. Завершив исследование последнего этапа, применяют те же рассуждения для предпоследнего этапа, но теперь цель – достигнуть оптимального значения Z не на одном (предпоследнем) этапе, а на двух последних вместе. Тем самым будет найден второй набор условно оптимальных решений. Повторяем подобные операции для третьего, четвертого и т.д. этапов, в результате получаем решение задачи.

Преимущества метода ДП:

- дает возможность решать задачи, которые ранее не исследовались из-за отсутствия математического аппарата, например, конечномерные задачи с дискретной структурой;

- позволяет упростить поиск оптимальных решений в ряде случаев за счет резкого сокращения объемов вычислений, например, в комбинаторных задачах.

Недостатки метода ДП:

- отсутствие универсального алгоритма, пригодного для решения всех задач (есть общая идея, а алгоритм формируется для каждой конкретной задачи отдельно). Поэтому результат во многом зависит от опыта математика-исследователя;

- трудности при анализе задач большой размерности (для решения конкретных задач нужны ЭВМ с большой операт памятью, поскольку размер таблиц от этапа к этапу может расти экспоненциально). Этот недостаток получил специальное название – «проклятие размерности».

72. Применение метода динам прогр для решения задачи распределения ресурсов.

Постановка задачи. Имеется n технологических процессов, где используется дефицитное сырье, объем которого равен С. Получаемая прибыль на каждом технологическом процессе зависит от объема вложенного в него сырья. Общая прибыль – это суммарная прибыль от всех технологических процессов. Требуется так распределить сырье между технологическими процессами, чтобы общая прибыль была максимальной.

Решение задачи. Введем значения. Пусть xi – объем сырья, выделенный i-тому технологическому процессу, fi(xi) – прибыль, получаемая на i-том технологическом процессе. Тогда суммарная прибыль от всех технологических процессов. Очевидно, что на переменные xi накладываются ограничения: 0≤xi≤С, Таким образом, имеем следующую математическую модель задачи: , (1.1), где

Первый этап метода динамического программирования – погружение задачи в семейство аналогичных задач. Будем считать, что число технологических процессов равно k (ясно, что kN, 0≤y≤С). Тогда имеем задачу (1.2)

Если k=n и y=C, то получим исходную задачу (1.1).

Введем функцию Беллмана – оптимальное (максимальное) значение целевой функции задачи (1.2), обозначив ее Bk(y). Заметим, что эта функция двух аргументов k и y, будем считать, что при заданном натуральном значении k значения yYk. В частности при k=1 получаем (1.3)

Перейдем ко второму этапу метода динамического программирования – составлению уравнения Беллмана. Рассуждаем следующим образом. Из общего объема y последнему k-тому технологическому процессу выделим объем, равный z, zXk. При этом прибыль от k-того процесса согласно условию равна fk(z). На остальные от первого до (k-1)-го технологические процессы остается сырье в объеме y-z. Следуя принципу оптимальности, считаем, что оно между этими процессами распределено наилучшим образом. Полученная прибыль (максимально возможная) есть функция Беллмана Bk-1(y-z), где y-zYk-1. Тогда общая прибыль от всех k технологических процессов равна (1.4)Далее для всех zYk и (y-z)Yk-1 требуется найти максимальное значение функции (1.4), т.е. значение Bk(y). Таким образом, получаем уравнение: (1.5)

которое и есть уравнение Беллмана.

Третий этап метода динамического программирования – поиск решения уравнения (1.5) с начальными условиями (1.3) и построение по нему решения исходной задачи.

В уравнении (1.5) положим k=2: (1.6)

где f2(z) – заданная функция, B1(y-z) – определено согласно (1.3), поэтому правая часть определена для всех y[0;C], для которых (y-z)Y1. Множество таких значений y и есть множество Y2. Для каждого yY2 найдем значение z, на котором достигается максимум в правой части (1.6): , а также значение B2(y).

Далее полагаем в уравнении (1.5) k=3,4,…,n. После процесса оптимизации получим последовательность

Если то исходная задача не имеет решения. В противном случае Bn(С) – максимальная прибыль. Оптимальное распределение ресурсов по технологическим процессам определяем, начиная с Затем

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]