Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Материалы по курсу (часть 2).docx
Скачиваний:
47
Добавлен:
14.06.2020
Размер:
7.78 Mб
Скачать

11. Управление переходом организма из исходного в конечное состояние методом дп: использование ориентированного графа.

Рассмотрим управляемый процесс, который переводит некоторую систему G из начального состояния S0 в конечное состояние Sm. При наличии промежуточных состояний такой перевод представляется в виде траектории, состоящей из конкретной последовательности промежуточных состояний (рис. 2.1). Если промежуточные состояния могут быть различными, то траектория перевода G из S0 в Sm неоднозначна и зависит от вырабатываемых управляющих воздействий x.

W=W(x) – целевая функция, х – выбранное управление.

Введя какую-либо W=W(x), можно сравнивать (по величине W) траектории друг с другом и искать оптимальную, при которой достигается экстремум W. В зависимости от содержания целевой функции в процессе оптимизации ее стремятся либо максимизировать, либо минимизировать. Далее будет рассматриваться оптимизация, при которой W → min. Таким образом, задача заключается в отыскании оптимального управления x *, при котором целевая функция W достигает своего минимального значения W *, т. е.

Представим себе процесс управления состоящим из конечного числа последовательных шагов. В этом случае траектория перехода G из S0 в Sm будет иметь вид последовательности промежуточных состояний S0, S1, S2, …, Sm, которая является результатом пошагового управления x, также имеющего вид последовательности . Будем считать, что Si обозначает состояние системы G, а xi – управление на i-м шаге для произвольной траектории.

Для конкретной же траектории конкретное управление xi' переводит G в конкретное состояние Si’. Нужно иметь в виду, что управления x1, x2, …, xm в общем случае не числа, а векторы, функции, какие-либо предписания и т. п.

Пусть на каждом отдельном i-м шаге, заключающемся в переходе из Si-1 в Si, известно значение целевой функции W, которое обозначается wi. Считая выбранный критерий W аддитивным, т. е. полагая, что задачу оптимизации можно сформулировать следующим образом. Требуется найти такое оптимальное управление (где – оптимальное шаговое управление на i-м шаге), при котором целевая функция W принимает минимальное значение, т.е.

.

Пример:

Поиск оптимального управления методом ДП основан на использовании принципа оптимальности: каково бы ни было состояние S системы G в рез-те какого-то числа шагов, мы должны выбирать управление на ближайшем шаге так, чтобы оно в совокупности с оптимальным управление на всех последующих шагах приводило к минимальному значению целевой функции на всех оставшихся шагах, включая данный.

1. Перечислить набор шаговых управлений xi для каждого шага и налагаемые на них ограничения.

2. Для каждого i-го шага определить значение wi в функции от состояния Si-1 на (i-1)-м шаге и от шагового управления xi

3. Определить, как изменяется состояние Si-1 системы G под влиянием управления xi на (i-1)-м шаге: оно переходит в новое состояние

4. Пусть Wi(Si-1) – условный оптимум целевой функции, получаемый на всех последующих шагах, начиная с i-го и до конца. Надо записать основное рекуррентное уравнение динамического программирования, выражающее Wi(Si-1) через уже известную функцию Wi+1(Si),

Этому условному оптимуму целевой функции соответствует условное оптимальное управление на i-м шаге xi(Si-1), которое совместно с оптимальным управлением на всех последующих шагах обращает целевую функцию на всех оставшихся шагах, начиная с данного, в минимум.

5. Произвести условную оптимизацию последнего, m-го шага, задав множество состояний Sm-1, из которых можно за один шаг дойти до конечного состояния, вычисляя для каждого Sm-1 условный оптимум целевой функции по формуле

и находя условное оптимальное управление xm(Sm-1), для которого этот минимум достигается.

6. произвести условную оптимизацию (m-1)-го,(m-2)-го и т. д. шагов по формуле , полагая в ней i=(m-1),(m-2),… и для каждого шага указать условное оптимальное управление xi(Si-1), при котором достигается минимум.

Так как начальное состояние системы S0 одно, и оно известно, то на первом шаге варьировать состояние системы не нужно – оптимальное значение целевой функции для S0 находится непосредственно. Это и есть оптимум функции цели за весь процесс перевода:

7. Произвести безусловную оптимизацию управления, учитывая выработанные ранее рекомендации на каждом шаге. На первом шаге оптимальное шаговое управление . Пользуясь , находим изменившееся состояние системы S1, для него определяем оптимальное управление на втором шаге и т. д. до конца.