Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции / Все лекции.doc
Скачиваний:
99
Добавлен:
20.06.2014
Размер:
4.29 Mб
Скачать

4.2.1.3. Принцип оптимальности Беллмана

Мы видим, что в общем случае задача оптимального управления состоит в том, что нужно найти последовательность управляющих воздействий u(i0+1),u(i0+2)…, которая переводит систему из заданного начальногоx(0) в конечноеx(N) и обеспечивает достижение минимального значения критерия оптимальности (4.20). Если вектор управленияu r-мерный, то в результате решения задачиN-шагового управления требуется определить значенияN*rуправляющих величин.

Можно было бы эту задачу попытаться решить “в лоб”, т.е. выписать выражения для всех хотх(i0) до конечногоx(N). Все переменные, значения которых необходимо определить, должны быть взаимосвязаны, следовательно, размерность решаемой задачи будет не меньше, чемNr. В практических ситуациях она может оказаться слишком большой и решение такой задачи может оказаться невозможным в режиме реального времени за приемлемые промежутки. Временные затраты на реализацию нелинейно зависят от размерности задачи. Целесообразный путь состоит в понижении размерности задачи, например, в сведенииNr– мерной задачи к последовательностиNзадач размерностиr. Возможность для реализации такого подхода открывается на основе принципа оптимальности Беллмана.

Теорема Беллмана.При любом начальном состоянии и оптимальном начальном управлении последующее управление должно быть оптимальным относительно состояния, возникшего в результате начального управления.

Нестрогое доказательство от противного осуществляется следующим образом. Рассмотрим на некотором интервале времени t1tt2системуSс вектором управленияuи вектором состоянияx. Время может быть дискретное или непрерывное, концыx(0),x(N) могут быть свободными или закреплёнными. ПустьQнекоторый критерий качества, который оптимизируется на заданном интервале [t1,t2], например, минимизируется.

Допустим, что существует, по крайней мере, одно управление u(t), удовлетворяющее всем ограничениям и минимизирующееQна [t1,t2]. Обозначим это оптимальное управлениеu0(t), а соответствующее ему значение критерияQ0.

Рассмотрим некоторый момент времени t’[t1,t2] и предположим, что на интервале [t’,t2] существует управлениеu*(t), для которого значение критерияQменьше, чем дляu0(t) на этом же интервале и при том же начальном состоянии. Поэтому комбинированное управление

обеспечивает значение критерия Q**Q0на интервале [t1,t2]. Но по условиюu0(t) является оптимальным управлением, которое не может быть улучшено. Следовательно, имеем противоречие, которое и доказывает теорему.

Принцип оптимальности позволяет сформулированную выше задачу определения вектора управлений размером Nr– мерную задачу разделить наN задач размерности r.

При использовании принципа оптимальности решение осуществляется в обратном порядке, т.е. сначала определяется управление u(N-1), переводящее систему в конечное состояниеx(N) из состоянияx(N-1). При этом в соответствии с принципом оптимальности принимается, что управлениеu(N-1) должно быть оптимально относительно состоянияx(N-1) и не зависит от того, как в него система перешла. Так что последнее управление будет в соответствии с принципом оптимальности оптимальным. Затем определяется управлениеu(N-2) и т.д. доu(0).