2. Принципи динамічного програмування. Принцип оптимальності Беллмана

Ще раз підкреслимо, що зміст підходу, реалізованого в динамічному програмуванні, є у заміні рішення вихідної багатомірної задачі послідовністю задач меншої розмірності.

Перелічимо основні вимоги до задач, виконання яких дозволяє застосувати даний підхід:

об'єктом дослідження повинна бути керована система (об'єкт) із заданими припустимими станами й припустимими керуваннями;
задача повинна дозволяти інтерпретацію як багатокроковий процес, кожний крок якого складається з ухвалення рішення про вибір одного із припустимих керувань, що приводять до зміни стану системи;
задача не повинна залежати від кількості кроків і бути певної на кожному з них;
стан системи на кожному кроці повинне описуватися однаковим (по складу) набором параметрів;
наступний стан, у якому виявляється система після вибору рішення на k-му кроці, залежить тільки від даного рішення й вихідного стану до початку k-го кроку. Дана властивість є основним з погляду ідеології динамічного програмування й називається відсутністю післядії.

Розглянемо питання застосування моделі динамічного програмування в узагальненому виді.

Нехай поставлена задача керування деяким абстрактним об'єктом, що може перебувати в різних станах. Поточний стан об'єкта ототожнюється з деяким набором параметрів, позначуваним надалі ξ і іменований вектором стану. Передбачається, що задано множину Ξ всіх можливих станів. Для об'єкта визначена також множина припустимих керувань (керуючих впливів) X, що, не применшуючи спільності, можна вважати числовою множиною. Керуючі впливи можуть здійснюватися в дискретні моменти часу k (k∊1:n), причому управлінське рішення полягає у виборі одного з керувань x_k∊Х.

Планом задачі або стратегією керування називається вектор х = (х₁, х₂, .., xn-1), компонентами якого служать керування, обрані на кожному кроці процесу. Через передбачувану відсутність післядії між кожними двома послідовними станами об'єкта ξ_k і ξ_k₊₁існує відома функціональна залежність, що включає також обране керування: ξ_k₊₁= φ_k(x_k, ξ_k), k∊1:п-1. Тим самим завдання початкового стану об'єкта ξ₁∊Ξ і вибір плану х однозначно визначають траєкторію поводження об'єкта, як це показано на рис. 5.1.

Ефективність керування на кожному кроці k залежить від поточного стану ξ_k, обраного керування x_k і кількісно оцінюється за допомогою функцій f_k(х_k, ξ_k), що є складовими адитивної цільової функції, що характеризує загальну ефективність керування об'єктом. (Відзначимо, що у визначення функції f_k(х_k, ξ_k) включається область припустимих значень х_k, і ця область, як правило, залежить від поточного стану ξ_k).

Оптимальне керування, при заданому початковому стані ξ₁, зводиться до вибору такого оптимального плану х*, при якому досягається максимум суми значень f_k на відповідній траєкторії.

Основний принцип динамічного програмування полягає в тім, що на кожному кроці варто прагнути не до ізольованої оптимізації функції f_k(х_k, ξ_k), а вибирати оптимальне керування х_k* у припущенні про оптимальність всіх наступних кроків.

Формально зазначений принцип реалізується шляхом відшукання на кожному кроці k умовних оптимальних керувань _k(ξ), ξ∊Ξ, що забезпечують найбільшу сумарну ефективність починаючи із цього кроку, у припущенні, що поточної є стан ξ.

Позначимо Λ_k(ξ) максимальне значення суми функцій f_k протягом кроків від k до п (одержуване при оптимальному керуванні на даному відрізку процесу), за умови, що об'єкт на початку кроку k перебуває в стані ξ . Тоді функції Λ_k(ξ) повинні задовольняти рекурентному співвідношенню:

де ξ_k₊₁= φ_k(x_k, ξ)

Співвідношення (5.14) називають основним рекурентним співвідношенням динамічного програмування. Воно реалізує базовий принцип динамічного програмування, відомий також як принцип оптимальності Беллмана:

Оптимальна стратегія керування повинна задовольняти наступній умові: яке б не було початковий стан ξ_k на k-му кроці й обране на цьому кроці керування х_k,, наступні керування (управлінські рішення) повинні бути оптимальними стосовно стану ξ_k₊₁= φ_k(x_k, ξ_k), що виходить у результаті рішення, прийнятого на кроці k.

Основне співвідношення (5.14) дозволяє знайти функції Λ_k(ξ) тільки в сполученні з початковою умовою, якимось у нашім випадку є рівність

Порівняння рекурентної формули (5.14) з аналогічними співвідношеннями в розглянутих вище прикладах вказує на їхнє зовнішнє розходження. Це розходження обумовлене тим, що в задачі розподілу ресурсів фіксованим є кінцевий стан керованого процесу. Тому принцип Беллмана застосовується не до наступних, а до початкових етапів керування, і початкове співвідношення має вигляд

Важливо ще раз підкреслити, що сформульований вище принцип оптимальності застосуємо тільки для керування об'єктами, у яких вибір оптимального керування не залежить від передісторії керованого процесу, тобто від того, якої шляхом система прийшла в поточний стан. Саме ця обставина дозволяє здійснити декомпозицію задачі й уможливити її практичне рішення.

У той же час, говорячи про динамічне програмування як про метод вирішення оптимізаційних задач, необхідно відзначити і його слабкі сторони.

Так, у запропонованій схемі вирішення задачі (5.3)-(5.4) істотно використовується той факт, що система обмежень містить тільки одну нерівність, і, як наслідок, її стан задається одним числом - нерозподіленим ресурсом ξ . При наявності декількох обмежень стан керованого об'єкта на кожному кроці характеризується вже набором параметрів ξ₁, ξ₂, ..., ξ_m , і табулювати значення функцій Λ_k (ξ₁, ξ₂, ..., ξ_m) необхідно для багаторазово більшої кількості точок. Остання обставина робить застосування методу динамічного програмування явно нераціональним або навіть просто неможливим. Дану проблему його основоположник Р. Беллман ефектно назвав «прокльоном багатомірності». У цей час розроблені певні шляхи подолання зазначених труднощів.

<<< < Предыдущая 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 / 3828 29 30 31 32 33 34 35 36 37 38 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
29.04.2019157.7 Кб10Методы эволюционной оптимизации.doc
#
01.07.20256.31 Mб2Метр_Изм_Эл.Версия.doc
#
01.07.2025586.36 Кб1Министерство образования и науки Украины.docx
#
21.07.2019129.74 Кб14Мише.docx
#
17.11.2019261.48 Кб3ММДО ФОс.docx
#
01.07.20252.91 Mб6ММДО_конспект.doc
#
14.04.20156.23 Mб13ММДО_МУ по ЛБ(+).pdf
#
14.04.20151.2 Mб17ММДО_МУ по ПЗ(+).pdf
#
14.04.2015500.78 Кб16ММДО_РАБ ПРОГ(+).pdf
#
13.04.2015679.94 Кб23МНа ЛБ1.doc
#
01.05.2025950.78 Кб1МНа Экзамен Ответы_окончательно.doc