
- •Розділ 5 Прийняття рішення за несКіНченнОго планового періоду
- •5.1. Моделі з нескінченним плановим періодом
- •5.2. Модель експлуатації лісового господарства
- •5.3. Методи послідовних наближень
- •5.4. Метод послідовних наближень у просторі функцій
- •5.5. Метод послідовних наближень у просторі стратегій (метод ітерацій за стратегіями)
5.4. Метод послідовних наближень у просторі функцій
(метод ітерацій за критерієм)
Головна ідея у попередньому методі була пов’язана із знаходженням оптимальної стаціонарної стратегії N для нескінченого планового періоду за допомогою аналіз у ряду зростаючих значень n. Навпаки, ідея методу, що описується нижче, полягає у послідовному наближенні до значення функції f в екстремальному рівнянні. Відповідно процес має назву методу ітерацій за критерієм.
Пускай
– початкове обране значення f.
Метод полягає у побудові послідовності
наближень
на основі рекурентного співвідношення:
(5.18)
де
– пробне значення f
на
ітерації n.
[Якщо
метою оптимізації в екстремальному
рівнянні є досягнення максимуму, то у
вираз (5.18) вносяться відповідні зміни].
Далі приводиться приклад рішення задачі
за допомогою цього методу.
Хоча алгоритм (5.18) чітко сформульований, виникають три питання відповідно його застосовності:
1) Чи завжди значення прагне до того f, що задовольняє екстремальне рівняння?
2) Якщо завжди, то чи існує таке кінцеве n, для якого дорівнює f ?
3) Якщо у відповідності до (5.18) на двох ітераціях підряд обране одне й те саме k, то чи є воно оптимальним?
Для
того, щоб відповісти на всі ці питання,
припустимо, , що всі
.
Якщо прийняти
,
то можна довести, що
,
отже сукупність
уявить собою монотонно
зростаючу послідовність наближень.
Тоді, при достатньо великому n,
стане дуже близьким до оптимального
значення f.
Більш того, деяка альтернатива може
бути обрана у якості значення правої
частини (5.18), на двох послідовних
ітераціях, але вона не обов’язково є
оптимальною для нескінченого планового
періоду. [Якщо
рішення для моделі відновлення знаходиться
методом наближення у просторі функцій,
то ми ніколи не повертаємося до раніше
відкинутої стратегії].
5.5. Метод послідовних наближень у просторі стратегій (метод ітерацій за стратегіями)
Припустимо,
що при обчисленні значення правої
частини рекурентного співвідношення
(5.18) попереднього розділу виявляється
стратегія, значно краща, ніж та, котра
відповідає
.
Це означає, що вибір знайденої стратегії
у випадку безпосередньо
прийнятого рішення є
поліпшенням у порівнянні з вибором
стратегії що була розглянута раніше.
Тоді досить ймовірно – і це дійсно
виявляється правильним, – що використання
нової стратегії протягом усього
нескінченного планового періоду дасть
навіть кращі результати, ніж вибір цієї
стратегії тільки у
випадку безпосередньо прийнятого
рішення. Отже,
можна
обчислити як інтегральні дисконтовані
витрати при багаторазовому повторному
виборі нової стратегії.
Цей процес відомий за назвою наближення у просторі стратегій або методу ітерацій за стратегіями, оскільки на кожній ітерації розглядається нова стаціонарна стратегія, що перевіряється, для нескінченного планового періоду.
Виникаюча
послідовність
є такою, що монотонно убуває, з п
на
кожній ітерації відбувається визначене
поліпшення; отже, ми ніколи не повертаємося
до одного разу відкинутої стратегії.
Оскільки є кінцеве число N
різних
стаціонарних стратегій, розрахунки при
даному підході повинні завершуватися
за кінцеве
число
ітерацій. Як тільки якась стратегія
залишається оптимальною протягом двох
ітерацій підряд, обчислення можна
припинити, причому
дорівнює оптимальному
,
що задовольняє екстремальному рівнянню.
Як побачить читач, за отримання кінцевого
алгоритму приходиться платити збільшенням
обсягу розрахунків по визначенню
для
нової стратегії на кожній ітерації.
Алгоритм має такий вигляд:
Крок 1. Виберемо довільну вихідну стратегію і приймемо п = 0.
Крок 2. Для заданої спробної стратегії k обчислимо інтегральні дисконтовані витрати протягом нескінченного планового періоду:
(5.19)
Крок 3. Перевіримо можливість подальших поліпшень, обчисливши
(5.20)
тобто
вибравши
.
Крок 4. Припинимо розрахунки, якщо
У супротивному випадку змінимо стратегію на . Перейдемо від ітерації п до ітерації (п + 1) і звернемося до виконання кроку 2 на основі нової стратегії, що перевіряється.
Відзначимо, що якщо гарні спробні значення виходять безпосередньо в процесі апроксимації у просторі функцій, то при описуваному методі ці значення повинні обчислюватися додатково, по формулі (5.19). Відзначимо також, що умова припинення розрахунків на кроці 4 виконується у тому випадку, коли – той же варіант, що розглядався на кроці 2. Іншими словами, розрахунки припиняються, якщо не змінюється протягом двох ітерацій підряд. [Як потрібно перетворити (5.20), якщо метою оптимізації на основі екстремального рівняння є максимізація?].
Запитання для самоконтролю
Що таке нескінченний плановий період ?
В чому полягає модель з нескінченним плановим періодом?
Сформулюйте теорему про довжину планового періоду для моделі відновлення
.В чому полягає ідея у послідовному наближенні до значення функції f в екстремальному рівнянні ?
Що таке вибір стратегії ?