Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Опт_ч2у.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.14 Mб
Скачать

3.4. Методи одновимірної оптимізації, що враховують додаткові відомості про функції

Методи виключення інтервалів базуються лише на одній апріорній відомості про цільову функцію - вона повинна бути унімодальною. Ці методи тому дуже універсальні; вони можуть використовуватися не тільки для неперервних, але і для розривних функцій і, більше того, навіть функції, аргумент яких приймає дискретну множину значень. У методах виключення інтервалів прийняте до уваги тільки відношення порядку в пробних точках і не враховується величина різниці між значеннями функції в цих точках.

У тих випадках, коли функція є неперервною, ефективність пошуку може бути значно підвищена за рахунок «повного» обліку значень функції в пробних точках. Досягається цей ефект, наприклад, у такий спосіб. В силу добре відомої теореми Вейерштрасса, неперервну функцію на кінцевому інтервалі можна як завгодно точно наблизити багаточленом. Якщо ж цей багаточлен відомий, то його мінімуми і максимуми можуть бути визначені аналітично. На практиці використовується апроксимація багаточленами другої чи, якнайбільше, третього ступеня. Якщо функція є досить гладкою, то такі «прості» багаточлени дозволяють її точно наблизити, у всякому разі, у малому околі пробної точки; отже, знайти положення екстремуму з високою точністю можна, послідовно застосовуючи наступну просту процедуру, що показує хорошу «працездатність» методу для унімодальних функцій.

У малому околі довільно обраної початкової пробної точки наближаємо багаточленом другого (чи третього) ступеня. Відшукуємо по заздалегідь виписаній (дуже простій) формулі координату екстремуму цього багаточлена, яку розглядаємо як вихідну точку для наступної ітерації і т.д. Дана схема пошуку лежить в основі методу Пауелла.

Якщо ж функція є не тільки неперервною, але ще й диференційовною, то ефективність оптимізації може бути додатково підвищена.

Широке поширення знайшли метод Н’ютона - Рафсона і його модифікація, що одержала назву методу січних. Метод січних у своїй основі містить наступні операції. Припустимо, що в процесі пошуку стаціонарної точки функції на інтервалі виявлені дві точки , , у яких знаки похідної різні (рис. 3.17). У цьому випадку алгоритм методу січних дозволяє апроксимувати функцію «січною прямою» і знайти точку, у якій січна графіка перетинає вісь абсцис (точка ). Далі в точці визначається величина і будується нова січна, котра породжує точку , і т.д. Даний процес, очевидно, сходиться до точки .

Рис. 3.17

4. Методи пошуку екстремумів функцій багатьох змінних

4.1.Необхідні і достатні умови екстремуму.

Аналітичний метод пошуку екстремумів

Нехай тепер - функція n+1 змінних . Її область визначення породжується сукупністю областей визначення по кожній з n+1 змінних; при цьому . Для визначеності будемо вважати, що збігається з дійсною віссю, тобто (рис. 4.1).

Тут і в подальшому тексті для наочності, ми будемо користуватися рисунками функції (поверхні) . Однак наші можливості наочного геометричного сприйняття багатомірних поверхонь, як відомо, дуже обмежені. Тому у всіх розглянутих далі випадках будуть представлені рисунки тільки двовимірних поверхонь.

Для функції n+1 змінних поняття глобального і локального максимумів (мінімумів) вводяться аналогічно приведеним вище визначенням для функції однієї змінної. Слід тільки мати на увазі, що тепер екстремальна точка характеризується набором координат (див. рис. 4.1, де n = 1), тому поняття - околу виглядає трохи складніше.

Визначення 4.1. Множина точок з координатами , що задовольняють системі нерівностей

(4.1)

утворює - окіл точки з координатами .

Тому, наприклад, локальний екстремум визначається в наступний спосіб (порівн. з визначенням 3.3 локального екстремуму функції однієї змінної).

Визначення 4.2. Точка з координатами доставляє локальний максимум функції , якщо при деякому досить малому числі для всіх точок, що не збігаються зі згаданою точкою і задовольняють умові (4.1), виконується нерівність

. (4.2)

Якщо дана нерівність є строгою, то говорять про строгий локальний максимум. Щоб дати визначення локальному мінімуму, досить у співвідношенні (4.2) змінити знак нерівності на знак протилежного змісту ( ).

Екстремум вважається глобальним, якщо нерівність (4.2) (чи йому протилежна) виконується для всіх точок області визначення, а не тільки тих, що належать - околу (4.1).

Легко зрозуміти, що якщо точка з координатами є точкою локального кстремуму, то в ній буде досягатися локальний екстремум і по довільно обраній координаті , якщо всі інші координати зафіксувати і покласти . Отже, в екстремальній точці з координатами повинна виконуватися необхідна умова екстремуму (теорема 3.1) стосовно кожної незалежної змінної, взятої окремо. Справедлива, таким чином, наступна теорема.

Теорема 4.1. Для того, щоб у точці з координатами функція мала локальний екстремум, необхідно, щоб усі її частинні похідні перетворювалися в цій точці на нуль:

(4.3)

Цю умову, що називається умовою стаціонарності, часто записують у векторній формі:

, або , (4.4)

де чи символи позначають градієнт . Нагадаємо визначення цього вектора.

Визначення 4.3. (n+1) - вимірний вектор з координатами

(4.5)

називається градієнтом функції .

Точки (n+1) - вимірного простору, що задовольняють умові (4.3) (чи (4.4)), як і в одновимірному випадку (див. главу 3), називають стаціонарними. Зрозуміло, стаціонарна точка не обов'язково є екстремальною.

Приведемо без доведення достатню умову екстремуму функції багатьох змінних [26, 27, 28].

Теорема 4.2. Для того, щоб двічі неперервно диференційовна функція (п+1) змінних мала в стаціонарній точці локальний максимум (мінімум), досить, щоб матриця її других похідних (матриця Гессе) (4.6)

(4.6)

була відємно (додатно) визначеною, тобто щоб вираз

(4.7)

був меншим (більшим) нуля при довільно обраних дійсних числах

таких, що

Перевірка знаковизначеності матриці може бути проведена, наприклад, за допомогою критерію Сільвестра [27]. Відповідно до цього критерію, необхідною і достатньою умовою додатної визначеності матриці

(4.8)

тобто виконання нерівності при довільно обраних значеннях є виконання (n+1) нерівностей

(4.9)

Необхідною і достатньою умовою від’ємної визначеності матриці (4.8) є виконання нерівностей

Визначення 4.4. Стаціонарну точку функції багатьох змінних, яка не є точкою екстремуму, називають сідловою, якщо в околі цієї точки

(рис. 4.2) виконуються нерівності

Приклад. Розглянемо застосування необхідних і достатніх умов екстремуму до задачі корекції спотворень каналу зв'язку. У випадку коректора з двома базисними функціями середньоквадратична похибка, як було раніш нами показано, приймає вигляд

(4.11)

Рис. 4.2

Запишемо необхідну умову екстремуму :

або, що те ж саме,

(4.12)

Як видно, мінімізація середньоквадратичної похибки (4.11) призвела до системи з двох лінійних рівнянь із двома невідомими. Розв’язок її має вигляд

(4.13)

Чи доставляє отриманий розв’язок мінімум ?

Знайдемо другі частинні похідні функції :

і випишемо відповідну матрицю Гессе (4.6)

Перевіримо виконання нерівностей (4.9).

Згадавши позначення (2.11б), можемо записати

крім того,

(4.14)

у силу того ж позначення і нерівності Коші - Буняковського, що, як відомо [4, 7], має вигляд

для довільних комплексних функцій , і , причому знак переходить у знак рівності лише для функцій і , що збігаються з точністю до постійного множника (що не може мати місця при використанні гармонічного коректора).

Таким чином, наша матриця є додатно визначеною і знайдений розв’язок дійсно реалізує мінімум .

Зауваження 4.1. Нерівність (4.14) гарантує існування розв’язку системи лінійних рівнянь (4.12) при нерівній нулю її правій частині.