
- •А.В. Аттетков, С.В. Галкин, В.С. Зарубин
- •ПРЕДИСЛОВИЕ
- •Задания для самопроверки
- •ОСНОВНЫЕ ОБОЗНАЧЕНИЯ
- •Буквы латинского алфавита
- •Буквы греческого алфавита
- •1. ЗАДАЧИ ОПТИМИЗАЦИИ
- •1.1. Основные понятия
- •1.2. Некоторые простые примеры
- •1.3. Задачи оптимального проектирования
- •1.4. Задачи оптимального планирования
- •1.5. Классы задач оптимизации
- •Вопросы и задачи
- •2. МЕТОДЫ ОДНОМЕРНОЙ МИНИМИЗАЦИИ
- •2.1. Предварительные замечания
- •2.3. Оптимальный пассивный поиск
- •2.4. Методы последовательного поиска
- •2.5. Сравнение методов последовательного поиска
- •2.6. Методы полиномиальной аппроксимации
- •2.7. Методы с использованием производных
- •Вопросы и задачи
- •3. МИНИМИЗАЦИЯ ВЫПУКЛЫХ ФУНКЦИЙ
- •3.2. Выпуклые функции
- •3.4. Условия минимума выпуклых функций
- •3.5. Сильно выпуклые функции
- •ф{t) = (grad/(а; + th), h)
- •3.6. Примеры минимизации квадратичных функций
- •3.7. Минимизация позиномов
- •Qj = '%2aijci = Q> J = !.*»•
- •Вопросы и задачи
- •4. ЧИСЛЕННЫЕ МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ
- •4.1. Релаксационная последовательность
- •4.2. Методы спуска
- •4.4. Минимизация квадратичной функции
- •4.5. Сопряженные направления спуска
- •5. АЛГОРИТМЫ МЕТОДОВ ПЕРВОГО И ВТОРОГО ПОРЯДКОВ
- •|iufc|
- •5.3. Метод Ньютона
- •5.4. Модификации метода Ньютона
- •5.5. Квазиньютоновские методы
- •Вопросы и задачи
- •6. АЛГОРИТМЫ ПРЯМОГО ПОИСКА
- •6.1. Особенности прямого поиска минимума
- •6.2. Использование регулярного симплекса
- •6.4. Циклический покоординатный спуск
- •6.5. Метод Хука — Дживса
- •Щ + bjej,
- •6.6. Методы Розенброка и Пауэлла
- •Вопросы и задачи
- •7. АНАЛИТИЧЕСКИЕ МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ
- •7.2. Минимизация при ограничениях типа равенства
- •7.4. Седловая точка функции Лагранжа
- •7.5. Двойственная функция
- •7.6. Геометрическое программирование
- •Вопросы и задачи
- •8. ЧИСЛЕННЫЕ МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ
- •8.1. Метод условного градиента
- •8.2. Использование приведенного градиента
- •8.5. Метод проекции антиградиента
- •СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ
- •ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
- •ОГЛАВЛЕНИЕ
- •Математика в техническом университете Выпуск XIV
- •Аттетков Александр Владимирович Галкин Сергей Владимирович Зарубин Владимир Степанович
- •МЕТОДЫ ОПТИМИЗАЦИИ
так, что она станет выпуклым множеством (любая е-окрест- ность — выпуклое множество), и тогда, согласно теореме 3.12, функция /(ж ) выпукла в U. Для такой функции условие grad f(x*) = 0 является не только необходимым, но и достаточ ным условием локального минимума.
Отметим, что выпуклая функция может иметь более одной точки локального минимума. Например, квадратичная функ ция f(x 1,^2) = {х\ + Х2 )2 достигает в точке (0, 0) наименьшего значения, равного нулю. Но точками локального минимума являются также и все точки вида (i, —i), t Е К.
3.5. Сильно выпуклые функции
Определение 3.3. Функцию /(ж ), определенную на вы пуклом м нож ест ве П с К п, называют сильно выпуклой, если существует такая константа 7 > 0, называемая параметром сильной выпуклости, что для любых точек ж1, х2 Е fi и лю бого а Е [0, 1] справедливо неравенство
/(а ж 1 + (1 — а)ж2) ^
^ а /(ж х) + (1 - а)/(ж 2) - а(1 — а ^ ж 1 - ж2|. (3.27)
Всякая сильно выпуклая функция является ст рого выпуклой функцией, но не наоборот. Действительно, при ж1 ф х2 и а Е (0,1) из неравенства (3.27) вытекает строгое неравенство (3.6) . Однако выполнение этого неравенства не означает, что справедливо неравенство (3.27). Например, функция f(x 1,2:2) = = х\ + х\ является строго выпуклой и для нее верно неравенство (3.6) . Однако неравенство (3.27) при х1 = (р, q) и ж2 = (0, 0) равносильно неравенству
a4 (p4 + q4) < а(р4 + q4) — а(1 — a)j(p2 + q2),
ИЛИ
7 (P 2 + Q2) < (1 + а + а2 )(р4 + q4),
причем это неравенство должно быть верно при некотором фиксированном значении 7 и любых р, q и а 6 (0,1). Ясно, что при соответствующем выборе р, q и а оно нарушается (например, при p = q < 1/2 и любом а € (0,1)).
Дадим геометрическую интерпретацию определения 3.3, рассмотрев функцию у = f(x) одного переменного. Зафик сировав х\ и Х2 из области определения функции и обозна чив х(а) = ах\ + (1 —а)х2 , бу дем изменять о: от 0 до 1. Яс но, что тогда значение х(а) бу дет изменяться от Х2 до Х\, а
точка (х, f(x)) пройдет по гра фику функции у = f(x) от точ ки В = (Х2 , f{x 2)) до точки А = = (®i, /(® i)) (рис. 3.2).
Уравнения
х = ж ( а ) ,
y = af(xi) + ( l - a ) f { x 2)
в плоскости хОу описывают прямую L (секущую), соединяю щую точки Я и В, а уравнения
(х = х(а),
\У = af(x 1) + (1 - a)f{x2) - а(1 - a ) 7 ( z i - х2 )2
задают параболу Р вида у = ах2 + Ьх+ с,а = 7(27 — Х2)2, которая проходит через точки А и В. Неравенство (3.27) в этом случае означает, что график функции у = f(x) на плоскости хОу расположен ниже не только секущей, соединяющей точки А и В) но и параболы Р, прогиб которой определяется параметром 7 , и его можно выбрать сколь угодно малым. Другими словами, в области, ограниченной секущей и графиком функции, можно построить параболу, соединяющую точки А и В.
Пример 3.13. Убедимся, что квадратичная функция вида f(x) = (Qx, х) + 2(с, ж), с, х Е Rn, где Q — положительно
определенная симметрическая матрица порядка п, является сильно выпуклой на множестве К71.
В силу тождеств
а2 = а —а(1 — а) и (1 — а)2 = (1 — а) — а(1 — а)
заключаем, что
(Q(ax1 + (1 —а)ж2), ах 1 + (1 — а)х2) =
= а2 (Qx1 , ж1) + а(1 — ^ ((Q ® 1, ж2) + (Qx2, ж1)) +
+ (1 - а)2 (Qx2, ж2) = a (Qx1, ж1) + (1 - а) (<Эж2,-ж2) -
- а(1 - a) (Q(ж1 - ж2), ж1 — ж2) .
Поэтому
/(аж1 + (1 —а)ж2) = Q (аж1 + (1 |
- |
а)ж2, аж1 + (1 —а)ж2) + |
+ (с, аж1+ (1 —а)ж2) = а (Q x |
1 |
, ж1) + (1 —а) (Q x2, ж2) + |
+ а(с, ж1) + (1 —а) (с, ж2) —а(1 - а) (СДж1 —ж2), ж1 —ж2) =
= а/(ж1) + (1 —а)/(ж2) —а(1 —а) (СДж1 —ж2), ж1 —ж2).
Учитывая, что для положительно определенной матрицы Q
справедливо неравенство ((Дж1—ж2), ж1 —ж2) ^ А|жг —ж2|2, где
А — ее наименьшее собственное значение, приходим к выво ду, что рассматриваемая функция удовлетворяет неравенству (3.27) при 7 ^ А и, значит, является сильно выпуклой.
Теорема 3.16. Для того чтобы функция /(ж), дифферен цируемая на выпуклом множестве П, была сильно выпуклой, необходимо и достаточно, чтобы существовала константа ц > О, для которой при любых ж1, ж2 € О, выполняется неравенство
(grad/(ж1) - g r a d /^ 2), ж1ж2) ^ А4!* 1 -ж 2|. |
(3.28) |
◄ Н е о б х о д и м о с т ь . Пусть выполнено неравенство (3.27). Тогда выполнено и неравенство (3.20). Используя оба неравен ства в случае а = 0,5 и полагая h = х 1 —х 2, получаем
0,257 |/г|2 < 0 ,5 {f(x 1) + f { x 2)) - / ( 0 , 5{хг + х 2)) =
= 0 ,5(/(® 1)-7 (0 ,5 (® 1 + * 2)))+ (),5 (/(® 2) - /( 0 ,5 (*1 + х 2))) <
< 0,5(grad/(®1), 0,5/i) - 0,5 (grad Да:2), 0,5/г) =
= 0,25(grad/(ж 1) -g ra d /(® 2), h).
Таким образом, пришли к неравенству (3.28) с параметром
М= 7- Д о с т а т о ч н о с т ь . Покажем, что если верно (3.28), то
верно и неравенство (3.27). Полагая h = х 1 —ж2, можем запи сать а х 1 + (1 — а)ж2 = х 2 + ah и
a f {x x) + (1 - a )f{x2) - f (ах1 |
+ (1 - а)х2) = |
= « ( / ( я 1) - |
Я ® 2)) ~ Я ®2+ ah) + /(а з 2). |
Это позволяет представить неравенство (3.27) в эквивалентной форме
a (f(x 2 + h ) - f ( x 2)) - f { x 2 +ah) + f { x 2 )^^a{l-a)\h\2. (3.29)
Рассмотрим функцию
ip{t) = a (f(x 2 + th) - f { x 2)) - {f{x 2 + ath) - f { x 2)),
непрерывно дифференцируемую на отрезке [0,1]. Запишем для производной <p'{t) этой функции формулу Ньютона — Лейбница
1
¥>(1) “¥>(0) = J <p'{t)dt.
о
Согласно правилу дифференцирования сложной функции,
ip'(t) = a (grad /(а?2 + th), h) — (grad/(а :2 + ath), ah) =
=a (grad/(аз2 + th) —grad/(x2 + ath), h) =
=(grad/^1) - grad/(y2), У1 - У2),
где y l = x 2 + th w. у2 — x 2 + ath. Используя неравенство (3.28) для пары точек у 1 и у2, получаем оценку
v'{t) > МТ7Г~л IУ1 ~ У212 = to(l “ a )»\h \2 |
|
|
t { l - a ) |
Таким образом, |
|
1 |
1 |
<^(1) - <£>(0) = Jip'(t)dt ^ а(1 —a)iJ,\h\2J t d t = ^ a ( l —a)/jL\h\2
о о
Непосредственным подсчетом убеждаемся, что <£>(0) = 0 и
¥>(1) = <*(/(®2 + Л)- А®2)) - (Я®2 + <*h) - А®2)),
т.е. разность </?(1 ) —<р(0) совпадает с левой частью неравенства (3.29). Тем самым доказано, что это неравенство выполняется с параметром 7 = 0,5/х. ►
Теорема 3.17. Для того чтобы функция /(ж ), дважды непрерывно дифференцируемая на открытом выпуклом множе стве fi С К71, была сильно выпуклой, необходимо и достаточно, чтобы существовала константа /л> 0, для которой при любых х Е и h Е Rn верно неравенство
(H(x)h, /1) ^ /х|/г|2, |
(3.30) |
где Я(ж) — матрица Гессе функции f(x) |
в точке х. |