Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2793.Методы оптимизации..pdf
Скачиваний:
175
Добавлен:
15.11.2022
Размер:
33.68 Mб
Скачать

так, что она станет выпуклым множеством (любая е-окрест- ность — выпуклое множество), и тогда, согласно теореме 3.12, функция /(ж ) выпукла в U. Для такой функции условие grad f(x*) = 0 является не только необходимым, но и достаточ­ ным условием локального минимума.

Отметим, что выпуклая функция может иметь более одной точки локального минимума. Например, квадратичная функ­ ция f(x 1,^2) = {х\ + Х2 )2 достигает в точке (0, 0) наименьшего значения, равного нулю. Но точками локального минимума являются также и все точки вида (i, —i), t Е К.

3.5. Сильно выпуклые функции

Определение 3.3. Функцию /(ж ), определенную на вы­ пуклом м нож ест ве П с К п, называют сильно выпуклой, если существует такая константа 7 > 0, называемая параметром сильной выпуклости, что для любых точек ж1, х2 Е fi и лю­ бого а Е [0, 1] справедливо неравенство

/(а ж 1 + (1 — а)ж2) ^

^ а /(ж х) + (1 - а)/(ж 2) - а(1 — а ^ ж 1 - ж2|. (3.27)

Всякая сильно выпуклая функция является ст рого выпуклой функцией, но не наоборот. Действительно, при ж1 ф х2 и а Е (0,1) из неравенства (3.27) вытекает строгое неравенство (3.6) . Однако выполнение этого неравенства не означает, что справедливо неравенство (3.27). Например, функция f(x 1,2:2) = = х\ + х\ является строго выпуклой и для нее верно неравенство (3.6) . Однако неравенство (3.27) при х1 = (р, q) и ж2 = (0, 0) равносильно неравенству

a4 (p4 + q4) < а(р4 + q4) — а(1 — a)j(p2 + q2),

ИЛИ

7 (P 2 + Q2) < (1 + а + а2 )(р4 + q4),

причем это неравенство должно быть верно при некотором фиксированном значении 7 и любых р, q и а 6 (0,1). Ясно, что при соответствующем выборе р, q и а оно нарушается (например, при p = q < 1/2 и любом а € (0,1)).

Дадим геометрическую интерпретацию определения 3.3, рассмотрев функцию у = f(x) одного переменного. Зафик­ сировав х\ и Х2 из области определения функции и обозна­ чив х(а) = ах\ + (1 —а)х2 , бу­ дем изменять о: от 0 до 1. Яс­ но, что тогда значение х(а) бу­ дет изменяться от Х2 до Х\, а

точка (х, f(x)) пройдет по гра­ фику функции у = f(x) от точ­ ки В = (Х2 , f{x 2)) до точки А = = (®i, /(® i)) (рис. 3.2).

Уравнения

х = ж ( а ) ,

y = af(xi) + ( l - a ) f { x 2)

в плоскости хОу описывают прямую L (секущую), соединяю­ щую точки Я и В, а уравнения

(х = х(а),

= af(x 1) + (1 - a)f{x2) - а(1 - a ) 7 ( z i - х2 )2

задают параболу Р вида у = ах2 + Ьх+ с,а = 7(27 — Х2)2, которая проходит через точки А и В. Неравенство (3.27) в этом случае означает, что график функции у = f(x) на плоскости хОу расположен ниже не только секущей, соединяющей точки А и В) но и параболы Р, прогиб которой определяется параметром 7 , и его можно выбрать сколь угодно малым. Другими словами, в области, ограниченной секущей и графиком функции, можно построить параболу, соединяющую точки А и В.

Пример 3.13. Убедимся, что квадратичная функция вида f(x) = (Qx, х) + 2(с, ж), с, х Е Rn, где Q — положительно

определенная симметрическая матрица порядка п, является сильно выпуклой на множестве К71.

В силу тождеств

а2 = а а(1 — а) и (1 — а)2 = (1 — а) — а(1 — а)

заключаем, что

(Q(ax1 + (1 —а)ж2), ах 1 + (1 — а)х2) =

= а2 (Qx1 , ж1) + а(1 — ^ ((Q ® 1, ж2) + (Qx2, ж1)) +

+ (1 - а)2 (Qx2, ж2) = a (Qx1, ж1) + (1 - а) (<Эж2,-ж2) -

- а(1 - a) (Q(ж1 - ж2), ж1 — ж2) .

Поэтому

/(аж1 + (1 —а)ж2) = Q (аж1 + (1

-

а)ж2, аж1 + (1 —а)ж2) +

+ (с, аж1+ (1 —а)ж2) = а (Q x

1

, ж1) + (1 —а) (Q x2, ж2) +

+ а(с, ж1) + (1 —а) (с, ж2) —а(1 - а) (СДж1 —ж2), ж1 —ж2) =

= а/(ж1) + (1 —а)/(ж2) —а(1 —а) (СДж1 —ж2), ж1 —ж2).

Учитывая, что для положительно определенной матрицы Q

справедливо неравенство ((Дж1—ж2), ж1 —ж2) ^ А|жг —ж2|2, где

А — ее наименьшее собственное значение, приходим к выво­ ду, что рассматриваемая функция удовлетворяет неравенству (3.27) при 7 ^ А и, значит, является сильно выпуклой.

Теорема 3.16. Для того чтобы функция /(ж), дифферен­ цируемая на выпуклом множестве П, была сильно выпуклой, необходимо и достаточно, чтобы существовала константа ц > О, для которой при любых ж1, ж2 О, выполняется неравенство

(grad/(ж1) - g r a d /^ 2), ж1ж2) ^ А4!* 1 2|.

(3.28)

◄ Н е о б х о д и м о с т ь . Пусть выполнено неравенство (3.27). Тогда выполнено и неравенство (3.20). Используя оба неравен­ ства в случае а = 0,5 и полагая h = х 1 —х 2, получаем

0,257 |/г|2 < 0 ,5 {f(x 1) + f { x 2)) - / ( 0 , 5{хг + х 2)) =

= 0 ,5(/(® 1)-7 (0 ,5 (® 1 + * 2)))+ (),5 (/(® 2) - /( 0 ,5 (*1 + х 2))) <

< 0,5(grad/(®1), 0,5/i) - 0,5 (grad Да:2), 0,5/г) =

= 0,25(grad/(ж 1) -g ra d /(® 2), h).

Таким образом, пришли к неравенству (3.28) с параметром

М= 7- Д о с т а т о ч н о с т ь . Покажем, что если верно (3.28), то

верно и неравенство (3.27). Полагая h = х 1 —ж2, можем запи­ сать а х 1 + (1 — а)ж2 = х 2 + ah и

a f {x x) + (1 - a )f{x2) - f (ах1

+ (1 - а)х2) =

= « ( / ( я 1) -

Я ® 2)) ~ Я ®2+ ah) + /(а з 2).

Это позволяет представить неравенство (3.27) в эквивалентной форме

a (f(x 2 + h ) - f ( x 2)) - f { x 2 +ah) + f { x 2 )^^a{l-a)\h\2. (3.29)

Рассмотрим функцию

ip{t) = a (f(x 2 + th) - f { x 2)) - {f{x 2 + ath) - f { x 2)),

непрерывно дифференцируемую на отрезке [0,1]. Запишем для производной <p'{t) этой функции формулу Ньютона — Лейбница

1

¥>(1) “¥>(0) = J <p'{t)dt.

о

Согласно правилу дифференцирования сложной функции,

ip'(t) = a (grad /(а?2 + th), h) — (grad/(а :2 + ath), ah) =

=a (grad/(аз2 + th) grad/(x2 + ath), h) =

=(grad/^1) - grad/(y2), У1 - У2),

где y l = x 2 + th w. у2 — x 2 + ath. Используя неравенство (3.28) для пары точек у 1 и у2, получаем оценку

v'{t) > МТ7Г~л IУ1 ~ У212 = to(l “ a )»\h \2

 

t { l - a )

Таким образом,

 

1

1

<^(1) - <£>(0) = Jip'(t)dt ^ а(1 —a)iJ,\h\2J t d t = ^ a ( l —a)/jL\h\2

о о

Непосредственным подсчетом убеждаемся, что <£>(0) = 0 и

¥>(1) = <*(/(®2 + Л)- А®2)) - (Я®2 + <*h) - А®2)),

т.е. разность </?(1 ) —<р(0) совпадает с левой частью неравенства (3.29). Тем самым доказано, что это неравенство выполняется с параметром 7 = 0,5/х. ►

Теорема 3.17. Для того чтобы функция /(ж ), дважды непрерывно дифференцируемая на открытом выпуклом множе­ стве fi С К71, была сильно выпуклой, необходимо и достаточно, чтобы существовала константа /л> 0, для которой при любых х Е и h Е Rn верно неравенство

(H(x)h, /1) ^ /х|/г|2,

(3.30)

где Я(ж) — матрица Гессе функции f(x)

в точке х.