- •А.В. Аттетков, С.В. Галкин, В.С. Зарубин
- •ПРЕДИСЛОВИЕ
- •Задания для самопроверки
- •ОСНОВНЫЕ ОБОЗНАЧЕНИЯ
- •Буквы латинского алфавита
- •Буквы греческого алфавита
- •1. ЗАДАЧИ ОПТИМИЗАЦИИ
- •1.1. Основные понятия
- •1.2. Некоторые простые примеры
- •1.3. Задачи оптимального проектирования
- •1.4. Задачи оптимального планирования
- •1.5. Классы задач оптимизации
- •Вопросы и задачи
- •2. МЕТОДЫ ОДНОМЕРНОЙ МИНИМИЗАЦИИ
- •2.1. Предварительные замечания
- •2.3. Оптимальный пассивный поиск
- •2.4. Методы последовательного поиска
- •2.5. Сравнение методов последовательного поиска
- •2.6. Методы полиномиальной аппроксимации
- •2.7. Методы с использованием производных
- •Вопросы и задачи
- •3. МИНИМИЗАЦИЯ ВЫПУКЛЫХ ФУНКЦИЙ
- •3.2. Выпуклые функции
- •3.4. Условия минимума выпуклых функций
- •3.5. Сильно выпуклые функции
- •ф{t) = (grad/(а; + th), h)
- •3.6. Примеры минимизации квадратичных функций
- •3.7. Минимизация позиномов
- •Qj = '%2aijci = Q> J = !.*»•
- •Вопросы и задачи
- •4. ЧИСЛЕННЫЕ МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ
- •4.1. Релаксационная последовательность
- •4.2. Методы спуска
- •4.4. Минимизация квадратичной функции
- •4.5. Сопряженные направления спуска
- •5. АЛГОРИТМЫ МЕТОДОВ ПЕРВОГО И ВТОРОГО ПОРЯДКОВ
- •|iufc|
- •5.3. Метод Ньютона
- •5.4. Модификации метода Ньютона
- •5.5. Квазиньютоновские методы
- •Вопросы и задачи
- •6. АЛГОРИТМЫ ПРЯМОГО ПОИСКА
- •6.1. Особенности прямого поиска минимума
- •6.2. Использование регулярного симплекса
- •6.4. Циклический покоординатный спуск
- •6.5. Метод Хука — Дживса
- •Щ + bjej,
- •6.6. Методы Розенброка и Пауэлла
- •Вопросы и задачи
- •7. АНАЛИТИЧЕСКИЕ МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ
- •7.2. Минимизация при ограничениях типа равенства
- •7.4. Седловая точка функции Лагранжа
- •7.5. Двойственная функция
- •7.6. Геометрическое программирование
- •Вопросы и задачи
- •8. ЧИСЛЕННЫЕ МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ
- •8.1. Метод условного градиента
- •8.2. Использование приведенного градиента
- •8.5. Метод проекции антиградиента
- •СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ
- •ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
- •ОГЛАВЛЕНИЕ
- •Математика в техническом университете Выпуск XIV
- •Аттетков Александр Владимирович Галкин Сергей Владимирович Зарубин Владимир Степанович
- •МЕТОДЫ ОПТИМИЗАЦИИ
так как разность в скобках неотрицательна в силу выбора номера &, а > 0.
Таким образом, в линейной комбинации (3.5) все коэффи циенты неотрицательные, их сумма равна единице. Значит, эта линейная комбинация является выпуклой. Отметим, что в соответствии с выбором параметра а имеем А* — арь = 0. Сле довательно, выпуклая комбинация (3.5) имеет не т слагаемых, а не более т —1 .
Итак, представив элемент ж выпуклой комбинацией из т слагаемых, мы при т > п + 1 построили для х новую выпуклую комбинацию, в которой не более т —1 слагаемых. Однако число
тесть наименьшее число слагаемых в выпуклой комбинации. Полученное противоречие указывает на то, что предположение
т> п + 1 неверно. ►
3.2. Выпуклые функции
Определение 3.2. Функцию /: П —>R, определенную на
выпуклом множестве Л С К71, называют выпуклой функцией
на этом множестве, если для любых точек ж1, х 2 Е О. и любого А Е [0,1] выполнено неравенство
/(Аж1 + (1 - А)ж2) < А/(жх) + (1 - А)/(ж2). |
(3.6) |
Функцию / называют строго выпуклой, если для любых ж1, х 2 Е fi при А Е (0,1) и ж1 ф ж2 выполнено строгое неравен ство
/(Аж1 + (1 - А)ж2) < АДж1) + (1 - А)/(ж2). |
(3.7) |
Понятия выпуклой (строго выпуклой) функции многих пе ременных на выпуклом множестве аналогично понятию выпук лой вниз (строго выпуклой вниз) в интервале функции одного переменного [II].
Пример 3.7. а. Выпуклой на множестве Cl = W1 |
является |
||
линейная функция |
п |
|
|
|
|
|
|
|
f ( x ) = J2 aixi' |
(3-8) |
|
|
3= 1 |
|
|
где ж = (xi, ..., хп), dj Е R, j = 1, п. |
Действительно, |
для про |
|
извольных точек |
ж1 = (ж^, ..., ж^) |
и х 2 = (ж^, |
ж ^) и |
произвольного А Е [0, 1] имеем |
|
|
|
|
п |
|
|
/(Аж1 + (1 - А)ж2) = У^а3(АжР + (1 - А)ж^2)) = |
|
||
п |
J' = I |
|
|
п |
|
|
|
= |
+ (1 - а ) ^ 2 а ,х р{ = а/(ж1) + (1 -а)/(ж 2). |
||
j=l |
j=l |
|
|
б.Рассмотрим в W1 какую-либо норму ||х ||. Функция/(ж) =
=||ж|| является выпуклой на множестве Rn, поскольку для любых точек ж1,ж2 Е Г и любого числа А Е [0,1], согласно определению нормы, верно неравенство
ЦАж1 + (1 - А)ж2|< АЦж1!) + (1 - А)||ж2||.
В частности, выпуклыми являются функции
|
п |
п |
|
Л(®) |
/ г ( * ) = |
y ' l s i l , / з ( * ) |
= m ax |x j|, |
|
|
|
i=hn |
где ж = (жх, ..., |
хп). Эти функции соответствуют евклидовой, |
||
октаэдрической и кубической нормам в Rn. |
# |
Пусть функция /: Cl —> М. определена на множестве £2 С Rn. Множество G (/) = {(ж, у) Е Rn+1: /(ж ) ^ у} называют надграфиком функции / (ж). Неравенство (3.6) равносильно утвержде нию, что надграфик функции является выпуклым множеством. Действительно, если точки (ж1, у1) и (ж2, у2) принадлежат
G{f), то выполняются неравенства /(ж 1) ^ у1 и /(ж 2) < у2- Из неравенства (3.6) заключаем, что
/(Аж1 + (1 - А)ж2) < АДж1) + (1 - А)/(ж2) < Ay1 + (1 - А)у2
Следовательно, точка Л(ж1, у1) + (1 —Л)(ж2, у2) принадлежит надграфику функции. Наоборот, если надграфик функции яв ляется выпуклым множеством, то вместе с точками (ж1, у1) и (ж2, у2), где ж1, ж2 G ft, у1 = /(ж 1), у2 = /(ж 2), надграфику принадлежит и их выпуклая комбинация (ж, у), где ж = Аж1 + + (1 — А)ж2, у = Ay1 + (1 —А)у2. Но если точка (ж, у) принадле жит надграфику функции /(ж ), то /(ж) ^ у, а это равносильно неравенству (3.6).
Повторяя эти рассуждения для произвольных выпуклых комбинаций и используя теорему 3.1, приходим к следующему заключению.
Теорема 3.5. Для того чтобы функция /: —>К, опреде ленная на выпуклом множестве fi С Мп, была выпуклой, необхо димо и достаточно, чтобы для любых элементов х г £ fi, %= 1, /с,
___ п |
а* = 1» выполнялось неравен- |
|
и любых чисел а* ^ 0, г = 1, n, £ |
||
г=1 |
|
|
ство Иенсена* |
|
|
i = 1 |
г=1 |
|
Аналогичное утверждение имеет место и для строго выпук |
||
лых функций. |
|
|
Теорема 3.6. Для того чтобы функция |
R, опреде |
ленная на выпуклом множестве П с К 71, была строго выпуклой, необходимо и достаточно, чтобы для любых попарно различ ных элементов х г Е П, г = 1, А:, и любых чисел а* > 0, г = ТТп^
“И.JI. Иёнсен (1859-1925) — датский математик.
п
а.{ = 1, выполнялось строгое неравенство
г=1
ггп
i= 1 г=1
Пусть П — выпуклое множество. Выберем в С1 две точ ки ж1 и ж2 и рассмотрим числовое множество S = 5(П,ж1,ж2) тех значений i, для которых точка tx 1 + (1 — t)x2 принадлежит Cl. Нетрудно показать, что множество .^(П,®1,®2) является выпуклым подмножеством числовой прямой, т.е. промежут ком. Пусть /(ж ) — произвольная функция, определенная на выпуклом множестве Cl. Функцию <p(t) = /(tx1 + (1 — t)x2) од ного действительного переменного, заданную на промежутке S(Cl.ж1,®2), будем называть сечением функции /(ж).
Теорема 3.7. Для того чтобы функция /(ж), определенная на выпуклом множестве П сМ ", была выпуклой (строго вы пуклой), необходимо и достаточно, чтобы любое сечение этой функции было выпуклой вниз (строго выпуклой вниз) функ цией.
◄ Для произвольных точек ж1 и ж2 в С1 рассмотрим сечение <p(t) = /(tx1 + (1 — t)x2) функции /(ж ), представив его в виде <p(t) = /(ж 2 + tp), где р = ж1 — ж2. Предположим, что функция <p(t) определена для значений t\ и t2, т.е. точки у 1 = ж2 + t\p и у2 = ж2 + t2p принадлежат С1. Тогда для произвольного А € [0,1]
ир = 1 —А имеем
Ау 1 + ру2 = \(х2 + t\p) + р(х2 + t2p) = х 2 + (Aii + pt2 )p,
откуда заключаем, что
(p(\ti + pt2) = /(A y 1 + ру2).
Если функция /(ж ) выпукла, то
ip(\ti+pt2) = /(Ху1 + р у 2) < А /(у 1) + у /(у 2) = X<p(ti) + p<p(t2 )-
Так как значения t\ и £2 из области определения </?(£), а также А Е [0, 1] можно выбирать произвольно, заключаем, что cp(t) выпукла.
Допустим, что каждое сечение функции /(ж ) является вы пуклой функцией. Тогда для произвольных точек х 1 и х 2 в fi и любого А Е [0,1] имеем
/(Аж1 + fix2) = ip(А) = (р(А •1 + fi •0) <
< А¥>(!) + W (0) = А/(®1) + /i/(a j2),
где fi = 1 —А.
Доказательство теоремы в случае строго выпуклой функции аналогично. ►
Теорема |
3.8. Если функции /Дж), г = 1, га, определенные |
на выпуклом |
множестве fi С К71, являются выпуклыми на fi, то |
для любых чисел аг- ^ 0, г = 1, п, функция
771 |
|
/(ж) = ^ ^flt/Дж), ЖЕ fi, |
(3*9) |
г= 1 |
|
выпукла на множестве fi. Если к тому же одна из функций fi{x) строго выпукла, а соответствующее этой функции число а,{ положительно, то функция f(x) строго выпукла.
◄ Поскольку все функции /Дж) выпуклы, в силу определе ния выпуклости для любых точек ж1, ж2 Е fi и любого А Е [0, 1] выполнены неравенства
/ДАж1 + (1 - А)ж2) < А/Дж1) + (1 - А)/Дж2), %= 1, га. (3.10)
Умножая эти неравенства на неотрицательные числа а* и скла дывая, получаем
т |
т |
/(А®1 + (1 - Х)х2) = |
А®1 + (1 - А)®2) < \'^2aifi(x1) + |
2=1 |
г=1 |
771 |
|
+ (1 - А ) 2 а^ г'(х2) = А/ ( ж1) + (х ~ Л) /( * 2)- (ЗЛ1) 2=1
Тем самым доказано, что функция f(x ) является выпуклой на множестве £2.
Если функции fi(х) являются выпуклыми на £2, причем среди них хотя бы одна функция строго выпукла на £1, то при х 1 ф х 2 и Л е (0,1) хотя бы одно из неравенств (3.10) является строгим. В этом случае в (3.11) неравенство является строгим, а функция f(x) — строго выпуклой. ►
Следствие 3.1. Сумма выпуклой (строго выпуклой) и ли нейной функций является выпуклой (строго выпуклой) функ цией.
◄ Согласно примеру 3.7, линейная функция является выпук лой в ! п, а значит, и на любом выпуклом множестве. В силу теоремы 3.8 сумма линейной и выпуклой функций, как сум ма двух выпуклых функций, является выпуклой. Аналогично сумма строго выпуклой и линейной функций является строго выпуклой. ►
Теорема 3.9. Если (р(х) — выпуклая функция на вы пуклом множестве f l c K n, a h(t) — выпуклая неубывающая функция одного действительного переменного, определенная, по крайней мере, на множестве <р(£2), то сложная функция ^(ж) = h(ip(x)) является выпуклой на множестве £2. Если к тому же <р(х) — строго выпуклая функция, а функция h(t) воз растающая на множестве К, то функция ф(х) строго выпукла на множестве £2.
◄Для произвольных точек х 1 и х 2 из £2 и любого числа А Е [0,1] имеем
ф{Ххг + (1 - А)ж2) = h((p(Xxl + (1 - А)ж2)) ^
^ h(X(p(xl) + (1 - X)ip(x2)) ^ Xh(<p(x1)) +
+ (1 - A)h(<p(x2)) = Хф{х1) + (1 - Х)ф{х2). (3.12)
В этой цепочке соотношений первое неравенство справедливо, поскольку функция h(t) неубывающая, а функция (р(х) вы пуклая. Второе неравенство справедливо в силу выпуклости
функции h(t). Эти неравенства показывают, что функция ф(ж) является выпуклой на множестве Q.
Если дополнительно функция h(t) возрастает, а функция (р(х) строго выпукла, то при х 1 Ф х 2 и a Е (0,1) в соотношениях (3.12) первое неравенство является строгим, а это означает, что функция ф(х) в этом случае будет строго выпуклой на множестве Г2. ►
Пример 3.8. Функция е1 является возрастающей и строго выпуклой на множестве М. Поэтому если функция /(ж ), опре
деленная на выпуклом множестве |
С Кп, является выпуклой |
(строго выпуклой), то и функция |
также является выпук |
лой (строго выпуклой) на Q. # |
|
Из примера 3.8 вытекает следующее достаточное условие выпуклости (строгой выпуклости) функции многих перемен ных: если функция д(х) на выпуклом множестве £} принимает только положительные значения, то для ее выпуклости (стро гой выпуклости) достаточно, чтобы выпуклой (строго выпук лой) была функция Inд(х).
Согласно примеру 3.7, выпуклой является линейная функ ция, определяемая равенством (3.8). Поэтому функция
|
п |
ф(х) =ехр |
(3.13) |
|
j = i |
где х = (a?i, ..., хп), a exp(t) = ег — экспоненциальная функция, также является выпуклой.
Обратим внимание на то, что функция ф(х) не являет ся строго выпуклой, так как она на любой гиперплоскости а\Х\ + ... + апхп = с принимает постоянные значения. Это го ворит о том, что во втором утверждении теоремы 3.9 условие строгой выпуклости /(ж) нельзя заменить условием строгой выпуклости h{t).
Теорема 3.9 допускает обобщение. Введем для векторов ж = = (ж1, ..., хп) и у = (yi, ..., уп) обозначение ж ^ у (векторное
—ц
неравенство), если выполняются неравенства Х{ ^ у,-, i = 1, п. Как обычно, строгое неравенство х < у означает, что ® ^ у и х ф у, т.е. хотя бы одно из неравенств ж, < у*, i = 1, п, является строгим.
Теорема 3.10. Если <^i(®), г = 1,т, — выпуклые функции на выпуклом множестве П С Kn, a h(y) — скалярная функ ция многих переменных, выпуклая на множестве Rm и неубы вающая по каждому своему аргументу, то сложная функция ф(х) = h(ipi(x))... ,ipm(x)) является выпуклой на множестве Cl. Если к тому же хотя бы одна из функций <Pi{x), i = 1, m, строго выпукла на множестве fiC 1 П, а функция h(y) возрастает по каждому своему аргументу, то функция ф(х) является строго выпуклой на С1.
◄Рассмотрим векторную функцию многих переменных <р(х) =
= (tp1 (аз), ..., (Рт(х)). Тогда ф(х) = h(<p(x)), а для |
функции |
<р(х) при любых х 1, х 2 G С1 и Л € [0,1] выполняется векторное |
|
неравенство |
|
(,p{\xl + (1 - А)®2) ^ \ip(xl) + (1 - A)v?(a;2), |
(3.14) |
каждая составляющая которого означает выпуклость соответ ствующей координатной функции <Pi(x) векторной функции <р{х). Условие неубывания функции h(y) по каждому аргумен ту означает, что h(yl) ^ h{y2) при у 1 ^ у 2. С учетом этих соображений цепочка соотношений (3.12) из доказательства предыдущей теоремы воспроизводится практически без изме нений. Действительно, для любых х 1, х 2 6 С1 и А € [0,1] имеем
^(А®1 + (1 - А)®2) = h(ip(А®1 + (1 - А)®2)) <
< h(\(p(x1) + (1 - А)<р(®2)) ^ А/г(<р(®1)) +
+ (1 - A)h((p(x2)) = AV’(®1) + (1 - А)ф(х2). (3.15)
Дополнительное условие строгой выпуклости одной из функ ций <Pi(x) означает, что при х 1 Ф ®2 и А € (0,1) векторное неравенство (3.14) становится строгим. А дополнительное уело-
вие возрастания h(y) по каждому аргументу означает, что h(yl) < h(y2) при у 1 < у2. Поэтому, как и в теореме 3.9, эти два дополнительных условия гарантируют, что в соотношени ях (3.15) первое неравенство будет строгим, а сложная функция ф(х) — строго выпуклой. ►
Пример 3.9. Рассмотрим функцию
771 П
*(х) = £ * П
2=1 j=l
где х = (xi, ..., хп) € Мп; а^- 6 К, г = 1 , т, j = 1 , п; с* > 0, г — = 1 , т. Эта функция определена на всем линейном простран стве Rn. Представим ее в виде
771 |
|
Ф{х) = Х ] ст О Е)> |
(3-16) |
2=1 |
|
где |
|
Т1 |
(3.17) |
<Pi(x) = e x p ( j 2 aijXjy |
|
j=i |
|
Каждая из функций </^(ж) является выпуклой на множестве Шп (см. пример 3.8). Поэтому, согласно теореме 3.8, функция ф(х) также выпукла на Шп.
Если т < п, то функция ф(х) не является строго выпуклой, так как она постоянна на каждом аффинном многообразии, определяемом системой уравнений
{ацХ\ + а\2Х2 + ... + CLinxn = 61, ^21^1 + ^22^2 + •••+ CL2n^n = ^2 ,
CLmlXl + dm2^2 + •••+ Q>mn%n —
где bi, ..., bm — некоторые числа, которые всегда можно подо брать так, что эта система будет совместной. Рассмотрим слу чай ш = п и предположим, что матрица А записанной системы
уравнений является невырожденной. Тогда систему равенств
2/1 = |
Н" Q'12%2“Ь ••• |
п^П) |
< У2 = |
02lX’i +а22^2 + .. /+ а 2 п ^ п ? |
|
wУть — |
“t" ^ n 2 ^ 2 “Н •••“Ь О 'П п З 'П |
можно трактовать как замену старых координат х\, ..., хп новыми координатами у\Л..., уп. В новом базисе функция ф(х) имеет вид
ф(у) = c\eVl + C2ey2 + ... + спеУп.
Выберем в Шп произвольным образом несовпадаюпще точки
уг = (у[г\ ..., уп ), г = 1,2, заданные своими координатами в новом базисе. Тогда для произвольного А Е (О,1) и /х = 1 — А с учетом выпуклости экспоненциальной функции ехр(х) = ех имеем
|
п |
Ф&У1 |
+ у у 2) = ^ С г ехр(Лур} +м \2)) ^ |
|
2=1 |
|
П |
|
< ^2 ci(\exp{y\l)) + /j,exp{y\2))) = |
|
2=1 |
П |
П |
= Aj^Cjexp(yJ1}) +^^Сгехр(?/|2)) = Хф(у1) + fiip(y2). (3.18) 2=1 2=1
Так как у 1 ф у 1, то для некоторого номера г выполняется неравенство у\ фу\ В силу строгой выпуклости экспоненци альной функции для указанного номера г выполняется строгое неравенство
exp(AyjI) +/J.y\2)) < Aexp(yJ1}) + цехр{у\2)).
Поэтому в соотношениях (3.18) неравенство является строгим, а функция ф(у) — строго выпуклой.
Если m ^ п и ранг матрицы А равен п, то в представле нии функции ф{х) можно выделить п слагаемых, отвечающих
базисным строкам матрицы А и в сумме дающих строго вы пуклую функцию. Следовательно, в этом случае 'ф(х), как сумма строго выпуклой функции и нескольких выпуклых функ ций, является строго выпуклой.
3.3. Дифференцируемые выпуклые функции
Дифференцируемость функции позволяет сформулировать простые признаки, с помощью которых можно выяснить, явля ется ли она выпуклой функцией.
Напомним [И], что дифференцируемая на промежутке (а, Ь) действительная функция h(t) одного действительного перемен ного является выпуклой (строго выпуклой) на (а, Ь) тогда и только тогда, когда ее производная /i'(f) на этом промежутке не убывает (возрастает). Отсюда с помощью формулы конеч ных приращений легко заключить, что для выпуклой функции h(t) при любых t\ и £2) а < h < ^2 < Ь, выполняется двойное не
равенство |
|
^ h{t2 ) - h {ti) < h'{t2 )(t2 - ti) . |
(3.19) |
Действительно, в силу формулы конечных приращений h(t2) — —h(ti) = h'(£)(t2 —<i), где £ G {h ,t2), а в силу выпуклости функции h'(ti) < /i'(£) < h'(t2).
Двойное неравенство (3.19) является не только необходимым условием выпуклости функции h(t), но и достаточным, посколь ку из него вытекает неравенство h'(ti) < h'(t2), означающее, что производная функции h(t) не убывает.
Соотношения (3.19) записаны в предположении, что t\ < t2. Однако это требование не существенно. В самом деле, умно жим неравенства (3.19) на число —1. В результате придем к эквивалентным неравенствам
h'(t2 ) ( t i - t 2) < h{t\)-h{t2) < h '{ti){ti-t2),
которые сводятся к (3.19), если в них поменять местами t\ a t2.
Нетрудно показать, что замена неравенств (3.19) строгими неравенствами дает критерий строгой выпуклости дифферен цируемой функции h(t).
Критерий (3.19) выпуклости функции одного переменного не лучше традиционного критерия монотонности производной, но обладает важным преимуществом: его можно обобщить на случай функции многих переменных.
Теорема 3.11. Пусть скалярная функция f(x ) дифферен цируема* на выпуклом множестве fl С Мп. Тогда дЛк выпук лости функции f(x ) на О, необходимо и достаточно, чтобы для любых двух точек аз1, х 2 Е fi было выполнено неравенство
(grad/(a?2), h) < /(ж 1) - /(ж 2) < (g r a d /^ 1), /г), |
(3.20) |
где h = ж1 —ж2 и gra,df(x) — градиент функции /(ж ) в точке ж.
< Н е о б х о д и м о с т ь . Пусть функция /(ж ) выпукла на ft. Рассмотрим сечение (p(t) = fitx 1 + (1 —4)ж2) функции /(ж ), заданное произвольными точками ж1, ж2 6 ft. Функция (p(t) определена и дифференцируема по крайней мере на отрезке [0,1]. Согласно теореме 3.7, функция ip(t) выпукла на [0,1], а потому для нее справедливы неравенства
¥>'(0)<¥>(1) -¥>(0)< ¥>'(!)• |
(3-21) |
В силу правила дифференцирования сложной функции
</?'(<) = (grad/(ж ),/г), ж = tx 1 + (1 —t)x2. |
(3.22) |
Поэтому <£>'(0) = (g ra d /^ 2), h) и (р'(1) = (g ra d /^ 2), h). Под ставляя найденные выражения для производных в неравенства (3.21), получаем неравенства (3.20).
"Дифференцируемость функции в какой-либо граничной точке множе ства Q, предполагает, что функция определена в некоторой окрестности этой точки.
Д о с т а т о ч н о с т ь . Пусть для произвольных точек х 1 и х 2 множества О, выполняются неравенства (3.20). Возьмем произ вольные точки у 1, у2 Е и рассмотрим соответствующее сече ние ф(£) = /(fa/1+ (1 —£)у2). Выберем произвольные значения £i и £2 из области определения -0(£). Точки х г= ^ у1 + (1 — £г)у2,
г = 1,2, принадлежат |
и для них выполняются неравенства |
||
(3.20). Из равенств (3.22) при £ = £1 и £2 получаем |
|||
= (grad/(®1), у 1 - у 2), |
г = 1,2. |
||
Поскольку h = Ж1 —£С2 = (<2 — |
- У2)> ТО |
||
(grad/C®1), /1) = (grad/(аз1), у 1 - |
у2) (i2 - |
*1) = |
= V’,(<i)(<2-<i), г = 1,2, и неравенства (3.20) равносильны следующим:
< ^ ;(ii)(£2-*i)-
Значения £i и £2 из области определения ф(Ь) выбирались про извольно. Следовательно, функция ф(Ь) является выпуклой.
Итак, мы показали, что при выполнении неравенств (3.20) любое сечение дифференцируемой функции f(x) является вы пуклой функцией. Значит, согласно теореме 3.7, f(x) — вы пуклая функция на П. ►
Замечание 3.1. Повторяя ход доказательства теоремы 3.11, несложно установить, что для строгой выпуклости функ ции /(ж), х € О, непрерывно дифференцируемой на выпуклом множестве fi С Мп, необходимо и достаточно, чтобы для любых двух различных точек ж1, х 2 Е ft было выполнено неравенство
(grad/(a:2), h) < f { x l) - f ( x 2) < (g ra d /^ 1), h). # |
(3.23) |
Проверить выпуклость или строгую выпуклость функции f(x) с помощью критериев (3.20) и (3.23) можно, но практиче ски довольно сложно. Задача упрощается, если функция f(x)
дважды дифференцируема. В этом случае ответ можно полу чить, исследуя матрицу Гессе функции f(x).
Напомним, что симметрическую матрицу А называют по ложительно (отрицательно) определенной, если она является матрицей положительно (отрицательно) определенной квадра тичной формы (эту квадратичную форму можно записать в виде хТАх, где х £ Мп — вектор-столбец, или с помощью стан дартного скалярного произведения в виде (Ах, х)). Введем аналогичные понятия неотрицательно (неположительно)
определенной матрицы как матрицы неотрицательно (не положительно) определенной квадратичной формы, а также
знаконеопределенной матрицы как матрицы знаконеопре деленной квадратичной формы.
Сначала рассмотрим одномерный случай. Как уже было отмечено, критерием выпуклости функции tp(t) одного пере менного является неубывание ее производной. Если функция ip(t) дважды дифференцируема, то из условия неубывания (p'(t) вытекает, что <p"(t) неотрицательна. Верно и противополож ное утверждение. Если <p"(t) ^ 0, то функция <p'(t) не убывает, а функция <p(t) выпукла.
Теорема 3.12. Для того чтобы дважды дифференцируемая на открытом выпуклом множестве Я С R" функция f(x) была выпуклой, необходимо и достаточно, чтобы ее матрица Гессе Н(х) была неотрицательно определена в любой точке х € S7.
◄ Н е о б х о д и м о с т ь . Выберем в О, две произвольные точки
х х и х 2 |
и рассмотрим сечение <p(t) = f ( t x x+ (1 — t)x2) функ |
ции f(x), |
заданное этими точками. Функция tp(t) определена в |
окрестности точки 0 (при t = 0), так как функция f(x ) опре делена в окрестности точки ж2. Как сложная функция, <p(t) дважды дифференцируема при t = 0, и
¥>"(0) = {H(x2)h, h),
где h = х1 — х2. Если функция f(x) выпукла на J2, то ее се чение ip(t) является выпуклой функцией одного переменного.
Поэтому <р"{0) ^ 0. В силу произвольного выбора х 1 и х 2 за ключаем, что
(H{x2 )h, h )> 0
для любого вектора h £Шп. Но э т о и означает, что матри ца Гессе Н (х2) в произвольной точке х 2 £ П неотрицательно определена.
Д о с т а т о ч н о с т ь . Пусть матрица Гессе Н(х) неотрица тельно определена в каждой точке х £ £1 , т.е.
(H {x)h,h )^ 0, h £ R n.
Выберем произвольные точки аз1, х 2 £ Г2 и соответствующее им сечение </?(f) = f(tx l -f (1 — t)x2). Так как
/( i ) = (tf(x)h,b),
где х = txl + (1 —t)x2, a h = x l —x 2, для всех значений t из области определения ip(t) выполняется неравенство ip"\t) ^ 0. Следовательно, функция ip(t) выпукла, а в силу теоремы 3.7 выпукла и функция /(аз). ►
Замечание 3.2. Можно было бы предположить, что кри терием строгой выпуклости на множестве П дважды диффе ренцируемой функции является положительная определенность
вП ее матрицы Гессе. Действительно, нетрудно показать, что, как и в теореме 3.12, положительная определенность матри цы Гессе на всем множестве является достаточным условием строгой выпуклости. Однако это условие не является необхо димым. Соответствующий контрпример можно привести уже
водномерном случае. Функция у = я4 строго выпуклая, одна ко ее вторая производная у" = 12ж2 обращается в нуль в точке
х= 0. Аналогичный пример можно построить при любой раз мерности. Так, в двумерном случае функция f(x 1,0:2) = х\ + х\ является строго выпуклой в К2, но ее матрица Гессе в точке (0, 0) является нулевой. #
Проверку свойств матрицы Гессе можно строить на основе ее собственных значений. Для неотрицательно определенной матрицы все собственные значения неотрицательны, а для по ложительно определенной матрицы все собственные значения положительны [IV]. Для проверки положительной определен ности матрицы Гессе можно также использовать критерий Сильвестра. Если функция является квадратичной, то элемен ты матрицы Гессе этой функции постоянны. В этом случае проверка выпуклости или строгой выпуклости такой функции существенно упрощается.
Пример 3.10. Проверим, является ли выпуклой квадра тичная функция / ( Х\,Х2 ) = Ъх\ —кХ\Х2 + +Х\—2 X2 •
Найдем матрицу Гессе этой функции:
Угловые (или главные) миноры этой матрицы положительны-: Ai = 6 > 0 и Д2 = det Н = 6 •4 —(—4) •(—4) = 8 > 0. Поэтому, согласно критерию Сильвестра, матрица Н положительно опре деленная, и в соответствии с замечанием 3.2 рассматриваемая функция строго выпуклая. #
Проверка положительной определенности матрицы неболь шого размера (второго или третьего порядков) с помощью критерия Сильвестра, как правило, проще, чем аналогичная проверка путем анализа собственных значений. Вполне есте ственно в таких ситуациях исследование на неотрицательную определенность (если матрица не является положительно опре деленной) также проводить без вычисления собственных зна чений. Существует критерий неотрицательной определенности матрицы, аналогичный критерию Сильвестра.
Минор матрицы А назовем диагональным минором, если строки и столбцы, входящие в этот минор, имеют одинаковые номера.
Теорема 3.13. Необходимым и достаточным условием не отрицательной определенности симметрической матрицы явля ется неотрицательность ее диагональных миноров.
◄ Пусть А — симметрическая неотрицательно определенная матрица, т.е. (А х , а?) ^ 0, х € К". Рассмотрим квадратичную форму
f £(x) = {Ах, х) + е {х, х) = ({А + е1)х, х ) ,
где I — единичная матрица соответствующего порядка, а е > 0 — параметр. Ясно, что fs(x) -» {Ах, ®) при е -» +0.
Для любого числа е > 0 квадратичная форма / е и ее матрица А + el являются положительно определенными, так как при
х Ф О
ft{x) = {Ах, х) + е||®||2 ^ е||®||2 > 0.
Любой диагональный минор матрицы А + el путем изменения номеров ее пар строк и столбцов можно превратить в ее угло вой минор. Такое изменение соответствует изменению порядка переменных квадратичной формы и сохраняет условие положи тельной определенности квадратичной формы и матрицы. В силу критерия Сильвестра заключаем, что диагональные (не только угловые) миноры матрицы А + el положительны. При е —>+0 все миноры матрицы A -f el стремятся к соответству ющим минорам матрицы А. Значит, все диагональные миноры неотрицательно определенной матрицы А неотрицательны.
Теперь предположим, что все диагональные миноры матри цы А неотрицательны. Можно показать, что определитель ма трицы А + el есть многочлен от переменного £, причем старший коэффициент этого многочлена (при степени еп) равен единице, а коэффициент многочлена при степени ек, к = 0, n—1, — сум ме всех диагональных миноров матрицы А порядка п —к. Так как все диагональные миноры матрицы А неотрицательны, то и коэффициенты многочлена неотрицательны. Следовательно,
det(a + el) > 0 при е > 0. |
|
|
Сказанное относится не только к |
самой матрице |
А, но |
и к любому ее диагональному минору: |
диагональный |
минор |
Dk + elk (h — единичная матрица порядка к) матрицы А + el порядка к есть многочлен переменного е степени fc, причем старший коэффициент многочлена равен единице, а остальные коэффициенты равны сумме диагональных миноров матрицы А соответствующего порядка, входящих в минор Dk, и, следо вательно, неотрицательны. Это означает, что минор Dk + el при е > 0 является положительным.
Итак, у матрицы А + el при е > 0 все диагональные (в том числе и угловые) миноры положительны. Согласно критерию Сильвестра, матрица А + el является положительно опреде ленной. Отсюда вытекает, что квадратичная форма f £(x) = = (Ах, х ) с матрицей А + el при е > 0 положительно определена,
T .e. f £{x) > 0, если х ф 0. |
Но тогда для квадратичной формы |
|
f(x) = {Ах, х) при любом векторе х G |
* ф 0, имеем |
|
f { x ) = |
lim j£{x )^ О, |
|
а это означает, что квадратичная форма f x и ее матрица А являются неотрицательно определенными. ►
Исследование симметрической матрицы А на неотрицатель ную или положительную определенность рационально начинать с вычисления ее определителя detA Если detA = 0 и диа гональные элементы матрицы А неотрицательны, то можно рассчитывать на неотрицательную определенность матрицы А. В этом случае проверяются диагональные миноры, причем про верку диагональных миноров на знак можно прекратить, как только один из них окажется отрицательным. Это будет озна чать, что матрица знаконеопределенная.
Если det А > 0 и все диагональные элементы матрицы А по ложительны, то можно ожидать, что эта матрица положитель но определена. Поэтому следует проверить на знак все угловые миноры матрицы. Проверку можно прекратить, как только очередной угловой минор окажется отрицательным, что озна чает зяаконеопределенность матрицы. Если очередной угловой
минор окажется нулевым, то матрица не будет положительно определенной, и в этом случае следует перейти к проверке всех диагональных миноров, чтобы определить, является ли матри ца неотрицательно определенной.
Пример 3.11. Проверим, является ли выпуклой квадра тичная функция
f(x 1,Х2,Яз) = х \ + х 2 + х 3 - Х1Х2 ~ Х2Х3 ~ Х3Х1 + Х1 + х 2 + х 3 + 1-
Для этой функции запишем матрицу Гессе
Непосредственным вычислением убеждаемся, что d et# = 0. Это значит, что матрица Гессе не может быть положйтельно определенной. Неотрицательность диагональных элементов не позволяет сразу же сделать заключение о том, что матри ца Н знаконеопределенная. Поэтому необходимо проверить на знак все диагональные миноры. В данном случае речь идет о проверке трех диагональных миноров второго порядка. Не посредственно из вида матрицы Н заключаем, что все три диагональных минора одинаковы и равны
Следовательно, матрица Н неотрицательно определенная, а квадратичная функция выпуклая в Ж3. #
Отметим, что для квадратичной функции положительная определенность матрицы Гессе Н является не только достаточ ным, но и необходимым условием строгой выпуклости. Дей ствительно, если матрица Н неотрицательно определена, но