метопт-пми / 1 / Минимизация функций
.pdf
Доказательство:
1.Пусть x1, x2 X *, [0,1] (x1) (x2 ) (x*) *
При этом
( x1 (1 )x2 ) (x1) (1 ) (x2 ) * (*)
По определению X* неравенство может выполняться только как равенство,
поскольку * min
x (1 )x2 X * , т.е. X* – выпукло.
2.Пусть – строго выпукла. Если предположить, что в X* существуют две различные точки x1 и x2, то при [0,1] неравенство (*) должно быть строгим, что невозможно, т.к. *– min и получается < min.
Трудности:
1.В случаях, когда функция достаточно проста, теоремы 1-3 помогают решить задачу минимизации даже в явном виде. Однако зачастую задача поиска стационарных точек является нетривиальной. А затем – перебор стационарных точек в поисках точки локального минимума, затем – перебор локальных экстремумов в поисках глобального экстремума.
2.Для задач условной минимизации теоремы 1-3 применимы в случае, когда локальное решение x* – внутренняя точка допустимого множества X. Если же экстремум достигается в угловых точках границы множества условий, то нарушается дифференцируемость неприменимость методов классического анализа.
Т.о., в большинстве случаев задачу min (x) приходится решать численно с применением ЭВМ и специальных методов минимизации.
Безусловная минимизация функции
Методы оптимизации функций в Rn делятся на:
локальные методы (поиск локального min, т.е. такой точки x*, что существует > 0,
x X : 
x x* 
(x* ) (x) );
нелокальные (или прямые) методы (поиск глобального min для ограничений снизу функции (x), т.е. если * – нижняя грань, то поиск такой точки x*: (x*) = *). Для этих методов не требуется аналитического задания функции, надо только уметь
вычислять ее значение в любой точке. Обычно – для функций сложной структуры. Нелокальные методы сводятся к уменьшению области, внутри которой находится
оптимальная точка. Пример нелокального метода – симплексный метод.
Определение. Симплекс – выпуклое тело в Rn, состоящее из (n + 1) равноудаленных точек
– вершин симплекса, отрезок их соединяющий – ребро симплекса, в R2 – треугольник, в R3 – тетраэдр.
Неформальное описание симплексного метода: состоит из двух процедур – отражение и сжатие.
– отражение: симметричное отражение вершины с наибольшим значением (x) относительно противоположной грани ["перекатывание симплекса"]. Если (xi ) (xi ) , то выбирается другая (i + 1)-я
вершина.
Когда зацикливание (все (n + 1)-вершины перебрали), то
– сжатие: уменьшение размеров симплекса при сохранении вершины с наименьшим значением (x), затем переход к отражению, и так далее, пока ребро симплекса не станет меньше некоторого числа: 
xi x j 
.
Достоинства: с большой вероятностью метод не распознает локальный минимум ("не остановится").
Локальные методы основаны на построении релаксационной последовательности {xi}
такой, что (x ) (x |
) и x x* arg min (x) . |
||
i |
i 1 |
i |
i |
Поэтому релаксационные методы называют также методами спуска.
Классификация релаксационных методов
Содной стороны,
одношаговые методы: xi 1(xi ) – каждый шаг (i + 1) зависит только от предыдущей точки xi и значения функции (xi);
двухшаговые методы: xi 1(xi , xi 1) – зависимость от двух предыдущих точек;
и т.д.;
Сдругой стороны,
методы нулевого порядка: если используются только значения минимизируемой функции (x);
методы первого порядка: если используются только значение (x) и ′(x);
методы второго порядка: если используются значения (x), ′(x) и ″(x);
etc;
Градиентные методы (методы первого порядка)
Итак, будем рассматривать задачу:
(x) min, x X Rn (безусловная минимизация),
предполагая, что функция (x) непрерывно дифференцируема на Rn, т.е. (x) C1(Rn).
По определению дифференцируемой функции |
|
(x h) (x) (x), h o(h) , |
(1) |
где lim o(h) h 1 0 .
h 0
Если (x) 0 , то при достаточно малых |
|
|
|
h |
|
|
|
главная часть приращения для |
будет |
||||||||||||||||||||||||||||||||
|
|
|
|
||||||||||||||||||||||||||||||||||||||
определяться дифференциалом функции d (x) ( (x)h) . Оценим величину |
d (x) |
||||||||||||||||||||||||||||||||||||||||
Справедливо неравенство Коши-Буняковского: |
|
||||||||||||||||||||||||||||||||||||||||
|
|
|
|
(x) |
|
|
|
|
|
|
|
h |
|
|
|
(x), h |
|
|
|
(x) |
|
|
|
|
|
|
|
h |
|
|
|
, |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||
причем, если ′(x) 0, то правое неравенство превращается в равенство, только при h = ′(x), а левое только при h = ′(x), где = const 0.
Отсюда ясно, что при (x) 0 направление наибыстрейшего возрастания функции
(x) в точке x совпадает с направлением градиента (x), а направление наибыстрейшего убывания – с направлением антиградиента – (x).
Это свойство градиента лежит в основе ряда итерационных методов минимизации функций. Один из таких – градиентный. Он предполагает, как, впрочем, и все остальные итерационные методы, наличие априорной точки начального приближения.
Предположим, что начальная точка x0 |
уже выбрана, тогда градиентный метод |
|
заключается в построении последовательности {xk} по правилу: |
|
|
xk 1 xk k (xk ), k |
0, k 0,1,... |
(2) |
k – величина шага, xk – направление спуска.
Если (xk ) 0 , то шаг k 0 можно выбрать так, чтобы получить релаксационную последовательность: (xk 1) (xk ) . Действительно, подставляя (2) в (1), имеем:
(x |
) (x ) |
|
|
|
|
(x ) |
|
|
|
2 |
( |
|
) |
1 |
0 , |
|
|
|
|
|
|||||||||||
k 1 |
k |
k |
|
|
|
k |
|
|
|
|
|
k |
k |
|
|
|
|
|
|
|
|
при всех достаточно малых k > 0.
Если (xk ) 0 , то xk – стационарная точка. В этом случае процесс (2) прекращается и проводятся дополнительные исследования поведения функции в окрестности точки xk для выяснения того, достигается ли в точке xk минимум функции (x) или не достигается.
Существуют различные способы выбора величины шага k в методе (2). В зависимости от способа выбора k можно получить различные варианты градиентного метода.
Метод наискорейшего спуска
На луче x Rn : x xk (xk ), 0 , направленном по антиградиенту, введем
функцию одной переменной
( ) xk (xk ) , 0
и определим k из условий
k arg min xk (xk ) .
0
Другими словами k выбирается так, чтобы (xk+1) в заданном направлении была наименьшей для чего на любом шаге необходимо решать задачу одномерной минимизации функции ( ), например, с помощью ( ) 0 .
Пример. Рассмотрим задачу
(x) x12 2x22 min
2
с начальной точкой x0 , (x0 ) 6 .
1
0
Из общих соображений ясно, что min = 0 при x* 0
1-й шаг: |
|
|
|
|
|
|
|
|
2x1 |
|
|
0 |
|
4 |
|
|
|
(x) |
4x |
|
; (x |
|
) |
4 |
|
|
|
2 |
|
|
|
|
|
|
|
Ищем |
|
|
|
|
|
|
|
|
|
2 |
|
|
4 |
|
|
2 4 |
|
x1 x0 (x0 ) |
|
|
|
|||||
|
1 |
|
|
4 |
|
|
1 4 |
|
Функция ( ) имеет следующий вид:
( ) (x1) (2 4 )2 2(1 4 )2
Решаем уравнение ( ) 0 , т.е.
2(2 4 ) ( 4) 4(1 4 ) ( 4) 0 ;
|
|
|
|
2 |
4 |
|
|
2 |
|
|
||||
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
3 |
|
||||||||||
4 8 4 16 0; 24 8 |
; |
x1 |
|
|
|
|
. |
|||||||
3 |
|
|||||||||||||
|
|
|
1 |
4 |
|
|
|
|
1 |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
3 |
|
3 |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
||||
2-й шаг:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
3 |
|
|
|
|
2 |
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
3 |
|
|
|
|
|
|
|
|
|
|
3 |
; |
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
(x ) |
|
|
|
|
4 |
|
; x |
|
|
x |
|
|
(x ) |
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(x |
2 |
|
|
|
|
|
|
2 |
|
|
|
4 |
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
1 |
|
|
|
4 |
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
( ) |
|
) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
3 |
|
3 |
|
|
3 |
|
3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||
Решаем уравнение ( ) 0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
4 |
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
4 |
|
|
|
1 |
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 ; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 3 |
|
|
|
|
|
|
|
3 |
|
|
|
|
|
3 |
|
|
|
|
|
3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 4 |
|
|
|
|
|
|
2 |
|||||||
|
|
|
|
|
4 |
|
8 |
|
|
|
16 |
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
24 |
|
|
|
|
|
|
|
|
8 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
; x2 |
|
|
|
|
|
3 9 |
|
|
|
9 |
||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
0; |
|
|
|
|
|
; |
|
|
|
|
|
|
|
|
|
. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
3 |
|
|
3 |
|
3 |
|
3 |
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
3 3 |
3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
4 |
|
|
|
|
|
1 |
|
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
9 |
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 |
||||||||
3-й шаг: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(x2 ) |
9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(x2 ) |
|
9 |
|
|
|
|
|
|
|
|
|
9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
; x3 x2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 |
|
|
|
|
|
|
9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
( ) (x |
3 |
|
|
|
|
|
|
2 |
|
|
|
|
4 |
|
|
2 |
|
|
|
|
|
1 |
|
|
|
|
|
4 |
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
) |
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 |
9 |
|
9 |
|
|
9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||
Решаем уравнение ( ) 0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
4 |
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
1 |
|
4 |
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 ; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 |
|
|
|
|
|
|
9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
4 |
|
|
|
|
2 |
|
|
|
|
|
|||||||||||||||
|
4 |
|
8 |
|
|
|
4 |
|
16 |
|
|
|
|
|
|
|
|
|
|
|
|
8 |
|
|
|
|
24 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
; x3 |
|
9 |
27 |
|
|
|
|
|
27 |
|
|
|
|
|
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
0; |
|
|
|
|
; |
|
|
|
|
|
|
|
|
|
|
, и.т.д. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
9 9 |
9 9 |
|
|
|
|
|
|
|
|
|
|
|
9 9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
4 |
|
|
|
|
|
|
1 |
|
|
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
27 |
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 |
|
|
|
|
|
|
|
|
|
27 |
|
|
|||||||||||||||
Представим решение задачи графически:
Из графического представления можно сделать вывод, что имеет место:
а) сходимость к истинной точке минимума |
|
0 |
|
x* |
0 |
|
|
|
|
|
|
б) взаимная перпендикулярность градиентов
Свойства метода наискорейшего спуска
1.На любом шаге направление спуска меняется на ортогональное. Действительно, k ищется из условия ( ) 0
|
|
xk (xk ) |
|
|
|
|
|
|
xk k (xk ) , (xk ) (xk 1), (xk ) 0 |
||||||||||||||
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
k |
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
2. |
Точка xk+1 |
|
лежит на луче, исходящем из точки xk |
и касательным к поверхности |
|||||||||||||||||||
|
уровня |
|
L (xk+1). |
Действительно, с |
одной |
стороны, несомненно, что |
|||||||||||||||||
|
xk 1 L x : (x) (xk 1) . |
|
С другой стороны, градиент (xk+1) ортогонален |
||||||||||||||||||||
|
касательной к поверхности уровня L (xk+1), поэтому по свойству 1 направление |
||||||||||||||||||||||
|
спуска касательно к поверхности L (xk+1). |
|
|
||||||||||||||||||||
Иначе. (xk+1) ортогонален направлению спуска |
луч, проходящий из точки xk – |
||||||||||||||||||||||
касательной к поверхности L x : (x) (xk 1) . |
|
|
|||||||||||||||||||||
Проблемы (общие для релаксационных методов). |
|
|
|||||||||||||||||||||
а) |
Имеет ли последовательность {xk} предел в смысле сходимости по норме: |
||||||||||||||||||||||
|
существует xˆ ? : lim |
|
|
|
xk xˆ |
|
|
|
0 ? |
|
|
||||||||||||
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
k |
|
|
|
|
|
|
|
|
|
аргументом, составляющим минимум функции |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
б) |
Является |
ли этот |
предел |
|
|||||||||||||||||||
|
xˆ arg min x* ? |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
в) |
Какова скорость сходимости |
|
x x* |
|
|
|
или (xk) – (x*)? |
||||||||||||||||
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
|
|
г) |
Каковы вычислительные затраты. |
|
|
||||||||||||||||||||
Исследование метода наискорейшего спуска для квадратичной функции
Рассмотрим квадратичную функцию
(x) 12 ( Ax, x) (b, x) ,
где A – симметричная, положительно определенная матрица.
Можно показать, что A – симметричная положительно определенная матрица – строго выпукла.
(x) Ax b , т.е. x* A 1 b – стационарная точка.
Попробуем записать метод наискорейшего спуска для квадратичной функции. Итак,
( ) xk xk ) , 0
( ) xk ( Axk b) (xk ) Axk b, Axk b 22 A( Axk b), Axk b
(w)
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ax |
b |
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
) |
|
|
|
Axk b |
|
|
|
|
A( Axk b), Axk b 0 k |
|
|
|
|
|
|
k |
|
|
|
|
|
|
|
0 , |
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
A( Ax |
b), Ax b |
|
|
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
|
||
т.к. A – положительно определена, и значит для нее справедливо: (Ah, h) > 0 h Rn 0. |
|
||||||||||||||||||||||||||||||||||||||||||||||
Для определения скорости сходимости оценим отношение |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
(x |
1 |
) (x* ) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(x ) (x* ) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Имеем: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
Ax b |
|
|
|
4 |
|
|
|
|
|
|
|
Ax b |
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
(x ) |
|
|
|
4 |
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
(x k 1) ( k ) (xk ) |
|
|
k |
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
|
|
(xk ) |
|
|
|
|
|
|
k |
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||
A( Ax |
b), Ax b |
2 A(Ax b), |
|
|
|
Ax b |
2 |
A |
|
(x ), (x ) |
|||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
k |
|
|
|
|
|
|
|
k |
|
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
|
k |
k |
||||||
Сдругой стороны,
(xk ) (x* ) 12 ( Axk , xk ) 12 ( Ax*, x* ) (b, xk x*) 12 Axk b, xk A 1b 12 A 1 (xk ), (xk )
Для простоты дальнейших изложений предположим, что матрица A приведена к диагональному виду (т.е. выполнено преобразование координат) так, что A diag( 1,..., n ) , где i – собственные числа матрицы A.
Собственные числа симметричной положительно определенной матрицы всегда положительны.
Для симметричной матрицы существует ортогональная матрица (TT = T-1) T такая, что TTAT – диагональная матрица diag( 1,..., n ) .
Если l min i , L max i , то
A (x), (x) L 
(x)
2
A 1 (x), (x) 1l 
(x)
2 ,
Тогда
(xk 1) (x* ) |
1 |
|
|
|
|
(xk ) |
|
|
|
4 |
1 |
l |
|
L l |
. |
|
|
|
|
|
|
||||||||||||
(xk ) (x* ) |
A (xk ), (x |
k ) A 1 |
|
(xk ), (xk ) |
L |
L |
||||||||||
|
def |
|
L l |
|
|
|
|
|
|
|
|
|
|
|
|
|
Если ввести обозначение q |
|
|
|
1 |
, то |
|
|
|
|
|||||||
|
|
L |
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(xk ) (x* ) const qk
Это называется геометрической скоростью сходимости (сходимость геометрической прогрессии).
Рассмотрим величину
|
|
|
|
|
|
|
|
|
|
|
|
|
|
def |
|
x |
x* |
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Верхний предел |
|
|
ln k 1 |
называется порядком сходимости метода. |
|
|
|
|
|
|
||||||||||||||||||||||||
lim |
|
|
|
|
|
|
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
||||||||||||||||||||||||||||
k |
ln k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
В нашем случае квадратичной функции |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
const qk (xk ) (x* ) |
1 |
( Axk |
b, xk x* ) |
1 |
A(xk |
x* ), xk x* |
l |
|
xk x* |
|
|
|
2 . |
|||||||||||||||||||||
|
|
|
||||||||||||||||||||||||||||||||
|
|
|
||||||||||||||||||||||||||||||||
Поэтому |
2 |
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
2 |
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
x |
|
x* |
|
const q |
k |
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
ln |
k 1 |
|
|
|
|
1 |
ln q ln |
k |
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
lim |
lim |
|
2 |
1 |
|
|
|
|
|
|
||||||||||||||||||||
|
|
|
|
ln k |
|
|
|
ln k |
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
k |
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
получили сходимость с порядком 1 или линейную сходимость. Бывает порядок больше
1 – сверхлинейная сходимость.
При исследовании метода наискорейшего спуска для квадратичной функции получили, в частности, следующие результаты:
а) |
(x ) (x*) const qk , q 1 |
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
def |
|
* |
|
|
|
|
|
ln k 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
б) |
|
k |
|
x x |
|
, lim |
|
|
1 |
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
k |
|
|
k |
ln k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
Определение. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
Пусть (xk) (x*) при k ∞. |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
Последовательность (xk) |
сходится к (x*) линейно (с линейной скоростью, со скоростью |
||||||||||||||||||||||||
геометрической прогрессии), если существуют такие константы q (0,1) и k0, что |
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
(x |
) (x* ) |
|
|
|
q |
|
|
|
(x ) (x*) |
|
|
|
, при k k0. |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
k 1 |
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
Последовательность (xk) сходится к (x*) сверхлинейно, если

(xk 1) (x* )
qk 1 
(xk ) (x* )
, qk 0 , при k .
Последовательность (xk) сходится к (x*) с квадратичной скоростью, если существуют такие константы c 0 и k0, что

(xk 1) (x* )
c 
(xk ) (x*)
2 , при k k0.
Вообще, порядок сходимости, равный 1, означает, что значение величины k убывает, в основном, по закону геометрической прогрессии. Порядок сходимости, равный 2 (квадратичная сходимость) означает, что при достаточно больших k k+1 ~ k2. В этом случае, если к тому же k – малая величина, например, a 10 p при 0.1 a 1, то k+1
равно a2 10 2 p , т.е. фактически удваивается число нулей после запятой.
Частные случаи:
1)Пусть l = L, т.е. матрица A = LI = lI – пропорциональна единичной окружности (линии уровня – окружности).
Тогда:
|
|
|
|
lxk b |
|
|
|
2 |
|
b |
* |
||
|
|
|
|
|
|
||||||||
x |
x |
|
|
|
|
|
|
|
|
|
(lx b) |
|
x |
|
|
|
|
|
|
|
|
|
|
||||
k 1 |
k |
l |
|
lxk b |
|
2 |
k |
l |
|
||||
|
|
|
|||||||||||
|
|
|
|
|
|
||||||||
f (xk+1) = f (x*) метод сходится за один шаг.
2)l L: сходимость может быть еле заметной (q ~ 1), а графически это означает, что линии уровня функции сильно вытянуты и функция имеет так называемый "овражный" характер. Это означает, что небольшое изменение некоторых переменных приводит к резкому изменению значений функции – эта группа переменных
характеризует "склон оврага", а по остальным переменным, задающим направление "дна оврага", функция меняется незначительно.
def |
|
L |
|
||
Число cond |
max |
|
|
называется числом обусловленности матрицы cond 1. |
|
|
l |
||||
|
|
|
|||
|
min |
|
|
|
|
Матрица называется хорошо обусловленной, если cond ~ 1 и наоборот.
Вообще, число обусловленности геометрически можно трактовать как меру искажения отображения матрицей A единичной сферы. Действительно, cond(A) есть отношение наибольшего к наименьшим расстояниям между точками на единичной сфере после её отображения матрицей A. Чем больше cond(A), тем больше искажение единичной сферы при её преобразовании в эллиптическую форму – пусть A = diag(10,1).
Вывод: Метод наискорейшего спуска быстро сходится для хорошо обусловленных матриц и наоборот.
Почему так много внимания уделяли квадратичной функции?
В окрестности locmin любую функцию можно приблизить квадратичной, и всё сказанное выше про матрицу A будет справедливым для матрицы Гесса H(x*), которая
заменяет A в рассмотренном выше примере.
Геометрически: Линии уровня становятся замкнутыми и по мере приближения к x* всё более напоминают эллипс.
Общий случай.
Определение 1. Функция на множестве X Rn удовлетворяет условию Липшица, если существует L 0 : u, X 
(u) ( )
L 
u 
. Если градиент функции существует,
непрерывен и удовлетворяет условию Липшица, то обозначается C1,1.
Определение 2. Функция называется сильно выпуклой с параметром æ 0 , если
u, X , (u) ( ) ( ),u æ 
u 
2 .
Теорема (о сходимости метода наискорейшего спуска). Рассмотрим задачу(x) min, x Rn . Пусть С1,1(Rn) и – сильно выпуклая c параметром æ. Тогда при
любом начальном приближении для последовательности {xk}, построенной по методу наискорейшего спуска, справедливы соотношения:
1)xk x* arg min (x)
2)(xk ) (x* ) const qk , q 1 2æL , q 0,1
Замечания.
1. Для квадратичной функции (x) 12 ( Ax, x) (b, x) :
а) постоянная Липшица L есть наибольшее собственное число матрицы A:

(u) ( )


Au A 
L 
u 
;
б) она сильно выпукла с параметром 2l . Действительно,
(u) ( ) 12 ( Au,u) 12 ( A , ) (b, u )
12 ( A(u ),u ) ( ( ),u ) 2l 
u 
2 ( ( ),u )
