метопт-пми / 1 / Минимизация функций
.pdf
Выбор k обычно – из условия min функции, вдоль заданного направления, или методом дробления шага, обеспечивающего выполнение условия (xk+1) < (xk).
Можно показать, что подобные методы регулировки шага сходятся при любой начальной точке x0 Rn, причем скорость сходимости будет либо сверхлинейна, либо квадратичная в зависимости от требований, которым удовлетворяет функция .
Таким образом, с помощью регулировки длины шага преодолевается недостаток метода, связанный с необходимостью отыскания хорошего начального приближения.
Однако, трудоемкость вычислений при этом не исчезает.
Более перспективным в этом плане оказывается другой подход, при котором строится аппроксимация матрицы ( (xk))-1 на основе информации о значениях градиентов (xk),
(xk+1),…
Квазиньютоновы методы
Пусть функция дважды дифференцируема. Рассмотрим метод
|
|
|
|
|
|
|
|
xk 1 xk k Hk (xk ) |
(1) |
k – шаг, Hk – матрица. |
|
|
|||||||
а) |
Если Hk = единичная, имеем градиентный метод. |
|
|||||||
б) |
Если |
H |
k |
( (x )) 1 |
, то это метод Ньютона (с точностью до шага). |
|
|||
|
|
|
|
|
k |
|
|
||
в) |
Если |
H |
k |
H |
k |
( (x ),i 1, 2,..., k) ( (x )) 1 , то имеем метод, который объединяет |
|||
|
|
|
|
|
i |
k |
|
||
достоинства обоих методов. Заметим, что
(xk ) (xk 1) (xk 1)(xk xk 1) o 
xk xk 1 
.
Полагая невырожденной матрицу (xk+1), отсюда с точностью до членов более высокого порядка малости по сравнению с 
xk xk 1 
имеем:
(xk 1) 1( (xk 1) (xk )) xk 1 xk .
Рассмотрим квадратичную функцию |
(x) |
1 |
|
( Ax, x) (b, x) . Для нее |
|||||||
|
|||||||||||
|
′ |
|
|
|
2 |
|
|
|
|
|
|
и приближенное |
( +1) = ( +1) − , |
|
″( ) = |
, |
|||||||
|
|
|
|||||||||
|
равенство обращается в точное: |
|
|
|
|||||||
|
(x |
) 1( (x |
|
) (x )) x |
x . |
|
|||||
|
|
k 1 |
k 1 |
|
|
|
k |
k 1 |
k |
|
|
Поэтому естественно потребовать, чтобы для матрицы Hk+1, приближающей ( ″(xk+1))-1, выполнялось условие:
Hk 1( (xk 1) (xk )) xk 1 xk (*)
Это условие называется квазиньютоновским. Оно лежит в основе целого ряда методов аппроксимации ( )-1. Соответствующие методы минимизации, для которых на любом шаге выполняется квазиньютоновское условие, также называются квазиньютоновскими.
Пусть приближения к ( )-1 пересчитываются шаг от шага по формуле
Hk 1 Hk Hk .
Различные квазиньютоновские методы различаются способом вычисления "добавки"Hk таким образом, чтобы удовлетворялось соотношение (*).
1. Метод Дэвидона-Флетчера-Пауэлла
Обозначим:
q (x |
|
) (x ) |
|
|
|
|
|
||||||
k |
k 1 |
|
|
|
k (*) Hk 1 qk rk |
|
|||||||
rk xk 1 xk |
|
|
|
|
|
|
|
|
|||||
Метод заключается в построении релаксационной последовательности по |
|
||||||||||||
следующему правилу: |
|
|
|
=k k |
− |
k |
k′(k )k |
|
|
|
|||
|
|
|
|
|
|
||||||||
|
+1 |
|
|
|
|
|
|
|
T |
|
|||
Hk 1 |
Hk |
|
r r |
T |
|
|
(H q )(H q ) |
|
|
|
|||
|
|
|
|
(1.1) |
|||||||||
|
|
|
|
(Hk qk , qk ) |
|
||||||||
|
|
|
(rk , qk ) |
|
|
|
|
||||||
Hk
Длина шага k в квазиньютоновых методах выбирается так же, как в методе наискорейшего спуска:
k arg min (xk Hk (xk ))
0
Как правило, начальное значение H0 = I. Вообще, если H0 – симметричная матрица, то Hk – симметричная матрица для любого k.
2. Метод Бройдена-Флетчера-Шанно
Имеем
(+1)−1 = . |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
) 1,G |
|
|
|
Если поставить задачу уточнять обратную матрицу, т.е. G (H |
k |
G G |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
k 1 |
|
k |
k |
||
тогда: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
H |
k 1 |
H |
k |
|
1 |
(qk , Hk qk ) |
|
rk rk T |
|
rk qk T Hk Hk qk rk T |
|
|
|
|
|
(1.2) |
||||
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
(rk , qk ) |
|
|
(rk qk ) |
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
(rk , qk ) |
|
|
|
|
|
|
|
|
|
|||||
|
|
(этот метод более устойчив к ошибкам округления) |
|
|
|
|
||||||||||||||
Можно доказать, что |
для |
квадратичной функции |
(x) |
1 |
( Ax, x) (b, x) , |
где |
A – |
|||||||||||||
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
симметричная, положительно определенная матрица, оба метода (1.1) и (1.2) при любом начальном приближении x0 Rn генерируют одну и ту же последовательность точек x1, x2 ,..., xn , причем
Hn ( (xn )) 1 A 1 , xn x* A 1b arg min (x) ,
x Rn
т.е. квазиньютоновские методы позволяют найти min квадратичной функции за n- шагов.
Для неквадратичной функции, это не так. Однако можно показать, что при
соответствующих предположениях причем скорость
сходимости сверхлинейна.
Так, например, пусть – дважды непрерывно дифференцируемая функция, сильно выпукла на Rn.
Тогда при любом начальном приближении x0 Rn последовательность точек {xk}, определяемая формулами (1.1.) и (1.2), сходится к x*.
Если, при этом, для всех x: (x) (x0 ) , справедливы неравенства
2 |
|
(x) |
2 |
|
(x* ) |
M |
|
x x* |
|
, i, j 1,..., n , |
|
|
|
|
|||||||
x x |
|
x x |
|
|
|
|||||
i |
y |
|
i |
y |
|
|
|
|
|
|
то xk сходится к x* сверхлинейно

xk 1 x* 
qk 1 
xk x* 
, qk 0 , k .
Замечания о квазиньютоновских методах:
1)Это двухшаговые методы.
2)Для квадратичных функций сходятся за n-шагов.
3)Обладают следующими преимуществами:
небольшая вычислительная сложность;
более глобальная сходимость, чем в методе Ньютона;
сверхлинейная скорость сходимости.
