§ 3. Метод Ньютона и его модификации.
В настоящем параграфе будем предполагать, что минимизируемая функция f принадлежит классу дважды дифференцируемых функций и тем самым определена матрица Гессе .
Метод Ньютона называется итерационный процесс.
. (3.1)
Предполагая, что матрица невырождена.
Как отмечалось в §2, итерационный процесс (3.1) можно трактовать как градиентный метод в пространстве с переменной метрикой, определяемой матрицей Dk-1 = .
Упражнение 15. Доказать, что метод Ньютона инвариантен относительно
линейного преобразования координат (2.11).
Упражнение 16. Доказать, что ньютоновское направление
= -[ ]-1 для функции из класса C2 в достаточно малой окрестности невыражденого локального минимума является направлением спуска, для правило Армийо выполняется при .
Для метода Ньютона
(3.2)
на каждой итерации можно интегрировать как результат аппроксимации минимизируемой функции f(x) её тейлоровским разложением в окрестности точки с точностью до квадратичных членов, то есть квадратичной функции:
.
В качестве xk+1 берут точку стационарности функции , которая в случае положительной определенности матрицы Гессе будет и точкой абсолютного минимума данной функции. Поэтому для квадратичных функций с положительно определенной матрицей Гессе метод Ньютона (3.2) сходится за одну итерацию.
Поскольку в точке стационарности * функции =0, то метод Ньютона может быть использован и для поиска решения системы и алгебраических уравнений. Так, если функция φ: Rn Rn имеет непрерывную производную φ( ) в некоторой окрестности точки *, удовлетворяющей системы уравнений
φ(x) = 0. (3.3)
а матрица φ( *) имеет обратную, то точка * можно найти по методу Ньютона:
φ φ . (3.4)
При этом имеет место, следующее утверждение.
Утверждение 2. Найдется такое (0; ), что для O ( *) корректно определена, целиком содержится в O ( *) и сходится к *. Причем, если ≠ * для , то сходимость будет сверхлинейной, т.е.
.
*Упражнение 17. Доказать утверждение 2, используя представление:
φk = φ[ * + t( – *)]dt( – *). (3.5)
Теорема 2. 1) φ: Rn Rn, φ( *) = 0.
2) O ( *) такая, что при некоторых числах и и всех
, O ( *) имеют место соотношения:
║ φ( ) - φ( )║≤ ║ - ║, ║[ φ( )]-1║≤
3) O ( *)
1) 2) 3) последовательность { }, построенная по методу Ньютона (3.4), сходится к * с квадратичной скоростью, т.е.
║ – *║ ≤ ║ – *║2 для = 0,1,2,...
Упражнение 18. Используя представление (3.5), доказать теорему 2.
Замечание 1: Пологая φ( ) = в утверждении 2 и теореме 2, получим соответствующие утверждения для метода Ньютона (3.2), предназначенного для минимизации функции .
Упражнение 19. Пусть =1 и
(3.6)
где – малое положительное число.
Насколько малой должна быть окрестность невыражденого минимума *=0, чтобы метод (3.2) сходился к этой точке? Может ли здесь быть применена теорема 2?
*Упражнение 20. Доказать, что для функции из класса C2 в достаточно малой окрестности невыражденого локального минимума метод (3.2) является обобщенным методом с равномерно градиентной последовательностью { }, обладающий релаксационностью (значения минимизируемой функции не возрастают от итерации к итерации).
Из упражнений следует, что метод Ньютона (3.2) обладает высокой скоростью сходимости. Однако он имеет и ряд недостатков:
на каждой итерации должна существовать обратная матрица к матрице Гессе;
с увеличением размерности пространства резко возрастает трудоемкость метода из-за обращения матрицы Гессе;
сходимость только локальная, поэтому приближение должно быть достаточно хорошим (см. функцию (3.6));
любая точка стационарности является точкой притяжения для метода (см. утверждение 2 и теорему 2);
релаксационность гарантируется только в достаточно малой окрестности точки невыражденого локального минимума (см. упр. 19);
Различные модификации метода Ньютона создавались с целью преодоления указанных недостатков. Большинство из них основаны на переходе от схемы (3.2) к тому или иному обобщенному градиентному методу типа (1.1) с равномерно градиентной последовательностью направлений. При этом по мере приближенного локального минимума, такие модификации переходят в метод (3.2) и приобретают высокую скорость сходимости.
Одной из таких модификаций является итерационный процесс (1.1), в котором определяется по правилу Армийо с =1, а в качестве выбирается ньютоновское направление, если существует обратная матрице Гессе, для которой выполнены соотношения:
c (3.7)
c (3.8)
и = -D в противном случае, (3.9)
где D- положительно определенная матрица, задающая метрику: числа c1 >0,
c2 >0, p1 >0, p2 >0.
Упражнение 21. Доказать, используя упражнение 1, что построенная таким
образом модификация является сходящимся методом в том смысле, что
любая предельная точка его итерационной последовательности является
стационарной точкой минимизируемой функции.
Замечание 2. Если точка *, к которой сходится метод, является точкой
локального невырожденного минимума, то вблизи * (3.7) и (3.8) будут
выполнены, и в силу упр.15 модификация передает в метод Ньютона (3.2).
Замечание 3. В данной модификации рекомендуется выбирать c1 маленьким,
c2 – большим (например, c1 =10-5, c1 =10-5), p1 =3, а p2 =2 [1].
В случае, когда обращение матрицы Гессе достаточно трудоемко, может быть использована модификация метода Ньютона с пересчетом этой матрицы не на каждой итерации, а один раз за каждые p итерации (p ≥ 2). Тогда
= - D , (3.10)
где D = [ ]: j=0,1,...,p-1; i=0,1,...
Применение этой модификации целесообразно, если сокращение объема вычислений, затрачиваемых более существенным, чем снижение скорости сходимости метода.
При реализации той или иной модификации метода Ньютона совсем не обязательно вычислять обратную матрицу к матрице Гессе. Достаточно определить ньютоновское направление из системы линейных алгебраических уравнений:
= , (3.11)
Аналитическое разрешение этой целесообразной осуществлять в редких случаях. Обычно систему (3.11) разрешают численно. Для этого удобно использовать, например, метод Гаусса или разложение матрицы по Холесскому [1.4].