Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Метод Ньютона.doc
Скачиваний:
2
Добавлен:
13.11.2019
Размер:
1.13 Mб
Скачать

§ 3. Метод Ньютона и его модификации.

В настоящем параграфе будем предполагать, что минимизируемая функция f принадлежит классу дважды дифференцируемых функций и тем самым определена матрица Гессе .

Метод Ньютона называется итерационный процесс.

. (3.1)

Предполагая, что матрица невырождена.

Как отмечалось в §2, итерационный процесс (3.1) можно трактовать как градиентный метод в пространстве с переменной метрикой, определяемой матрицей Dk-1 = .

Упражнение 15. Доказать, что метод Ньютона инвариантен относительно

линейного преобразования координат (2.11).

Упражнение 16. Доказать, что ньютоновское направление

= -[ ]-1 для функции из класса C2 в достаточно малой окрестности невыражденого локального минимума является направлением спуска, для правило Армийо выполняется при .

Для метода Ньютона

(3.2)

на каждой итерации можно интегрировать как результат аппроксимации минимизируемой функции f(x) её тейлоровским разложением в окрестности точки с точностью до квадратичных членов, то есть квадратичной функции:

.

В качестве xk+1 берут точку стационарности функции , которая в случае положительной определенности матрицы Гессе будет и точкой абсолютного минимума данной функции. Поэтому для квадратичных функций с положительно определенной матрицей Гессе метод Ньютона (3.2) сходится за одну итерацию.

Поскольку в точке стационарности * функции =0, то метод Ньютона может быть использован и для поиска решения системы и алгебраических уравнений. Так, если функция φ: Rn  Rn имеет непрерывную производную φ( ) в некоторой окрестности точки *, удовлетворяющей системы уравнений

φ(x) = 0. (3.3)

а матрица φ( *) имеет обратную, то точка * можно найти по методу Ньютона:

φ φ . (3.4)

При этом имеет место, следующее утверждение.

Утверждение 2. Найдется такое (0; ), что для O ( *) корректно определена, целиком содержится в O ( *) и сходится к *. Причем, если ≠ * для , то сходимость будет сверхлинейной, т.е.

.

*Упражнение 17. Доказать утверждение 2, используя представление:

φk = φ[ * + t( – *)]dt( – *). (3.5)

Теорема 2. 1) φ: Rn  Rn, φ( *) = 0.

2) O ( *) такая, что при некоторых числах и и всех

, O ( *) имеют место соотношения:

║ φ( ) - φ( )║≤ ║ - ║, ║[ φ( )]-1║≤

3) O ( *)

1) 2) 3) последовательность { }, построенная по методу Ньютона (3.4), сходится к * с квадратичной скоростью, т.е.

– *║ ≤ ║ – *║2 для = 0,1,2,...

Упражнение 18. Используя представление (3.5), доказать теорему 2.

Замечание 1: Пологая φ( ) = в утверждении 2 и теореме 2, получим соответствующие утверждения для метода Ньютона (3.2), предназначенного для минимизации функции .

Упражнение 19. Пусть =1 и

(3.6)

где – малое положительное число.

Насколько малой должна быть окрестность невыражденого минимума *=0, чтобы метод (3.2) сходился к этой точке? Может ли здесь быть применена теорема 2?

*Упражнение 20. Доказать, что для функции из класса C2 в достаточно малой окрестности невыражденого локального минимума метод (3.2) является обобщенным методом с равномерно градиентной последовательностью { }, обладающий релаксационностью (значения минимизируемой функции не возрастают от итерации к итерации).

Из упражнений следует, что метод Ньютона (3.2) обладает высокой скоростью сходимости. Однако он имеет и ряд недостатков:

  1. на каждой итерации должна существовать обратная матрица к матрице Гессе;

  2. с увеличением размерности пространства резко возрастает трудоемкость метода из-за обращения матрицы Гессе;

  3. сходимость только локальная, поэтому приближение должно быть достаточно хорошим (см. функцию (3.6));

  4. любая точка стационарности является точкой притяжения для метода (см. утверждение 2 и теорему 2);

  5. релаксационность гарантируется только в достаточно малой окрестности точки невыражденого локального минимума (см. упр. 19);

Различные модификации метода Ньютона создавались с целью преодоления указанных недостатков. Большинство из них основаны на переходе от схемы (3.2) к тому или иному обобщенному градиентному методу типа (1.1) с равномерно градиентной последовательностью направлений. При этом по мере приближенного локального минимума, такие модификации переходят в метод (3.2) и приобретают высокую скорость сходимости.

Одной из таких модификаций является итерационный процесс (1.1), в котором определяется по правилу Армийо с =1, а в качестве выбирается ньютоновское направление, если существует обратная матрице Гессе, для которой выполнены соотношения:

c (3.7)

c (3.8)

и = -D в противном случае, (3.9)

где D- положительно определенная матрица, задающая метрику: числа c1 >0,

c2 >0, p1 >0, p2 >0.

Упражнение 21. Доказать, используя упражнение 1, что построенная таким

образом модификация является сходящимся методом в том смысле, что

любая предельная точка его итерационной последовательности является

стационарной точкой минимизируемой функции.

Замечание 2. Если точка *, к которой сходится метод, является точкой

локального невырожденного минимума, то вблизи * (3.7) и (3.8) будут

выполнены, и в силу упр.15 модификация передает в метод Ньютона (3.2).

Замечание 3. В данной модификации рекомендуется выбирать c1 маленьким,

c2 – большим (например, c1 =10-5, c1 =10-5), p1 =3, а p2 =2 [1].

В случае, когда обращение матрицы Гессе достаточно трудоемко, может быть использована модификация метода Ньютона с пересчетом этой матрицы не на каждой итерации, а один раз за каждые p итерации (p ≥ 2). Тогда

= - D , (3.10)

где D = [ ]: j=0,1,...,p-1; i=0,1,...

Применение этой модификации целесообразно, если сокращение объема вычислений, затрачиваемых более существенным, чем снижение скорости сходимости метода.

При реализации той или иной модификации метода Ньютона совсем не обязательно вычислять обратную матрицу к матрице Гессе. Достаточно определить ньютоновское направление из системы линейных алгебраических уравнений:

= , (3.11)

Аналитическое разрешение этой целесообразной осуществлять в редких случаях. Обычно систему (3.11) разрешают численно. Для этого удобно использовать, например, метод Гаусса или разложение матрицы по Холесскому [1.4].