Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Zhadan_lektsii_6_semestr

.pdf
Скачиваний:
23
Добавлен:
03.06.2015
Размер:
10.08 Mб
Скачать

зационный метод Ньютона является локальным.Он одинаково хорошо находит как точки минимума функции f (x),так и точки ее максимума.Но с другой стороны, учет типа экстремальности задачи(ищется ли минимум функции или ее максимум), позволяет проводить проводить регулировку шага и делать его глобально сходящимся.

Метод Ньютона является быстросходящимся.Высокая скорость сходимости достигается за счет того,что он относится к классу методов второго порядка.В нем используются вторые производные минимизируемой функции,поэтому каждая его итерации существенно более трудоемкая по сравнению с градиентным методом.Уменьшить вычислительные затраты при сохранении высокой скорости сходимости позволяют так называемые квазиньютоновские методы,в которых не вычисляются матрицы вторых производных,а строятся их аппроксимации с использованием лишь первых производных.

Метод Ньютона для минимизации выпуклых функций.Пусть требует-

ся решить задачу(18),в которой функция f (x) является строго выпуклой дважды дифференцируемой функцией на Rn.Тогда в силу критерия16строгой выпуклости дважды дифференцируемых функций матрица fxx(x) всюду положительно опреде-

лена.При сделанных предположениях,если задача(18)имеет решение

x , то это

решение единственное,в нем выполняется необходимое условие

 

fx(x ) = 0n.

(35)

Равенство(35)является одновременно и достаточным условием.

Метод Ньютона с постоянным шагом Рассмотрим простейший вариант метода Ньютона для решения задачи(18).В нем строим последовательность точек {xk}, при этом начальную точку x0 задаем,а последующие точки определяем,исходя из следующих соображений.Пусть известно приближение xk.Чтобы найти последующую точку xk+1, разлагаем функцию f (x) в ряд Тейлора в окрестности точки xk вплоть до членов второго порядка малости:

1

x − xk, fxx(xk)(x − xk) + o( x − xk 2).

f (x) = f (xk) + fx(xk), x − xk +

 

2

Возьмем квадратичную часть этой функции

 

1

 

φ(x) = f (xk) + fx(xk), x − xk +

 

x − xk, fxx(xk)(x − xk)

2

и найдем ее точку минимума , т . е . решим задачу

min φ(x).

(36)

x Rn

 

Так как, fxx(xk) > 0, то квадратичная функция φ(x) является сильно выпуклой и следовательно решение задачи(36)существует и единственно.Необходимое и доста-

21

точное условие для задачи(36)имеет вид:

φx(x) = fx(xk) + fxx(xk)(x − xk) = 0n.

Отсюда,решая эту линейную систему относительно x, получаем

x = x¯k = xk − fxx−1(xk)fx(xk).

Точку x¯k и берем в качестве последующего приближения xk+1.

Метод Ньютона формально можно записать в виде рекуррентной схемы(19),если положить

sk = x¯k − xk = −fxx−1(xk)fx(xk)

и αk = 1. Тогда приходим к следующему рекуррентному соотношению :xk+1 = xk +sk

или

(37)

xk+1 = xk − fxx−1(xk)fx(xk).

Данный итеративный процесс есть не что иное,как классический метод Ньютона для решения системы уравнений(35).Одновременно он является и методом спуска для решения задачи безусловной минимизации(18),в которой целевая функция обладает строгой выпуклостью.Действительно,так как матрица fxx(xk) положительно определена,то и обратная матрица fxx−1(xk) также положительно определена. Поэтому

fx(xk), sk = − fx(xk), fxx−1(xk)fx(xk) < 0,

если только fx(xk) = 0n.

Покажем,что при определенных дополнительных условиях метод Ньютона с постоянным шагом обладает сверхлинейной скоростью сходимости.Наложим на функцию f(x) дополнительное требование,а именно,будем считать,что для любых s Rn

имеют место неравенства(33).Тогда для обратной матрицы

 

xx

 

получаем

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f−1

(x)

 

 

 

 

 

 

1

s 2 ≤ s, fxx−1(x)s ≤

 

1

s 2,

 

 

 

 

 

(38)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M

m

 

 

 

 

 

где по-прежнему точка x и вектор s произвольные из Rn.

 

 

 

 

Пусть x решение задачи(36).При сделанных предположениях относительно

функции f(x) данная точка единственна.Имеем согласно(37)

 

 

 

x

 

x

 

= x

k

x

 

f−1

(x

)f

(x

) =

 

 

 

 

 

(39)

 

k+1

 

= f

 

 

xx

 

 

k

x

 

 

k

 

)(x

 

 

x

)] .

 

 

 

 

 

−1

(x

 

 

) [ f

(x

) + f

xx

(x

k

 

 

 

 

 

 

 

xx

 

k

 

x

 

 

k

 

 

 

 

 

k

 

 

 

 

 

Для любых x и s из Rn справедлива формула

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

fx(x + s) = fx(x) +

01

d

fx(x + τs)dτ =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

fx(x) + 01 fxx(x + τs)sdτ =

 

 

 

 

(40)

 

 

 

 

 

 

 

f

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

sdτ.

 

 

 

 

 

 

 

 

(x)s +

 

[fxx(x + τs) fxx(x)]

 

 

= fx(x) + xx

 

 

 

 

 

 

 

0

 

22

Если теперь взять x = xk, s = x − xk, то , поскольку

fx(xk + s) = fx(x ) = 0n,

получаем на основании(40)

1

−fx(xk) + fxx(xk)(xk − x ) = [fxx (xk + τ (x − xk)) − fxx(x)] (x − xk)dτ.

0

После подстановки данного равенства в(39)приходим к

1

xk+1 − x = fxx−1(xk) [fxx(xk + τ (x − xk) − fxx(xk)] (x − xk)dτ.

0

Отсюда и из(38)следует оценка

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

x

 

=

 

f−1

(x

)

 

 

1

[f

 

(x

 

+ τ (x

x

)

f

 

 

(x

)] (x

x

)dτ

 

 

 

k+1

 

 

 

xx

 

k

 

 

0

 

1xx

 

k

 

 

 

k

 

 

xx

 

k

 

 

 

 

 

k

 

 

 

 

 

fxx−1

(xk)

 

 

 

 

 

 

 

 

 

 

 

 

xk)

 

 

 

 

 

 

 

 

 

xk)dτ

 

 

 

 

 

0 [fxx(xk + τ (x

fxx(xk)] (x

 

 

 

 

 

 

 

 

 

 

 

 

1

fxx(xk + τ (x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

fxx−1

(xk)

01

 

 

xk)

fxx(xk) x

 

xk

 

(41)

 

 

 

 

 

 

fxx−1

(xk)

 

 

 

0

 

[fxx(xk + τ (x

 

 

xk)

 

 

fxx(xk)] (x

 

 

 

xk) dτ

 

 

 

 

 

1

 

 

 

1

f

 

(x

 

 

− −

))

 

 

f

− ≤

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

+ τ (x

 

 

x

 

 

 

(x

)

dτ.

 

 

 

 

Обозначим

mxk

 

0

xx

 

k

 

 

 

 

 

k

 

 

 

xx

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

Ck = m

−1

max

fxx

(xk + τ (x − xk)) − fxx(xk) .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0≤τ ≤1

 

 

 

 

 

 

 

Тогда согласно(41)

 

 

 

 

 

xk+1 − x ≤ Ck xk − x .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(42)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Покажем,что,если точка xk достаточно близка к точке x , то константа Ck в оценке(42)меньше единицы.Более того,она стремиться к нулю при xk → x .Действительно,все точки

k(τ ) = xk + τ (x − xk) = τ x + (1 − τ )xk

 

принадлежат отрезку,соединяющему точку

xk c x , поэтому при xk → x выполня-

ется

 

 

fxx(xk + τ (x − xk)) − fxx(xk) = fxx (τ x + (1 − τ )xk) − fxx(xk) → 0.

Отсюда следует,что Ck → 0 при xk → x .

ε(x ) точки x такая,что если xk

Таким образом,существует окрестность

ε(x ), то Ck < 1 и согласно(42)выполняется включение xk+1

ε(x ), причем

xk+1 − x < xk − x .Другими словами,если на некоторой

k-й итерации по-

следовательность {xk} попадает в окрестность ∆ε(x ) решения задачи x , то и все последующие точки этой последовательности не только остаются в этой окрестности, но и сходятся к x .Соответствующие константы Ck при этом стремятся к нулю.Мы приходим к выводу,что если начальное приближение x0 взято достаточно близко

23

к x ,то траектория метода Ньютона(37)полностью определена и сходится к

x ,

причем скорость сходимости сверхлинейная.

 

Если наложить на функцию f(x) дополнительное требование,что ее вторая про-

изводная удовлетворяет на Rn условию Липшица с константой L, т . е .

 

fxx(x) − fxx(y) ≤ L x − y x, y Rn,

(43)

то получаем,что в этом случае метод Ньютона обладает более сильной квадратичной скоростью сходимости.Действительно,тогда на основании(41)и(43)оценка(42) может быть уточнена:

 

x

k+1

x

k

m−1

x

 

x

1

 

f

(x

 

+ τ (x

x

))

f

 

 

 

(x ) dτ

 

 

 

k

 

0

1 xx

 

k

 

 

k

 

 

xx

k

Таким образом,

 

 

 

xk

 

 

0 τ dτ = L(2m)−1

xk

x

 

2.

 

 

 

 

 

 

Lm−1

 

 

x 2

 

 

 

 

 

 

 

 

 

 

xk+1 − x ≤ C xk − x 2,

 

 

 

 

 

 

 

 

 

 

 

где C = L/(2m).Отсюда также следует,что если выделить область

 

 

 

 

 

 

 

 

D = {x Rn : x − x < 2m/L} ,

 

 

 

 

 

 

 

 

 

то в этой области метод оказывается сходящимся,поскольку при

 

xk D получаем,

что xk+1 − x < xk − x .

Суммируя все вышесказанное,приходим к следующему утверждению относительно классического метода Ньютона с постоянным шагом для решения задачи(18).

Теорема3. Пусть f(x) строго выпуклая дважды дифференцируемая на Rn функция,для второй производной которой выполняются неравенства(33).Тогда метод Ньютона с постоянным шагом локально сходится к решению этой задачи

точке x со сверхлинейной скоростью . Если , кроме того , для вторых произ - водных выполнено условие Липшица(43),то данный метод локально сходится к x

с квадратичной скоростью .

Рассмотрим теперь метод Ньютона с переменным шагом.Одним из главных недостатков метода Ньютона с постоянным шагом является его локальность.В самом деле,применяемый даже для минимизации выпуклых функций,он не всегда может найти решение задачи.Приведем пример,поясняющий эту расходимость метода.

Рассмотрим дважды непрерывно дифференцируемую функцию

1

ln(1 + x2),

x R.

f(x) = x arctg x −

 

2

Так как f (x) = arctg x и f (x) = (1 + x2)−1 > 0,

то данная функция является

строго выпуклой.Она достигает своего минимума на

R в нуле.Можно показать,

что если применить метод Ньютона с постоянным шагом(равные единице),то он сходится лишь в том случае,когда начальное приближение взято достаточно близко к решению , а именно |,x0| < x¯, где x¯ 1.392.

24

Чтобы расширить область сходимости метода Ньютона,применяют его вариант с переменным шагом(его также часто называют демпфированным методом Ньютона).В нем итеративный процесс вместо(37)описывается следующим рекуррентным соотношением

xk+1 = xk − αkfxx−1(xk)fx(xk),

(44)

т.е.водится шаг αk.Предположим,что переменный шаг αk выбирается по правилу Армихо(23),причем начальный шаг α¯ берется равным единице,а параметр ε удовлетворяет неравенствам: 0 < ε < 1/2. Тогда на каждой k-й итерации выполняется неравенство:

f(xk+1) − f(xk) ≤ −εαk fx(xk), fxx−1(xk)fx(xk) .

(45)

В нем xk+1 чаем

f(xk+1) −

= xk + αksk, где sk = −fxx−1(xk)fx(xk).Используя формулу Тейлора,полу-

f(xk) = f(xk + αksk) − f(xk) =

=αk fx(xk), sk + 12 αk2 sk, fxx(˜xk)sk =

=αk fx(xk), sk + 12 αk2 sk, fxx(xk)sk + 12 αk2 sk, (fxx(˜xk) − fxx(xk)) sk ,

где x˜k [xk, xk+1].

 

 

 

 

 

 

 

 

 

 

= −fx(xk), sk и обозначим для сокращения

Учтем теперь,что sk, fxx(xk)sk

записи dk = fx(xk), sk .Имеем

 

dk < 0.Если функция f(x) такова,что ее матри-

ца вторых производных fxx(x) удовлетворяет условию(33),то для

dk выполняется

неравенство

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(46)

−dk = −fx(xk), sk = sk, fxx(xk)sk ≥ m sk 2.

Тогда на основании неравенства Коши-Буняковского и(46)получаем

 

f(xk+1) − f(xk) =

 

αk

 

 

αk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= αkdk 1 −

 

α2k

+

2dkαksk, (fxx(˜xk) − fxx(xk)) sk

2

≤ αkdk

 

 

1 −

2

 

2m sk 2

fxx(˜xk) − fxx(xk) sk

=

= αkdk

 

1 −

αk

αk

fxx(˜xk) − fxx(xk) .

 

2

2m

Отсюда видно,что неравенство(45)будет выполняться,если

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

αk

 

 

αk

 

 

 

 

 

 

1 −

 

 

 

 

 

 

 

 

fxx(˜xk) − fxx(xk) ≥ ε.

 

 

 

2

 

 

2m

 

В частности,оно будет выполняться даже при αk = 1, когда

 

1

 

1

 

 

fxx(˜xk) − fxx(xk) ≥ ε

 

 

 

 

 

 

 

2

 

2m

 

или

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

fxx(˜xk) − fxx(xk) ≤ 1 − 2ε.

(47)

 

m

25

Поскольку по предположению ε (0, 0.5), константа в правой части (47) положи - тельна.

Неравенство(47)будет выполняться,если точка xk близка к решению задачи(18)точке x .Это следует из локальной сходимости со метода Ньютона с постоянным шагом αk = 1.Действительно,тогда можно указать достаточно малую окрестность ∆(x ) точки x , что при xk ∆(x ) все последующие точки также остаются в этой окрестности.Как следует из(16),при этом выполняются неравенства xk+1 − x ≤

Ck xk − x , где Ck < 1, Ck → 0.Но тогда

k → xk.

 

 

При выполнении условия(33)функция

f(x) является сильно выпуклой,а ее

градиент непрерывен по Липшицу.Из sk

= −fxx−1(xk)fx(xk) следует,что fx(xk) =

−fxx(xk)sk.Поэтому согласно(33)

 

 

 

 

 

fx(xk), sk

=

sk, fxx(xk), sk

≤ −

m,

sk 2

 

sk 2

 

т.е.имеет место неравенство(16)при δ = −m.Но тогда шаг αk определяется за конечное количество дроблений начального шага,причем это количество не превосходит одно и то же число равномерно независимо от точек xk. Все шаги αk оказываются ограниченными снизу некоторым шагом αmin > 0.Последовательность точек {xk} принадлежит компактному множеству

X = {x Rn : f(x) ≤ f(x0)}.

Последовательность {f(xk)} является монотонно убывающей.Так как функция f(x) ограничена снизу на X, то согласно (45) последовательность { fx(xk), fxx−1f(xk) должна стремиться к нулю.В силу левого неравенства(16)это возможно только тогда,когда fx(xk) → 0.Для сильно выпуклой функции это возможно только в том случае,когда xk → x , где x решение задачи (18). Таким образом , точкаxk на некоторой итерации обязательно попадет в нужную окрестность ∆ε(x ).После этого метод ведет себя как классический метод Ньютона с постоянным шагом αk = 1 и для него справедливы все полученные ранее оценки относительно скорости сходимости.

Теорема4. Пусть f(x) дважды непрерывно дифференцируемая функция , удо - влетворяющая условию(33).Тогда метод Ньютона(44)с регулировкой шага сходится из любой начальной точки к единственной точке минимума функции f(x) на Rn со сверхлинейной скоростью.Если,кроме того,выполнено условие Липшица (43)для вторых производных,то скорость сходимости квадратичная.

Утверждение теоремы полностью сохранится,если в методе(44)выбирать шаг не по правилу Армихо,а по правилу наискорейшего спуска,т.е.на каждой итерации решать вспомогательную задачу минимизации

αk = arg min f(xk + αsk).

α≥0

26

В общем случае , когда функцияf (x) не является сильно выпуклой,регулировка шага позволяет значительно расширить область сходимости метода Ньютона.Особенно это важно при отыскании локальных решений задачи(18).

Как уже не раз отмечалось,метод Ньютона обладает высокой скоростью сходимости.Минимум квадратичной выпуклой функции

f (x) = 12 x, Ax + b, x + c,

где A симметричная положительно определенная матрица , он даже находит за одну итерацию из любой начальной точки x0 Rn.К недостаткам метода Ньютона следует отнести необходимость знать матрицу вторых производных fxx(xk) на каждой итерации,хотя для нахождения направления sk нет необходимости ее обращать. Обычно sk определяют путем решения линейной системы уравнений fxx(xk)sk =

−fx(xk).

1.3.4.Метод сопряженных градиентов

 

Возьмем сначала выпуклую квадратичную функцию

 

1

(48)

f (x) = 2 x, Ax + b, x ,

где A симметричная положительно определенная матрица.Данная функция является сильно выпуклой на Rn, поэтому всегда существует ее единственная точка минимума x на Rn и в этой точке выполняется условие оптимальности fx(x ) = Ax + b = 0n. Отсюда получаем , чтоx = −A−1b.

Пусть имеется произвольная точка x0 Rn и пусть , кроме того , вRn выделен набор из n линейно независимых векторов s1, . . . , sn. Тогда точку x можно представить в виде

n

 

i

(49)

x = x0 + aisi,

=1

 

где ai, 1 ≤ i ≤ n некоторые коэффициенты.

Обозначим через a n-мерный вектор с компонентами a1, . . . , an, через S квадратную матрицу порядка n, столбцами которой являются векторы s1, . . . , sn. Тогда разложение(49)перепишется в виде

x = x0 + Sa.

(50)

Если(50)подставить в условие fx(x ) = 0n, то приходим к равенству A(x0 +Sa) = −b или

ASa = −Ax0 − b = −fx(x0).

27

Умножим обе части этого равенства на матрицу ST . Тогда

ST ASa = −ST fx(x0).

Так как обе матрицы S и A неособые,то и симметричная матрица ST AS также является неособой,поэтому существует ее обратная матрица и

a = − ST AS −1 ST fx(x0).

Подставляя данное a в (49), получаем

x = x0 − S ST AS −1 ST fx(x0).

В дальнейшем нам понадобится следующее важное понятие .

Определение9. Векторы s1, . . . , sk называются сопряженными относительно матрицы A или просто A-сопряженными,если они ненулевые и

si, Asj = 0, 1 ≤ i, j ≤ k, i = j.

Непосредственно из определения следует следующее

Утверждение5. Пусть векторы s1, . . . , sk сопряжены относительно положительно определенной матрицы A. Тогда они линейно независимы .

Доказательство. Предположим противное,что векторы s1, . . . , sk линейно зави-

симы.Тогда можно указать такой вектор si , что si = j=i αjsj, где не все αj равны нулю.В этом случае

si, Asi = si,

αjsj = αj si, Asj = 0.

j=i

j=i

Отсюда,поскольку матрица A положительно определена,получаем,что si = 0n.Мы пришли к противоречию.

Пусть теперь взятый нами набор s1, . . . , sn является набором из n сопряженных

относительно матрицы A векторов.Такую совокупность векторов принято называть A-сопряженной системой.Для нее соответствующая матрица ST AS имеет диагональный вид

ST AS =

d1 . . .

0

,

 

 

0

dn

 

 

 

 

 

 

 

 

где di = si, Asi > 0, 1 ≤ i ≤ n. Обратная матрица (ST AS)−1 также будет иметь диагональный вид и мы получаем,что коэффициенты ai равняются следующим величинам:

ai =

si, fx(x0)

, 1

i

n.

 

si, Asi

 

 

 

28

i−1

Поясним смысл коэффициентов ai в случае A-сопряженной системы векторов s1, . . . , sn. Введем в рассмотрение точки

i

xi = xi−1 + aisi = x0 + ajsj,

j=1

где i = 1, 2, . . . , n.Если обратиться к задаче

min f (xi−1 + αsi),

α R

то в силу необходимых условий минимума должно выполняться

d

f (xi−1 + αsi) = fx(xi−1 + αsi), si = 0.

Отсюда,так как fx(x) = Ax + b, приходим к уравнению относительно α:

si, Asi α + si, Axi−1 + si, b = 0

или

si, Asi α + si, fx(xi−1) = 0.

Таким образом,для решения α задачи(51)получаем

α = − si, fx(xi−1) .si, Asi

Но в силу A-сопряженности системы векторов s1, . . . , sn:

(51)

(52)

si, fx(xi−1) = si, A x0 +

αjsj + b = si, Ax0 + b = si, fx(x0) .

 

 

 

 

 

j=1

 

Следовательно α = ai.

 

 

 

 

 

 

 

n

, задаваемой направлением si

˜

Пусть li есть прямая в R

 

и пусть li есть её сдвиг

на вектор xi

1.Мы получили,что решением задачи минимизации функции f (x) на

˜

 

 

 

 

 

прямой li является точка xi−1 + aisi, т . е . точкаxi.

 

Приведенные выше рассуждения позволяют проинтерпретировать процесс построения точек x1, . . ., xn с несколько иной точки зрения . А именно , пусть задана начальная точка x0.Берем произвольные направления s1, . . ., sn,которые образуют A-сопряженную систему.Последовательно вычисляем точки x1, . . ., xn, полагая :

xk = xk−1 + αksk, f (xk−1

+ αksk) = min f (xk−1 + αsk),

(53)

 

α R

 

где k = 1, 2, . . . , n. Так как коэффициент αk получается из условия минимизации функции f (xk−1 + αsk) по α (он может быть как положительным,так и отрицательным),то на каждом из n шагов процесса(53)получаем

fx(xk), sk = 0, k = 1, 2, . . . , n.

(54)

29

Как мы видели,такой процесс для любого x0 Rn позволяет найти минимум функции f(x) за не более,чем n шагов.Если на некотором k-м шаге оказывается fx(xk) = 0n,то расчеты заканчиваются,так как найдено решение задачи минимизации выпуклой функции(48).

Обратим внимание на еще одно свойство процесса(16).Обозначим через Lk k- мерное линейное подпространство,порожденное векторами s1, . . . , sk, а через Xk сдвиг этого подпространства на вектор x0, т . еX.k = x0 + Lk.

Упражнение.Покажите,что для любого 1 ≤ k ≤ n точка xk доставляет минимум функции f(x) на линейном многообразии Xk.

Описанная процедура является общей схемой так называемых методов сопряженных направлений.Существует целое семейство таких методов,отличающихся друг от друга конкретным способом выбора направлений s1, . . ., sn.

Рассмотрим метод сопряженных градиентов,который является одним из наиболее эффективных среди методов сопряженных направлений.Данный вариант метода носит название метода Хестенса-Штифена.В нем вычисления проводятся согласно общей схеме(16),т.е.начальная точка x0 задается,а последующие точки определяются по формулам:

 

 

 

xk = xk−1 + αksk,

 

 

(55)

где шаг αk находится из задачи одномерной минимизации,причем в явном виде

α

k

= arg min f(x

k−1

+ αs

k

) =

sk, fx(xk−1)

.

(56)

 

α R

 

 

 

sk, Ask

В качестве направления s1 берется s1 = −fx(x0).Другие направления

s2, . . ., sn

полагаются равными

 

 

 

 

 

 

 

 

 

 

 

sk = −fx(xk−1) + βk−1sk−1,

k = 2, 3, . . . , n,

(57)

а числа βk−1 выбираются из условия A-сопряженности двух"соседних"направлений

sk и sk−1.Если расписать это условие

sk, Ask−1 = 0, подставив sk из(57),то полу-

чаем

 

−fx(xk−1) + βk−1sk−1, Ask−1 = 0.

 

 

Отсюда находим

 

 

 

 

 

fx(xk), Ask

 

 

 

 

β

k

=

, k = 1, 2, . . . , n

1.

(58)

 

 

sk, Ask

 

 

 

Сформулируем теперь алгоритм метода сопряженных градиентов для минимизации выпуклых квадратичных функций.

Алгоритм. Берем произвольное x0 Rn и полагаем k = 1.

30

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]