Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

метопт-пми / 1 / Минимизация функций

.pdf
Скачиваний:
0
Добавлен:
10.06.2026
Размер:
2.06 Mб
Скачать

Доказательство:

1.Пусть x1, x2 X *, [0,1] (x1) (x2 ) (x*) *

При этом

( x1 (1 )x2 ) (x1) (1 ) (x2 ) * (*)

По определению X* неравенство может выполняться только как равенство,

поскольку * min

x (1 )x2 X * , т.е. X* – выпукло.

2.Пусть – строго выпукла. Если предположить, что в X* существуют две различные точки x1 и x2, то при [0,1] неравенство (*) должно быть строгим, что невозможно, т.к. *– min и получается < min.

Трудности:

1.В случаях, когда функция достаточно проста, теоремы 1-3 помогают решить задачу минимизации даже в явном виде. Однако зачастую задача поиска стационарных точек является нетривиальной. А затем – перебор стационарных точек в поисках точки локального минимума, затем – перебор локальных экстремумов в поисках глобального экстремума.

2.Для задач условной минимизации теоремы 1-3 применимы в случае, когда локальное решение x* – внутренняя точка допустимого множества X. Если же экстремум достигается в угловых точках границы множества условий, то нарушается дифференцируемость неприменимость методов классического анализа.

Т.о., в большинстве случаев задачу min (x) приходится решать численно с применением ЭВМ и специальных методов минимизации.

Безусловная минимизация функции

Методы оптимизации функций в Rn делятся на:

локальные методы (поиск локального min, т.е. такой точки x*, что существует > 0,

x X : x x* (x* ) (x) );

нелокальные (или прямые) методы (поиск глобального min для ограничений снизу функции (x), т.е. если * – нижняя грань, то поиск такой точки x*: (x*) = *). Для этих методов не требуется аналитического задания функции, надо только уметь

вычислять ее значение в любой точке. Обычно – для функций сложной структуры. Нелокальные методы сводятся к уменьшению области, внутри которой находится

оптимальная точка. Пример нелокального метода – симплексный метод.

Определение. Симплекс – выпуклое тело в Rn, состоящее из (n + 1) равноудаленных точек

– вершин симплекса, отрезок их соединяющий – ребро симплекса, в R2 – треугольник, в R3 – тетраэдр.

Неформальное описание симплексного метода: состоит из двух процедур – отражение и сжатие.

отражение: симметричное отражение вершины с наибольшим значением (x) относительно противоположной грани ["перекатывание симплекса"]. Если (xi ) (xi ) , то выбирается другая (i + 1)-я

вершина.

Когда зацикливание (все (n + 1)-вершины перебрали), то

сжатие: уменьшение размеров симплекса при сохранении вершины с наименьшим значением (x), затем переход к отражению, и так далее, пока ребро симплекса не станет меньше некоторого числа: xi x j .

Достоинства: с большой вероятностью метод не распознает локальный минимум ("не остановится").

Локальные методы основаны на построении релаксационной последовательности {xi}

такой, что (x ) (x

) и x x* arg min (x) .

i

i 1

i

i

Поэтому релаксационные методы называют также методами спуска.

Классификация релаксационных методов

Содной стороны,

одношаговые методы: xi 1(xi ) – каждый шаг (i + 1) зависит только от предыдущей точки xi и значения функции (xi);

двухшаговые методы: xi 1(xi , xi 1) – зависимость от двух предыдущих точек;

и т.д.;

Сдругой стороны,

методы нулевого порядка: если используются только значения минимизируемой функции (x);

методы первого порядка: если используются только значение (x) и ′(x);

методы второго порядка: если используются значения (x), ′(x) и ″(x);

etc;

Градиентные методы (методы первого порядка)

Итак, будем рассматривать задачу:

(x) min, x X Rn (безусловная минимизация),

предполагая, что функция (x) непрерывно дифференцируема на Rn, т.е. (x) C1(Rn).

По определению дифференцируемой функции

 

(x h) (x) (x), h o(h) ,

(1)

где lim o(h) h 1 0 .

h 0

Если (x) 0 , то при достаточно малых

 

 

 

h

 

 

 

главная часть приращения для

будет

 

 

 

 

определяться дифференциалом функции d (x) ( (x)h) . Оценим величину

d (x)

Справедливо неравенство Коши-Буняковского:

 

 

 

 

 

(x)

 

 

 

 

 

 

 

h

 

 

 

(x), h

 

 

 

(x)

 

 

 

 

 

 

 

h

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

причем, если ′(x) 0, то правое неравенство превращается в равенство, только при h = ′(x), а левое только при h = ′(x), где = const 0.

Отсюда ясно, что при (x) 0 направление наибыстрейшего возрастания функции

(x) в точке x совпадает с направлением градиента (x), а направление наибыстрейшего убывания – с направлением антиградиента – (x).

Это свойство градиента лежит в основе ряда итерационных методов минимизации функций. Один из таких – градиентный. Он предполагает, как, впрочем, и все остальные итерационные методы, наличие априорной точки начального приближения.

Предположим, что начальная точка x0

уже выбрана, тогда градиентный метод

заключается в построении последовательности {xk} по правилу:

 

xk 1 xk k (xk ), k

0, k 0,1,...

(2)

k – величина шага, xk – направление спуска.

Если (xk ) 0 , то шаг k 0 можно выбрать так, чтобы получить релаксационную последовательность: (xk 1) (xk ) . Действительно, подставляя (2) в (1), имеем:

(x

) (x )

 

 

 

 

(x )

 

 

 

2

(

 

)

1

0 ,

 

 

 

 

 

k 1

k

k

 

 

 

k

 

 

 

 

 

k

k

 

 

 

 

 

 

 

 

при всех достаточно малых k > 0.

Если (xk ) 0 , то xk – стационарная точка. В этом случае процесс (2) прекращается и проводятся дополнительные исследования поведения функции в окрестности точки xk для выяснения того, достигается ли в точке xk минимум функции (x) или не достигается.

Существуют различные способы выбора величины шага k в методе (2). В зависимости от способа выбора k можно получить различные варианты градиентного метода.

Метод наискорейшего спуска

На луче x Rn : x xk (xk ), 0 , направленном по антиградиенту, введем

функцию одной переменной

( ) xk (xk ) , 0

и определим k из условий

k arg min xk (xk ) .

0

Другими словами k выбирается так, чтобы (xk+1) в заданном направлении была наименьшей для чего на любом шаге необходимо решать задачу одномерной минимизации функции ( ), например, с помощью ( ) 0 .

Пример. Рассмотрим задачу

(x) x12 2x22 min

2

с начальной точкой x0 , (x0 ) 6 .

1

0

Из общих соображений ясно, что min = 0 при x* 0

1-й шаг:

 

 

 

 

 

 

 

 

2x1

 

 

0

 

4

 

 

(x)

4x

 

; (x

 

)

4

 

 

 

2

 

 

 

 

 

 

 

Ищем

 

 

 

 

 

 

 

 

 

2

 

 

4

 

 

2 4

 

x1 x0 (x0 )

 

 

 

 

1

 

 

4

 

 

1 4

 

Функция ( ) имеет следующий вид:

( ) (x1) (2 4 )2 2(1 4 )2

Решаем уравнение ( ) 0 , т.е.

2(2 4 ) ( 4) 4(1 4 ) ( 4) 0 ;

 

 

 

 

2

4

 

 

2

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

3

 

4 8 4 16 0; 24 8

;

x1

 

 

 

 

.

3

 

 

 

 

1

4

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

3

 

 

 

 

 

 

 

 

 

 

 

2-й шаг:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

3

 

 

 

 

2

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

3

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x )

 

 

 

 

4

 

; x

 

 

x

 

 

(x )

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x

2

 

 

 

 

 

 

2

 

 

 

4

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

1

 

 

 

4

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( )

 

)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

3

 

 

3

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решаем уравнение ( ) 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

4

 

 

 

 

 

 

 

 

4

 

 

 

 

 

4

 

 

 

1

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0 ;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3 3

 

 

 

 

 

 

 

3

 

 

 

 

 

3

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2 4

 

 

 

 

 

 

2

 

 

 

 

 

4

 

8

 

 

 

16

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

24

 

 

 

 

 

 

 

 

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

; x2

 

 

 

 

 

3 9

 

 

 

9

 

 

 

 

 

 

 

0;

 

 

 

 

 

;

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

3

 

 

3

 

3

 

3

 

 

 

 

 

 

 

3 3

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

4

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

3-й шаг:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x2 )

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x2 )

 

9

 

 

 

 

 

 

 

 

 

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

; x3 x2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

 

 

 

 

 

 

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( ) (x

3

 

 

 

 

 

 

2

 

 

 

 

4

 

 

2

 

 

 

 

 

1

 

 

 

 

 

4

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

)

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

9

 

9

 

 

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решаем уравнение ( ) 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

4

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

1

 

4

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0 ;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

 

 

 

 

 

 

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9 9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9 9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

4

 

 

 

 

2

 

 

 

 

 

 

4

 

8

 

 

 

4

 

16

 

 

 

 

 

 

 

 

 

 

 

 

8

 

 

 

 

24

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

; x3

 

9

27

 

 

 

 

 

27

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0;

 

 

 

 

;

 

 

 

 

 

 

 

 

 

 

, и.т.д.

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

9 9

9 9

 

 

 

 

 

 

 

 

 

 

 

9 9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

4

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

27

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

 

 

 

 

 

 

 

 

 

27

 

 

Представим решение задачи графически:

Из графического представления можно сделать вывод, что имеет место:

а) сходимость к истинной точке минимума

 

0

x*

0

 

 

 

 

б) взаимная перпендикулярность градиентов

Свойства метода наискорейшего спуска

1.На любом шаге направление спуска меняется на ортогональное. Действительно, k ищется из условия ( ) 0

 

 

xk (xk )

 

 

 

 

 

 

xk k (xk ) , (xk ) (xk 1), (xk ) 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.

Точка xk+1

 

лежит на луче, исходящем из точки xk

и касательным к поверхности

 

уровня

 

L (xk+1).

Действительно, с

одной

стороны, несомненно, что

 

xk 1 L x : (x) (xk 1) .

 

С другой стороны, градиент (xk+1) ортогонален

 

касательной к поверхности уровня L (xk+1), поэтому по свойству 1 направление

 

спуска касательно к поверхности L (xk+1).

 

 

Иначе. (xk+1) ортогонален направлению спуска

луч, проходящий из точки xk

касательной к поверхности L x : (x) (xk 1) .

 

 

Проблемы (общие для релаксационных методов).

 

 

а)

Имеет ли последовательность {xk} предел в смысле сходимости по норме:

 

существует xˆ ? : lim

 

 

 

xk xˆ

 

 

 

0 ?

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

аргументом, составляющим минимум функции

 

 

 

 

 

 

 

 

 

 

 

 

б)

Является

ли этот

предел

 

 

xˆ arg min x* ?

 

 

 

 

 

 

 

 

 

 

 

 

 

в)

Какова скорость сходимости

 

x x*

 

 

 

или (xk) – (x*)?

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

г)

Каковы вычислительные затраты.

 

 

Исследование метода наискорейшего спуска для квадратичной функции

Рассмотрим квадратичную функцию

(x) 12 ( Ax, x) (b, x) ,

где A – симметричная, положительно определенная матрица.

Можно показать, что A – симметричная положительно определенная матрица – строго выпукла.

(x) Ax b , т.е. x* A 1 b – стационарная точка.

Попробуем записать метод наискорейшего спуска для квадратичной функции. Итак,

( ) xk xk ) , 0

( ) xk ( Axk b) (xk ) Axk b, Axk b 22 A( Axk b), Axk b

(w)

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ax

b

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

)

 

 

 

Axk b

 

 

 

 

A( Axk b), Axk b 0 k

 

 

 

 

 

 

k

 

 

 

 

 

 

 

0 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A( Ax

b), Ax b

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

т.к. A – положительно определена, и значит для нее справедливо: (Ah, h) > 0 h Rn 0.

 

Для определения скорости сходимости оценим отношение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x

1

) (x* )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x ) (x* )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Имеем:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ax b

 

 

 

4

 

 

 

 

 

 

 

Ax b

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

(x )

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x k 1) ( k ) (xk )

 

 

k

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

(xk )

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A( Ax

b), Ax b

2 A(Ax b),

 

 

 

Ax b

2

A

 

(x ), (x )

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

k

 

 

 

 

 

 

 

k

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

k

k

Сдругой стороны,

(xk ) (x* ) 12 ( Axk , xk ) 12 ( Ax*, x* ) (b, xk x*) 12 Axk b, xk A 1b 12 A 1 (xk ), (xk )

Для простоты дальнейших изложений предположим, что матрица A приведена к диагональному виду (т.е. выполнено преобразование координат) так, что A diag( 1,..., n ) , где i – собственные числа матрицы A.

Собственные числа симметричной положительно определенной матрицы всегда положительны.

Для симметричной матрицы существует ортогональная матрица (TT = T-1) T такая, что TTAT – диагональная матрица diag( 1,..., n ) .

Если l min i , L max i , то

A (x), (x) L (x) 2

A 1 (x), (x) 1l (x) 2 ,

Тогда

(xk 1) (x* )

1

 

 

 

 

(xk )

 

 

 

4

1

l

 

L l

.

 

 

 

 

 

(xk ) (x* )

A (xk ), (x

k ) A 1

 

(xk ), (xk )

L

L

 

def

 

L l

 

 

 

 

 

 

 

 

 

 

 

 

Если ввести обозначение q

 

 

 

1

, то

 

 

 

 

 

 

L

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xk ) (x* ) const qk

Это называется геометрической скоростью сходимости (сходимость геометрической прогрессии).

Рассмотрим величину

 

 

 

 

 

 

 

 

 

 

 

 

 

 

def

 

x

x*

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Верхний предел

 

 

ln k 1

называется порядком сходимости метода.

 

 

 

 

 

 

lim

 

 

 

 

 

 

 

 

 

 

 

 

 

k

ln k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В нашем случае квадратичной функции

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

const qk (xk ) (x* )

1

( Axk

b, xk x* )

1

A(xk

x* ), xk x*

l

 

xk x*

 

 

 

2 .

 

 

 

 

 

 

Поэтому

2

 

 

 

 

 

 

 

 

 

 

2

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

x*

 

const q

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ln

k 1

 

 

 

 

1

ln q ln

k

 

 

 

 

 

 

 

 

 

 

 

 

lim

lim

 

2

1

 

 

 

 

 

 

 

 

 

 

ln k

 

 

 

ln k

 

 

 

 

 

 

 

 

 

 

 

k

 

k

 

 

 

 

 

 

 

 

 

 

 

 

получили сходимость с порядком 1 или линейную сходимость. Бывает порядок больше

1 – сверхлинейная сходимость.

При исследовании метода наискорейшего спуска для квадратичной функции получили, в частности, следующие результаты:

а)

(x ) (x*) const qk , q 1

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

def

 

*

 

 

 

 

 

ln k 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

б)

 

k

 

x x

 

, lim

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

k

ln k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Определение.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть (xk) (x*) при k ∞.

 

 

 

 

 

 

 

 

 

 

 

 

 

Последовательность (xk)

сходится к (x*) линейно (с линейной скоростью, со скоростью

геометрической прогрессии), если существуют такие константы q (0,1) и k0, что

 

 

 

 

 

 

 

 

 

(x

) (x* )

 

 

 

q

 

 

 

(x ) (x*)

 

 

 

, при k k0.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k 1

 

 

 

 

 

 

 

 

 

k

 

 

 

 

Последовательность (xk) сходится к (x*) сверхлинейно, если

(xk 1) (x* ) qk 1 (xk ) (x* ) , qk 0 , при k .

Последовательность (xk) сходится к (x*) с квадратичной скоростью, если существуют такие константы c 0 и k0, что

(xk 1) (x* ) c (xk ) (x*) 2 , при k k0.

Вообще, порядок сходимости, равный 1, означает, что значение величины k убывает, в основном, по закону геометрической прогрессии. Порядок сходимости, равный 2 (квадратичная сходимость) означает, что при достаточно больших k k+1 ~ k2. В этом случае, если к тому же k – малая величина, например, a 10 p при 0.1 a 1, то k+1

равно a2 10 2 p , т.е. фактически удваивается число нулей после запятой.

Частные случаи:

1)Пусть l = L, т.е. матрица A = LI = lI – пропорциональна единичной окружности (линии уровня – окружности).

Тогда:

 

 

 

 

lxk b

 

 

 

2

 

b

*

 

 

 

 

 

 

x

x

 

 

 

 

 

 

 

 

 

(lx b)

 

x

 

 

 

 

 

 

 

 

 

 

k 1

k

l

 

lxk b

 

2

k

l

 

 

 

 

 

 

 

 

 

 

f (xk+1) = f (x*) метод сходится за один шаг.

2)l L: сходимость может быть еле заметной (q ~ 1), а графически это означает, что линии уровня функции сильно вытянуты и функция имеет так называемый "овражный" характер. Это означает, что небольшое изменение некоторых переменных приводит к резкому изменению значений функции – эта группа переменных

характеризует "склон оврага", а по остальным переменным, задающим направление "дна оврага", функция меняется незначительно.

def

 

L

 

Число cond

max

 

 

называется числом обусловленности матрицы cond 1.

 

l

 

 

 

 

min

 

 

 

Матрица называется хорошо обусловленной, если cond ~ 1 и наоборот.

Вообще, число обусловленности геометрически можно трактовать как меру искажения отображения матрицей A единичной сферы. Действительно, cond(A) есть отношение наибольшего к наименьшим расстояниям между точками на единичной сфере после её отображения матрицей A. Чем больше cond(A), тем больше искажение единичной сферы при её преобразовании в эллиптическую форму – пусть A = diag(10,1).

Вывод: Метод наискорейшего спуска быстро сходится для хорошо обусловленных матриц и наоборот.

Почему так много внимания уделяли квадратичной функции?

В окрестности locmin любую функцию можно приблизить квадратичной, и всё сказанное выше про матрицу A будет справедливым для матрицы Гесса H(x*), которая

заменяет A в рассмотренном выше примере.

Геометрически: Линии уровня становятся замкнутыми и по мере приближения к x* всё более напоминают эллипс.

Общий случай.

Определение 1. Функция на множестве X Rn удовлетворяет условию Липшица, если существует L 0 : u, X (u) ( ) L u . Если градиент функции существует,

непрерывен и удовлетворяет условию Липшица, то обозначается C1,1.

Определение 2. Функция называется сильно выпуклой с параметром æ 0 , если

u, X , (u) ( ) ( ),u æ u 2 .

Теорема (о сходимости метода наискорейшего спуска). Рассмотрим задачу(x) min, x Rn . Пусть С1,1(Rn) и – сильно выпуклая c параметром æ. Тогда при

любом начальном приближении для последовательности {xk}, построенной по методу наискорейшего спуска, справедливы соотношения:

1)xk x* arg min (x)

2)(xk ) (x* ) const qk , q 1 L , q 0,1

Замечания.

1. Для квадратичной функции (x) 12 ( Ax, x) (b, x) :

а) постоянная Липшица L есть наибольшее собственное число матрицы A:

(u) ( ) Au A L u ;

б) она сильно выпукла с параметром 2l . Действительно,

(u) ( ) 12 ( Au,u) 12 ( A , ) (b, u )

12 ( A(u ),u ) ( ( ),u ) 2l u 2 ( ( ),u )

Соседние файлы в папке 1