Добавил:

chloviekowie Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Методы оптимизации

Файл:

Минимизация функций

.pdf

Скачиваний:

Добавлен:

10.06.2026

Размер:

2.06 Mб

Скачать

☆

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

2. Эквивалентные ограничения сильной выпуклости:

а)

– сильно выпукла (u) (u) æ

2 – выпукла (это означает, что имеет

"квадратичный запас" выпуклости);

б)

пусть C1, – сильно выпукла (u) ( ),u 2æ

2 ;

в)

пусть С2, – сильно выпукла (u)x, x 2æ

2 , x, т.е. (u) 2æI [в

смысле положительной определенности разности матриц]. С другой стороны, из

условия Липшица (u) LI , поэтому для сильно выпуклой С2 существует

двойная оценка матрицы Гессе: 2æI (u) LI .

Покажем, что 2æ L . С одной стороны, из б) имеем

(u) ( ),u 2æ u 2

С другой стороны,

(u) ( ) L u

2æ u 2 (u) ( ),u (u) ( )u L u 2 2æ L , ч.т.д.

Выпуклость:

(u) ( ) ( ( ),u ) .

Строгая выпуклость:

(u) ( ) ( ( ),u ) .

Сильная выпуклость:

(u) ( ) ( ( ),u ) æ u 2 для u, Rn

Графическое представление дифференциальных критериев выпуклости.

График выпуклой функции расположен не ниже касательной плоскости Z ( ) ( ( ),u ) , проходящей через произв. точку поверхности

( , ( )) .

График строго выпуклой функции имеет единственную общую точку с этой плоскостью.

Пусть * – ( )min ( * ) 0 ( * ) æ u * 2 .

Поверхность Z (	*	)	2æ	u	*	2

						– это
			2

параболоид вращения с вершиной в точке ( *, ( * ))

График сильно выпуклой функции расположен внутри некоторого параболоида вращения.

Другие градиентные методы

Напомним, градиентные методы заключаются в построении релаксационной последовательности:

xk : xk 1 xk k xk )

Градиентные методы различаются между собой способом выбора k.

1. Метод наискорейшего спуска, который был рассмотрен выше, заключается в выборе

k arg min xk xk ) .

Такой способ выбора k является в некотором смысле наилучшим, т.к. он обеспечивает достижение наименьшего значения функции вдоль заданного направления. Однако он требует решения на любом шаге одномерной задачи минимизации. Эти задачи решаются, как правило, приближенно с помощью численных методов, что приводит к

значительному объему вычислений. Кроме того, метод может привести к плохой сходимости (овраги!).

Другим подходом для построения релаксационной последовательности является попытка определить k до начала вычислений. Какие есть для этого основания?

Допустим, что можно построить оценку для k

такую,

что для

(0,1) выполняется

неравенство

) (x )

(x )

k 1

Тогда очевидно, что (xk 1) (xk )

соответствующий метод

минимизации будет

методом спуска.

Справедливы следующие утверждения:

Лемма 1. Пусть функция C1,1(Rn) и

(x) (x ) M x x , x, x Rn , M 0

Тогда для xk Rn, (0,1) условие (1) выполнено при

0 k 1

Лемма 2. Пусть дважды дифференцируема и матрица Гессе удовлетворяет условию Липшица и

(x)h, h D h 2 , x, h Rn , D 0

Тогда для xk Rn, (0,1) условие (1) выполняется при

2(1 ) 0 k D

2. Градиентный метод с постоянным шагом.

В этом методе полагается k const. При этом иногда удается добиться выполнения условия (1). Но для этого необходимо знать константы M и D, что далеко не всегда удается вычислить.

Т.о., метод прост в реализации, но есть проблемы со сходимостью.

Пример. Пусть (x) = x2

min = 0; x* = 0;

Тогда

xk 1 xk 2axk (1 2a ) xk 1 2a 1 метод сходится. Сходимость медленная!

3. Градиентный метод с убыванием длины шага.

В ряде методов достаточно потребовать выполнения условий:

							c
	k 0, k 0,1,...;	k ; k2			(например, k		c	)
	k 0, k 0,1,...;	k ; k2			(например, k		k 1	)
		k 0	k 0				k 1
На интуитивном уровне объяснение следующее:

	условие сходимости ряда k2		накладывают, чтобы добиться достаточно быстрой
		k 0
	сходимости последовательности k			к нулю	с	целью обеспечения сходимости
	метода в окрестности точки экстремума x*.

	условие расходимости	ряда	k	призвано		обеспечить	достижение точки

k 0

экстремума x* даже при неудачном выборе начального приближения x0, т.е. при больших расстояниях от x0 до x*.

Сходимость медленная!

4. Градиентный метод с дроблением шага.

Ещё один адаптивный способ выбора коэффициентов k. Выбираются некоторые const >0 и 0 < < 1 (обычно = ½). Для коэффициента = проверяется выполнение условия (xk (xk )) (xk ) . Если оно выполняется, то полагают k = . Если нет, то производится дробление шага, т.е. принимается = , и т.д. до тех пор, пока не выполнится требуемое неравенство.

Процесс дробления не может продолжаться бесконечно, поскольку (x) – направление убывания функции. Первое , при котором условие выполнено и принимается за k.

Как показывает следующая лемма, с помощью описанного процесса дробления шага можно добиться выполнения неравенства. (1)

Лемма 3. Пусть функция дифференцируема на Rn. Тогда для xk Rn , (0,1)

найдется такое 0 > 0, что при (0, 0] выполнено условие

xk (xk ) (xk ) (xk ) 2 .

Если необходимое неравенство оказывается выполненным при начальном значении= , то иногда полезно увеличить шаг, взяв = , где > 1. Так можно продолжать до тех пор, пока значения функции не перестанут уменьшаться. Последнее , при котором произошло уменьшение, и берется в этом случае за k.

5. Овражный метод – эвристический двухшаговый метод минимизации овражных функций.

Характеристика степени овражности:

Пусть x* – точка минимума, > 0.

Рассмотрим поверхность уровня L x : (x) (x* ) .

Введем m min x x*

x L

M max x x*

x L

Определение. Тогда r		M	называется числом обусловленности точки locmin .
	lim	M
	lim	m
0		m

Рассмотрим "овражную" функцию (вытянута вдоль некоторых направлений). Если точка лежит на склоне оврага, то направление спуска из этой точки будет почти перпендикулярно к направлению "дна

оврага", и в результате приближения {uk}, получаемые градиентным методом, будут поочередно находиться то

на одном, то на другом "склоне оврага". Если "склоны оврага" достаточно круты, то такие

скачки "со склона на склон" точек {uk} могут сильно замедлить сходимость градиентного метода.

Для ускорения сходимости можно предложить следующий эвристический прием,

называемый овражным методом:

Пусть 0, 1 – две произвольные близкие точки. Совершаем из них по одному шагу методом наискорейшего спуска (или вариант градиентного метода).

Попадаем в окрестность "дна оврага". Соединяя их прямой, делаем большой шаг в полученном направлении, перемещаясь вдоль "дна оврага". Из полученной точки 2, которая находится на "склоне оврага", производят спуск с помощью градиентного метода и определяют следующую точку u2 на "дне оврага" и т.д.

Формула метода выглядит следующим образом.

k 1 uk sign( (uk ) (uk 1)) uk huk 1 (uk uk 1)

Здесь:

sign( (uk ) (uk 1)) определяет знак - чтобы спускаться, а не подниматься;

(uk uk 1) - определяет направление спуска по дну оврага;

h - овражный шаг, выбирается эмпирически и от него многое зависит.

Если h – большое, то на крутых склонах точки k могут слишком далеко удаляться от "дна оврага" большие объемы вычислений для градиентного метода спуска в очередную точку на "дне оврага", кроме этого может произойти выброс точки k из

"оврага" и правильное направление поиска будет потеряно.

Если h – малое, то эффект от применения овражного метода может быть незначительным.

Эффективность применения овражного метода может резко возрасти, если величину h выбирать переменной, реагирующей на "повороты" оврага, с тем, чтобы:

а) быстрее проходить прямолинейные участки на "дне оврага" за счет увеличения овражного шага;

б) на крутых поворотах "оврага" избежать выброса из "оврага" за счет уменьшения овражного шага;

в) добиться min отклонения точки k от дна оврага с целью уменьшения объема вычислений для градиентного метода.

Для правильной реакции на "повороты" оврага надо учитывать "кривизну" оврага. Причем информацию о кривизне желательно получить по результатам предыдущих шагов.

Один из способов выбора шага:

hk 1 hk ccos k cos k 1 , k 2,3... ,

где k – угол между векторами k uk 1,uk uk 1 , определяемый условием

cos k

k uk 1

,uk uk 1

k uk 1

uk uk 1

c const > 1 – параметр алгоритма.

k возрастает при возрастании кривизны при переходе от участка с меньшей кривизной на участок с большей кривизной имеем

cos k cos k 1 0 hk 1 hk и наоборот. На участках с постоянной кривизной

cos k cos k 1 0

шаг остается постоянным, который был сформирован при выходе на рассматриваемый участок.

Параметр с регулирует чувствительность "метода к изменению кривизны (повороты)"

и во многом определяет скорость движения "по оврагу".
		Методы II порядка минимизации функции
		(использование вторых производных)
Общая идея:
Последовательность {xk} будем строить			по	направление спуска
формулам:				по градиентному
		xk 1 xk k Hk (xk ) ,		методу
		xk 1 xk k Hk (xk ) ,
где k – длина шага, Hk – матрица поворота (n m).
Как выбрать матрицу Hk?				желаемое направление
Если взять квадратичную функцию				(надо "довернуть"
Если взять квадратичную функцию				направление спуска)
1				направление спуска)
1		*	1
(x)		( Ax, x) (b, x), (x) Ax b, x	A b ,
(x)	2	( Ax, x) (b, x), (x) Ax b, x	A b ,

то хочется сразу попасть в экстремальную точку:

xk 1 xk (xk A 1b) xk A 1(Axk b) xk A 1 (xk ) xk 1 xk A 1 (xk )

в качестве "матрицы доворота" надо брать k Hk A 1 .

В общем случае: пусть – дважды дифференцируема в Rn, разложим (x) в ряд Тейлора в точке :

( ) = ( ) + ( ′( ), − ) + 12 ( ″( )( − ), ( − )) + (‖ − ‖2)

Иначе формулу можно представить в виде:

(x)

x 2

‖2

, где

(x)

– квадратичная функция.

Пренебрегаем( ) =

min ̅( )

x+ (‖ −и ищем)

xk 1

arg min

(x)

(xk )

xk )

0 ;

(x)

(xk )(x

Пусть (xk) – положительно определена для xk Rn существует [ (xk)-1]. Решая это уравнение, получим:

xk 1 xk [ (xk )] 1 grad (xk ) – это и есть метод Ньютона.

Квадратичная функция с положительно определенной сильно выпукла, тогда уравнение определяет единственную точку глобального минимума (x) .

Далее рассмотрим пример использования метода Ньютона для решения задачи

минимизации функции.
Пример.	( ) = 13 + 23 − 6 1 2 → min, 2
′	( ) = 13 + 23 − 6 1 2 → min, 2
′	( ) = (	3 12 − 6 2			) ;	( ) = (	6 1	−6
	( ) = (		2	-1	) ;	( ) = (	с	2)
Область существования		( (x))				совпадает	с	областью положительной
Область существования		2		1		совпадает	−6	6
		3		− 6

определенности матрицы (x), которую мы будем искать с помощью критерия Сильвестра.

Критерий Сильвестра.

Симметрическая матрица A положительно определена если все её главные миноры положительны. При этом главным минором матрицы A называется определитель матрицы, построенной из элементов матрицы A, стоящих на пересечении строк и столбцов с одинаковыми номерами.

			{	1 > 0	{	1 > 0 .
Возьмем x	0	3		36 1 2 − 36 > 0		1 2 > 1
Возьмем x		2
		2

		15		; H (x0 ) 6				3	1
(x0 )				; H (x0 ) 6				1	2
		6						1	2
	H 1(x0 )				1	2	1
					1
					30		3
					30	1	3
1	3		1	2	1 15				2, 2
x									2,1
x			30
	2		30	1	3 6

		1,92		; H (x1)				2, 2		1	; H 1(x1)			1		2,1	1
(x1)							6							1
(x1)			0,03				6		1					21,72		1	2, 2
			0,03						1	2,1				21,72		1	2, 2
x	2		2, 2		1	2,1			1	1,92			2,04
							1		2, 2			...			,	и.т.д.
					21,72							...			,	и.т.д.
			2,1		21,72					0,03			2,01
Можно показать, что сходимость при x0									3
Можно показать, что сходимость при x0										будет хуже.
									1

Достоинства метода Ньютона:

1.Для квадратичной функции сходится за один шаг (метод Ньютона можно рассмотреть, как градиентный метод с преобразованием координат [умножение на H-1] таким, что исчезает "овраг", т.е. линии уровня становятся окружностями).

2.Высокая скорость сходимости. Можно показать, что

Порядок сходимости:

lim

xk x* constq2k , 0 q 1.

ln	xk 1 x*		const 2k 1 ln q
ln	xk 1 x*	lim	const 2k 1 ln q	2

ln	x x*		const 2k ln q
ln	x x*	k	const 2k ln q
	k

важен выбор q в алгоритме. Если q = 10-1, то за один шаг точность результата увеличивается на 2 разряда, а при линейной сходимости – на один разряд.

Недостатки метода Ньютона:

1.Локальная сходимость (матрица Гессе должна быть невырожденной). Начальное приближение надо выбирать в окрестности точки локального минимума.

2.Большие вычислительные затраты:

вычисление матрицы ;

необходимость обращать её.

Общие рекомендации: сначала применять градиентный метод, затем – метод Ньютона. Например, существует так называемый метод Марквардта-Левенберга:

+1 = − ( ″( ) + )−1 ′( ), > 0.

При больших k (вдали от x*) матрица ″( ) + ~ , при → ∞ и это фактически градиентный метод.

При малых k (вблизи от x*) это метод Ньютона. Имеет место:

Теорема (о сходимости метода Ньютона). Пусть

1)– сильно выпукла на Rn с параметром æ.

2)c2,2, т.е. ″ – дважды дифференцируема и удовлетворяет условию Липшица:

L 0 : u, Rn (u) ( ) L u ;

3) Начальное приближение x0 удовлетворяет условию

‖ ′( 0)‖ ≤ 8æ2,

т.е. (x0 ) 8æL2 q , где 0 < q < 1.

Тогда последовательность

[ (x

)] 1 (x )

сходится к точке минимума x*

k 1

квадратичной скоростью:

4æ

x x

, x

arg min (x) (квадратичная сходимость)

1. Несколько слов о норме матрицы:

Определение. Норму (n n)-матрицы определим следующим образом:

max

x 0

Тогда

2 max

xT AT Ax

x 0

xT x

Поскольку ATA есть симметричная (n n)-матрица, то существует ортогональная матрица

T (T T T 1) такая, что T T (AT A)T – диагональная матрица diag( ,..., )

, где 2

– наибольшее собственное значение матрицы ATA.

A 1

, 2

– наименьшее собственное значение матрицы ATA.

Для такой нормы выполняются все три условия

1) A 0 , если A – ненулевая (покомпонентно);

2) A B A B ;

3) A A , где – скаляр.

Кроме того, из определения нормы матрицы следует, что

Ax A x .

Имеем также

AB A B .

2. Отметим ещё раз, что для сходимости метода Ньютона начальная точка x0 должна выбираться достаточной близкой к искомой точке x*. Это требование в теореме выражено условием 3). Действительно, сильная выпуклость означает:

8æ2

4æ

2æ

( (x

) (x ), x

x )

;

q ;

чем меньше q, тем ближе надо выбирать точку x0 к x* и тем быстрее сходимость.

Достоинства и недостатки градиентных методов и метода Ньютона

Метод	Достоинства		Недостатки

Градиентный	1. Глобальная сходимость, т.е.	1.	Медленная сходимость (геометрическая
метод	слабые требования на начальные	скорость сходимости, порядок сходимости
	приближения точки х0 и к f (x);	d =1);
	2. Относительная простота	2.	Необходимость вычисления длины шага.
	вычислений

Метод	1. Быстрая сходимость.	1.	Локальная сходимость (начальная точка
Метод	1. Быстрая сходимость.	1.	Локальная сходимость (начальная точка
Ньютона		должна быть близка к х*);
		2.	Большой объем вычислений (на любом
		шаге требуется вычислять матрицу вторых
		производных и обращать её).
		3.	Жесткие требования на саму функцию
		(непрерывная вторая производная).

Порядок применения методов

1)На 1-м этапе – методы 1-ого порядка, т.к. они обеспечивают глобальную сходимость.

2)На 2-м этапе (когда приращения невелики) – выгодно применять методы 2-ого порядка.

Перечисленные методы (градиентные и Ньютона) являются классическими.

Можно предложить методы более высокого порядка, тогда естественно ожидать, что порядок сходимости будет равен p.

Как уже отмечалось, к недостаткам метода Ньютона относится:

локальная сходимость;

большой объем вычислений;

жесткие требования на гладкость функции.

В силу названных причин применение классического метода Ньютона не всегда приводит к успеху.

Многочисленные модификации направлены на то, чтобы, сохраняя основное достоинство метода Ньютона – быструю сходимость, уменьшить трудоемкость и ослабить требования на выбор начального приближения.

Метод Ньютона с регулировкой шага

Рассмотрим метод

+1 = + , > 0, = − ( ″( ))−1 ′( ),

это метод Ньютона с регулировкой шага.

При k 1 мы получили классический метод Ньютона.

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Соседние файлы в папке 1

#
10.06.202623.35 Кб0лб1 чет.xlsx
#
10.06.2026202.7 Кб0лр1.docx
#
10.06.202652.22 Кб0Методические указания к л.р.1.v1..doc
#
10.06.202629.39 Кб0Методы Минимизации Дополненный Конспект.pdf
#
10.06.20262.06 Mб0Минимизация функций.pdf