Добавил:

chloviekowie Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Методы оптимизации

Файл:

Минимизация функций

.pdf

Скачиваний:

Добавлен:

10.06.2026

Размер:

2.06 Mб

Скачать

☆

<<< < Предыдущая 12 / 42 3 4 > Следующая >>>

Доказательство:

1.Пусть x1, x2 X *, [0,1] (x1) (x2 ) (x*) *

При этом

( x1 (1 )x2 ) (x1) (1 ) (x2 ) * (*)

По определению X* неравенство может выполняться только как равенство,

поскольку * min

x (1 )x2 X * , т.е. X* – выпукло.

2.Пусть – строго выпукла. Если предположить, что в X* существуют две различные точки x1 и x2, то при [0,1] неравенство (*) должно быть строгим, что невозможно, т.к. *– min и получается < min.

Трудности:

1.В случаях, когда функция достаточно проста, теоремы 1-3 помогают решить задачу минимизации даже в явном виде. Однако зачастую задача поиска стационарных точек является нетривиальной. А затем – перебор стационарных точек в поисках точки локального минимума, затем – перебор локальных экстремумов в поисках глобального экстремума.

2.Для задач условной минимизации теоремы 1-3 применимы в случае, когда локальное решение x* – внутренняя точка допустимого множества X. Если же экстремум достигается в угловых точках границы множества условий, то нарушается дифференцируемость неприменимость методов классического анализа.

Т.о., в большинстве случаев задачу min (x) приходится решать численно с применением ЭВМ и специальных методов минимизации.

Безусловная минимизация функции

Методы оптимизации функций в Rn делятся на:

локальные методы (поиск локального min, т.е. такой точки x*, что существует > 0,

x X : x x* (x* ) (x) );

нелокальные (или прямые) методы (поиск глобального min для ограничений снизу функции (x), т.е. если * – нижняя грань, то поиск такой точки x*: (x*) = *). Для этих методов не требуется аналитического задания функции, надо только уметь

вычислять ее значение в любой точке. Обычно – для функций сложной структуры. Нелокальные методы сводятся к уменьшению области, внутри которой находится

оптимальная точка. Пример нелокального метода – симплексный метод.

Определение. Симплекс – выпуклое тело в Rn, состоящее из (n + 1) равноудаленных точек

– вершин симплекса, отрезок их соединяющий – ребро симплекса, в R2 – треугольник, в R3 – тетраэдр.

Неформальное описание симплексного метода: состоит из двух процедур – отражение и сжатие.

– отражение: симметричное отражение вершины с наибольшим значением (x) относительно противоположной грани ["перекатывание симплекса"]. Если (xi ) (xi ) , то выбирается другая (i + 1)-я

вершина.

Когда зацикливание (все (n + 1)-вершины перебрали), то

– сжатие: уменьшение размеров симплекса при сохранении вершины с наименьшим значением (x), затем переход к отражению, и так далее, пока ребро симплекса не станет меньше некоторого числа: xi x j .

Достоинства: с большой вероятностью метод не распознает локальный минимум ("не остановится").

Локальные методы основаны на построении релаксационной последовательности {xi}

такой, что (x ) (x		) и x x* arg min (x) .
i	i 1	i	i

Поэтому релаксационные методы называют также методами спуска.

Классификация релаксационных методов

Содной стороны,

одношаговые методы: xi 1(xi ) – каждый шаг (i + 1) зависит только от предыдущей точки xi и значения функции (xi);

двухшаговые методы: xi 1(xi , xi 1) – зависимость от двух предыдущих точек;

и т.д.;

Сдругой стороны,

методы нулевого порядка: если используются только значения минимизируемой функции (x);

методы первого порядка: если используются только значение (x) и ′(x);

методы второго порядка: если используются значения (x), ′(x) и ″(x);

etc;

Градиентные методы (методы первого порядка)

Итак, будем рассматривать задачу:

(x) min, x X Rn (безусловная минимизация),

предполагая, что функция (x) непрерывно дифференцируема на Rn, т.е. (x) C1(Rn).

По определению дифференцируемой функции
(x h) (x) (x), h o(h) ,	(1)

где lim o(h) h 1 0 .

h 0

Если (x) 0 , то при достаточно малых

главная часть приращения для

будет

определяться дифференциалом функции d (x) ( (x)h) . Оценим величину

d (x)

Справедливо неравенство Коши-Буняковского:

(x)

(x), h

(x)

причем, если ′(x) 0, то правое неравенство превращается в равенство, только при h = ′(x), а левое только при h = ′(x), где = const 0.

Отсюда ясно, что при (x) 0 направление наибыстрейшего возрастания функции

(x) в точке x совпадает с направлением градиента (x), а направление наибыстрейшего убывания – с направлением антиградиента – (x).

Это свойство градиента лежит в основе ряда итерационных методов минимизации функций. Один из таких – градиентный. Он предполагает, как, впрочем, и все остальные итерационные методы, наличие априорной точки начального приближения.

Предположим, что начальная точка x0	уже выбрана, тогда градиентный метод
заключается в построении последовательности {xk} по правилу:
xk 1 xk k (xk ), k	0, k 0,1,...	(2)

k – величина шага, xk – направление спуска.

Если (xk ) 0 , то шаг k 0 можно выбрать так, чтобы получить релаксационную последовательность: (xk 1) (xk ) . Действительно, подставляя (2) в (1), имеем:

) (x )

(x )

(

)

0 ,

k 1

при всех достаточно малых k > 0.

Если (xk ) 0 , то xk – стационарная точка. В этом случае процесс (2) прекращается и проводятся дополнительные исследования поведения функции в окрестности точки xk для выяснения того, достигается ли в точке xk минимум функции (x) или не достигается.

Существуют различные способы выбора величины шага k в методе (2). В зависимости от способа выбора k можно получить различные варианты градиентного метода.

Метод наискорейшего спуска

На луче x Rn : x xk (xk ), 0 , направленном по антиградиенту, введем

функцию одной переменной

( ) xk (xk ) , 0

и определим k из условий

k arg min xk (xk ) .

Другими словами k выбирается так, чтобы (xk+1) в заданном направлении была наименьшей для чего на любом шаге необходимо решать задачу одномерной минимизации функции ( ), например, с помощью ( ) 0 .

Пример. Рассмотрим задачу

(x) x12 2x22 min

с начальной точкой x0 , (x0 ) 6 .

Из общих соображений ясно, что min = 0 при x* 0

1-й шаг:
2x1			0		4
(x)	4x	; (x		)	4
	2

Ищем
	2	4	2 4
x1 x0 (x0 )
	1	4	1 4

Функция ( ) имеет следующий вид:

( ) (x1) (2 4 )2 2(1 4 )2

Решаем уравнение ( ) 0 , т.е.

2(2 4 ) ( 4) 4(1 4 ) ( 4) 0 ;

				2	4	2
	1
					3	3
4 8 4 16 0; 24 8		;	x1					.
	3
				1	4		1

					3		3

2-й шаг:

														4																												2														4

						1								3							2						1									1						3														3			;
								(x )							4		; x						x						(x )															1															;
															4																													1													4

															3																													3
															3																													3													3
																(x			2								2			4					2									1						4			2
										( )										)																	2															.
										( )										)							3			3							2							3						3		.
																											3			3														3						3
Решаем уравнение ( ) 0
										2			4											4							4							1			4
										2																		4																						0 ;
										2																		4											3											0 ;
										3 3														3							3								3		3
																																																										2 4							2
			4	8				16			4												24									8													1
																																																; x2										3 9							9
												0;																						;																																.
											3	0;											3								3			;										3																						.
			3 3			3					3												3								3													3														1		4					1

																																																										3		9
																																																										3		9					9
3-й шаг:
																4																															2							4

										(x2 )						9															(x2 )															9									9
										(x2 )						9		; x3 x2													(x2 )															9									9
																4																														1									4


																9																											9										9
										( ) (x										3								2					4			2						1								4			2
																						)																		2
																						)						9					9							2		9								9
																												9					9									9								9
Решаем уравнение ( ) 0
											2			4											4									1			4												4
										2																				4																							0 ;
										2															9					4																			9				0 ;
											9 9														9									9 9															9
																																																	2						4						2
	4	8			4		16										8					24																	1	; x3											9				27							27

									0;																	;																																							, и.т.д.
									0;																	;												3																											, и.т.д.
9 9			9 9													9 9																						3													1				4									1

																																																							27
																																																	9						27								27

Представим решение задачи графически:

Из графического представления можно сделать вывод, что имеет место:

а) сходимость к истинной точке минимума		0
	x*	0

б) взаимная перпендикулярность градиентов

Свойства метода наискорейшего спуска

1.На любом шаге направление спуска меняется на ортогональное. Действительно, k ищется из условия ( ) 0

xk (xk )

xk k (xk ) , (xk ) (xk 1), (xk ) 0

Точка xk+1

лежит на луче, исходящем из точки xk

и касательным к поверхности

уровня

L (xk+1).

Действительно, с

одной

стороны, несомненно, что

xk 1 L x : (x) (xk 1) .

С другой стороны, градиент (xk+1) ортогонален

касательной к поверхности уровня L (xk+1), поэтому по свойству 1 направление

спуска касательно к поверхности L (xk+1).

Иначе. (xk+1) ортогонален направлению спуска

луч, проходящий из точки xk –

касательной к поверхности L x : (x) (xk 1) .

Проблемы (общие для релаксационных методов).

а)

Имеет ли последовательность {xk} предел в смысле сходимости по норме:

существует xˆ ? : lim

xk xˆ

0 ?

аргументом, составляющим минимум функции

б)

Является

ли этот

предел

xˆ arg min x* ?

в)

Какова скорость сходимости

x x*

или (xk) – (x*)?

г)

Каковы вычислительные затраты.

Исследование метода наискорейшего спуска для квадратичной функции

Рассмотрим квадратичную функцию

(x) 12 ( Ax, x) (b, x) ,

где A – симметричная, положительно определенная матрица.

Можно показать, что A – симметричная положительно определенная матрица – строго выпукла.

(x) Ax b , т.е. x* A 1 b – стационарная точка.

Попробуем записать метод наискорейшего спуска для квадратичной функции. Итак,

( ) xk xk ) , 0

( ) xk ( Axk b) (xk ) Axk b, Axk b 22 A( Axk b), Axk b

(w)

)

Axk b

A( Axk b), Axk b 0 k

0 ,

A( Ax

b), Ax b

т.к. A – положительно определена, и значит для нее справедливо: (Ah, h) > 0 h Rn 0.

Для определения скорости сходимости оценим отношение

) (x* )

(x ) (x* )

Имеем:

Ax b

(x )

(x k 1) ( k ) (xk )

(xk )

A( Ax

b), Ax b

2 A(Ax b),

Ax b

(x ), (x )

Сдругой стороны,

(xk ) (x* ) 12 ( Axk , xk ) 12 ( Ax*, x* ) (b, xk x*) 12 Axk b, xk A 1b 12 A 1 (xk ), (xk )

Для простоты дальнейших изложений предположим, что матрица A приведена к диагональному виду (т.е. выполнено преобразование координат) так, что A diag( 1,..., n ) , где i – собственные числа матрицы A.

Собственные числа симметричной положительно определенной матрицы всегда положительны.

Для симметричной матрицы существует ортогональная матрица (TT = T-1) T такая, что TTAT – диагональная матрица diag( 1,..., n ) .

Если l min i , L max i , то

A (x), (x) L (x) 2

A 1 (x), (x) 1l (x) 2 ,

Тогда

(xk 1) (x* )

(xk )

L l

(xk ) (x* )

A (xk ), (x

k ) A 1

(xk ), (xk )

def

L l

Если ввести обозначение q

, то

(xk ) (x* ) const qk

Это называется геометрической скоростью сходимости (сходимость геометрической прогрессии).

Рассмотрим величину

def

Верхний предел

ln k 1

называется порядком сходимости метода.

lim

ln k

В нашем случае квадратичной функции

const qk (xk ) (x* )

( Axk

b, xk x* )

A(xk

x* ), xk x*

xk x*

2 .

Поэтому

const q

k 1

ln q ln

lim

ln k

получили сходимость с порядком 1 или линейную сходимость. Бывает порядок больше

1 – сверхлинейная сходимость.

При исследовании метода наискорейшего спуска для квадратичной функции получили, в частности, следующие результаты:

а)

(x ) (x*) const qk , q 1

def

ln k 1

б)

x x

, lim

ln k

Определение.

Пусть (xk) (x*) при k ∞.

Последовательность (xk)

сходится к (x*) линейно (с линейной скоростью, со скоростью

геометрической прогрессии), если существуют такие константы q (0,1) и k0, что

) (x* )

(x ) (x*)

, при k k0.

k 1

Последовательность (xk) сходится к (x*) сверхлинейно, если

(xk 1) (x* ) qk 1 (xk ) (x* ) , qk 0 , при k .

Последовательность (xk) сходится к (x*) с квадратичной скоростью, если существуют такие константы c 0 и k0, что

(xk 1) (x* ) c (xk ) (x*) 2 , при k k0.

Вообще, порядок сходимости, равный 1, означает, что значение величины k убывает, в основном, по закону геометрической прогрессии. Порядок сходимости, равный 2 (квадратичная сходимость) означает, что при достаточно больших k k+1 ~ k2. В этом случае, если к тому же k – малая величина, например, a 10 p при 0.1 a 1, то k+1

равно a2 10 2 p , т.е. фактически удваивается число нулей после запятой.

Частные случаи:

1)Пусть l = L, т.е. матрица A = LI = lI – пропорциональна единичной окружности (линии уровня – окружности).

Тогда:

lxk b

(lx b)

k 1

lxk b

f (xk+1) = f (x*) метод сходится за один шаг.

2)l L: сходимость может быть еле заметной (q ~ 1), а графически это означает, что линии уровня функции сильно вытянуты и функция имеет так называемый "овражный" характер. Это означает, что небольшое изменение некоторых переменных приводит к резкому изменению значений функции – эта группа переменных

характеризует "склон оврага", а по остальным переменным, задающим направление "дна оврага", функция меняется незначительно.

def		L
Число cond	max		называется числом обусловленности матрицы cond 1.
Число cond		l	называется числом обусловленности матрицы cond 1.
		l
	min

Матрица называется хорошо обусловленной, если cond ~ 1 и наоборот.

Вообще, число обусловленности геометрически можно трактовать как меру искажения отображения матрицей A единичной сферы. Действительно, cond(A) есть отношение наибольшего к наименьшим расстояниям между точками на единичной сфере после её отображения матрицей A. Чем больше cond(A), тем больше искажение единичной сферы при её преобразовании в эллиптическую форму – пусть A = diag(10,1).

Вывод: Метод наискорейшего спуска быстро сходится для хорошо обусловленных матриц и наоборот.

Почему так много внимания уделяли квадратичной функции?

В окрестности locmin любую функцию можно приблизить квадратичной, и всё сказанное выше про матрицу A будет справедливым для матрицы Гесса H(x*), которая

заменяет A в рассмотренном выше примере.

Геометрически: Линии уровня становятся замкнутыми и по мере приближения к x* всё более напоминают эллипс.

Общий случай.

Определение 1. Функция на множестве X Rn удовлетворяет условию Липшица, если существует L 0 : u, X (u) ( ) L u . Если градиент функции существует,