
- •Основные понятия.
- •Соответствие методов и множеств.
- •Общая схема безусловной оптимизации
- •Методы первого порядка (градиентные методы)
- •Градиентный метод с постоянным шагом
- •Выпуклые функции и множества
- •Cвойства выпуклых функций
- •2.Теорема:
- •4.Теорема:
- •5.Теорема:
- •Градиентные методы (продолжение)
- •2. Градиентный метод с дроблением шага.
- •3.Метод наискорейшего спуска.
- •4.Масштабирование.
- •1.2 Метод Ньютона.
- •Сравнительная таблица достоинств и недостатков градиентного метода и метода Ньютона:
- •Число обусловленности локального min.
- •1.3. Многошаговые ( двухшаговые ) методы.
- •1.4.Квазиньютоновские методы
- •1. Методы апроксимации
- •2. Метод покоординатного спуска
- •3.Метод симплексов (Нелдера- Нида)
- •4 .Метод Пауэлла (сопряженных направлений)
Сравнительная таблица достоинств и недостатков градиентного метода и метода Ньютона:
Метод |
Достоинства |
Недостатки |
градиентный метод |
1. Глобальная сходимость, т.е. слабые требования на исходные данные, точка х0 может быть далека от х*. 2. Слабые требования к f(x), только f’(x) нужна 3. Относительная простота вычислений |
1. Медленная скорость сходимости (геометрическая сходимость, скорость сходимости d = 1). |
метод Ньютона |
1. Быстрая сходимость (квадратичная) |
|
Полезен метод ньютона в случае квадратичной функции (сходится за один шаг).
Число обусловленности локального min.
Пусть
- поверхности уровней f(x).
Рассмотрим следующую величину
Очевидно, что у окружности r=1, а у эллипса r>1 (увеличивается с увеличением растянутости).
Определение:
Числом
обусловленности точки локального min
называется
Оно число дает основание для выбора метода.
Определение:
Говорят, что точка локального min плохо обусловлена, если число обусловленности велико, и хорошо обусловлена если оно близко к 1.
Пример.
Пусть f(x) = 1/2 (Ax, x). А - диагональная матрица. Тогда число обусловленности есть отношение max диагонального элемента к min диагональному элементу.
Порядок применения методов.
На первом этапе- методы первого порядка, так как они обеспечивают глобальную сходимость (градиентные методы).
На
втором этапе (мало)- методы второго порядка (Ньютона).
Перечисленные методы являются классическими, они редко применяются в чистом виде, но служат базой для других методов. Смысл модификации метода в том, чтобы использовать достоинства обоих методов обходя недостатки.
Существует метод Марквердта- Левенберга
Если - градиентные методы
0- метод Ньютона
1.3. Многошаговые ( двухшаговые ) методы.
Метод тяжелого шарика:
Общий вид метода тяжелого шарика:
xk+1= xk - f(xk)+(xk-xk-1)
Это разностное уравнение, полученое из ДУ, которое описывает движение шарика, катящегося по некоторой поверхности с постоянным трением.
Введение инерции (xk-xk-1) увеличивает скорость сходимости.
Теорема(о скорости сходимости метода тяжелого шарика):
Пусть 0 l I 2f(x) L I (сильная выпуклость)
0 1, 0 (1-)/L,
тогда
существует с=const такая, что || xk
- x* ||
cqk
,
Без доказательства
Таким образом, метод сходится не быстрее геометрической прогрессии, как и градиентный метод; показатель геометрической прогрессии тот же, только с корнями, но применение двухшагового метода при плохой обусловленности позволяет уменьшить эту обусловленность.
Модификаций двухшагового метода- метод сопряженных градиентов.
Метод сопряженных градиентов
xk+1 = xk - k f(xk) + k (xk-xk-1)
Отличается тем, чтоk и k зависят от шага и выбираются следующим образом:
(k , k) = argmin f(xk - kf(xk)+k(xk-xk-1))
{,}
Для
квадратичной функции
Метод сходится за конечное число шагов, не превосходящее размерности пространства состояний.
Градиенты в методе попарно ортогональны (f(xi), f(xk))=0, ik
Но в Rn не может существовать более n ортогональных ненулевых векторов , поэтому для некоторого k n будет f(xk)=0, то есть точка xk- точка минимума.
Последовательные направления движения pk=xk-xk-1 удовлетворяют соотношению (Api, pj ) =0 ij
Определение:
Векторы pi , связанные соотношением (Api, pj ) =0, называются сопряженными или А- ортогональными.
В методе сопряженных градиентов xk является точкой минимума квадратичной функции f(x) на подпространстве, порожденном первыми k градиентами. Следовательно никакой метод, использующий только градиенты функции (точнее, в котором шаг делается по линейной комбинации предыдущих градиентов), не может сходиться быстрее, то есть метод сопряженных градиентов является оптимальным по скорости сходимости в классе методов первого порядка.
Модификация Полака-Ривьера
xk+1= xk+ kpk , где k = argmin f(xk+ kpk ), >0
pk= -f(xk)+kpk-1
0
= 0
Для квадратичной функции последовательность точек xi , определенная этими формулами, совпадает с последовательностью, полученной методом сопряженных градиентов.
Эту модификацию удобнее применять для произвольных (неквадратичных) функций.
Рекомендуется применять процедуру обновления, т.е. через каждые n-шагов происходит сдвиг в направлении антиградиента.
То есть 0 = 0, затем n=0...... mn=0, следовательно pk= -f(xk)+0*pk-1= -f(xk)
(сдвиг в направлении антиградиента)
По скорости сходимости n шагов метода сопряженного градиента эквивалентны одному шагу метода Ньютона (для квадратичной функции метод сходится за один шаг).