Добавил:

keirin Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Методы оптимизации

Файл:

НМО экзамен (2).docx

Скачиваний:

Добавлен:

24.01.2026

Размер:

22.95 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 1314 / 1914 15 16 17 18 19 > Следующая >>>

Условия вульфа

Пусть мы решаем задачу оптимизации

x^∗ = arg min f (x).

Решение ищем методом спуска вида

x_k₊₁ = x_k + α_kp_k,

где p_k – текущее направление поиска. Длину шага α_k можно найти методами точной оптимизации функции ϕ(α) = f (x_k + αp_k), но это долго.

Сделаем здесь небольшую ремарку о производной целевой функции. Напомним, что производная функции

ϕ(α) = f (x_k + αp_k)

по α равна:

ϕ’(α) = p^T∇f (x_k + αp_k).

Возвращаясь к поиску длины шага напомним, что длина шага α_k в методе спуска

xk+1 = xk + αk pk

должна давать:

1. «Достаточное уменьшение значения целевой функции ϕ(α),

2. «Достаточное уменьшение значения производной ϕ’(α).

Условия Вульфа служат для того, чтобы перевести неточное понятие «достаточности на язык математики.

Первое условие Вульфа, оно же правило Армихо (Armijo), гласит:

ϕ(α_k) ≤ ϕ(0) + c₁α_kϕ’(0).

Запишем по-другому:

Иллюстрация этого правила приведена на рисунке 1. Необходимо чтобы новая точка лежала ниже прямой проходящую через (0,ф(0)) и имеющая наклон c1ф’(0) пропорционально производной в нулевой точке.

Точка α₁ не удовлетворяет первому условию Вульфа, точка α₂ ему удовлетворяет. На основе правила Армихо сформулируем метод Армихо.

Алгоритм 1: Метод Армихо

Второе условие Вульфа, оно же правило кривизны, гласит:

Запишем по-другому:

Третье условие Вульфа, оно же сильное правило кривизны:

или

Первое и третье правила Вульфа дают сильные условия Вульфа, которые могут использоваться вместо условия Армихо, чтобы гарантировать сходимость к нулю производной ∇f (x_k).

Рисунок 2 иллюстрирует сильное правило кривизны. Необходимо чтобы производная ф’ была меньше по абсолютной величине в точке альфа 1 чем в исходной точке 0.

В точке α₁ производная ϕ’(α₁) меньше по абсолютной величине, чем ϕ’(0).

Значение констант полагаются следующими: 0 < c₁ < c₂ < 1. Возможные значения:

c₁ = 10^—4, c₂ = 0.9 для метода Ньютона или квазиньютоновских методов. Сформулируем алгоритм линейного поиска на основе условий Вульфа.

Алгоритм 2: Линейный поиск на основе условий Вульфа

Алгоритм 3: Функция zoom(α_lo, α_hi)

На основе информации о ϕ(0), ϕ(α₀), ϕ’(0), можем получить новое значение α₁ с помощью квадратичной интерполяции:

На основе информации о ϕ(α_i_—₁), ϕ’(α_i_—₁), ϕ(α_i), ϕ’(α_i) можем получить новое значение

α_i₊₁ с помощью кубической интерполяции

Надо добавить проверки, что если по каким-либо причинам знаменатели обратятся в нуль или подкоренное выражение станет отрицательным, то в качестве нового значения α нужно будет выбрать α₀ или α_i_—1. Кубическая лучше квадратичной так что используем ее.

Вопросы для самопроверки

1. Какой наиболее компактный код обеспечит проверку корректности нового значения

α в результате выполнения квадратичной или кубической интерполяции?

2. Как скажется в работе метода оптимизации замена сильного условия кривизны на слабое?

Методы сопряженных градиентов

Рассмотрим метод наискорейшего спуска:

где p_k = —∇f (x_k). направление антиградиента.

Рисунок 1 иллюстрирует поведение метода наискорейшего спуска.

Рис. 1 – Траектория метода наискорейшего спуска в (a) хорошем случае и (b) плохом случае

Метод наискорейшего спуска в удачном случае может найти минимум за одну итерацию, но если этого не произошло, он порождает зигзагообразную последовательность взаимно- перпендикулярных отрезков, которая медленно сходится.

Идея методов сопряженных градиентов заключается в том, чтобы использовать не толь- ко значение —∇f (x_k), но и прежнее направление спуска для порождения нового шага таким образом, чтобы число шагов в целом было не очень большим и метод сходился быстро.

Напомним некоторые соотношения. Допустим, мы минимизируем квадратичную функцию:

где A^T = A. Градиент функции f (x) равен

g(x) = Ax + b. (1)

Ее минимум достигается в точке x^∗, где

b + Ax^∗ = 0.

Введем понятие A-ортогональности. Векторы u и v называются A-ортогональными (сопряженными), если для положительно определенной матрицы A выполняется условие:

u^TAv = 0, u /= 0, v /= 0.

Р исунок 2 иллюстрирует понятие A-ортогональных векторов.

Рис. 2 – Векторы (a) ортогональные и (b) A-ортогональные

Рассмотрим некоторый алгоритм оптимизации, новая точка которого порождается формулой:

x_k₊₁ = x_k + α_kp_k. (2)

Пусть он использует направления шага, при которых векторы направлений будут A- ортогональны друг другу:

p^TAp_k₊₁ = 0.

Пусть вектор ошибки равен e_k = x_k — x^∗, тогда из (1) и (2):

g_k = b + Ax_k = b + Ax^∗ + Ae_k = Ae_k, e_k₊₁ = e_k + α_kp_k.

Найдем α_k для нашего метода следующим образом:

Этот метод, который будем называть методом сопряженных градиентов, на квадратич- ной задаче сойдется за число итераций, равное размерности пространства, как показано на рисунке 3.

Р ис. 3 – (a) Ошибка и первый шаг метода (b) метод сходится за n = 2 итерации

Остается вопрос, каким образом получать A-ортогональные направления на каждом новом шаге. Напомним алгоритм, который носит название ортогонализации Грама-Шмидта. Пусть есть n линейно-независимых векторов u_i, i = [1..n]. Найдем набор A-ортогональных векторов p_i: