Метод бфгш с ограниченной памятью Классический метод бфгш и его проблемы

Рассмотрим классический метод БФГШ.

Алгоритм 1: Алгоритм БФГШ

П роблема метода БФГШ хорошо иллюстрируется следующей задачей. Допустим, мы обучаем нейросеть с 2¹⁶ = 65536 параметрами и хотим использовать именно метод БФГШ без каких-либо модификаций. Это небольшая сеть, для сравнения, нейросеть для клас- сификации образов VGG-19 содержит 144 миллиона параметров. Вычислим необходимый объем памяти для матрицы H_k c представлением данных типа double (8 байт):

N = (2¹⁶)² · 8 = 32Гб.

Оптимизация на персональном компьютере уже затруднительна, хотя сеть небольшая. Аналогичные проблемы начнут возникать и на мощных серверах при увеличении размера задачи. Можно ли как-то уменьшить необходимый для метода объем памяти?

Н а рисунке 1 показана схема нахождения матрицы БФГШ.

Из схемы видно, что огромные объемы памяти, необходимые для метода, возникают в основном из-за операций с векторами, в которых содержится гораздо меньше информации, чем могло бы содержаться в полноценных матрицах. Также в расчетах содержится матрица H_k, которая хранит в себе всю историю предыдущих операций, но на текущем шаге имеют значение только наиболее недавние значения квазиньютоновской матрицы. Таким образом, если убрать матрицу H_k из расчетов, заменив матричное умножение на последовательность векторных операций, а также использовать ограниченную историю за последние m шагов, можно значительно сэкономить память без ущерба для качества оптимизации.

Алгоритм экономии памяти для метода l-bfgs

Для заданного k выведем рекуррентные формулы, используя сохраненные в памяти m

предыдущих значений y_n, d_n, γ_n, n = [k − m..k − 1].

С их помощью вычислим приблежение очередного шага z_k ≈ H_k∇f (x_k).

Тогда новая точка будет находиться по формуле x_k₊₁ = x_k + α_kz_k.

Приведем рекуррентный алгоритм вычисления вектора z_k = −H_kq_k.

Алгоритм 2: Алгоритм расчета z_k в методе L-BFGS Пусть хранится m предыдущих значений векторов d_k, y_k и скаляров γ_k. Вычислим

Используя в методе БФГШ расчет очередного вектора направления z_k с помощью алго- ритма 2, получим алгоритм, называющийся L-BFGS (Л-БФГШ), где L обозначает (англ.) limited memory – ограниченную память. Последовательность операций при вычислении вектора z_k в виде схемы представлена на рисунке 2.

В расчете нового направления теперь не используется ни одной матрицы.

Алгоритм l-bfgs

Алгоритм 3: Алгоритм L-BFGS

Сравним затраты на поиск z_k в классическом БФГШ и методе с ограниченной памятью.

Для метода L-BFGS:

1. Требуется O(nm) умножений и сложений.

2. Требуется памяти: O(nm), где m << n, в отличие от матрицы H_k, для которой тре- буется памяти O(n²).

Рассмотрим пример работы метода L-BFGS на функции Розенброка. Начальная точка x₀ = (−1, −1)^T, точность ε = 10^—5, длина массива памяти m = 1. Траектория оптимизации показана на рисунке 3.

Видно, что при слишком маленьком объеме памяти метод не очень эффективен. Уве- личим длину массива памяти до размера m = 3. Траектория оптимизации показана на рисунке 4.

Метод L-BFGS справился с задачей на уровне исходного метода BFGS.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 / 1916 17 18 19 > Следующая >>>

Соседние файлы в предмете Методы оптимизации

#
24.01.20266.17 Mб0непрмо_коды программ.docx
#
24.01.20266.31 Mб0непрмо_подготовка к экзую.docx
#
24.01.202622.95 Mб0НМО экзамен (2).docx
#
24.01.2026371.29 Кб0теория_непрмо.docx