и обращения в нуль. Такое разделение представляется
весьма естественным с точки зрения рассматриваемых в
данной главе методов оптимизации второго порядка, ис пользующих в своей схеме информацию о вторых про изводных от минимизпруемого функционала.
Таким образом, в данной книге явление овражности
тра·ктуется 1ка1к один из аспектов трудностей, связанных с явление-"~ жесткости в системах обыкновенных диффе ренциальных уравнений. При этом установление алгеб раичесrшх связей между фазовыми переменными жест кой системы и сравните.rrьно вя.rrое протекание процесса
вне пограничного слоя моделирует спуск на дно оврага
Q с 1последующим ·.\ЩJ:Ленным прод·вижение.\-1 вдоль об
разующей дна.
Многие свойства рассматриваемых а.rrгорптмов да:rее
будут иллюстрироваться на примере
строго
квадратпч
ных
функционалов. Во-первых, квадратичные
функцио
налы
являются в некотором смысле
простейшими,
и
вполне естественно начинать анализ эффективности ал
ГО1J.итма с простых случаев. Во-1вторых, более слож•ные
функционалы с помощью разложения в ряд Тейлора и
пренебрежения членам.и выше второго порядка могут
быть лока.тrьно аппроксимированы квадратичными функ
ционалами. В результате исходная задача минимиза
ции сводится к последовательности аналогичных задач
§ 4.1. Оптимизация и жесткость
141
для аппроксимирующих квадратичных функциона.1ов.
Именно этот подход лежит в основе работы ньютонов
ских и квазиньютоновских алгоритмов. В-третьих, ква дратичные функционалы сами по себе достаточно часто встречаются в приложениях и, как ниже будет показано,
их минимизация с вычислительной точки зрения подчас
далеко не тривиальна.
В заключение параграфа отметим, что существует
еще один аспект трудностей при решении прикла.:~.ных
оптимизационных задач также связанный с пробле:v~ой жесткости. Дело в том, что структура минимизируемого
функционала часто оказывается довольно сложной, и необходимые аналитические зависимости отсутствуют.
Обычно функционал задан алгоритмически, т. е. по
заданному аргументу мы можем получить значение
функционала в результате работы одного или несколь ·ких алгорит:v~ов, олределяе.мых ~Конкретной задачей.
При решении задач с так называемыми дифференци
а.11ьными ограничениями в качестве таких промежуто 11-
ных алгоритмов выступают методы решения систем
обыкновенных дифференциальных уравнений, описываю щих изменение фазовых переменных изучаемого явле ния или процесса. Ес.11и эти системы оказываются жест
кими, то уже однократное вычисление значения функ
ционала превращается в проблему. В процессе же опти мизаци1и прихо·дится много~ратно повторять по.:~.обные вычисления для разных «про-бных» значений аргу~rен тов функционала J(x), 1вхо.:~.ящих в ~правую часть 11л1 в
начальные условия решаемых жестких систем уравне
ний.
В результате наличия такой ситуации, когда сам функционал имеет овражную структуру и алгорпп-1 вы числения его значений связан с необходимостью 1штс1·
рирования жестких систем, мы приходим к задаче, тре
бующей для своего решения традиционными мето.:~.ами
недопустимо больших вычислительных затрат.
Если учесть, что описанные выше ситуацпп встреча
ются в приложениях гораздо чаще, чем нам бы этого
хотелось, то становится ясной актуальность разработки
новых методов Исс.11едования, позволяющих строить эф
фективные вычис.штельные процедуры на основе уче та особенностей рассматриваемых задач.
142
Гл. 4. Опти.низацttя
Как с.11едует из вышеизложенного, жесткне процессы
яв.1яются процессами со спецпфическнмн свойствами, и д:1я ах псс.11едования необходим 1шдивидуальный под
ход, позволяющий вскрыть и использовать эту специ
фику.
.J"на.1ог11чная картина наблюдается в опп1мпзацио11-
ных за.J.ачах овражного типа.
Впоследующих параграфах из.11агаются некоторые
алгор:пмы оптимизации, построенные с учетом специ
ф11к11 оптимизационных задач в виде многомерной ов
ражностп в ус.11овиях как выпуклого, так 11 невыпуклого
характера миш1мизируемого функционала.
§ 4.2. Анализ некоторых известных
методов
В данном параграфе мы рассмотрнм некото
рые нзвестные алгоритмы оптимизации с точки зрения
11х работоспособности в овражной с11туацип и выясним
11х основные недостатки. Это поможет в дальнейшем по стро1:ть алгоритмы, совмещающие в себе достоинства
некоторых из приведенных здесь методов 11 позволяю
алгоритмом (7), сходится к точке минимума х* функци она~а (8) по закону геометрической прогрессии [20]
11 x,t -х*!1 :::;;; С q11.,
где
С= const
1 - 1/k (D)
q= -----'--'-
,
l+l!k(D)
,].1я овражного функцпонала k(D) ~ 1, и поэтому qc:::=. 1. В результате для подавляющего боJ1ьшинства на ча.1ы1ых точек сходимость оказывается очень медленной.
Напболее отчетливо данный факт прос.1Jеживается на
просто~~ nарианте градиентного метода с постоянным
шагоч:
(9)
.lеп\о видеть, что метод (9) по сути есть метод .'10-
маных Эйлера (l .4), примененный к уравнению напско
реiiшего спуска
~; = - J' (х)= -Dx+b
(10)
д.'1Я функцнонала J(x).
§ 4.2. Анализ некоторь1х известных .методов
145
Представим решение уравнения (10) в виде
x(t) =x*+exp(-Dt) (хо-х*),
где Хо - начальная точка, х. - точка минимума функ
щюна.1а (8). Отсюда
11х(t)-x*11 ~ ехр (-Лт t) 11Х0-х*11,
(11)
где 1.т -
минимальное собственное число матрицы D,
\ly\\ - сферическая норма вектора у.
Таю1м
образом, для уменьшения нормы
вектора
ошибки y(t) =x(t)-x.в е раз необходимо пройти про
межуток Т по параметру t, равный
Т=-1. (12)
Лm
С.1е;~.овательно, общий промежуток интегрирования, задавае:\IЫЙ требуемой точностью решения, весьма ве
лик 11 определяется малыми спектральными составляю
щюш :-.1атр'Ицы D.
В то же время величина допустимого шага интегрп
рова·н;1я /i мала и согласно ( 1.57) ограничена с•верху ве
лнч1шо~"! 2//..1, где /..1 - максимальное собственное число ~атрнцы D. В данном случае это приводит к :-.1едленному У'-Iеньшению mo нор'.1е вектора y(t) за счет сла·бого