Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методы оптимизации. Функции нескольких переменных.doc
Скачиваний:
295
Добавлен:
23.03.2016
Размер:
4.91 Mб
Скачать

3.7. Итерация поиска по методу Хука—Дживса в примере 3.3.

1) Методы Розенброка и Дэвиса, Свенна, Кемпи более подробно изложены в книге Химмельблау [69], переведенной на русский язык,— Прим. Перев

Вместе с тем вопрос о том, являются ли дополнительные усложнения метода Хука — Дживса оправданными, по-видимому, остается открытым. Если же существует возможность реализовать более сложный алгоритм, то предпочтение следует отдать методу Пауэлла, превосходство которого над рассмотренными выше эвристическими методами несомненно.

3.2.3. Метод сопряженных направлений Пауэлла

Наиболее эффективным из алгоритмов прямого поиска является метод, разработанный Пауэллом [15], в особенности его модифици­рованные варианты, предложенные Зангвиллом [16] и Брентой [17]. При работе этого алгоритма информация, полученная на предыдущих итерациях, используется для построения векторов направлений поиска, а также для устранения зацикливания последовательности координатных поисков. Метод ориентирован на решение задач с квадратичными целевыми функциями и основывается на фундаментальных теоретических результатах.

Задачи с квадратичными целевыми функциями занимают важное место в теории оптимизации по двум причинам.

  1. Квадратичная функция представляет простейший тип нелинейных функций, для которых может быть сформулирована задача безусловной оптимизации (линейные функции не обладают внутренними оптимумами). Следовательно, если с помощью того или иного метода успешно решаются задачи оптимизации с целевыми функциями общего вида, то такой метод должен оказаться эффективным при решении задач с квадратичными функциями.

  2. В окрестности точки оптимума любую нелинейную функцию можно аппроксимировать квадратичной функцией (поскольку линейный член разложения Тейлора обращается в нуль). Следовательно, работа алгоритма при решении задач с квадратичными функциями позволяет получить определенное представление о сходимости алгоритма в случае, когда минимизируется функция общего вида.

Основная идея алгоритма заключается в том, что если квадратичная функция N переменных приведена к виду суммы полных квадратов, то ее оптимум может быть найден в результате реализации N одномерных поисков по преобразованным координатным на­правлениям.

Процедура преобразования квадратичной функции

q(x) = a + bx + ½ xCx (3.25)

к виду суммы полных .квадратов эквивалентна нахождению такой матрицы преобразования Т, которая приводит матрицу квадратич­ной формы к диагональному виду. Таким образом, заданная квадратичная форма

Q(x) = xCx (3.26)

путем преобразования

x = Tz (3.27)

приводится к виду

Q(x) = zTCTz = zDz (3.28)

где D — диагональная матрица, т. е. элементы D отличны от нуля только при i = j

f(x) = 4x+ 3x- 4xx+ x

Рис. 3.8. Линии уровня квадратичной функции с перекрёстными членами.

Пусть t j-й столбец матрицы Т. Тогда преобразование (3.27) позволяет записать каждый вектор х в виде линейной комбинации вектор-столбцов t.

x = Tz = tz+ tz+…+ tz . (3.29)

Другими словами, вместо координат вектора х в стандартной коор­динатной системе, определяемой множеством векторов e(i), используются координаты вектора в новой координатной системе, заданной векторами t. Кроме того, система векторов t соответствует главным осям рассматриваемой квадратичной формы, поскольку матрица квадратичной формы приводится к диагональному виду. Такая ситуация возникает, если квадратичную функцию с перекрестными членами, линии уровня которой изображены на рис. 3.8, записать в новой координатной системе, оси которой совпадают с большой и малой осями квадратичной функции (см. рис. 3.9).

Итак, с помощью преобразования переменных квадратичной функции строится новая система координат, совпадающих с главными осями квадратичной функции. Следовательно, одномерный поиск точки оптимума в пространстве преобразованных переменных z эквивалентен поиску вдоль каждой из главных осей квадратичной функции. Так как направления главных осей определяются векторами t одномерный поиск проводится в направлениях, заданных этими векторами. Проиллюстрируем вышеизложенное примером.

f(x) = 4x+ 2x+ x+x

Рис. 3.9. Линии уровня квадратичной функции без перекрёстных членов

Пример 3.4. Преобразование к виду суммы квадратов

Рассмотрим функцию

f(x) = 4x+ 3x 4xx+ x

и преобразование

x= z+ ½ z, x= z,

или

Преобразованная квадратичная функция принимает следующий вид:

f(z)= 4z+ 2z+ z+ ½ z.

Заметим, что это преобразование не является единственным, поскольку система векторов t не удовлетворяет условию ортонормированности. В частности, нетрудно проверить, что преобразование

также приводит матрицу квадратичной формы к диагональному, виду. Задавая начальную точку x= [0, 0]и два столбца матрицы преобразования

t= [1, 0], t= [½, 1],

можно найти точку оптимума [,]T в результате проведения двух последовательных поисков в направлениях t и t Поиск в направлении t по формуле

x= x+ λt

позволяет получить значение λ = и точку х(1) = [, 0]. Далее из точки х(1) проводится поиск в направлении t2. Получаем значение λ = и решение х(2) = [,]T.

Из рассмотренного примера и предыдущего изложения следует, что если система векторов t, j = 1,...,N, или система сопряженных направлений, построена, то точку оптимума квадратичной функции можно найти в результате реализации в точности N одномерных поисков, которые проводятся вдоль каждого из N направлений t, j = 1,...,N. Таким образом, нерешенными остаются лишь вопросы, связанные с построением системы векторов t. Если матрица С известна, то матрицу преобразования Т можно найти с помощью метода Гаусса — Жордана (как это выполнено в приложении А). Метод Гаусса — Жордана позволяет представить матрицу С в виде произведения

C = PTDP, откуда (3.30)

(P)C(P) = D и T = P (3.31)

Однако матрица С (или ее оценка) в данном случае неизвестна, по­скольку речь идет о построении метода решения задач безусловной оптимизации с целевой функцией f(x), при реализации которого используются только значения функции и не используются значе­ния первых и тем более вторых производных. Тем не менее и в этом случае можно определить систему сопряженных направлений на основе следующего элементарного свойства квадратичных функ­ций.

Свойство параллельного подпространства

Пусть заданы квадратичная функция q(x), две произвольные не­совпадающие точки x(1) и х(2), а также направление d. Если точка y(1) минимизирует q(x(1)d), a точка y(2) минимизирует q(x(1)+ λd), то направление (y(2) - y(1)) сопряжено с d.

Рис. 3.10 иллюстрирует сформулированное свойство для случая двух переменных. Нетрудно видеть, что поиск, проводимый из точки y(1) или y(2) в направлении (y(2) - y(1)), обеспечивает получение точки минимума. Таким образом, в случае двух переменных реализация трех одномерных поисков позволяет построить систему сопряженных направлений и, кроме того, найти точку оптимума квадратичной функции. Прежде чем продолжать алгоритмические построения, докажем теорему о свойстве параллельного подпространства.

Рис. 3.10. Сопряженные направления на плоскости.

Напомним, что по определению С-сопряженные направления задаются системой вектор-столбцов матрицы Т, которая приводит матрицу С к диагональному виду:

ТCТ = D (3.32)

Поскольку все внедиагональные элементы D равны нулю, отсюда следует, что

(3.33)

где t i-й столбец матрицы Т. Таким образом, мы получили возможность дать более удобное, эквивалентное и, по-видимому, более конструктивное определение сопряженности направлений.

Сопряженные направления

Пусть С — симметрическая матрица порядка NN; направления s(1), s(2), s(3),..., s, r ≤ N, называются С-сопряженными, если эти направления линейно независимы и

sCs= для всех ij. (3.34)

Опять обратимся к квадратичной функции общего вида

q(x) = a + bTx+(1/t)xTCx.

Точки прямой, исходящей из х(1) в направлении d, задаются формулой

x = x+λd.

Минимум q(x) вдоль направления d определяется путем нахождения значения λ*, при котором q/λ=0. Вычислим эту производную по правилу дифференцирования сложной функции:

= =b+ xCd. (3.35)

По предположению теоремы минимум достигается в точке y(1) следовательно,

[(y(1) )C b ] d = 0. (3.36)

Аналогично, так как минимум q(x) при движении из точки х(2) в направлении d достигается в точке y(2) имеем

[(y(2) )C b ] d = 0. (3.37)

Вычитая (3.36) из (3.37), получаем

(y(2) - y(1) )Cd = 0 (3.38)

В соответствии с данным выше определением направления d и (y(2) - y(1) ) оказываются С-сопряженными, и свойство параллельного подпространства для квадратичных функций доказано.

Пример 3.5. Минимизация на основе свойства параллельного подпространства.

Опять рассмотрим квадратичную функцию q(x) = 4x+ 3x - 4xx+ x. Пусть заданы две точки х(1) = [0, 0],х(2) = [1,0]и направлениеd = [l, 1]T. Первый поиск проводится вдоль прямой

x = [0, 0]+λ [1, 1]

и приводит к точке y(1) = [-,-](λ*= -). Второй поиск проводится вдоль прямой

x = [1, 0]+λ [1, 1]

и позволяет получить точку y(2) = [,](λ*=). Согласно свойству параллельного подпространства, направление

y(2) y(1) = [,] [,]= [,]

сопряжено с d = [l, 1]T

[l, 1]C[,].

Выше отмечалось, что в случае двух переменных оптимум q(x) можно найти путем проведения поиска вдоль прямой, заданной направлением (y(2) y(1) ). Этот факт нетрудно проверить, поскольку минимум q(x) вдоль прямой

x = [,]+λ [,]

достигается в точке х* = [,]T(λ* = ), которая сов­падает с полученным ранее решением.

В рассмотренных выше построениях для того, чтобы определить сопряженное направление, требовалось задать две точки и некоторое направление. Это не слишком удобно при проведении расчетов, поэтому предпочтительнее строить систему сопряженных направлений, исходя из одной начальной точки, что легко осуществить при помощи единичных координатных векторов е(1), е(2), е(3),..., е(N). (Здесь рассматривается процедура построения сопряженных на­правлений в случае двух переменных, которая допускает очевидное обобщение для N-мерного пространства.) Пусть е(1) = [l, 0]ие(2) = [0, 1]. При заданной начальной точкех(0) вычислим значение λ(0), которому соответствует минимум f (х(0) + λ(0) е(1)).

Положим

x(1) = х(0) + λ(0) е(1).

и вычислим значение λ(1), которому соответствует минимум f (х(1) + λ(1) е(2)). Положим

x(2) = х(1) + λ(1) е(2).

Далее вычислим значение λ(2), минимизирующее f (х(2) + λ(2) е(1)), и положим

x(3) = х(2) + λ(2) е(1).

При этом направления (х(3) – х(1)) и е(1) оказываются сопряженными. Для того чтобы убедиться в этом, рассмотрим рис. 3.11. Заметим, что точка х(1) найдена в результате поиска из точки х(0) в направление е(1), а точка х(3) получена при поиске из точки х(2) в направлении е(1). Следовательно, направление е(1) и (х(3) – х(1)) являются сопряжёнными согласно свойству параллельного подпространства. Далее если на следующей итерации провести поиск в направлении (x(3)x(1)), то процедура поиска будет охватывать два сопряженных направления, и поскольку f(x) предполагается квадратичной функцией двух переменных, в результате будет найдено решение х*.

Проведенное на основе свойства параллельного подпространства построение рассмотрено для случая, когда число сопряженных направлений равняется двум. Однако это построение естественным образом обобщается на случай задач более высокой размерности

В частности, нетрудно показать, что если точка y(1) найдена в результате поиска из точки х(1) вдоль каждого из М (<N) сопряженных направлений, а точка y(2) получена в результате поиска из точки х(2) вдоль каждого из тех же М сопряженных направлений s(1), s(2), s(3),..., s(M) то вектор (y(2) y(1)) задает направление, сопряженное со всеми выбранными М направлениями. Это утверждение известно как обобщенное свойство параллельного подпространства. Используя указанное свойство, можно обобщить метод построения сопряженных направлений, последовательные шаги реализации которого отражены на рис. 3.11 на случай пространства управляемых переменных более высокой размерности. Рис. 3.12 иллюстрирует построение сопряженных направлений в трехмерном пространстве.

Как показано на рис. 3.12, сначала поиск осуществляется вдоль трех координатных направлений е(1), е(2) и е(3) затем эти направления последовательно заменяются вновь построенными сопряженными направлениями. Серия одномерных поисков из точки x(0) проводится в направлении е(3), затем е(1), е(2) и снова е(3); в результате построены сопряженные направления е(3) и (x(4)x(1)). Направление е(1) заменяется новым направлением поиска, которое на рис. 3.12 обозначено цифрой 4. Следующая серия поисков проводится в направлении 4, затем е(2), е(3) и снова 4. Согласно обобщенному свойству параллельного подпространства, новое направление (x(8)x(5)), обозначенное на рисунке цифрой 5, сопряжено не только с 4, но и с е(3). Следовательно, направления е(3), (x(4)x(1)) и (x(8)x(5)) образуют систему взаимно сопряженных направлений.

Рис. 3.11. Построение сопряженных направлений из одной точки.

Поэтому если провести дополнительный поиск из точки x(5) в направлении (x(8)x(5)) (т. е. в направлении 5 на рисунке), то будет найдена точка x(9), в которой должен достигаться оптимум квадратичной функции трех переменных f(x), поскольку поиск последовательно осуществляется в трех взаимно сопряженных направлениях. Таким образом, в трехмерном случае для нахождения точного (если, разумеется, оперировать недесятичными дробями) оптимума квадратичной функции требуется провести девять поисков вдоль прямой с использованием только значений функции. Алгоритм легко обобщается и в случае N-мерного пространства требует проведения последовательности N одномерных поисков, которая приводит к получению точки оптимума квадратичной функции. Ниже представлены шаги обобщенного алгоритма.

Рис. 3.12. Построение сопряженных направлений в трехмерном пространстве.

Метод сопряженных направлений Пауэлла

Шаг 1. Задать начальную точку х(0) и систему N линейно независимых направлений; возможен случай, когда s(i) = e(i) i = 1, 2, 3,..., N.

Шаг 2. Минимизировать f(x) при последовательном движении по (N+1) направлениям; при этом полученная ранее точка минимума берется в качестве исходной, а направление s(N) используется как при первом, так и последнем поиске.

Шаг 3. Определить новое сопряженное направление с помощью обобщенного свойства параллельного подпространства.

Ш а г 4. Заменить s(l) на s(2) и т. д. Заменить s(N) сопряженным направлением. Перейти к шагу 2.

Для того чтобы применить изложенный метод на практике, его необходимо дополнить процедурами проверки сходимости и линей­ной независимости системы направлений. Проверка линейной неза­висимости особенно важна в тех случаях, когда функция f(x) не является квадратичной [16, 17].

Из способа построения алгоритма следует, что в случае, когда целевая функция квадратична и обладает минимумом, точка минимума находится в результате реализации N циклов, включающих шаги 2, 3 и 4, где N — количество переменных. Если же функция не является квадратичной, то требуется более чем N циклов. Вместе с тем можно дать строгое доказательство того, что при некотором предположении метод Пауэлла сходится к точке локального мини­мума с суперлинейной скоростью (см. данное ниже определение).

Скорость сходимости. Рассматриваемый метод позволяет построить последовательность точек х(k), которая сходится к решению x*. Метод называется сходящимся, если неравенство

≤1, где (3.39)

= x– х*, (3.40)

выполняется на каждой итерации. Поскольку при расчетах обычно оперируют конечными десятичными дробями, даже самый эффективный алгоритм требует проведения бесконечной последовательности итераций. Поэтому в первую очередь интерес представляют асимпто­тические свойства сходимости изучаемых методов. Будем говорить, что алгоритм обладает сходимостью порядка r (см. [18, 19]), если

, (3.41)

где С — постоянная величина. Из формулы (3.39) следует, что при r = 1 имеет место неравенство С ≤ 1. Если r = 1 или r = 2, то алгоритм характеризуется линейной или квадратичной скоростью сходимости соответственно. При r = 1 и С = 0 алгоритм характеризуется суперлинейной скоростью сходимости.

Пример 3.6. Метод сопряженных направлений Пауэлла

Найти точку минимума функции

f(x) = 2x+ 4xx 10xx+ x,

если задана начальная точка х(0) = [5, 2]T, в которой f (x(0)) = 314.

Шаг 1. s(1) = [l, 0]T, s(2) = [0, 1]T.

Шаг 2. (а) Найдем такое значение λ, при котором

f (x(0) + λs(2)) → min.

Получим: λ* -0,81, откуда

x(l) = [5, 2]T - 0,81 [0, 1]T = [5, 1.19]T, f (x(l)) = 250.

(б) Найдем такое значение λ, при котором f (x(1) + λs(1)) → min.

λ* = –3,26, x(2) = [1.74, 1.19]T, f (x(2)) = 1.10.

(в) Найдем такое значение λ, при котором f (x(2) + λs(2)) → min.

λ* = –0.098, x(3) = [1.74, 1.092]T, f (x(3)) = 0.72.

Шаг 3. Положим s(3) = х(3) - x(1) = [-3.26,-0.098]T. После нормировки получим

s(3) = = [0,99955, 0,03]T.

Положим s(1) = s(2), s(2) = s(3) и перейдем к шагу 2 алгоритма.

Шаг 4. Найдем такое значение λ, при котором f (x(3) + λs(2)) → min.

λ* = –0.734, x(4) = [1.006, 1.070]T, f (x(4)) = 2,86.

Примечание. Если бы f(x) была квадратичной функцией, то полученная точка являлась бы решением задачи (если пренебречь ошибкой округления). В данном случае итерации следует продолжить до получения решения.

Направления поиска, полученные в процессе реализации метода, показаны на рис. 3.13.

Результаты вычислительных экспериментов позволяют утверж­дать, что метод Пауэлла (дополненный процедурой проверки линейной зависимости направлений) отличается по меньшей мере столь же высокой надежностью, как и другие методы прямого поиска, и в ряде случаев является значительно более эффективным. Поэтому проблема выбора алгоритма прямого поиска часто (и обоснованно) разрешается в пользу метода Пауэлла.

Здесь заканчивается рассмотрение методов прямого поиска решений в задачах безусловной оптимизации. В следующем разделе описываются методы, основанные на использовании производных.