книги / Решение некоторых многоэкстремальных задач методом сужающихся окрестностей
..pdfдет 4р, находим оценку
S |
f t p |
(х *)) — |
f t p |
(х°) |
4" |
f r p |
(я1) |
( f r p |
(х ))] < |
МА |
(5.25) |
|||
К |
|
|
|
|
п |
|
||||||||
p=n—l-\-l |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Из соотношений |
(5.21) и (5.25) вытекает, что |
|
|
|
||||||||||
|
|
</ ( Л ) - |
(/ ( Л ) = |
f (х°) - |
f (X1) + е, |
|
(5.26) |
|||||||
причем величина е оценивается следующим образом: |
|
|
||||||||||||
|
|
|
|
|
181< |
|
МА |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|||
Вследствие |
теоремы |
1.1 |
последнее неравенство |
можно переписать |
||||||||||
в виде |
|
|
|в |< - 4v q (2г |
+ |
1) (г + |
I) А |
|
|
|
|
||||
|
|
|
|
|
|
(5.27) |
||||||||
Теорема |
5.2. Если п ->■ оо |
и |
|
|
|
|
|
|
|
|||||
то |
|
|
|
|
r2v = |
0 (п), |
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
sign { < /( /') - f (***)>} = |
sign {/(*°)- / |
(х1)}.' |
|
(5.28) |
||||||||||
Д о к а з а т е л ь с т в о . |
Как |
известно, запись гЧ = |
0 (п) оз |
|||||||||||
начает, что |
|
|
|
|
|
r 2v |
|
|
|
|
|
|
||
|
|
|
|
|
П т |
|
= 0. |
|
|
|
|
(5.29) |
||
Тогда из неравенства (5.27) и условия (5.29) следует |
|
|
||||||||||||
|
|
|
|
|
lim | е | = 0. |
|
|
|
|
(5.30) |
Поскольку f(x°) — f(x1) есть константа, не зависящая от п, из ра венств (5.26) и (5.30) вытекает утверждение (5.28). -
Доказанную теорему можно сформулировать следующим на глядным образом. Если п стремится к бесконечности, a r2v растет медленнее чем п, то математическое ожидание значений квазисепарабельной функции с показателем сепарабельности г, взятых в точках, построенных из локальной минимали путем изменения v координат и последующего спуска, тем меньше, чем меньше значение функции
f(x) в точке х.
В работе [35] показано, что в задачах оптимального проектиро вания обычной является ситуация, в которой показатель сепарабель ности г убывает быстрее, чем корень кубический из п, т. е.
г = о(п/з), п —у оо. |
(6.31) |
В связи с этим сформулируем следующую теорему, которая яв ляется очевидны^ следствием теоремы 5.2.
Теорема 5.3. Если п '-*■ оо, выполнено условие (5.31) и, кроме того,
v = о (п/а), то справедливо соотношение (5.28).
181
Наглядная трактовка этой теоремы такова. Достаточно медлен* ный рост числа изменяемых координат v при неограниченном уве-
личении размерности пространства Rn обеспечивает корреляцию между начальными точками наблюдения и математическими ожи даниями значений целевой функции в точках, которые построены из соответствующих начальных точек.
В формулировки теорем 5.2 и 5.3 входит весьма жесткое требо
вание о стремлении размерности п пространства Rn к бесконечное^ ти. В практических задачах это число конечно, хотя часто бывает и достаточно болыйим. Покажем, что корреляция между значением в начальной точке и математическим ожиданием сохраняется и при конечных п, если только число v изменяемых координат доста точно мало.
Теорема |
5.4. Если |
|
|
|
и |
f(x0) — f(x1) = B > 0 |
(5.32) |
||
|
|
Вп |
|
|
|
v < |
|
(5.33) |
|
|
4 f ( 2 r + l ) ( r + l ) i 4 |
|||
то |
|
|
||
|
(Hx0I) ) X f ( x lk)). |
(5.34) |
||
|
|
|||
Д о к а з а т е л ь с т в о . |
Из соотношений (5.26) и (5.32) следует, |
|||
что |
(f(x0l) ) - ( f ( x lk) ) > B - \B \ . |
(5.35) |
||
|
||||
Из неравенств (5.27) и (5.33) вытекает условие |
|
|||
|
|
|
|е | < 5. |
(5.36) |
Следствием неравенств (5.35) и (5.36) является неравенство |
(5.34), |
|||
которое и требовалось доказать (см. рис. 45). |
|
|||
Заметим, что получение точных оценок для показателя сепара |
||||
бельности |
г, числа шагов |
градиентного спуска q и константы А |
из неравенства (5.3) в практических задачах часто бывает затруд нительным или даже невозможным. В этих случаях теорему 5.4 нельзя использовать для выбора числа v. Однако и здесь неравенст во (5.33) позволяет сделать определенные выводы.
1. Чем меньше число изменяемых координат v, тем сильнее кор реляция между значением целевой функции в начальной точке f (х°)
иматематическим ожиданием М.
2.Сдвиг математического ожидания может не произойти, если разность между значениями целевой функции в исходных точках {величина В) недостаточно велика.
Напомним, что в предыдущем параграфе указывалось на явное завышение оценки (5.16) в теореме 5.1. Отсюда следует, что оценка {5.33), входящая в теорму 5.4, существенно занижена и утвержде ние теоремы будет справедливо и для v, превышающих величину
Вп
*q( 2r+\ ) (r+\ )A •
182
Значительную погрешность в оценку (5.33) вносит и крайне грубая оценка (5.24).
Существенно, что при выводе оценки (5.16) использовался кон кретный метод локальной минимизации, а именно градиентный спуск. В связи с этим в оценке (5.33) используется число шагов градиентного спуска q\ которое не является характеристикой за дачи, а появляется лишь как следствие метода решения. Между тем локальная минималь, естественно, не зависит от метода ее по
строения, и корреляция между математическим ожиданием (/ (я01)) и значением в исходной точке f(x°) наблюдается и в том случае, когда градиентный спуск заменен любым другим методом локальной минимизации.
Суммируя все сказанное, отметим, что ценность теоремы 5.4 состоит в том, что она дает строгое теоретическое обоснование су ществования такого класса квазисепарабельных функций, для кото рого математическое ожидание коррелировано со значением функции в исходной точке. Вместе с тем использование этой теоремы для ана лиза того, существует ли такая корреляция для конкретных целе вых функций, не целесообразно.
Теорема 5.4 свидетельствует о существовании класса функций, для которых имеется корреляция между математическим ожида
нием (/ (х0/)) и значением f(x°). Однако трудно заранее оценить, бу дет ли конкретная функция принадлежать этому классу. Поэтому вопрос о сдвиге математического ожидания для конкретных функ ций обычно решается путем постановки машинных экспериментов.
Из приведенных в этом параграфе рассуждений вытекает, что при минимальном числе изменяемых координат, т. е. при v = 1, корреляция между начальным значением и математическим ожида нием наиболее значительна. Поэтому можно рекомендовать выби рать v равным единице.
Вычислительная процедура, основанная на такой рекоменда ции, предложена в работе [53 ] и представляла собой первую модифи-, кадию метода, который излагается в данной книге.
Суть этой процедуры в следующем. Находим какой-либо локаль ный минимум f(x°). В точке х° случайным образом изменяем значе ние одной координаты и из полученной точки производим спуск
в «ближайший» локальный минимум f(x01). Если f(x°) < /(х 01), то продолжаем «работать» с точкой х°. Если же f(x°) > f(x 0l)9 то изме
няем значение одной координаты в точке X01 и продолжаем тот же процесс.
Нельзя, однако, рекомендацию о выборе величины v, равной единице, считать окончательной. Дело в том, что при переходе к указанному методу поиска кроме сдвига математического ожидания происходят изменения с другими характеристиками закона рас пределения.
Отметим, что при доказательстве теорем данного параграфа ни где не использовался какой-либо конкретный закон распределения.
183
Эго значит, что факт сдвига математического ожидания наб людается для любого закона распределения минимумов квазиеепарабельной функции.
§ 4. Изменение дисперсии
Рассмотрим вопрос о том, как изменяется дисперсия распреде ления значений целевой функции в локальных минималях с пере меной числа v изменяемых координат.
Обозначим / множество натуральных чисел от 1 до я, |
|
|
||
/ = { 1 , 2 , |
. . . , «}. |
|
|
|
Выберем исходную минималь х°. Изменив в точке х° значения |
||||
координат Xjk (Jk £ l, k = 1.......v), |
получим |
точку, которую |
обоз |
|
начим х1. Если в той же точке |
изменить |
координаты |
х1к |
(ik £ /, |
k = 1, ..., v), получим новую точку х<2). Точку, которая |
получается |
|||
из х°, если изменяются обе группы координат — {xik} |
и {х(к}, — |
обозначим х<12).
Из точек х(1), х(2) и х(12> перейдем к локальным минималям, в зоне влияния которых эти точки находятся. Пусть, для определенности, для поиска локальных минимумов используется метод градиент ного спуска. Как указывалось в § 2 данной главы, это предположе ние не вносит существенных ограничений. Обозначим q число шагов градиентного спуска, достаточное для того, чтобы с требуемой точ ностью построить «ближайшие» к х(1>, х(2)и х<12) локальные минимумы. Полученные минимали будем обозначать х1, х2 и х12соответственно.
Пусть при переходе от точки х° в точку х1 изменились значения координат хЛр (ар£1, р = 1, 2,..., Р). При этом вследствие неравенст
ва (5.15) число Р оценивается сверху следующим образом:
P< vq(2r + 1).
При переходе от точки х° к точке х2 меняются значения координат *р8(Р$€Л s = 1, 2, ..., S), причем аналогично предыдущему
S < vq(2r -1- 1).
Значения целевой функции в точках вида хк (или х2) будем рас сматривать как результат опыта, состоящего в том, что в точке х° случайным образом изменены значения v координат. Значения / (х12) представляют собой результат опыта, в котором в точке х° изменяют не более чем 2v координат. Заметим, что при построении точек вида хп в точке х° значения изменяют не обязательно точно 2v координат, поскольку наборы номеров координат {/*} и {г*.} могут иметь не пустое пересечение.
Дисперсию случайной величины / (^обозначим а2, а дисперсию / (х12) обозначим 0 2 v С уменьшением величины v дисперсия может
расти (Ov > olv), оставаться неизменной (о2 = oL) или убывать
184
(ov < Как показано далее (см. § 5), увеличение дисперсии при убывании v повышает вероятность получения значений целевой функции, близких к глобальному минимуму. Поэтому представляет интерес подробнее рассмотреть случай, при котором дисперсия может уменьшаться.
Предположим, что номера координат {jk\ и {/*} выбраны так, что слагаемые из разложения (5.1) квазисепарабельной функции f(x), зависящие от наборов координат {ха ) и (дгр), разделяются.
Эго значит, что сумму в представлении (5. f) можно разбить на три
части. Обозначим f f (х) компоненты разложения, которые не зависят |
||
ни от {xaJ , ни от {*ps}; f f (х) — слагаемые, |
не зависящие от |
{л^}, |
но зависящие хотя бы от одной из координат |
{л:ар}; наконец, f f |
(х) — |
слагаемые, которые не зависят от {хЛр}, но зависят хотя бы от од
ной из |
координат |
{*ps}. |
|
|
|
|
|
|
|
|
|
||
Разделимость координат означает, что для любой точки x£D |
|||||||||||||
имеем разложение |
|
|
|
|
|
|
|
|
|
|
|
||
|
/ м - 2 / ) " < * > + Е й * м ± 2 / Р < * > . |
|
|||||||||||
|
|
|
|
I |
|
|
|
i |
|
i |
|
|
|
Иными |
словами, разделимость |
групп координат {хар} и |
{%.} оз |
||||||||||
начает, что в разложении (5.1) нет слагаемых, |
которые бы зависели |
||||||||||||
от Хар и xps одновременно. |
|
|
|
|
|
|
|
|
|||||
Учитывая определения функций ff* (х) |
(т = |
1, 2, 3) и способ |
|||||||||||
построения точек х1, х3 и хп, нетрудно получить, что |
|
||||||||||||
|
/ (А = |
Е f f |
(х®) + |
Е f f |
( А + |
Е f f |
(А . |
(5.37) |
|||||
|
|
|
i |
|
|
|
i |
|
|
i |
|
|
|
|
f (X1) = |
S |
f f |
(A + |
S |
f f |
(x1) + |
E |
/ f |
( A |
' (5.38) |
||
|
|
|
i |
|
|
|
i |
|
|
i |
|
|
|
|
fix 3) = |
2 |
ff* (де*) + |
2 |
f f |
(X°) + |
S |
f f |
( A |
(5.39) |
|||
|
|
|
i |
|
|
|
i |
|
|
i |
|
|
|
|
f ( A |
= |
S |
f f |
(A |
+ |
S f f |
(x1) + |
S f f |
(x3). |
(5.40) |
||
|
|
|
i |
|
|
|
i |
|
|
t |
|
|
|
Из соотношений |
(5.37) — (5.40) |
следует |
|
|
|
|
|||||||
|
/ ( A |
- |
/ (x°) = / (x1) - |
/ (A + f (.x2) - |
/ (A - |
(5.41) |
|||||||
Если |
ввести обозначения |
|
|
|
|
|
|
|
|
||||
|
|
|
|
д р = /(х 12)-/(х ° ), |
|
|
|
|
|||||
|
|
|
|
Д/1 = |
f (х1) — f (А , |
|
|
|
|
||||
|
|
|
|
Д/2 = |
/ {х2) — f (А. |
|
|
|
|
||||
то соотношение |
(5.41) |
можно |
переписать з виде |
|
|
||||||||
|
|
|
|
|
Д/12 = |
А/1 + |
Д/2. |
|
|
|
(5.42) |
В соответствии с принятой во введении символикой d (х) будем обозначать дисперсию случайной величины х.
185
Из теоремы о дисперсии суммы [321 и равенства (5.42) следует
d (Д/12) = d (А/1) + d (Д/2) + 2 Cov (Д/1, Д/2). |
(5.43) |
Здесь Cov (х, у) — ковариация случайных величин х и у. Поэтому
Cov (Д /\ Д/2) = ((Л/1- |
<ДД» (Д/2- (Д/2))) = (Д/1Д/2> -< Д /1) (Д/2). |
|
* ^ |
Поскольку случайные |
величины / (х1) и /(х2) строятся одинаково, |
их законы распределения, и в частности их дисперсии, совпадают. Поэтому можно ввести обозначение
d (А/1) = d (Д/2) = <Jv, |
(5.44) |
где ov — стандартное отклонение. Во введении сказано, что ко вариация случайных величин х а у связана с их коэффициентом корреляции р(х, у) соотношением
Р (*. У) = |
Cov (*, у) |
|
°х&у |
|
|
В данном случае имеем |
|
|
|
|
|
Cov <Х/\ Д/2) = р (Д/1, Д/2) a t |
(5.45) |
|
Для краткости обозначим коэффициент корреляции р, |
|
|
Р = Р (А/1. А/2)- |
(5.46) |
Учитывая соотношения (5.44) — (5.46), равенство (5.43) можно пере писать в виде
d (Д/12) = 2 (1 + р) a t |
(5.47) |
Теорема 5.5. Дели компоненты разложения, зависящие от на боров {хаР } м (хрS }, разделяются и
(5.48)
то
d(A/ia)> d (A /1). |
|
(5.49) |
~ |
Доказательство теоремы сводится к рассмотрению равенства |
|
||
(5.47). |
|
|
|
Доказанную теорему можно трактовать следующим образом. |
|
||
Если в,разложении (5.1) квазиеепарабельной функции /(х) нет сла |
|
||
гаемых, которые зависели бы одновременно от ха |
и от xps, а коэф |
|
|
фициент корреляции больше числа —0,5, то дисперсия распределе |
|
||
ния значений целевой функции уменьшается при |
уменьшении чис |
|
|
ла изменяемых координат v (рис. 46). |
|
|
|
Обсудим, насколько распространенными являются ограничения, |
|
||
которые входят в условие теоремы 5.5. |
|
|
|
Коэффициент корреляции р характеризует степень связанности |
|
||
случайных величин Д/1 и Д/2. Если р = |
0, говорят, что величины |
|
|
не коррелированы. При р > 0 говорят |
о положительной, а при |
|
186
р < 0 об отрицательной корреля ции. Следовательно, неравенство (5.48) может нарушаться только при сильной отрицательной кор реляции. В обычных задачах нет оснований ожидать появления та кого случая. Поэтому ограниче ние (5.48) практически всегда вы полняется.
Сложнее обстоит дело с разде лимостью координат. Довольно трудно оценить вероятность, с ко
торой такую |
разделимость имеем |
||||
при случайном выборе наборов но |
|||||
меров координат |
{/*} и {ik}. Ясно, |
||||
однако, |
что |
эта |
вероятность |
бу |
|
дет расти с убыванием отношения |
|||||
числа |
изменяемых |
координат |
v |
||
к общему числу координат п. |
|||||
Таким образом, |
при малых |
значениях v существует большая |
вероятность того, что дисперсия будет уменьшаться с уменьшением числа изменяемых координат. Этот факт не зависит от вида закона распределения минимумов квазисепарабельной функции, если вы полняется условие (5.48).
§ 5. Вероятность получения лучших значений целевой функции
В предыдущих параграфах исследован вопрос о том, как изме няются математическое ожидание и дисперсия распределения зна чений целевой функции в локальных минималях в том случае, когда «слепой» случайный поиск заменяется специальным методом поиска.
Однако сами по себе ни первый, ни второй моменты распреде ления случайной величины не характеризуют качество предлагае мого метода поиска. Качество метода разумно характеризовать вероятностью получения значений целевой функции, которые были бы лучше, чем имеющиеся до сих пор. Пусть b — лучшее из полу ченных значений целевой функции. Тогда «перспективность» дан ного метода поиска будем оценивать числом
|
|
P {f(x)< b ], |
|
(5.50) |
|
где f (х) — значения |
целевой |
функции, |
которые |
получаются при |
|
использовании указанного метода поиска, |
а Р { • |
} — вероятность |
|||
события |
в фигурных |
скобках. |
|
задаться какой- |
|
Для |
подсчета величины |
(5.50) необходимо |
либо гипотезой о характере распределения значений целевой функ ции f(x) в локальных экстремалях.
187
Будут использоваться две такие гипотезы: нормальный и логнор мальный законы распределения, т. е. законы (3.2) и (3.3).
В § 3 данной главы показано, что при переходе от «слепого» слу чайного поиска к замене v координат в локальной минимали проис ходит уменьшение математического ожидания. Рассмотрим, как это отражается на вероятности получения лучших значений целе вой функции.
Вначале остановимся на нормальном законе распределения. Пусть имеем два таких закона с равными дисперсиями и математи
ческими ожиданиями соответственно |
т1 и |
/п2, |
причем тх < пц: |
||
f *w = T |
i h " ! expN |
T ^ |
) |
‘] <fc- |
(5-5|) |
(г> ~ тАо~ X еч> |
("гй?*Л '**■ |
(бб2> |
|||
Вычислим вероятность |
получения значений |
случайной |
величины |
||
f, лучших чем Ь: |
|
|
|
|
|
|
P = P { f< b } , |
|
|
(5.53) |
|
где число b такое, что |
|
|
|
|
|
|
Ь < т 1< т2. |
|
|
(5.54) |
Для вычислений воспользуемся функцией Е (и), которая опреде^ лена соотношением (3.10).
В случае закона (5.51)
' ■ - w |
<656> |
а в случае закона (5.52)
Поскольку функция Е (и) монотонно возрастает (см. рис. 19), из неравенства (5.54) и соотношений (5.55) и (5.56) следует
P i> P v
Полученный результат можно сформулировать следующим образом. Лемма 5.1. Если выполняется неравенство (5.54), то вероятность вида (5.7) для закона распределения (5.51) выше, чем для закона рас
пределения (5.52).
__На рис. 47 показаны интегральные законы распределения (5.51) и (5.52), а на рис. 48 — соответствующие дифференциальные законы
188
F(Z)
1
-10 -9 -8 -7 -6 -5 -ь -З Ъ -2 -1 0 |
1 2 3 4 5 6 7 8 9 10 z |
Рис. |
47. |
или плотности |
распределения |
|
|
|
|
)]• |
|
|
|
4>i (г) = |
1 |
ехр |
г — т1 |
|
|||
|
/2 л о |
|
/ 2 |
а |
|
|||
|
^2 (*) = |
1 |
ехр |
г — тг |
|
|||
|
|
|
||||||
|
о |
|
/ 2 |
о )]• |
|
|||
|
|
|
|
|
||||
На этих рисунках положено |
= — 2, т 2 = |
2, ст = |
2, ft = — 2,5. |
|||||
Рассмотрим |
случай |
логнормального |
закона |
распределения. |
Из формулы (3.30) следует, что математическое ожидание случай ной величины f, распределенной по закону (3.3), определяется так:
</) = Л + ехр ( ~ + ц). |
(5.57) |
189
Рассмотрим два логнормальных закона
0,(2) = |
1 |
- f |
- 1 |
exo f |
/ |
In (X — |
У2я s |
J |
|
P L |
\ |
|
|
. |
0, |
|
|
|
|
|
T|) — p, \21
j J dx, z ^ t|, (5.58)
z < 4
И |
1 |
|
|
|
/ ln(x —t)) —p2 ’\ 1 Av* |
|
|
|
1 |
* |
1 |
exo [ |
у \ |
fj, |
|||
Ф2(2) = |
/2 я s |
l |
1 1ил, |
Z ^ |
||||
\ |
x - ц |
eXP[ |
/2 s |
|
(5.59) |
|||
1. |
0, |
“П |
|
|
|
|
г < |
T). |
Вычислим для этих двух законов вероятность вида (5.53). При этом, естественно, предполагается, что
Ь > т). |
(5.60) |
Имеем,
7ST Ь ^ т ”■*[- ('П ~fa)1*■ <561>
Для вычисления этого интеграла воспользуемся подстановкой (3.27). Получим
р г = ~ = - J |
ехр (— у2) dy, |
(5.62) |
где |
|
|
P i - ln(67 1 )s~ |il • |
(5-63) |
|
Воспользовавшись формулой (3.10), можно записать |
|
|
Р, = Е (&) = Е |
• |
(5.64) |
Аналогично для закона (5.59) получаем |
|
|
= |
- » * -]. |
(5.65) |
Из монотонности функции Е (и) и формул (5.64) и (5.65) следует, что чем меньше параметр ц, тем больше вероятность получения лучших значений целевой функции. Параметр р, как следует из формулы (5.57), монотонно растет с ростом математического ожи дания. Следовательно, доказана справедливость следующего ут верждения.
Лемма 5.2. Из двух логнормальных законов (5.58) и (5.59) вероятность (5.53) получения лучших значений целевой функции больше для закона с меньшим, математическим ожиданием.
На рис. 49 изображены интегральные законы (5.58) и (5.59).
190