Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Решение некоторых многоэкстремальных задач методом сужающихся окрестностей

..pdf
Скачиваний:
3
Добавлен:
12.11.2023
Размер:
12.71 Mб
Скачать

дет 4р, находим оценку

S

f t p

(х *))

f t p

(х°)

4"

f r p

(я1)

( f r p

(х ))] <

МА

(5.25)

К

 

 

 

 

п

 

p=n—l-\-l

 

 

 

 

 

 

 

 

 

 

 

 

 

Из соотношений

(5.21) и (5.25) вытекает, что

 

 

 

 

 

</ ( Л ) -

(/ ( Л ) =

f (х°) -

f (X1) + е,

 

(5.26)

причем величина е оценивается следующим образом:

 

 

 

 

 

 

 

181<

 

МА

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вследствие

теоремы

1.1

последнее неравенство

можно переписать

в виде

 

 

|в |< - 4v q (2г

+

1) +

I) А

 

 

 

 

 

 

 

 

 

 

(5.27)

Теорема

5.2. Если п ->■ оо

и

 

 

 

 

 

 

 

то

 

 

 

 

r2v =

0 (п),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

sign { < /( /') - f (***)>} =

sign {/(*°)- /

(х1)}.'

 

(5.28)

Д о к а з а т е л ь с т в о .

Как

известно, запись гЧ =

0 (п) оз­

начает, что

 

 

 

 

 

r 2v

 

 

 

 

 

 

 

 

 

 

 

П т

 

= 0.

 

 

 

 

(5.29)

Тогда из неравенства (5.27) и условия (5.29) следует

 

 

 

 

 

 

 

lim | е | = 0.

 

 

 

 

(5.30)

Поскольку f(x°) f(x1) есть константа, не зависящая от п, из ра­ венств (5.26) и (5.30) вытекает утверждение (5.28). -

Доказанную теорему можно сформулировать следующим на­ глядным образом. Если п стремится к бесконечности, a r2v растет медленнее чем п, то математическое ожидание значений квазисепарабельной функции с показателем сепарабельности г, взятых в точках, построенных из локальной минимали путем изменения v координат и последующего спуска, тем меньше, чем меньше значение функции

f(x) в точке х.

В работе [35] показано, что в задачах оптимального проектиро­ вания обычной является ситуация, в которой показатель сепарабель­ ности г убывает быстрее, чем корень кубический из п, т. е.

г = о(п/з), п —у оо.

(6.31)

В связи с этим сформулируем следующую теорему, которая яв­ ляется очевидны^ следствием теоремы 5.2.

Теорема 5.3. Если п '-*■ оо, выполнено условие (5.31) и, кроме того,

v = о (п/а), то справедливо соотношение (5.28).

181

Наглядная трактовка этой теоремы такова. Достаточно медлен* ный рост числа изменяемых координат v при неограниченном уве-

личении размерности пространства Rn обеспечивает корреляцию между начальными точками наблюдения и математическими ожи­ даниями значений целевой функции в точках, которые построены из соответствующих начальных точек.

В формулировки теорем 5.2 и 5.3 входит весьма жесткое требо­

вание о стремлении размерности п пространства Rn к бесконечное^ ти. В практических задачах это число конечно, хотя часто бывает и достаточно болыйим. Покажем, что корреляция между значением в начальной точке и математическим ожиданием сохраняется и при конечных п, если только число v изменяемых координат доста­ точно мало.

Теорема

5.4. Если

 

 

 

и

f(x0) — f(x1) = B > 0

(5.32)

 

 

Вп

 

 

v <

 

(5.33)

 

4 f ( 2 r + l ) ( r + l ) i 4

то

 

 

 

(Hx0I) ) X f ( x lk)).

(5.34)

 

 

Д о к а з а т е л ь с т в о .

Из соотношений (5.26) и (5.32) следует,

что

(f(x0l) ) - ( f ( x lk) ) > B - \B \ .

(5.35)

 

Из неравенств (5.27) и (5.33) вытекает условие

 

 

 

 

|е | < 5.

(5.36)

Следствием неравенств (5.35) и (5.36) является неравенство

(5.34),

которое и требовалось доказать (см. рис. 45).

 

Заметим, что получение точных оценок для показателя сепара­

бельности

г, числа шагов

градиентного спуска q и константы А

из неравенства (5.3) в практических задачах часто бывает затруд­ нительным или даже невозможным. В этих случаях теорему 5.4 нельзя использовать для выбора числа v. Однако и здесь неравенст­ во (5.33) позволяет сделать определенные выводы.

1. Чем меньше число изменяемых координат v, тем сильнее кор­ реляция между значением целевой функции в начальной точке f (х°)

иматематическим ожиданием М.

2.Сдвиг математического ожидания может не произойти, если разность между значениями целевой функции в исходных точках {величина В) недостаточно велика.

Напомним, что в предыдущем параграфе указывалось на явное завышение оценки (5.16) в теореме 5.1. Отсюда следует, что оценка {5.33), входящая в теорму 5.4, существенно занижена и утвержде­ ние теоремы будет справедливо и для v, превышающих величину

Вп

*q( 2r+\ ) (r+\ )A

182

Значительную погрешность в оценку (5.33) вносит и крайне грубая оценка (5.24).

Существенно, что при выводе оценки (5.16) использовался кон­ кретный метод локальной минимизации, а именно градиентный спуск. В связи с этим в оценке (5.33) используется число шагов градиентного спуска q\ которое не является характеристикой за­ дачи, а появляется лишь как следствие метода решения. Между тем локальная минималь, естественно, не зависит от метода ее по­

строения, и корреляция между математическим ожиданием (/ (я01)) и значением в исходной точке f(x°) наблюдается и в том случае, когда градиентный спуск заменен любым другим методом локальной минимизации.

Суммируя все сказанное, отметим, что ценность теоремы 5.4 состоит в том, что она дает строгое теоретическое обоснование су­ ществования такого класса квазисепарабельных функций, для кото­ рого математическое ожидание коррелировано со значением функции в исходной точке. Вместе с тем использование этой теоремы для ана­ лиза того, существует ли такая корреляция для конкретных целе­ вых функций, не целесообразно.

Теорема 5.4 свидетельствует о существовании класса функций, для которых имеется корреляция между математическим ожида­

нием (/ (х0/)) и значением f(x°). Однако трудно заранее оценить, бу­ дет ли конкретная функция принадлежать этому классу. Поэтому вопрос о сдвиге математического ожидания для конкретных функ­ ций обычно решается путем постановки машинных экспериментов.

Из приведенных в этом параграфе рассуждений вытекает, что при минимальном числе изменяемых координат, т. е. при v = 1, корреляция между начальным значением и математическим ожида­ нием наиболее значительна. Поэтому можно рекомендовать выби­ рать v равным единице.

Вычислительная процедура, основанная на такой рекоменда­ ции, предложена в работе [53 ] и представляла собой первую модифи-, кадию метода, который излагается в данной книге.

Суть этой процедуры в следующем. Находим какой-либо локаль­ ный минимум f(x°). В точке х° случайным образом изменяем значе­ ние одной координаты и из полученной точки производим спуск

в «ближайший» локальный минимум f(x01). Если f(x°) < /(х 01), то продолжаем «работать» с точкой х°. Если же f(x°) > f(x 0l)9 то изме­

няем значение одной координаты в точке X01 и продолжаем тот же процесс.

Нельзя, однако, рекомендацию о выборе величины v, равной единице, считать окончательной. Дело в том, что при переходе к указанному методу поиска кроме сдвига математического ожидания происходят изменения с другими характеристиками закона рас­ пределения.

Отметим, что при доказательстве теорем данного параграфа ни­ где не использовался какой-либо конкретный закон распределения.

183

Эго значит, что факт сдвига математического ожидания наб­ людается для любого закона распределения минимумов квазиеепарабельной функции.

§ 4. Изменение дисперсии

Рассмотрим вопрос о том, как изменяется дисперсия распреде­ ления значений целевой функции в локальных минималях с пере­ меной числа v изменяемых координат.

Обозначим / множество натуральных чисел от 1 до я,

 

 

/ = { 1 , 2 ,

. . . , «}.

 

 

 

Выберем исходную минималь х°. Изменив в точке х° значения

координат Xjk (Jk £ l, k = 1.......v),

получим

точку, которую

обоз­

начим х1. Если в той же точке

изменить

координаты

х1к

(ik £ /,

k = 1, ..., v), получим новую точку х<2). Точку, которая

получается

из х°, если изменяются обе группы координат — {xik}

и {х(к},

обозначим х<12).

Из точек х(1), х(2) и х(12> перейдем к локальным минималям, в зоне влияния которых эти точки находятся. Пусть, для определенности, для поиска локальных минимумов используется метод градиент­ ного спуска. Как указывалось в § 2 данной главы, это предположе­ ние не вносит существенных ограничений. Обозначим q число шагов градиентного спуска, достаточное для того, чтобы с требуемой точ­ ностью построить «ближайшие» к х(1>, х(2)и х<12) локальные минимумы. Полученные минимали будем обозначать х1, х2 и х12соответственно.

Пусть при переходе от точки х° в точку х1 изменились значения координат хЛр (ар£1, р = 1, 2,..., Р). При этом вследствие неравенст­

ва (5.15) число Р оценивается сверху следующим образом:

P< vq(2r + 1).

При переходе от точки х° к точке х2 меняются значения координат *р8(Р$€Л s = 1, 2, ..., S), причем аналогично предыдущему

S < vq(2r -1- 1).

Значения целевой функции в точках вида хк (или х2) будем рас­ сматривать как результат опыта, состоящего в том, что в точке х° случайным образом изменены значения v координат. Значения / (х12) представляют собой результат опыта, в котором в точке х° изменяют не более чем 2v координат. Заметим, что при построении точек вида хп в точке х° значения изменяют не обязательно точно 2v координат, поскольку наборы номеров координат {/*} и {г*.} могут иметь не пустое пересечение.

Дисперсию случайной величины / (^обозначим а2, а дисперсию / (х12) обозначим 0 2 v С уменьшением величины v дисперсия может

расти (Ov > olv), оставаться неизменной (о2 = oL) или убывать

184

(ov < Как показано далее (см. § 5), увеличение дисперсии при убывании v повышает вероятность получения значений целевой функции, близких к глобальному минимуму. Поэтому представляет интерес подробнее рассмотреть случай, при котором дисперсия может уменьшаться.

Предположим, что номера координат {jk\ и {/*} выбраны так, что слагаемые из разложения (5.1) квазисепарабельной функции f(x), зависящие от наборов координат {ха ) и (дгр), разделяются.

Эго значит, что сумму в представлении (5. f) можно разбить на три

части. Обозначим f f (х) компоненты разложения, которые не зависят

ни от {xaJ , ни от {*ps}; f f (х) — слагаемые,

не зависящие от

{л^},

но зависящие хотя бы от одной из координат

{л:ар}; наконец, f f

(х) —

слагаемые, которые не зависят от {хЛр}, но зависят хотя бы от од­

ной из

координат

{*ps}.

 

 

 

 

 

 

 

 

 

Разделимость координат означает, что для любой точки x£D

имеем разложение

 

 

 

 

 

 

 

 

 

 

 

 

/ м - 2 / ) " < * > + Е й * м ± 2 / Р < * > .

 

 

 

 

 

I

 

 

 

i

 

i

 

 

 

Иными

словами, разделимость

групп координат {хар} и

{%.} оз­

начает, что в разложении (5.1) нет слагаемых,

которые бы зависели

от Хар и xps одновременно.

 

 

 

 

 

 

 

 

Учитывая определения функций ff* (х)

=

1, 2, 3) и способ

построения точек х1, х3 и хп, нетрудно получить, что

 

 

/ =

Е f f

(х®) +

Е f f

( А +

Е f f

(А .

(5.37)

 

 

 

i

 

 

 

i

 

 

i

 

 

 

 

f (X1) =

S

f f

(A +

S

f f

(x1) +

E

/ f

( A

' (5.38)

 

 

 

i

 

 

 

i

 

 

i

 

 

 

 

fix 3) =

2

ff* (де*) +

2

f f

(X°) +

S

f f

( A

(5.39)

 

 

 

i

 

 

 

i

 

 

i

 

 

 

 

f ( A

=

S

f f

(A

+

S f f

(x1) +

S f f

(x3).

(5.40)

 

 

 

i

 

 

 

i

 

 

t

 

 

 

Из соотношений

(5.37) — (5.40)

следует

 

 

 

 

 

/ ( A

-

/ (x°) = / (x1) -

/ (A + f (.x2) -

/ (A -

(5.41)

Если

ввести обозначения

 

 

 

 

 

 

 

 

 

 

 

 

д р = /(х 12)-/(х ° ),

 

 

 

 

 

 

 

 

Д/1 =

f (х1) — f (А ,

 

 

 

 

 

 

 

 

Д/2 =

/ {х2) — f (А.

 

 

 

 

то соотношение

(5.41)

можно

переписать з виде

 

 

 

 

 

 

 

Д/12 =

А/1 +

Д/2.

 

 

 

(5.42)

В соответствии с принятой во введении символикой d (х) будем обозначать дисперсию случайной величины х.

185

Из теоремы о дисперсии суммы [321 и равенства (5.42) следует

d (Д/12) = d (А/1) + d (Д/2) + 2 Cov (Д/1, Д/2).

(5.43)

Здесь Cov (х, у) — ковариация случайных величин х и у. Поэтому

Cov (Д /\ Д/2) = ((Л/1-

<ДД» (Д/2- (Д/2))) = (Д/1Д/2> -< Д /1) (Д/2).

 

* ^

Поскольку случайные

величины / (х1) и /(х2) строятся одинаково,

их законы распределения, и в частности их дисперсии, совпадают. Поэтому можно ввести обозначение

d (А/1) = d (Д/2) = <Jv,

(5.44)

где ov — стандартное отклонение. Во введении сказано, что ко­ вариация случайных величин х а у связана с их коэффициентом корреляции р(х, у) соотношением

Р (*. У) =

Cov (*, у)

 

°х&у

 

В данном случае имеем

 

 

 

Cov <Х/\ Д/2) = р (Д/1, Д/2) a t

(5.45)

Для краткости обозначим коэффициент корреляции р,

 

Р = Р (А/1. А/2)-

(5.46)

Учитывая соотношения (5.44) — (5.46), равенство (5.43) можно пере­ писать в виде

d (Д/12) = 2 (1 + р) a t

(5.47)

Теорема 5.5. Дели компоненты разложения, зависящие от на­ боров {хаР } м (хрS }, разделяются и

(5.48)

то

d(A/ia)> d (A /1).

 

(5.49)

~

Доказательство теоремы сводится к рассмотрению равенства

 

(5.47).

 

 

 

Доказанную теорему можно трактовать следующим образом.

 

Если в,разложении (5.1) квазиеепарабельной функции /(х) нет сла­

 

гаемых, которые зависели бы одновременно от ха

и от xps, а коэф­

 

фициент корреляции больше числа —0,5, то дисперсия распределе­

 

ния значений целевой функции уменьшается при

уменьшении чис­

 

ла изменяемых координат v (рис. 46).

 

 

 

Обсудим, насколько распространенными являются ограничения,

 

которые входят в условие теоремы 5.5.

 

 

 

Коэффициент корреляции р характеризует степень связанности

 

случайных величин Д/1 и Д/2. Если р =

0, говорят, что величины

 

не коррелированы. При р > 0 говорят

о положительной, а при

 

186

р < 0 об отрицательной корреля­ ции. Следовательно, неравенство (5.48) может нарушаться только при сильной отрицательной кор­ реляции. В обычных задачах нет оснований ожидать появления та­ кого случая. Поэтому ограниче­ ние (5.48) практически всегда вы­ полняется.

Сложнее обстоит дело с разде­ лимостью координат. Довольно трудно оценить вероятность, с ко­

торой такую

разделимость имеем

при случайном выборе наборов но­

меров координат

{/*} и {ik}. Ясно,

однако,

что

эта

вероятность

бу­

дет расти с убыванием отношения

числа

изменяемых

координат

v

к общему числу координат п.

Таким образом,

при малых

значениях v существует большая

вероятность того, что дисперсия будет уменьшаться с уменьшением числа изменяемых координат. Этот факт не зависит от вида закона распределения минимумов квазисепарабельной функции, если вы­ полняется условие (5.48).

§ 5. Вероятность получения лучших значений целевой функции

В предыдущих параграфах исследован вопрос о том, как изме­ няются математическое ожидание и дисперсия распределения зна­ чений целевой функции в локальных минималях в том случае, когда «слепой» случайный поиск заменяется специальным методом поиска.

Однако сами по себе ни первый, ни второй моменты распреде­ ления случайной величины не характеризуют качество предлагае­ мого метода поиска. Качество метода разумно характеризовать вероятностью получения значений целевой функции, которые были бы лучше, чем имеющиеся до сих пор. Пусть b — лучшее из полу­ ченных значений целевой функции. Тогда «перспективность» дан­ ного метода поиска будем оценивать числом

 

 

P {f(x)< b ],

 

(5.50)

где f (х) — значения

целевой

функции,

которые

получаются при

использовании указанного метода поиска,

а Р { •

} — вероятность

события

в фигурных

скобках.

 

задаться какой-

Для

подсчета величины

(5.50) необходимо

либо гипотезой о характере распределения значений целевой функ­ ции f(x) в локальных экстремалях.

187

Будут использоваться две такие гипотезы: нормальный и логнор­ мальный законы распределения, т. е. законы (3.2) и (3.3).

В § 3 данной главы показано, что при переходе от «слепого» слу­ чайного поиска к замене v координат в локальной минимали проис­ ходит уменьшение математического ожидания. Рассмотрим, как это отражается на вероятности получения лучших значений целе­ вой функции.

Вначале остановимся на нормальном законе распределения. Пусть имеем два таких закона с равными дисперсиями и математи­

ческими ожиданиями соответственно

т1 и

/п2,

причем тх < пц:

f *w = T

i h " ! expN

T ^

)

‘] <fc-

(5-5|)

(г> ~ тАо~ X еч>

("гй?*Л '**■

(бб2>

Вычислим вероятность

получения значений

случайной

величины

f, лучших чем Ь:

 

 

 

 

 

 

P = P { f< b } ,

 

 

(5.53)

где число b такое, что

 

 

 

 

 

 

Ь < т 1< т2.

 

 

(5.54)

Для вычислений воспользуемся функцией Е (и), которая опреде^ лена соотношением (3.10).

В случае закона (5.51)

' ■ - w

<656>

а в случае закона (5.52)

Поскольку функция Е (и) монотонно возрастает (см. рис. 19), из неравенства (5.54) и соотношений (5.55) и (5.56) следует

P i> P v

Полученный результат можно сформулировать следующим образом. Лемма 5.1. Если выполняется неравенство (5.54), то вероятность вида (5.7) для закона распределения (5.51) выше, чем для закона рас­

пределения (5.52).

__На рис. 47 показаны интегральные законы распределения (5.51) и (5.52), а на рис. 48 — соответствующие дифференциальные законы

188

F(Z)

1

-10 -9 -8 -7 -6 -5 -ь -З Ъ -2 -1 0

1 2 3 4 5 6 7 8 9 10 z

Рис.

47.

или плотности

распределения

 

 

 

 

)]•

 

 

4>i (г) =

1

ехр

г т1

 

 

/2 л о

 

/ 2

а

 

 

^2 (*) =

1

ехр

г — тг

 

 

 

 

 

о

 

/ 2

о )]•

 

 

 

 

 

 

На этих рисунках положено

= — 2, т 2 =

2, ст =

2, ft = — 2,5.

Рассмотрим

случай

логнормального

закона

распределения.

Из формулы (3.30) следует, что математическое ожидание случай­ ной величины f, распределенной по закону (3.3), определяется так:

</) = Л + ехр ( ~ + ц).

(5.57)

189

/2 s .

Рассмотрим два логнормальных закона

0,(2) =

1

- f

- 1

exo f

/

In (X —

У2я s

J

 

P L

\

 

.

0,

 

 

 

 

 

T|) p, \21

j J dx, z ^ t|, (5.58)

z < 4

И

1

 

 

 

/ ln(x —t)) —p2 ’\ 1 Av*

 

 

1

*

1

exo [

у \

fj,

Ф2(2) =

/2 я s

l

1 1ил,

Z ^

\

x - ц

eXP[

/2 s

 

(5.59)

1.

0,

“П

 

 

 

 

г <

T).

Вычислим для этих двух законов вероятность вида (5.53). При этом, естественно, предполагается, что

Ь > т).

(5.60)

Имеем,

7ST Ь ^ т ”■*[- ('П ~fa)1*■ <561>

Для вычисления этого интеграла воспользуемся подстановкой (3.27). Получим

р г = ~ = - J

ехр (— у2) dy,

(5.62)

где

 

 

P i - ln(67 1 )s~ |il •

(5-63)

Воспользовавшись формулой (3.10), можно записать

 

Р, = Е (&) = Е

(5.64)

Аналогично для закона (5.59) получаем

 

=

- » * -].

(5.65)

Из монотонности функции Е (и) и формул (5.64) и (5.65) следует, что чем меньше параметр ц, тем больше вероятность получения лучших значений целевой функции. Параметр р, как следует из формулы (5.57), монотонно растет с ростом математического ожи­ дания. Следовательно, доказана справедливость следующего ут­ верждения.

Лемма 5.2. Из двух логнормальных законов (5.58) и (5.59) вероятность (5.53) получения лучших значений целевой функции больше для закона с меньшим, математическим ожиданием.

На рис. 49 изображены интегральные законы (5.58) и (5.59).

190

Соседние файлы в папке книги