Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
shpora.doc
Скачиваний:
22
Добавлен:
28.10.2018
Размер:
543.74 Кб
Скачать

19. Общая задача нелинейного программирования.

Напомним, что задачей оптимизации называется задача нахождения минимального значения функционала f0 : X→R∪{+∞} на подмножестве M⊆X  векторного пространства X.

Как мы уже знаем, общая задача выпуклого программирования имеет вид

f0(x) → min , fi(x) ≤ 0, i=1,..., m; ,x ∈ A     (5.1.1)

где fi – выпуклые функционалы, A – выпуклое множество.

Задачей нелинейного программирования назовем задачу вида

f0(x) → min ,fi(x) ≤ 0, i=1,..., m; F(x) = 0.         (5.1.2)

где fi – функционалы действующие на некотором векторном пространстве X (чаще всего в задачах нелинейного программирования в качестве X выступает конечномерное пространство),  F – отображение из X в некоторое векторное пространство Y.

Таким образом, в задаче нелинейного программирования множество M, на котором ищется экстремум, имеет вид:

M = {x∈X | fi(x) ≤ 0, i=1,…,m; F(x)=0}.

Случай, когда функционалы fi и отображение F – линейные, X – n-мерное пространство, рассматривается обычно отдельно и называется задачей линейного программирования.

Задача выпуклого программирования (5.1.1) также представляет собой частный случай задачи нелинейного программирования.

Если M = {x∈X | F(x)=0}, задача (5.1.2) называется задачей на условный экстремум. При M = {x∈X | fi(x) ≤ 0, i=1,…,m} говорят о минимизации при ограничениях типа неравенств.

В общем случае, когда о свойствах функционалов fi и отображения F ничего не известно, трудно получить сколько-нибудь значимые сведения о решении задачи (5.1.2).

Прежде чем начинать поиск решения, хорошо бы убедиться, что такое решение есть. Ответ на вопрос о существовании решения экстремальной задачи  часто можно получить при помощи теоремы Вейерштрасса.

Определение. Функция f:X→R называется полунепрерывной снизу в точке x*∈X, если при x→x*

lim f(x) = f(x*).

Множество MC={ x∈M | f (x) ≤ C} называется множеством уровня C функции f. Если при некотором С функция f(x) принимает на MC только одно значение, то множество MC называется множеством минимального уровня.

Теорема. Функция f0 : X→R∪{+∞} достигает минимума на подмножестве M⊆X, если при некотором C множество уровня MC является либо множеством минимального уровня, либо непустым компактом, на котором функция f(x) полунепрерывна снизу.

Доказательство. Если С=f0(x*) – минимально возможное значение функции f0, то на множестве уровня С функция f0 принимает только значение С. Если же MC – непустой компакт, а функция  f0 полунепрерывна снизу на нем, доказательство получается применением теоремы Вейерштрасса.

22.Свойства дифференцируемых функций.

Рассмотрим, вопрос о том, какими свойствами обладают функции, дифференцируемые согласно введенным выше определениям.

Теорема 5.3.1. В следующем списке каждое последующее утверждение вытекает из предыдущих:

1.f:X→Y строго дифференцируема в точке x0∈X,

2.f:X→Y дифференцируема по Фреше в точке x0∈X,

3.f:X→Y дифференцируема по Гато в точке x0∈X,

4.f:X→Y обладает вариацией по Лагранжу в точке x0∈X.

Доказательство. 1) Взяв в (5.2.5) x2=x0, x1=x0+h, получим, что при ||x1-x0||V = ||h||V <δ, ||x2-x0||V =0, выполняется условие ||f(x1) ‑ f(x2)- Df(x0)(x1 ‑x2)||Y = ||f(x0+h) ‑ f(x0)- Df(x0)(h)||Y<ε||h||V, что и означает выполнение условия (5.2.4).

2) Пусть f:X→Y дифференцируема по Фреше в точке x0∈X, тогда при ||h||V →0 выполняется условие 

||f(x0+h) ‑ f(x0)- Df(x0)(h)|| / || h ||  → 0.                                (5.3.1)

Выберем h∈V, тогда при t →+0 ||th||=t||h||→0. Подставляя в (5.3.1), получаем

||f(x0+th) ‑ f(x0)- Df(x0)(th)|| / || th ||  → 0 при t →+0,           (5.3.2)

откуда (используя линейность оператора Df(x0) и свойства нормы) следует, что

||{f(x0+th) ‑ f(x0)}/t - Df(x0)(h)|| → 0 при t →+0.

3) Оставшийся пункт доказательства следует непосредственно из определения диференцируемости по Гато.

Теорема доказана.

Заметим, что если функция дифференцируема в нескольких смыслах, то дифференциал функции для всех определений дифференцируемости  - это один и тот же линейный ограниченный оператор (заметим, что существование вариации по Лагранжу мы не называем диференцируемостью). Именно поэтому для дифференциала мы используем одно обозначение : Df(x0).

Таким образом, исследовать на дифференцируемость в заданной точке функцию, действующую из аффинного пространство в нормированное, - это значит:

1) Найти производные по всем направлениям в этой точке. Если все они существуют, тем самым мы найдем вариацию по Лагранжу данной функции.

2) Выяснить, какими свойствами обладает найденная вариация. Если она задается линейным и ограниченным оператором, она является дифференциалом Гато. Если, кроме этого, выполняется условие (5.2.4), вариация является дифференциалом по Фреше. Если же выполняется условие (5.2.5), функция дифференцируема в строгом смысле (иногда при этом говорят, что вариация является строгим дифференциалом).

Теорема 5.3.1 показывает, что определения дифференцируемости естественным образом упорядочены. Будем говорить, что определение, находящееся в списке 1)-4), задает более сильный смысл дифференцируемости, чем те определения, которые находятся ниже по списку.

Теорема 5.3.2. Если функция f дифференцируема в точке x0 по Фреше, она непрерывна в этой точке.

Полученый результат можно рассматривать как необходимый признак дифференцируемости по Фреше. Оказывается, что для дифференцируемости по Гато непрерывность необязательна.

Теорема 5.3.3. Пусть функции f, g:X→Y дифференцируемы в точке x0∈X.  Тогда для любых a, b ∈R функция a f + b g  также дифференцируема в точке x0∈X (в том же смысле, что и функции f и g), причем

D(a f + b g)(x0) = a Df(x0)+ b Dg(x0).

.

Теорема 5.3.4. Пусть функции f:Y→Z и g:X→Y дифференцируемы соответственно в точках y0=g(x0)∈Y и x0∈X. Тогда для композиции F(x)=f(g(x)) справедливы следующие утверждения:

1) Если функция f дифференцируема в точке y0∈Y по Фреше,  а функция g имеет сильную вариацию по Лагранжу или дифференцируемо по Гато (по Фреше), то композиция этих функций F дифференцируема в том же смысле, что и функция g, причем дифференциал композиции равен композиции дифференциалов:

                      DF(x0) =D(f(g))(x0) =  Df(y0)Dg(x0)                           (5.3.4)

(или δF(x0;h) = Df(y0)δg(x0;h), если у функции g есть только вариация).

2) Если, кроме этого, функции  f, g:X→Y строго  дифференцируемы в точке x0∈X,  то композиция этих функций F также будет строго дифференцируемой в точке x0∈X.

Доказательство. 1) Предположим, что функция g имеет сильную вариацию по Лагранжу в точке x0∈X, т.е.

||(g(x0+th) ‑ g(x0)) / t - δg(x0;h)|| → 0 при t →+0.                                              (5.3.5)

Поскольку Df(y0):Y→Z – линейный и ограниченный оператор, то

0 ≤limt→ +0 ||(Df(y0)g(x0+th) ‑ Df(y0)g(x0)) / t - Df(y0)δg(x0;h)|| =

= limt→ +0 ||Df(y0){(g(x0+th) ‑ g(x0)) / t - δg(x0;h)}|| =

≤ limt→ +0 ||Df(y0)|| ||(g(x0+th) ‑ g(x0)) / t - δg(x0;h)|| = 0.

Дифференцируемость по Фреше отображения f означает, что

f(y0+h) - f(y0) = Df(y0)h +o(|| h ||) при || h || → 0.  

Пусть h(t)= g(x0+th)-g(x0), y0=g(x0), тогда, во-первых, || h(t) || = O(t) → 0 при t → +0, а во-вторых,

выше мы доказали, что limt→ +0 Df(y0)h(t) / t = Df(y0)δg(x0;h).

Окончательно получаем:

(f(y0+h(t)) - f(y0)) / t - Df(y0)h(t) / t = (f(y0+h(t)) - f(y0) - Df(y0)h(t)) / t = o(||h(t)||) / t =|| h(t)/t || o(1) =

= O(1)o(1) → 0 при t →+0, поэтому

limt→ +0(f(g(x0+th) - f(g(x0))) / t = limt→ +0(f(y0+h(t)) - f(y0)) / t = limt→ +0 Df(y0)h(t) / t = Df(y0)δg(x0;h).

Аналогичным образом доказываются и остальные пункты теоремы.

Замечание. Если функции  f, g:X→Y дифференцируемы в точке x0∈X по Гато, то это еще не значит, что композиция этих функций F также будет дифференцируемой по Гато в точке x0∈X. Например, пусть

f(x, y) = 1, если y=x2 и x≠0, f(x, y)=0 в остальных случаях.

В точке (0; 0) дифференциал Гато функции f существует и равен нулю. В качестве второй функции рассмотрим  функцию g(t)=(x(t), y(t)) = (t, t2), строгий дифференциал в точке t0=0 которой задается вектором градиента (1; 0). При этом композиция данных функций, равная 0 при t=0 и равная 1 при t≠0, не имеет предела в точке t0=0 ни по одному из направлений, и значит, не дифференцируема ни в каком смысле.

23.

Теорема 5.3.5 (формула конечных приращений). Пусть функция f:X→Y дифференцируема (в слабом смысле) по Гато на отрезке [x1, x2] = {x∈X | x = x1+t(x2 – x1) , t∈[0; 1]}. Тогда

||f(x2) – f(x1)||≤sup x∈[x1; x2] ||Df(x)(x2–x1)|| ≤sup x∈[x1; x2] ||Df(x)|| ||x2–x1||.              (5.3.6)

Доказательство. Пусть y∈Y*. Рассмотрим функцию

gy(t) =y( f(x1+t[x2 – x1])), t∈[0; 1].                          (5.3.7)

Нетрудно проверить, что для каждого t0∈[0; 1] существует производная gy'(t0), которую можно вычислить по определению:

gy'(t0)= limt→0(yf(x1+(t0+t)[x2-x1]) - yf(x1+t0[x2-x1])) / t =

 = limt→0(yf(x1+t0[x2-x1]+t[x2-x1]) - yf(x1+t0[x2-x1])) / t =

=  yDf(x1+t0(x2 – x1)) [x2 – x1].

Здесь мы использовали также определение производной функции f  в точке x1+t0(x2–x1) по направлению (x2–x1).

Таким образом, функция gy(t):[0; 1]→R дифференцируема на всем отрезке [0; 1]. По теореме о конечном приращении для таких функций найдется  t*∈[0; 1], для которого gy(1) - gy(0) = gy'(t*)(1-0)= gy'(t*). Поскольку gy(1)=yf(x2),  gy(0) =yf(x1), получаем, что для каждого y∈Y* найдется

x*= x1+t*(x2 – x1) ∈[x1, x2], для которого y(f(x2) - f(x1)) = yDf(x*) (x2 – x1).

По теореме Хана-Банаха найдется y*∈Y*, такой что ||y*||=1 и для которого справедливо равенство:  y*(f(x2) - f(x1)) = ||f(x2) - f(x1)||. Получаем:

||f(x2) - f(x1)|| = y*(f(x2) - f(x1)) =  y*Df(x*) (x2 – x1) = | y*Df(x*) (x2 – x1)| ≤

≤ || y*|| ||Df(x*)(x2 – x1)|| = ||Df(x*) (x2 – x1)|| ≤ sup x∈[x1; x2] ||Df(x)(x2 - x1)|| ≤

≤sup x∈[x1; x2] ||Df(x)|| || x2 - x1||.

Теорема доказана.

Следствие 1. Пусть функция f:X→Y дифференцируема (в слабом смысле) по Гато на отрезке [x1, x2],  A:X→Y – линейный ограниченный оператор. Тогда для всех  x, y∈[x1, x2] справедлива оценка:

|| f(x)- f(y) - A(x - y)|| ≤sup z∈[x1; x2] ||Df(z) - A|| || x - y|| .                              (5.3.8)

Для доказательства следствия 1 применим теорему к функции F(x)=f(x) - Ax.  При этом учтем, что

F(x) – F(y) = f(x) – f(y) - A(x-y), DF(z) = Df(z) – A.

Следствие 2. Пусть функция f:X→Y дифференцируема (в слабом смысле) по Гато на отрезке [x1, x2] и в точке x0 (не обязательно из этого отрезка), то для всех  x, y∈[x1, x2] справедлива оценка:

|| f(x)- f(y) - Df(x0)(x - y)|| ≤sup z∈[x1; x2] ||Df(z) - Df(x0)|| || x - y|| .                 (5.3.9)

Доказательство: в следствии 1 положим A = Df(x0).

Следствие 3. Пусть функция f:X→Y дифференцируема (в слабом смысле) по Гато в некоторой окрестности U точки x0. Если отображение Df:U→L(V;Y) сильно непрерывно в точке x0 (т.е. из ||x-x0||→0 всегда следует, что ||Df(x)-Df(x0)||→0 по операторной норме), то функция f строго дифференцируема в точке x0.

Доказательство непосредственно вытекает из следствия 2 и определения строгой дифференцируемости.

Определение. Функцию f:X→Y назовем непрерывно дифференцируемой в окрестности U⊆Х, если в каждой точке у нее существует дифференциал, и при этом отображение Df:U→L(V;Y) сильно непрерывно в окрестности U.

Следствие 3 можно сфорулировать теперь в таком виде.

Следствие 4. Определение непрерывной дифференцируемости не зависит от смысла, вкладываемого в понятие дифференциала (т.е. дифференциал можно понимать как слабый или сильный дифференциал по Гато, так и как дифференциал по Фреше или строгий дифференциал).

Замечания. 1) Следствие дает достаточные условия, при которых одно из самых слабых определений дифференцируемости (слабая дифференцируемость по Гато) равносильно самому сильному (строгой дифференцируемости), что удобно при решении конкретных задач.

2) Точку x0 можно заменить на любую из точек окрестности U, в которой есть сильная непрерывность отображения Df.

3) Аналогичная теорема для функций нескольких переменных звучит так: если функция обладает всеми частными производными в окрестности точки и в этой точке эти частные производные непрерывны, то функция в данной точке дифференцируема.

Теорема 5.3.8 (о полном дифференциале).  Пусть функция f:X×Y→ Z, пространства X, Y – аффинные, Z – нормированное, и существует окрестность U точки (x0, y0) в X×Y, такая что:

1) для всех (x, y)∈U функция gx(y)=f(x,y) дифференцируема (в слабом смысле) по Гато (соответствующий диффеернциал Dgx(y) будем обозначать Dyf(x,y) и называть частным дифференциалом функции f по переменной y);

2) для всех (x, y)∈U функция gy(x)=f(x,y) дифференцируема (в слабом смысле) по Гато (Dgy(x) будем обозначать Dxf(x,y) и называть частным дифференциалом функции f по переменной x);

3) отображения Dxf(x,y):U→L(X;Z) и Dxf(x,y) :U→L(Y;Z) непрерывны в точке (x0,y0), т.е. если ||x-x0||→0 и ||y-y0||→0, то ||Dxf(x,y)-Dxf(x0,y0)||→0 и ||Dyf(x,y)-Dyf(x0,y0)||→0  по операторным нормам.

Тогда функция f строго дифференцируема в точке (x0, y0), причем

Df(x0,y0)[dx,dy] = Dxf(x0,y0)dx + Dyf(x0,y0)dy.          (5.3.10)

Доказательство. Для заданного  ε>0 выберем δ>0 так, что окрестность W={(x,y)| ||x-x0||<δ, ||y-y0||<δ} целиком содержалась в U, и W были справедливы неравенства:

||Dxf(x,y)-Dxf(x0,y0)|| < ε и ||Dyf(x,y)-Dyf(x0,y0)|| < ε.

Тогда для всех (x1,y1), (x2,y2) ∈W по следствию 2 из теоремы 5.3.7 получаем:

|| f(x1,y1)- f(x2,y1) - Dxf(x0,y0)(x1 – x2)|| ≤||Dxf(z,y1) - Dxf(x0,y0)|| || x1 –x2|| < ε || x1 –x2||,

|| f(x2,y1)- f(x2,y2) – Dyf(x0,y0)(y1 – y2)|| ≤||Dyf(x2,z) – Dyf(x0,y0)|| || y1 –y2|| < ε || y1 –y2||.

Пользуясь неравенством треугольника (норма суммы не превосходит сумму норм), получаем, что для всех (x1,y1), (x2,y2) ∈W

|| f(x1,y1)- f(x2,y2) - Dxf(x0,y0)(x1 – x2) – Dyf(x0,y0)(y1 – y2)|| ≤

   ≤ || f(x1,y1)- f(x2,y1) - Dxf(x0,y0)(x1 – x2)|| + || f(x2,y1)- f(x2,y2) – Dyf(x0,y0)(y1 – y2)|| <

   < ε || x1 –x2|| + ε || y1 –y2||.

         Теорема доказана.

Замечание. Теорема 5.3.8 как и следствие 3 теоремы 5.3.7 позволяет во многих задачах упростить доказательство строгой дифференцируемости функции.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]