Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Современные проблемы прикладной математики. Часть 1. Лекционный курс

.pdf
Скачиваний:
25
Добавлен:
05.02.2023
Размер:
2.09 Mб
Скачать

вектор ϕα регуляризированного решения СЛАУ можно представить как

p

 

 

λj

 

 

1

 

 

 

 

ϕα =

 

 

 

 

uj ,Wf

2

fɶ

vj ,

(2.3.25)

2

+αm(λj )

j=1

 

λj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где vj , uj j

столбцы

матриц V,

U соответственно:

p – ранг (или практический ранг) матрицы K. Из (2.3.25) непосредственно следует матричное представление решения ϕα :

1

2 fɶ ,

 

ϕα =Vp RpαUpTWf

(2.3.26)

где Vp – матрица размера M p , составленная из

p первых

столбцов матрицы V; Up – матрица размера N p , составленная из p первых столбцов матрицы U; Rpα – диагональная матрица размера p × p следующей структуры:

 

 

λ1

 

0

 

0

 

 

 

λ2

+αm(λ )

 

 

 

 

 

 

 

 

 

 

1

 

1

 

 

 

 

 

 

 

 

0

 

 

λ2

 

0

 

 

Rpα =

 

 

 

λ22 +αm(λ2 )

 

. (2.3.27)

 

 

 

 

 

 

 

 

 

 

 

 

0

 

0

 

λp

 

 

 

 

 

λp2 +αm(λp )

 

 

Функция m(λ) является невозрастающей функцией, например

m(λ) =

1

,

(2.3.28)

λγ

 

 

 

где γ ≥ 0 . Если γ = 0 , то Wϕ = I , что соответствует регуляризации нулевого порядка. Чем больше значение γ , тем в большей степени проекции вектора ϕα взаимосвязаны между собой. Это

обусловлено тем, что векторы vj , соответствующие малым λj и

имеющие осциллирующие проекции (см. рис. 2.2), не войдут в решение ϕα из-за пренебрежимо малого значения множителя

λj . λj2 +αm(λj )

Возникает вопрос: какой системе уравнений соответствует решение ϕα , допускающее представление (2.3.25)?

Утверждение 2.3.1. Вектор ϕα , имеющий представление (2.3.25) или (2.3.26), является решением системы (2.3.18), в которой матрица Wϕ является симметричной и определяется как

 

 

 

 

 

 

 

Wϕ =Vp diag{m(λ1 ),...,m(λp )}VpT .

 

(2.3.29)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Используя разложение (2.3.24), вектор ϕα , являющийся ре-

шением системы (2.3.3), можно записать в матричном виде

 

 

 

 

 

 

 

 

 

 

 

 

m(λ1 )

 

m(λp )

 

 

 

ϕ

 

=V

 

R

 

UTW

12 fɶ

+αV

diag

,...,

V Tω , (2.3.30)

 

 

 

 

 

 

 

α

 

p

 

pα

p

f

 

p

 

λ

 

λ

 

 

p

ϕ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

или

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

λj

 

12 ɶ

 

αm(λj ) vj ,ωϕ

 

 

 

 

 

 

 

 

 

 

 

p

 

uj ,Wf

f

 

 

 

 

 

p

 

 

ϕα =

 

 

 

 

 

+

 

 

 

 

vj

= xα j

vj

.(2.3.31)

2

+αm(λj )

2

 

 

 

 

 

 

j=1

λj

 

λj +αm(λj )

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нетрудно видеть, что для малых сингулярных чисел λj

первое

слагаемое становится пренебрежимо малым, а второе слагаемое

будет равно vj ,ωϕ . Следовательно, проекции xα j

для таких λj

будут равны проекциям пробного решения

vj ,ωϕ

. Таким обра-

зом, пробное решение формирует проекции xα j ,

соответст-

вующие очень малым λj

. Очевидно, что

при нулевом векторе

ωϕ = 0M эти проекции xα j

также будут равны нулю.

61

62

Имеет место следующее Утверждение 2.3.2. Вектор ϕα , имеющий представление

(2.3.30) или (2.3.31), является решением системы (2.3.3), в которой матрица Wϕ является симметричной и определяется выраже-

нием (2.3.29). ♣

2.3.4. Систематическая и случайная ошибки решения ϕα

Как и ранее определим ошибку решения ϕα , определяемым вектором (2.3.25)

εα = ϕα ϕ + , где ϕ + – нормальное псевдорешение системы (2.2.1) при точной

правой части f . Как и прежде, вектор εα представим суммой векторов случайной ξα и систематической bα ошибок:

ε

 

= ϕ

 

 

+ +ϕ

+ ϕ

+ = ξ

+ b .

(2.3.32)

α

ϕ

 

α

 

α α

α

α

 

Вектор bα = Mη [εα ] можно назвать смещением решения ϕα . Для вектора ϕα , определяемого системой уравнений (2.3.18), систематическая ошибка bα имеет вид

bα = −α (K TWf K + αWϕ )1 Wϕ ϕ

+ ,

(2.3.33)

а для вектора ϕα , определяемого системой уравнений (2.3.3), –

bα = α (K TWf K + αWϕ )1 Wϕ (ωϕ ϕ

+ ).

(2.3.34)

Для доказательства (2.3.34) представим решение ϕα в виде:

ϕα = (KTWf K +αWϕ )1 (KTWf f +αWϕωϕ ) =

=(KTWf K +αWϕ )1 (KTWf Kϕ + +αWϕωϕ +αWϕϕ + αWϕϕ + ) =

=(KTWf K +αWϕ )1 ((KTWf K +αWϕ )ϕ + +αWϕ (ωϕ ϕ + )) =

= ϕ + +α (KTWf K +αWϕ )1Wϕ (ωϕ ϕ + ).

Тогда из определения bα = ϕα ϕ + следует (2.3.34). Выражение (2.3.33) получается из (2.3.34) заменой ωϕ = 0M .

Вектор

ξα = εα Mη [εα ] = εα bα

(2.3.35)

является случайным вектором с нулевым средним и определяется выражением

ξα = (KTWf K +αWϕ )1

KTWfη .

(2.3.36)

Ковариационная матрица V

= M ξ ξT

этого вектора

опреде-

ξα

α α

 

 

ляется выражением:

Vξα = (KTWf K +αWϕ )1 KTWfVηWf K (KTWf K +αWϕ )1 ,(2.3.37) где Vη – ковариационная матрица вектора погрешностей η .

Среднеквадратическую ошибку

решения ϕα

определим

функционалом

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(α ) = M

 

 

 

 

ϕ

 

 

 

 

 

 

+

 

 

 

2 ,

 

 

 

 

(2.3.38)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ϕ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

η

 

 

 

α

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и ее можно записать (с учетом M [ξα ] = 0N ) в виде:

 

 

 

 

(α ) =

 

 

 

b

 

 

 

2

+ M

 

 

 

ξ

 

 

 

 

 

2

=

 

 

 

b

 

 

 

2 + Sp V

 

, (2.3.39)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α

 

 

 

 

 

 

 

 

 

 

 

 

 

α

 

 

 

 

 

 

 

 

 

 

α

 

 

 

 

ξα

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где Sp V

– след ковариационной матрицы V .

 

 

 

ξα

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ξα

 

 

 

Из соотношений (2.3.33)–(2.3.34), (2.3.37) следует основное противоречие регуляризирующих алгоритмов: при уменьшении

параметра регуляризации α систематическая ошибка bα уменьшается, но увеличивается случайная ошибка ξα . При увеличении α происходит обратное. Следовательно, существует такое значение αopt (оптимальный параметр регуляризации), при

котором (α ) достигает минимального значения. Для графиче-

63

64

ской иллюстрации этого противоречия на рис. 2.8 приведены графики зависимостей

 

 

 

 

 

 

2

 

 

 

 

 

ξα

 

 

 

2

 

(α )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

bα

 

 

 

 

– кривая 1;

M

 

 

 

 

 

 

 

– кривая 2;

– кривая 3

 

 

 

 

 

 

 

 

 

 

ϕ

 

 

2

 

ϕ

 

2

 

 

 

ϕ

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

от параметра регуляризации α . Регуляризированное решение (2.3.25) строилось для СЛАУ, матрица которой имела размеры

100×30 и число обусловленности 3 1010 , а дисперсия погрешностей задания правой части соответствовала относительному уровню

шума (M

 

 

 

η

 

 

 

2 )1/ 2

/

 

 

 

f

 

 

 

= 0.05 . Из рисунка видно, что αopt 3 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 2.8. Зависимости составляющих ошибки решения от α

Значение αopt зависит от вектора ϕ + и ковариационной матрицы Vη . Для установления такой зависимости предположим, что

Vη = ση2Cη , Wf =Vη1 , ϕ + =V x+ . Сравнивая (2.2.39) и (2.3.25), видим, что оптимальность алгоритма (2.3.25) имеет место, если

αopt mopt (λj ) = qopt j =

 

σ 2

 

 

 

η

 

 

 

 

.

(2.3.40)

(

 

j+ )2

x

 

Величина mopt (λj ) зависит от

 

 

j+

и не зависит от ση2 . Поэтому

 

x

справедлива зависимость

 

 

 

 

 

 

 

 

 

 

 

 

 

α

opt

= C σ 2

,

 

 

 

 

(2.3.41)

 

 

 

 

α η

 

 

 

 

 

 

где C – константа, не зависящая от σ 2 , т.е. оптимальный пара-

α

 

 

 

 

 

 

η

 

метр регуляризации имеет порядок ση2 .

 

 

 

+ (или

 

+ ) невозможно точно вычислить

Из-за незнания ϕ

x

αopt , как решение вариационной задачи на минимум (α ) . Если невозможно «точно» вычислить значение αopt , то возникает

важный для практических применений регуляризирующих алгоритмов вопрос: можно ли оценить (с приемлемой точностью)

оптимальный параметр регуляризации, используя для этого доступную при построении регуляризирующего алгоритма информацию?

Ответ на этот вопрос дается в следующем параграфе.

§ 2.4. Алгоритмы выбора параметра регуляризации

Выбор величины параметра регуляризации является основной проблемой при использовании регуляризирующих алгоритмов решения СЛАУ на практике. Поэтому в данном параграфе рассматриваются несколько алгоритмов, позволяющих оценить (более или менее удачно) значение оптимального параметра регуляризации αopt при различной априорной информации о по-

грешностях правой части СЛАУ. Приведенные результаты численных исследований этих алгоритмов выбора позволяют дать рекомендации по применению алгоритмов.

65

66

2.4.1. Выбор параметра регуляризации на основе критерия оптимальности

Введем оператор невязки E (α ) = I KT (α ) , позволяющий представить вектор невязки eα = f Kϕα в виде eα = E (α ) fɶ . Здесь T(α) – матричный оператор, который будет определен ниже. Вектор невязки является случайным, и поэтому определим

матрицу вторых моментов V (T ) = M e eT .

e T T

Имеет место следующее утверждение:

Утверждение 2.4.1. Необходимым и достаточным условие

оптимальности

оператора

T(α) ,

строящего решение

ϕα = T(α) fɶ , где

fɶ = Kϕ +η , является матричное тождество:

 

V

(α ) =V ET (α ) ,

(2.4.1)

 

e

η

 

 

где Vη – ковариационная матрица вектора погрешностей η . ♣

В качестве αopt берется такое значение αW , при котором принимается основная статистическая гипотеза:

H

0

: V

(α ) =V ET (α ) .

(2.4.2)

 

e

η

 

Эта гипотеза будет отвергаться в пользу альтернативной гипотезы

H

1

: V

(α ) V ET (α ) ,

(2.4.3)

 

e

η

 

если невыполнение тождества (2.4.2) обусловлено не случайными ошибками, возникающими из-за оценивания Ve (α ) по одной

реализации, а систематическими, обусловленными не оптимальностью параметра регуляризации. Таким образом, значение αW можно рассматривать как оценку оптимального параметра регуляризации αopt .

Для проверки гипотезы (2.4.2) введем статистику [11; 19; 93]

 

 

 

T

 

 

T

 

1

(2.4.4)

ρW (α ) = eα

Vη E

 

(α )

eα ,

Существование матрицы

 

T

 

1

позволяет переписать

ρW (α )

E

 

(α )

 

 

в виде

 

 

 

 

 

 

 

 

 

ρ

(α )

= fɶV

1e .

 

(2.4.5)

W

 

 

 

η

 

α

 

 

Для исследования свойств статистики ρW (α ) конкретизируем структуру оператора невязки E(α ) . Предположим, что реше-

ние ϕα определяется из системы уравнений

 

 

 

 

 

 

 

 

(KTVη1K +αWϕ )ϕα

= KTVη1 fɶ .

 

 

(2.4.6)

Тогда соответствующий оператор невязки примет вид:

E(α ) = I K (KTVη1K +αWϕ )1

KTVη1 ,

 

 

(2.4.7)

и его можно записать как [19]:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

E (α ) =Vη (Vη +α 1KWϕ1KT )1 .

 

 

(2.4.8)

Тогда статистика ρW (α )

определяется выражением

 

 

 

 

ρW (α ) = fɶ(Vη +α 1KWϕ1KT )1

fɶ .

 

 

(2.4.9)

Утверждение 2.4.2. Если матрица Vη

не вырождена, то:

а) для любого α > 0 статистика

ρW (α )

есть сумма квадра-

тов N случайных величин;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

б) для значений αW , при которых принимается гипотеза

(2.4.2), математическое ожидание

M ρ

w

(α ) = N .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Первое свойство ρw (α ) непосредственно следует из (2.4.9).

Для доказательства второго используем выражение

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

M ρ (α ) = Sp

V E

T

(α ) M

e(α )e

T

(α )

,

W

 

 

(

η

 

 

)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

справедливое для любого α > 0 . Для α = αW имеем

67

68

 

 

W

 

( η

)

1

( η

)

 

N

 

M

ρ

 

(α )

= Sp

V ET (α )

V ET (α )

= Sp[I

 

] = N ,

 

 

 

 

 

 

 

 

 

 

 

 

 

где IN – единичная матрица размера N × N .

 

 

Доказанные свойства статистики ρW (α ) позволяют аппрок-

симировать

распределение

ρ

w

(α ) при

α = α

W

χ2 -распре-

 

 

 

 

 

 

делением с

N степенями

свободы. Тогда

проверка гипотезы

(2.4.2) сводиться к проверке предположения: подчиняется ли ве-

личина ρ (α )

χ2 -распределению с N степенями свободы. Для

W

 

 

 

 

 

 

 

 

 

этого построим интервал

 

 

 

 

 

 

 

Θ

N

(β ) = ϑ

(β 2),ϑ

N

(1− β

2) ,

(2.4.10)

 

 

 

N

 

 

 

 

где ϑN (β 2)

– квантиль

χ2 -распределения уровня

β /2 . Если

ρW (α ) попадает в интервал (2.4.10), т.е. выполняется неравен-

ство

 

 

 

 

 

 

 

 

 

 

ϑN (β 2) ≤ ρW (α ) ≤ ϑN (1− β 2) ,

(2.4.11)

то гипотеза (2.4.2) может быть принята с вероятностью ошибки первого рода, равной β . Следовательно, значение αW , при кото-

ром выполняется (2.4.11), является оценкой для αopt .

Возникает вопрос: «Как вычислить значение αW?». Ниже приводится эффективный алгоритм вычисления αW, использующий сингулярное разложение матрицы системы. Алгоритм нахождения αW без сингулярного разложения приведен в работе [11, с. 166–167].

2.4.2. Алгоритм выбора параметра по критерию оптимально-

сти

 

 

Предположим, что:

 

ковариационная матрица Vη допускает

представление

V = σ 2C (см. (2.2.21)), и определим сингулярное разложение

η

η η

 

 

C12 K = UΛV T ,

(2.4.12)

 

η

 

допуская при этом, что сингулярные числа λj

упорядочены по

убыванию, т.е. λj λj+1

и λj = 0, j = p +1,...,M , где

p – ранг

(или практический ранг) матрицы системы;

 

 

• регуляризированное решение ϕα представимо в виде:

p

 

λj

 

1

 

 

 

ϕα =

 

 

 

uj ,Cη

2 fɶ

vj ,

(2.4.13)

2

+αm(λj )

j=1

λj

 

 

 

 

 

 

 

 

 

 

 

 

 

где m(λ) невозрастающая функция (см. например, (2.3.28)).

Это представление следует из (2.3.25) при W

f

= C1 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

η

 

Нетрудно показать, что вектор ϕα

является решением сис-

темы

 

 

(KT Cη1K +αWϕ )ϕα = KT Cη1 fɶ ,

 

 

 

 

 

 

(2.4.14)

в которой матрица Wϕ

выражается соотношением:

 

 

Wϕ =Vp diag{m(λ1 ),m(λ2 ),...,m(λM )}VpT ,

 

где Vp

– матрица размера

M p , составленная из p

первых

столбцов матрицы V , входящей в разложение (2.4.12).

 

С учетом (2.2.21) статистику ρW (α ) можно записать в виде

 

 

 

 

σ 2

(

 

 

)

 

(

 

 

 

 

)

 

 

 

 

 

 

ρ

 

(α ) =

1

 

C

12 fɶ

 

T

 

C

1

2e

 

 

,

 

 

 

(2.4.15)

 

w

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

η

 

 

 

η

α

 

 

 

 

 

 

 

 

 

 

 

η

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где векторы C12

fɶ , C12e

допускают представление:

 

 

η

 

η

 

α

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12 ɶ

N

 

 

 

12 ɶ

uj

 

 

N

ɶ

 

 

,

(2.4.16)

 

Cη

f =

uj ,Cη

f

= yjuj

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

1

 

p

 

 

α m(λj )

 

 

 

 

 

 

 

N

 

(2.4.17)

 

Cη

2

eα =

 

2

 

 

 

 

 

yj uj

+ yjuj

 

 

j=1 λj +αm(

λj )

ɶ

 

 

 

 

 

 

ɶ

 

 

 

 

 

 

 

 

j= p+1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ɶ

12 ɶ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где yj

= uj ,Cη

 

f . Тогда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

69

70

 

1

 

p

 

α m(λj )

ɶ2

 

N

ɶ2

 

 

ρW (α ) =

2

 

2

 

+

 

.

(2.4.18)

+αm(λj )

yj

yj

 

ση

j=1

λj

 

 

 

j= p+1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Видно, что от параметра регуляризации α зависит только первая сумма в (2.4.18). Используя свойство ортогональности матрицы U и (2.4.16), можно показать справедливость выражения:

 

 

 

1

p

α m(λj )

ɶ2

 

M

ρW (α ) = M

 

 

+ N p . (2.4.19)

ση2

λj2 +αm(λj )

yj

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

Введем γ = 1/α и функции

 

 

 

1

 

p

 

 

m(λj )

 

ɶ2

 

 

 

 

 

 

RW (γ ) =

 

2

 

2

 

 

,

 

 

 

(2.4.20)

 

 

 

 

)

yj

 

 

 

 

 

 

ση j=1

 

γ λj +m(λj

 

 

 

 

 

 

 

RW (γ )

 

 

 

1

p

λj2 m(λj )

 

 

ɶ2

 

 

 

 

 

= −

 

 

2

 

 

 

 

 

2

. (2.4.21)

RW (γ ) =

γ

 

 

 

 

γ λj2

+m(

 

)

yj

 

 

 

 

 

 

ση

j=1

λj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда значение αW , при котором принимается гипотеза (2.4.2)

(гипотеза об оптимальности параметра регуляризации), вычисляется как

αW = 1 γW ,

(2.4.22)

где γW удовлетворяет условию:

ϑp (β 2) RW (γ ) ϑp (1β 2) ,

(2.4.23)

а ϑp (β 2) , ϑp (1β 2) – квантили χ2 -распределения с p степенями свободы уровней β 2 , 1β 2 соответственно.

Для вычисления γW используем итерационную процедуру ньютоновского типа:

γ (n) = γ (n1)

RW (γ (n1) ) p

 

RW(γ (n1) ) , n =1,2,...,

(2.4.24)

с начальным значением γ (0) 1015 . В качестве γW принимается значение γ (n) , удовлетворяющее (2.4.23). Заметим, что эта процедура решает нелинейное уравнение RW (γ ) = p , но момент останова определяется условием (2.4.23).

Утверждение 2.4.3. Если выполняется условие

1

p ɶ2

>ϑp (1β 2),

(2.4.25)

σ 2

yj

ηj=1

то существует γW > 0, удовлетворяющее условию (2.4.23) и вычисляемое процедурой (2.4.24).

 

Сходимость процедуры (2.4.24) следует из очевидных

свойств функций R (γ ) ,

R(γ ) (см. (2.4.20), (2.4.21))

 

W

W

R

(γ ) > 0 , R(γ ) < 0 для любых γ > 0 . Условие (2.4.25) гаран-

W

W

 

тирует существование значения γ , удовлетворяющее (2.4.23). ♣ Замечание 2.4.1. Условие (2.4.25) может быть заменено ус-

ловием

 

 

 

fɶT V 1 fɶ > ϑ

N

(1β 2) ,

(2.4.26)

η

 

 

сформулированным для исходного вектора

fɶ правой части ре-

шаемой СЛАУ.

 

 

 

Замечание 2.4.2. Невыполнение условий (2.4.25) или (2.4.26) означает, что правая часть содержит только погрешности ηi и, следовательно, с вероятностью β ошибки первого рода можно принять гипотезу о том, что решение ϕ равно нулевому вектору

(т.е. γW = 0 , αW = ∞ ).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В качестве иллюстрации на рис. 2.9 показан график функции

R

(γ ) (кривая 1),

относительной ошибки

 

 

 

+

 

 

 

2

 

 

 

 

 

+

 

 

 

2

ϕ

 

 

 

 

 

 

 

 

 

γ

ϕ

 

ϕ

W

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(кривая 2), а также границы ϑ24 (0.05), ϑ24 (0.95), вычисленные по формулам (2.4.26) (кривые 3, 4 соответственно). В этом вы-

71

72

числительном эксперименте размер матрицы K равен 100×30 , число обусловленности 3 1010 , относительный уровень погрешности правой части δ f = η f = 0.05 . В качестве p использо-

вался практический ранг pП = 24. Видим, что все значения γW (для которых значения RW (γ ) попадают в интервал (2.4.23)) на-

ходятся в области минимума относительной ошибки регуляризированного решения.

Рис. 2.9. Графики RW (γ ) и относительной ошибки решения Рассмотрим сходимость решения ϕαW , построенного при

α = αW . Для этого введем функцию:

 

α

p

 

m(λj )

ɶ2

ρpW (α) = RW (1/α ) =

 

 

 

yj . (2.4.27)

2

2

+αm(λj )

 

ση j=1

λj

 

Заметим, что граничные точки ϑp (β 2), ϑp (1β 2) не зависят от дисперсии ση2 , а зависят от вероятности β ошибки первого рода и ранга p матрицы системы (или практического ранга

pП ). Поэтому для попадания

величин ρpW (α ) , RW (1/α ) в ин-

тервал ϑ

(β 2),ϑ

p

(1β

2)

необходимо, чтобы α изменялось

 

p

 

 

 

 

 

с такой же скоростью, как

уменьшается дисперсия ση2 , т.е.

α

σ 2 (см. 2.4.27). Тогда из выражения (2.3.41) следует, что

W

η

 

 

 

 

 

 

αW

имеет тот же порядок изменения, как и αopt . Следовательно,

скорость сходимости решения ϕα

будет такой же, как у реше-

 

 

 

 

 

 

W

ния ϕα , построенного при оптимальном параметре регуляризации αopt .

2.4.3. Алгоритм выбора параметра по статистическому варианту принципа невязки

Принцип невязки был предложен В.А. Морозовым [51], а затем широко использовался для выбора параметра регуляризации [39; 54; 80; 88; 90; 91], в том числе и при неточно заданном операторе задачи (принцип обобщенной невязки [37; 38; 71; 77; 78]. Статистический вариант этого принципа основывается на следующих рассуждениях. При завышенном значении параметра регуляризации α вектор невязки eα имеет значительную неслу-

чайную составляющую, из-за которой ковариационная матрица невязки Ve (α ) больше матрицы ковариационной матрицы Vη

вектора погрешностей η . Уменьшая α , нужно достигнуть тако-

го значения, при котором статические свойства вектора невязки «совпадали» со свойствами вектора η . Статические свойства

вектора будем определять его ковариационной матрицей. Для вычисления такого значения (которое обозначим как αV ) вновь обратимся к проверке статической гипотезы

H0 :Ve (α) = Vη

(2.4.28)

и введем статистику

ρV (α) = eαTVη1eα .

73

74

В качестве αV

принимает такое значение α , при котором ρV (α)

подчиняется χ2 -распределению

с N

степенями

свободы. По

аналогии с вычислением

αW введем γ = 1/α и функции

 

 

 

 

 

1

 

 

 

p

 

m(λj )

 

 

2 ɶ2

 

 

 

 

RV (γ )

=

 

 

2

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

yj

 

 

 

 

 

 

 

ση

 

 

j=1

 

γ λj

+m(λj )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

RV

(γ )

 

 

 

 

2

p

λj2 m2 (λj )

 

ɶ2

 

(γ ) =

 

 

 

 

= −

 

 

2

 

 

 

 

 

 

 

 

RV

 

 

 

 

 

 

γ λj2

+m(λj )

3 yj .

 

 

γ

 

 

 

 

 

 

 

ση

j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда значение αV , при котором принимается гипотеза (2.4.28),

вычисляется как

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

αV

= 1 γV ,

 

 

 

 

 

 

 

где γV удовлетворяет условию

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ϑp (β 2) ≤ RV (γV ) ≤ ϑp (1− β 2) ,

 

 

 

 

(2.4.29)

а ϑp (β 2) , ϑp (1− β 2)

– квантили χ2 -распределения с

p сте-

пенями свободы уровней β 2 , 1− β 2 соответственно.

 

Для вычисления γV

вновь используем итерационную проце-

дуру ньютоновского типа:

 

 

 

RV (γ (n1) ) − p

 

 

 

 

 

 

 

 

γ (n) = γ (n1)

 

, n =1,2,...,

(2.4.30)

 

 

 

 

RV′ (γ (n1) )

 

с начальным значением γ (0)

1015 . В качестве γ

V

принимается

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

значение γ (n) , удовлетворяющее (2.4.29). По аналогии с утвер-

ждением 2.4.3 доказывается Утверждение 2.4.4. Если выполняется условие

σ12 p yɶ2j > ϑp (1− β 2) ,

η j=1

то существует γV > 0 , удовлетворяющее условию (2.4.30) и вычисляемое процедурой (2.4.31).

 

Рассмотрим сходимость

решения

ϕα

, построенного

при

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

V

 

 

 

 

 

 

α = αV . Для этого введем функцию:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α2

p

 

 

 

m(λj )

2

ɶ2

 

 

 

 

ρpV (α) = RV (1/α ) =

 

2

 

2

 

 

 

.

(2.4.31)

 

 

 

 

yj

 

 

 

 

 

 

 

 

 

ση j=1

λj

+αm(λj )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Заметим, что граничные точки ϑp (β 2), ϑp (1− β 2)

не зависят

от дисперсии ση2 , а зависят от вероятности β

ошибки первого

рода и ранга

 

p матрицы системы (или практического ранга pП ).

Поэтому для попадания

величин ρpV (α ) ,

RV (1/α )

в интервал

ϑ

(β 2)

,ϑ

p

(1− β 2)

необходимо

(это

следует из

(2.4.31)),

p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

чтобы α2

изменялось с такой же скоростью, как уменьшается

дисперсия σ

2

, т.е. α σ

η

. Это отличается от скорости измене-

 

 

 

 

η

V

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ния

оптимального параметра

регуляризации

 

αopt

ση2

(см.

(2.3.41)).

Следует заметить, что выбор параметра по принципу невязки приводит к завышенным (по сравнению с αopt ) значениям.

75

76

Для иллюстрации этого на рис. 2.10 показаны графики функции

Рис. 2.10. Графики RV (γ ) и относительной ошибки решения

R

(γ ) (кривая 1), относительной ошибки

 

 

 

ϕ

 

 

+

 

 

 

2

 

 

 

 

 

+

 

 

 

2

(кри-

 

 

 

 

 

 

 

 

 

 

 

1 γ

ϕ

 

ϕ

V

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

вая 2), а также границы ϑ24 (0.05), ϑ24 (0.95), вычисленные по

формулам (2.4.31) (кривые 3, 4 соответственно). В этом вычислительном эксперименте размер матрицы K равен 100×30 , число

обусловленности 3 1010 , относительный уровень погрешности правой части δ f = η f = 0.05 . В качестве p использовался

практический ранг pП = 24. Видим, что все значения γV (для которых значения RV (γ ) попадают в интервал (2.4.28)) смещены

влево от области минимума относительной ошибки регуляризированного решения, а это соответствует завышенным (по сравнению с αopt ) значениям параметра регуляризации.

Рассмотренные два алгоритма оценивания αopt имеют существенный недостаток: требуется задание дисперсии ση2 , которая часто неизвестна на практике. Хотя ниже и будут предложены

две несмещенные оценки для дисперсии ση2 , сейчас рассмотрим алгоритм выбора α , не требующий задания ση2 .

2.4.4. Выбор параметра методом перекрестной значимости

Предположим, что корреляционная матрица шума измерений Vη неизвестна, но соседние проекции шума не коррелиро-

ванны между собой, так что матрица Vη является диагональной.

В этом случае регуляризированное решение ϕα определяется из системы уравнений

(KT K +α Wϕ )ϕα = KT fɶ .

(2.4.32)

Эта система получается из системы (2.3.18) при Wf = IN (или Vη = IN ). Для выбора параметра α , входящего в (2.4.33), обра-

тимся к методу перекрестной значимости (cross-validation method, в дальнейшем обозначаемый как CV-метод). Этот метод получил широкое применение при построении сглаживающих сплайнов [83; 99], при решении интегральных уравнений I рода с разностным ядром [10; 30], а также при решении плохо обусловленных СЛАУ [20; 81]. Выбор параметра в CV-методе осуществляется из условия минимума функционала

 

U (α ) =

1

( fɶi {Kϕα(i)} )2

,

(2.4.33)

 

 

 

 

N i Iu

i

 

 

 

 

 

 

 

 

 

где ϕ(i)

– решение, построенное по вектору

 

fɶ(i) , полученному из

α

 

 

 

 

 

 

 

вектора

fɶ путем удаления проекции fɶ

; I

U

– множество индек-

 

 

 

i

 

 

 

сов, состоящее из значений {1,2,..., N} . Величина αU , доставляющая минимум U (α ) , применяется в качестве параметра регуляризации, выбранного по методу перекрестной значимости.

Заметим, что функцию U (α ) можно рассматривать как

ошибку предсказания проекций правой части по регуляризированному решению, построенному без учета этих проекций, и по-

77

78

этому CV-метод используется для выбора α при точно заданной матрице решений СЛАУ.

Минимизация U (α ) требует многократных построений ре-

гуляризированных решений ϕα(i) , i IU , для каждого значения α .

Для преодоления этого недостатка был предложен обобщенный метод перекрестной значимости (GCV-метод), в котором ошибки предсказания суммируются с некоторыми весами и при специальном выборе этих весов минимизируемый функционал можно записать в виде:

 

 

1

( fɶi −{Kϕα(i)}

)2

 

 

UG (α ) =

 

 

,

(2.4.34)

N

i

 

 

 

2

 

 

1

 

 

 

 

 

 

 

Sp(I A(α ))

 

 

 

 

 

 

 

 

 

N

 

 

 

где Sp[ ] – след матрицы, а матрица A(α )

размером N N осу-

ществляет отображение

вектора fɶ

в вектор

Kϕ :

 

 

 

 

 

 

 

 

α

A(α ) = K (KT K +αWϕ )1

KT . Значение αU , доставляющее мини-

мум функционалу (2.4.35), принимается в качестве параметра регуляризации, выбранному по обобщенному методу перекрестной значимости.

К недостаткам GCV-метода следует отнести большие вычислительные затраты, обусловленные необходимостью вычис-

ления матрицы A(α ) для каждого текущего значения α. Для

преодоления этого недостатка используем сингулярное разложение для вычисления UG (α) . Как и прежде, регуляризированные решения будем находить в виде:

 

p

 

λj

 

 

 

 

ϕα =

 

uj , fɶ

vTj ,

(2.4.35)

 

2

+αm(λj )

 

j=1

λj

 

 

 

 

 

 

 

 

 

 

где vj , uj

j -е столбцы матриц V, U, входящие в сингулярное

разложение

K =UΛVT . Тогда функционал (2.4.34) можно пред-

ставить в виде [20]:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

αm(λj )

 

 

 

2

 

 

 

 

 

 

 

 

1

p

 

ɶ

N

ɶ

2

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

N

+αm(λj )

yj

+ yj

 

 

 

 

 

j=1

λj

 

 

 

j= p+1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

U

 

(α ) =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

(2.4.36)

G

 

 

1

 

p

 

αm(λj )

 

 

 

N p 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

N

j=1

λj +αm(λj )

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где yɶj – проекции вектора yɶ =UT fɶ . Это представление функционала UG (α ) не требует обращения матрицы и для нахожде-

ния минимума позволяет использовать известные алгоритмы минимизации первого порядка, что существенно уменьшает вычислительные затраты для нахождения αU .

 

 

 

В качестве иллюстрации на рис. 2.11 показаны графики за-

висимостей

 

UG (α ) (кривая 1) и относительная ошибка

 

ϕ

 

 

 

+

 

2

 

 

 

 

+

 

 

 

2

(кривая 2). Видим, что значение α 0.1 (точ-

 

α

ϕ

 

 

ϕ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

U

 

 

U

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ка минимума функционала (2.4.34)) находится в области минимума относительной ошибки. Однако из рисунка видно, что левая ветвь функционала имеет пологий характер, что затрудняет поиск точки минимума численными методами.

Численные исследования точности регуляризированных решений, построенных при α =αU проводятся ниже. Сразу же от-

метим, что в случае коррелированных проекций ηi (коэффициент корреляции по модулю больше 0.2) вычисляемые значения αU на два и более порядков меньше αopt . Это обусловливает существенное понижение точности решения ϕαU по сравнению с оптимальным решением ϕαopt .

79

80