Современные проблемы прикладной математики. Часть 1. Лекционный курс
.pdf
вектор ϕα регуляризированного решения СЛАУ можно представить как
p |
|
|
λj |
|
|
1 |
|
|
|
|
ϕα = ∑ |
|
|
|
|
uj ,Wf |
2 |
fɶ |
vj , |
(2.3.25) |
|
2 |
+αm(λj ) |
|||||||||
j=1 |
|
λj |
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
где vj , uj – j -е |
столбцы |
матриц V, |
U соответственно: |
|||||||
p – ранг (или практический ранг) матрицы K. Из (2.3.25) непосредственно следует матричное представление решения ϕα :
1 |
2 fɶ , |
|
ϕα =Vp RpαUpTWf |
(2.3.26) |
|
где Vp – матрица размера M p , составленная из |
p первых |
|
столбцов матрицы V; Up – матрица размера N p , составленная из p первых столбцов матрицы U; Rpα – диагональная матрица размера p × p следующей структуры:
|
|
λ1 |
|
0 |
|
0 |
|
|
|
|
λ2 |
+αm(λ ) |
|
|
|||||
|
|
|
|
|
|
|
|||
|
1 |
|
1 |
|
|
|
|
|
|
|
|
0 |
|
|
λ2 |
|
0 |
|
|
Rpα = |
|
|
|
λ22 +αm(λ2 ) |
|
. (2.3.27) |
|||
|
|
|
|
|
|
|
|
|
|
|
|
0 |
|
0 |
|
λp |
|
|
|
|
|
|
λp2 +αm(λp ) |
|
|
||||
Функция m(λ) является невозрастающей функцией, например
m(λ) = |
1 |
, |
(2.3.28) |
|
λγ |
||||
|
|
|
где γ ≥ 0 . Если γ = 0 , то Wϕ = I , что соответствует регуляризации нулевого порядка. Чем больше значение γ , тем в большей степени проекции вектора ϕα взаимосвязаны между собой. Это
обусловлено тем, что векторы vj , соответствующие малым λj и
имеющие осциллирующие проекции (см. рис. 2.2), не войдут в решение ϕα из-за пренебрежимо малого значения множителя
λj . λj2 +αm(λj )
Возникает вопрос: какой системе уравнений соответствует решение ϕα , допускающее представление (2.3.25)?
Утверждение 2.3.1. Вектор ϕα , имеющий представление (2.3.25) или (2.3.26), является решением системы (2.3.18), в которой матрица Wϕ является симметричной и определяется как
|
|
|
|
|
|
|
Wϕ =Vp diag{m(λ1 ),...,m(λp )}VpT . |
|
(2.3.29) |
|||||||||||
|
|
♣ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Используя разложение (2.3.24), вектор ϕα , являющийся ре- |
||||||||||||||||||
шением системы (2.3.3), можно записать в матричном виде |
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
m(λ1 ) |
|
m(λp ) |
|
|
|
|||
ϕ |
|
=V |
|
R |
|
UTW |
12 fɶ |
+αV |
diag |
,..., |
V Tω , (2.3.30) |
|||||||||
|
|
|
|
|
|
|||||||||||||||
|
α |
|
p |
|
pα |
p |
f |
|
p |
|
λ |
|
λ |
|
|
p |
ϕ |
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
p |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
или |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
λj |
|
12 ɶ |
|
αm(λj ) vj ,ωϕ |
|
|
|
|
|
|
|
|||
|
|
|
|
p |
|
uj ,Wf |
f |
|
|
|
|
|
p |
|
|
|||||
ϕα = ∑ |
|
|
|
|
|
+ |
|
|
|
|
vj |
= ∑xα j |
vj |
.(2.3.31) |
||||||
2 |
+αm(λj ) |
2 |
|
|
|
|||||||||||||||
|
|
|
j=1 |
λj |
|
λj +αm(λj ) |
|
|
|
|
j=1 |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Нетрудно видеть, что для малых сингулярных чисел λj |
первое |
|||||||||||||||||||
слагаемое становится пренебрежимо малым, а второе слагаемое
будет равно vj ,ωϕ . Следовательно, проекции xα j |
для таких λj |
||
будут равны проекциям пробного решения |
vj ,ωϕ |
. Таким обра- |
|
зом, пробное решение формирует проекции xα j , |
соответст- |
||
вующие очень малым λj |
. Очевидно, что |
при нулевом векторе |
|
ωϕ = 0M эти проекции xα j |
также будут равны нулю. |
||
61 |
62 |
Имеет место следующее Утверждение 2.3.2. Вектор ϕα , имеющий представление
(2.3.30) или (2.3.31), является решением системы (2.3.3), в которой матрица Wϕ является симметричной и определяется выраже-
нием (2.3.29). ♣
2.3.4. Систематическая и случайная ошибки решения ϕα
Как и ранее определим ошибку решения ϕα , определяемым вектором (2.3.25)
εα = ϕα −ϕ + , где ϕ + – нормальное псевдорешение системы (2.2.1) при точной
правой части f . Как и прежде, вектор εα представим суммой векторов случайной ξα и систематической bα ошибок:
ε |
|
= ϕ |
|
|
+ +ϕ |
+ −ϕ |
+ = ξ |
+ b . |
(2.3.32) |
α |
−ϕ |
||||||||
|
α |
|
α α |
α |
α |
|
|||
Вектор bα = Mη [εα ] можно назвать смещением решения ϕα . Для вектора ϕα , определяемого системой уравнений (2.3.18), систематическая ошибка bα имеет вид
bα = −α (K TWf K + αWϕ )−1 Wϕ ϕ |
+ , |
(2.3.33) |
а для вектора ϕα , определяемого системой уравнений (2.3.3), –
bα = α (K TWf K + αWϕ )−1 Wϕ (ωϕ − ϕ |
+ ). |
(2.3.34) |
Для доказательства (2.3.34) представим решение ϕα в виде:
ϕα = (KTWf K +αWϕ )−1 (KTWf f +αWϕωϕ ) =
=(KTWf K +αWϕ )−1 (KTWf Kϕ + +αWϕωϕ +αWϕϕ + −αWϕϕ + ) =
=(KTWf K +αWϕ )−1 ((KTWf K +αWϕ )ϕ + +αWϕ (ωϕ −ϕ + )) =
= ϕ + +α (KTWf K +αWϕ )−1Wϕ (ωϕ −ϕ + ).
Тогда из определения bα = ϕα − ϕ + следует (2.3.34). Выражение (2.3.33) получается из (2.3.34) заменой ωϕ = 0M .
Вектор
ξα = εα − Mη [εα ] = εα − bα |
(2.3.35) |
является случайным вектором с нулевым средним и определяется выражением
ξα = (KTWf K +αWϕ )−1 |
KTWfη . |
(2.3.36) |
||
Ковариационная матрица V |
= M ξ ξT |
этого вектора |
опреде- |
|
ξα |
α α |
|
|
|
ляется выражением:
Vξα = (KTWf K +αWϕ )−1 KTWfVηWf K (KTWf K +αWϕ )−1 ,(2.3.37) где Vη – ковариационная матрица вектора погрешностей η .
Среднеквадратическую ошибку |
решения ϕα |
определим |
||||||||||||||||||||||||||||||||||||||
функционалом |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
∆(α ) = M |
|
|
|
|
ϕ |
|
|
|
|
|
|
+ |
|
|
|
2 , |
|
|
|
|
(2.3.38) |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||
|
|
−ϕ |
|
|
|
|
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
η |
|
|
|
α |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
и ее можно записать (с учетом M [ξα ] = 0N ) в виде: |
|
|
|
|||||||||||||||||||||||||||||||||||||
|
∆(α ) = |
|
|
|
b |
|
|
|
2 |
+ M |
|
|
|
ξ |
|
|
|
|
|
2 |
= |
|
|
|
b |
|
|
|
2 + Sp V |
|
, (2.3.39) |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||
|
|
|
|
|
α |
|
|
|
|
|
|
|
|
|
|
|
|
|
α |
|
|
|
|
|
|
|
|
|
|
α |
|
|
|
|
ξα |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
где Sp V |
– след ковариационной матрицы V . |
|
|
|
||||||||||||||||||||||||||||||||||||
ξα |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ξα |
|
|
|
|||||||||
Из соотношений (2.3.33)–(2.3.34), (2.3.37) следует основное противоречие регуляризирующих алгоритмов: при уменьшении
параметра регуляризации α систематическая ошибка bα уменьшается, но увеличивается случайная ошибка ξα . При увеличении α происходит обратное. Следовательно, существует такое значение αopt (оптимальный параметр регуляризации), при
котором ∆(α ) достигает минимального значения. Для графиче-
63 |
64 |
ской иллюстрации этого противоречия на рис. 2.8 приведены графики зависимостей
|
|
|
|
|
|
2 |
|
|
|
|
|
ξα |
|
|
|
2 |
|
∆(α ) |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
bα |
|
|
|
|
– кривая 1; |
M |
|
|
|
|
|
|
|
– кривая 2; |
– кривая 3 |
|||||||||
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
ϕ |
|
|
2 |
|
ϕ |
|
2 |
|
|
|
ϕ |
|
2 |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
от параметра регуляризации α . Регуляризированное решение (2.3.25) строилось для СЛАУ, матрица которой имела размеры
100×30 и число обусловленности 3 1010 , а дисперсия погрешностей задания правой части соответствовала относительному уровню
шума (M |
|
|
|
η |
|
|
|
2 )1/ 2 |
/ |
|
|
|
f |
|
|
|
= 0.05 . Из рисунка видно, что αopt ≈ 3 . |
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Рис. 2.8. Зависимости составляющих ошибки решения от α
Значение αopt зависит от вектора ϕ + и ковариационной матрицы Vη . Для установления такой зависимости предположим, что
Vη = ση2Cη , Wf =Vη−1 , ϕ + =V x+ . Сравнивая (2.2.39) и (2.3.25), видим, что оптимальность алгоритма (2.3.25) имеет место, если
αopt mopt (λj ) = qopt j = |
|
σ 2 |
|
||||||||||
|
|
η |
|
||||||||||
|
|
|
. |
(2.3.40) |
|||||||||
( |
|
j+ )2 |
|||||||||||
x |
|
||||||||||||
Величина mopt (λj ) зависит от |
|
|
j+ |
и не зависит от ση2 . Поэтому |
|||||||||
|
x |
||||||||||||
справедлива зависимость |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
α |
opt |
= C σ 2 |
, |
|
|
|
|
(2.3.41) |
|||
|
|
|
|
α η |
|
|
|
|
|
|
|||
где C – константа, не зависящая от σ 2 , т.е. оптимальный пара- |
|||||||||||||
α |
|
|
|
|
|
|
η |
|
|||||
метр регуляризации имеет порядок ση2 . |
|
||||||||||||
|
|
+ (или |
|
+ ) невозможно точно вычислить |
|||||||||
Из-за незнания ϕ |
x |
||||||||||||
αopt , как решение вариационной задачи на минимум ∆(α ) . Если невозможно «точно» вычислить значение αopt , то возникает
важный для практических применений регуляризирующих алгоритмов вопрос: можно ли оценить (с приемлемой точностью)
оптимальный параметр регуляризации, используя для этого доступную при построении регуляризирующего алгоритма информацию?
Ответ на этот вопрос дается в следующем параграфе.
§ 2.4. Алгоритмы выбора параметра регуляризации
Выбор величины параметра регуляризации является основной проблемой при использовании регуляризирующих алгоритмов решения СЛАУ на практике. Поэтому в данном параграфе рассматриваются несколько алгоритмов, позволяющих оценить (более или менее удачно) значение оптимального параметра регуляризации αopt при различной априорной информации о по-
грешностях правой части СЛАУ. Приведенные результаты численных исследований этих алгоритмов выбора позволяют дать рекомендации по применению алгоритмов.
65 |
66 |
2.4.1. Выбор параметра регуляризации на основе критерия оптимальности
Введем оператор невязки E (α ) = I − KT (α ) , позволяющий представить вектор невязки eα = f − Kϕα в виде eα = E (α ) fɶ . Здесь T(α) – матричный оператор, который будет определен ниже. Вектор невязки является случайным, и поэтому определим
матрицу вторых моментов V (T ) = M e eT .
e T T
Имеет место следующее утверждение:
Утверждение 2.4.1. Необходимым и достаточным условие
оптимальности |
оператора |
T(α) , |
строящего решение |
|
ϕα = T(α) fɶ , где |
fɶ = Kϕ +η , является матричное тождество: |
|||
|
V |
(α ) =V ET (α ) , |
(2.4.1) |
|
|
e |
η |
|
|
где Vη – ковариационная матрица вектора погрешностей η . ♣
В качестве αopt берется такое значение αW , при котором принимается основная статистическая гипотеза:
H |
0 |
: V |
(α ) =V ET (α ) . |
(2.4.2) |
|
e |
η |
|
Эта гипотеза будет отвергаться в пользу альтернативной гипотезы
H |
1 |
: V |
(α ) ≠V ET (α ) , |
(2.4.3) |
|
e |
η |
|
если невыполнение тождества (2.4.2) обусловлено не случайными ошибками, возникающими из-за оценивания Ve (α ) по одной
реализации, а систематическими, обусловленными не оптимальностью параметра регуляризации. Таким образом, значение αW можно рассматривать как оценку оптимального параметра регуляризации αopt .
Для проверки гипотезы (2.4.2) введем статистику [11; 19; 93]
|
|
|
T |
|
|
T |
|
−1 |
(2.4.4) |
ρW (α ) = eα |
Vη E |
|
(α ) |
eα , |
|||||
Существование матрицы |
|
T |
|
−1 |
позволяет переписать |
ρW (α ) |
|||
E |
|
(α ) |
|
|
|||||
в виде |
|
|
|
|
|
|
|
|
|
ρ |
(α ) |
= fɶV |
−1e . |
|
(2.4.5) |
||||
W |
|
|
|
η |
|
α |
|
|
|
Для исследования свойств статистики ρW (α ) конкретизируем структуру оператора невязки E(α ) . Предположим, что реше-
ние ϕα определяется из системы уравнений |
|
|
|
|
|
|
|
|||||||||||||
|
(KTVη−1K +αWϕ )ϕα |
= KTVη−1 fɶ . |
|
|
(2.4.6) |
|||||||||||||||
Тогда соответствующий оператор невязки примет вид: |
||||||||||||||||||||
E(α ) = I − K (KTVη−1K +αWϕ )−1 |
KTVη−1 , |
|
|
(2.4.7) |
||||||||||||||||
и его можно записать как [19]: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
E (α ) =Vη (Vη +α −1KWϕ−1KT )−1 . |
|
|
(2.4.8) |
||||||||||||||||
Тогда статистика ρW (α ) |
определяется выражением |
|
|
|
||||||||||||||||
|
ρW (α ) = fɶ(Vη +α −1KWϕ−1KT )−1 |
fɶ . |
|
|
(2.4.9) |
|||||||||||||||
Утверждение 2.4.2. Если матрица Vη |
не вырождена, то: |
|||||||||||||||||||
а) для любого α > 0 статистика |
ρW (α ) |
есть сумма квадра- |
||||||||||||||||||
тов N случайных величин; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
б) для значений αW , при которых принимается гипотеза |
||||||||||||||||||||
(2.4.2), математическое ожидание |
M ρ |
w |
(α ) = N . |
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Первое свойство ρw (α ) непосредственно следует из (2.4.9). |
||||||||||||||||||||
Для доказательства второго используем выражение |
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
−1 |
|
|
|
|
|
|
|
|
|
|
|
|
M ρ (α ) = Sp |
V E |
T |
(α ) M |
e(α )e |
T |
(α ) |
, |
|||||||||||||
W |
|
|
( |
η |
|
|
) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
справедливое для любого α > 0 . Для α = αW имеем
67 |
68 |
|
|
W |
|
( η |
) |
−1 |
( η |
) |
|
N |
|
|
M |
ρ |
|
(α ) |
= Sp |
V ET (α ) |
V ET (α ) |
= Sp[I |
|
] = N , |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
где IN – единичная матрица размера N × N . |
♣ |
|
|
||||
Доказанные свойства статистики ρW (α ) позволяют аппрок- |
|||||||
симировать |
распределение |
ρ |
w |
(α ) при |
α = α |
W |
χ2 -распре- |
|
|
|
|
|
|
||
делением с |
N степенями |
свободы. Тогда |
проверка гипотезы |
||||
(2.4.2) сводиться к проверке предположения: подчиняется ли ве-
личина ρ (α ) |
χ2 -распределению с N степенями свободы. Для |
||||||||
W |
|
|
|
|
|
|
|
|
|
этого построим интервал |
|
|
|
|
|
|
|||
|
Θ |
N |
(β ) = ϑ |
(β 2),ϑ |
N |
(1− β |
2) , |
(2.4.10) |
|
|
|
|
N |
|
|
|
|
||
где ϑN (β 2) |
– квантиль |
χ2 -распределения уровня |
β /2 . Если |
||||||
ρW (α ) попадает в интервал (2.4.10), т.е. выполняется неравен- |
|||||||||
ство |
|
|
|
|
|
|
|
|
|
|
ϑN (β 2) ≤ ρW (α ) ≤ ϑN (1− β 2) , |
(2.4.11) |
|||||||
то гипотеза (2.4.2) может быть принята с вероятностью ошибки первого рода, равной β . Следовательно, значение αW , при кото-
ром выполняется (2.4.11), является оценкой для αopt .
Возникает вопрос: «Как вычислить значение αW?». Ниже приводится эффективный алгоритм вычисления αW, использующий сингулярное разложение матрицы системы. Алгоритм нахождения αW без сингулярного разложения приведен в работе [11, с. 166–167].
2.4.2. Алгоритм выбора параметра по критерию оптимально-
сти |
|
|
Предположим, что: |
|
|
• |
ковариационная матрица Vη допускает |
представление |
V = σ 2C (см. (2.2.21)), и определим сингулярное разложение |
||
η |
η η |
|
|
C−12 K = UΛV T , |
(2.4.12) |
|
η |
|
допуская при этом, что сингулярные числа λj |
упорядочены по |
||||||
убыванию, т.е. λj ≥ λj+1 |
и λj = 0, j = p +1,...,M , где |
p – ранг |
|||||
(или практический ранг) матрицы системы; |
|
|
|||||
• регуляризированное решение ϕα представимо в виде: |
|||||||
p |
|
λj |
|
− 1 |
|
|
|
ϕα = ∑ |
|
|
|
uj ,Cη |
2 fɶ |
vj , |
(2.4.13) |
2 |
+αm(λj ) |
||||||
j=1 |
λj |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где m(λ) невозрастающая функция (см. например, (2.3.28)).
Это представление следует из (2.3.25) при W |
f |
= C−1 . |
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
η |
|
|
Нетрудно показать, что вектор ϕα |
является решением сис- |
||||||||||||||||||||
темы |
|
|
(KT Cη−1K +αWϕ )ϕα = KT Cη−1 fɶ , |
|
|
||||||||||||||||
|
|
|
|
(2.4.14) |
|||||||||||||||||
в которой матрица Wϕ |
выражается соотношением: |
|
|||||||||||||||||||
|
Wϕ =Vp diag{m(λ1 ),m(λ2 ),...,m(λM )}VpT , |
|
|||||||||||||||||||
где Vp |
– матрица размера |
M p , составленная из p |
первых |
||||||||||||||||||
столбцов матрицы V , входящей в разложение (2.4.12). |
|
||||||||||||||||||||
С учетом (2.2.21) статистику ρW (α ) можно записать в виде |
|||||||||||||||||||||
|
|
|
|
σ 2 |
( |
|
|
) |
|
( |
|
|
|
|
) |
|
|
|
|
|
|
|
ρ |
|
(α ) = |
1 |
|
C |
−12 fɶ |
|
T |
|
C |
−1 |
2e |
|
|
, |
|
|
|
(2.4.15) |
|
|
w |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
η |
|
|
|
η |
α |
|
|
|
|
|
|
||||
|
|
|
|
|
η |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где векторы C−12 |
fɶ , C−12e |
допускают представление: |
|
||||||||||||||||||
|
η |
|
η |
|
α |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
−12 ɶ |
N |
|
|
|
−12 ɶ |
uj |
|
|
N |
ɶ |
|
|
, |
(2.4.16) |
|||||
|
Cη |
f = |
∑ uj ,Cη |
f |
= ∑yjuj |
||||||||||||||||
|
|
|
|
j=1 |
|
|
|
|
|
|
|
|
|
j=1 |
|
|
|
|
|||
|
−1 |
|
p |
|
|
α m(λj ) |
|
|
|
|
|
|
|
N |
|
(2.4.17) |
|||||
|
Cη |
2 |
eα = ∑ |
|
2 |
|
|
|
|
|
yj uj |
+ ∑ yjuj |
|||||||||
|
|
j=1 λj +αm( |
λj ) |
ɶ |
|
|
|
|
|
|
ɶ |
|
|||||||||
|
|
|
|
|
|
|
j= p+1 |
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ɶ |
−12 ɶ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
где yj |
= uj ,Cη |
|
f . Тогда |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
69 |
70 |
|
1 |
|
p |
|
α m(λj ) |
ɶ2 |
|
N |
ɶ2 |
|
|
|
ρW (α ) = |
2 |
|
∑ |
2 |
|
+ |
|
. |
(2.4.18) |
|||
+αm(λj ) |
yj |
∑ yj |
||||||||||
|
ση |
j=1 |
λj |
|
|
|
j= p+1 |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
Видно, что от параметра регуляризации α зависит только первая сумма в (2.4.18). Используя свойство ортогональности матрицы U и (2.4.16), можно показать справедливость выражения:
|
|
|
1 |
p |
α m(λj ) |
ɶ2 |
|
M |
ρW (α ) = M |
|
∑ |
|
+ N − p . (2.4.19) |
||
ση2 |
λj2 +αm(λj ) |
yj |
|||||
|
|
|
j=1 |
|
|
||
|
|
|
|
|
|
|
|
Введем γ = 1/α и функции
|
|
|
1 |
|
p |
|
|
m(λj ) |
|
ɶ2 |
|
|
|
|
|
|||
|
RW (γ ) = |
|
2 ∑ |
|
2 |
|
|
, |
|
|
|
(2.4.20) |
||||||
|
|
|
|
) |
yj |
|
|
|
||||||||||
|
|
|
ση j=1 |
|
γ λj +m(λj |
|
|
|
|
|
|
|||||||
′ |
|
∂RW (γ ) |
|
|
|
1 |
p |
λj2 m(λj ) |
|
|
ɶ2 |
|
||||||
|
|
|
|
= − |
|
|
2 |
∑ |
|
|
|
|
|
2 |
. (2.4.21) |
|||
RW (γ ) = |
∂γ |
|
|
|
|
γ λj2 |
+m( |
|
) |
yj |
||||||||
|
|
|
|
|
|
ση |
j=1 |
λj |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Тогда значение αW , при котором принимается гипотеза (2.4.2)
(гипотеза об оптимальности параметра регуляризации), вычисляется как
αW = 1 γW , |
(2.4.22) |
где γW удовлетворяет условию:
ϑp (β 2) ≤ RW (γ ) ≤ ϑp (1− β 2) , |
(2.4.23) |
а ϑp (β
2) , ϑp (1− β
2) – квантили χ2 -распределения с p степенями свободы уровней β
2 , 1− β
2 соответственно.
Для вычисления γW используем итерационную процедуру ньютоновского типа:
γ (n) = γ (n−1) − |
RW (γ (n−1) ) − p |
|
RW′ (γ (n−1) ) , n =1,2,..., |
(2.4.24) |
с начальным значением γ (0) 10−15 . В качестве γW принимается значение γ (n) , удовлетворяющее (2.4.23). Заметим, что эта процедура решает нелинейное уравнение RW (γ ) = p , но момент останова определяется условием (2.4.23).
Утверждение 2.4.3. Если выполняется условие
1 |
p ɶ2 |
>ϑp (1− β 2), |
(2.4.25) |
|
σ 2 |
||||
∑yj |
ηj=1
то существует γW > 0, удовлетворяющее условию (2.4.23) и вычисляемое процедурой (2.4.24).
|
Сходимость процедуры (2.4.24) следует из очевидных |
|
свойств функций R (γ ) , |
R′ (γ ) (см. (2.4.20), (2.4.21)) |
|
|
W |
W |
R |
(γ ) > 0 , R′ (γ ) < 0 для любых γ > 0 . Условие (2.4.25) гаран- |
|
W |
W |
|
тирует существование значения γ , удовлетворяющее (2.4.23). ♣ Замечание 2.4.1. Условие (2.4.25) может быть заменено ус-
ловием |
|
|
|
fɶT V −1 fɶ > ϑ |
N |
(1− β 2) , |
(2.4.26) |
η |
|
|
|
сформулированным для исходного вектора |
fɶ правой части ре- |
||
шаемой СЛАУ. ♦ |
|
|
|
Замечание 2.4.2. Невыполнение условий (2.4.25) или (2.4.26) означает, что правая часть содержит только погрешности ηi и, следовательно, с вероятностью β ошибки первого рода можно принять гипотезу о том, что решение ϕ равно нулевому вектору
(т.е. γW = 0 , αW = ∞ ). |
♦ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
В качестве иллюстрации на рис. 2.9 показан график функции |
||||||||||||||||||||
R |
(γ ) (кривая 1), |
относительной ошибки |
|
|
|
+ |
|
|
|
2 |
|
|
|
|
|
+ |
|
|
|
2 |
|
ϕ |
|
|
|
|
|
|
|
|
|
||||||||||||
γ |
−ϕ |
|
ϕ |
||||||||||||||||||
W |
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(кривая 2), а также границы ϑ24 (0.05), ϑ24 (0.95), вычисленные по формулам (2.4.26) (кривые 3, 4 соответственно). В этом вы-
71 |
72 |
числительном эксперименте размер матрицы K равен 100×30 , число обусловленности 3 1010 , относительный уровень погрешности правой части δ f = 
η



f 
= 0.05 . В качестве p использо-
вался практический ранг pП = 24. Видим, что все значения γW (для которых значения RW (γ ) попадают в интервал (2.4.23)) на-
ходятся в области минимума относительной ошибки регуляризированного решения.
Рис. 2.9. Графики RW (γ ) и относительной ошибки решения Рассмотрим сходимость решения ϕαW , построенного при
α = αW . Для этого введем функцию:
|
α |
p |
|
m(λj ) |
ɶ2 |
ρpW (α) = RW (1/α ) = |
|
∑ |
|
|
yj . (2.4.27) |
2 |
2 |
+αm(λj ) |
|||
|
ση j=1 |
λj |
|
||
Заметим, что граничные точки ϑp (β
2), ϑp (1− β
2) не зависят от дисперсии ση2 , а зависят от вероятности β ошибки первого рода и ранга p матрицы системы (или практического ранга
pП ). Поэтому для попадания |
величин ρpW (α ) , RW (1/α ) в ин- |
||||||
тервал ϑ |
(β 2),ϑ |
p |
(1− β |
2) |
необходимо, чтобы α изменялось |
||
|
p |
|
|
|
|
|
|
с такой же скоростью, как |
уменьшается дисперсия ση2 , т.е. |
||||||
α |
σ 2 (см. 2.4.27). Тогда из выражения (2.3.41) следует, что |
||||||
W |
η |
|
|
|
|
|
|
αW |
имеет тот же порядок изменения, как и αopt . Следовательно, |
||||||
скорость сходимости решения ϕα |
будет такой же, как у реше- |
||||||
|
|
|
|
|
|
W |
|
ния ϕα , построенного при оптимальном параметре регуляризации αopt .
2.4.3. Алгоритм выбора параметра по статистическому варианту принципа невязки
Принцип невязки был предложен В.А. Морозовым [51], а затем широко использовался для выбора параметра регуляризации [39; 54; 80; 88; 90; 91], в том числе и при неточно заданном операторе задачи (принцип обобщенной невязки [37; 38; 71; 77; 78]. Статистический вариант этого принципа основывается на следующих рассуждениях. При завышенном значении параметра регуляризации α вектор невязки eα имеет значительную неслу-
чайную составляющую, из-за которой ковариационная матрица невязки Ve (α ) больше матрицы ковариационной матрицы Vη
вектора погрешностей η . Уменьшая α , нужно достигнуть тако-
го значения, при котором статические свойства вектора невязки «совпадали» со свойствами вектора η . Статические свойства
вектора будем определять его ковариационной матрицей. Для вычисления такого значения (которое обозначим как αV ) вновь обратимся к проверке статической гипотезы
H0 :Ve (α) = Vη |
(2.4.28) |
и введем статистику
ρV (α) = eαTVη−1eα .
73 |
74 |
В качестве αV |
принимает такое значение α , при котором ρV (α) |
|||||||||||||||||||||
подчиняется χ2 -распределению |
с N |
степенями |
свободы. По |
|||||||||||||||||||
аналогии с вычислением |
αW введем γ = 1/α и функции |
|
||||||||||||||||||||
|
|
|
|
1 |
|
|
|
p |
|
m(λj ) |
|
|
2 ɶ2 |
|
|
|
||||||
|
RV (γ ) |
= |
|
|
2 |
∑ |
|
2 |
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
yj |
|
|
|
|||||||||||||
|
|
|
|
ση |
|
|
j=1 |
|
γ λj |
+m(λj ) |
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
′ |
|
∂RV |
(γ ) |
|
|
|
|
2 |
p |
λj2 m2 (λj ) |
|
ɶ2 |
|
|||||||||
(γ ) = |
|
|
|
|
= − |
|
|
2 |
∑ |
|
|
|
|
|
|
|
|
|||||
RV |
|
|
|
|
|
|
γ λj2 |
+m(λj ) |
3 yj . |
|||||||||||||
|
|
∂γ |
|
|
|
|
|
|
|
ση |
j=1 |
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Тогда значение αV , при котором принимается гипотеза (2.4.28), |
||||||||||||||||||||||
вычисляется как |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
αV |
= 1 γV , |
|
|
|
|
|
|
|
||||||
где γV удовлетворяет условию |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
ϑp (β 2) ≤ RV (γV ) ≤ ϑp (1− β 2) , |
|
|
|
|
(2.4.29) |
||||||||||||||||
а ϑp (β 2) , ϑp (1− β 2) |
– квантили χ2 -распределения с |
p сте- |
||||||||||||||||||||
пенями свободы уровней β 2 , 1− β 2 соответственно. |
|
|||||||||||||||||||||
Для вычисления γV |
вновь используем итерационную проце- |
|||||||||||||||||||||
дуру ньютоновского типа: |
|
|
|
RV (γ (n−1) ) − p |
|
|
|
|
|
|
|
|||||||||||
|
γ (n) = γ (n−1) − |
|
, n =1,2,..., |
(2.4.30) |
||||||||||||||||||
|
|
|
|
RV′ (γ (n−1) ) |
|
|||||||||||||||||
с начальным значением γ (0) |
10−15 . В качестве γ |
V |
принимается |
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
значение γ (n) , удовлетворяющее (2.4.29). По аналогии с утвер-
ждением 2.4.3 доказывается Утверждение 2.4.4. Если выполняется условие
σ12 ∑p yɶ2j > ϑp (1− β
2) ,
η j=1
то существует γV > 0 , удовлетворяющее условию (2.4.30) и вычисляемое процедурой (2.4.31).
|
Рассмотрим сходимость |
решения |
ϕα |
, построенного |
при |
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
V |
|
|
|
|
|
|
α = αV . Для этого введем функцию: |
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
α2 |
p |
|
|
|
m(λj ) |
2 |
ɶ2 |
|
|
|
||
|
ρpV (α) = RV (1/α ) = |
|
2 ∑ |
|
2 |
|
|
|
. |
(2.4.31) |
|||||||||||
|
|
|
|
yj |
|||||||||||||||||
|
|
|
|
|
|
|
|
|
ση j=1 |
λj |
+αm(λj ) |
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Заметим, что граничные точки ϑp (β 2), ϑp (1− β 2) |
не зависят |
||||||||||||||||||||
от дисперсии ση2 , а зависят от вероятности β |
ошибки первого |
||||||||||||||||||||
рода и ранга |
|
p матрицы системы (или практического ранга pП ). |
|||||||||||||||||||
Поэтому для попадания |
величин ρpV (α ) , |
RV (1/α ) |
в интервал |
||||||||||||||||||
ϑ |
(β 2) |
,ϑ |
p |
(1− β 2) |
необходимо |
(это |
следует из |
(2.4.31)), |
|||||||||||||
p |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
чтобы α2 |
изменялось с такой же скоростью, как уменьшается |
||||||||||||||||||||
дисперсия σ |
2 |
, т.е. α σ |
η |
. Это отличается от скорости измене- |
|||||||||||||||||
|
|
|
|
η |
V |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ния |
оптимального параметра |
регуляризации |
|
αopt |
ση2 |
(см. |
|||||||||||||||
(2.3.41)).
Следует заметить, что выбор параметра по принципу невязки приводит к завышенным (по сравнению с αopt ) значениям.
75 |
76 |
Для иллюстрации этого на рис. 2.10 показаны графики функции
Рис. 2.10. Графики RV (γ ) и относительной ошибки решения
R |
(γ ) (кривая 1), относительной ошибки |
|
|
|
ϕ |
|
|
+ |
|
|
|
2 |
|
|
|
|
|
+ |
|
|
|
2 |
(кри- |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
1 γ |
−ϕ |
|
ϕ |
|||||||||||||||||||||
V |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
вая 2), а также границы ϑ24 (0.05), ϑ24 (0.95), вычисленные по
формулам (2.4.31) (кривые 3, 4 соответственно). В этом вычислительном эксперименте размер матрицы K равен 100×30 , число
обусловленности 3 1010 , относительный уровень погрешности правой части δ f = 
η



f 
= 0.05 . В качестве p использовался
практический ранг pП = 24. Видим, что все значения γV (для которых значения RV (γ ) попадают в интервал (2.4.28)) смещены
влево от области минимума относительной ошибки регуляризированного решения, а это соответствует завышенным (по сравнению с αopt ) значениям параметра регуляризации.
Рассмотренные два алгоритма оценивания αopt имеют существенный недостаток: требуется задание дисперсии ση2 , которая часто неизвестна на практике. Хотя ниже и будут предложены
две несмещенные оценки для дисперсии ση2 , сейчас рассмотрим алгоритм выбора α , не требующий задания ση2 .
2.4.4. Выбор параметра методом перекрестной значимости
Предположим, что корреляционная матрица шума измерений Vη неизвестна, но соседние проекции шума не коррелиро-
ванны между собой, так что матрица Vη является диагональной.
В этом случае регуляризированное решение ϕα определяется из системы уравнений
(KT K +α Wϕ )ϕα = KT fɶ . |
(2.4.32) |
Эта система получается из системы (2.3.18) при Wf = IN (или Vη = IN ). Для выбора параметра α , входящего в (2.4.33), обра-
тимся к методу перекрестной значимости (cross-validation method, в дальнейшем обозначаемый как CV-метод). Этот метод получил широкое применение при построении сглаживающих сплайнов [83; 99], при решении интегральных уравнений I рода с разностным ядром [10; 30], а также при решении плохо обусловленных СЛАУ [20; 81]. Выбор параметра в CV-методе осуществляется из условия минимума функционала
|
U (α ) = |
1 |
∑( fɶi −{Kϕα(i)} )2 |
, |
(2.4.33) |
||
|
|
||||||
|
|
N i Iu |
i |
|
|
|
|
|
|
|
|
|
|
||
где ϕ(i) |
– решение, построенное по вектору |
|
fɶ(i) , полученному из |
||||
α |
|
|
|
|
|
|
|
вектора |
fɶ путем удаления проекции fɶ |
; I |
U |
– множество индек- |
|||
|
|
|
i |
|
|
|
|
сов, состоящее из значений {1,2,..., N} . Величина αU , доставляющая минимум U (α ) , применяется в качестве параметра регуляризации, выбранного по методу перекрестной значимости.
Заметим, что функцию U (α ) можно рассматривать как
ошибку предсказания проекций правой части по регуляризированному решению, построенному без учета этих проекций, и по-
77 |
78 |
этому CV-метод используется для выбора α при точно заданной матрице решений СЛАУ.
Минимизация U (α ) требует многократных построений ре-
гуляризированных решений ϕα(i) , i IU , для каждого значения α .
Для преодоления этого недостатка был предложен обобщенный метод перекрестной значимости (GCV-метод), в котором ошибки предсказания суммируются с некоторыми весами и при специальном выборе этих весов минимизируемый функционал можно записать в виде:
|
|
1 |
∑( fɶi −{Kϕα(i)} |
)2 |
|
|
||
UG (α ) = |
|
|
, |
(2.4.34) |
||||
N |
i |
|
||||||
|
|
2 |
||||||
|
|
1 |
|
|
|
|||
|
|
|
|
Sp(I − A(α )) |
|
|
||
|
|
|
|
|
||||
|
|
N |
|
|
|
|||
где Sp[ ] – след матрицы, а матрица A(α ) |
размером N N осу- |
|||||||
ществляет отображение |
вектора fɶ |
в вектор |
Kϕ : |
|||||
|
|
|
|
|
|
|
|
α |
A(α ) = K (KT K +αWϕ )−1 |
KT . Значение αU , доставляющее мини- |
|||||||
мум функционалу (2.4.35), принимается в качестве параметра регуляризации, выбранному по обобщенному методу перекрестной значимости.
К недостаткам GCV-метода следует отнести большие вычислительные затраты, обусловленные необходимостью вычис-
ления матрицы A(α ) для каждого текущего значения α. Для
преодоления этого недостатка используем сингулярное разложение для вычисления UG (α) . Как и прежде, регуляризированные решения будем находить в виде:
|
p |
|
λj |
|
|
|
|
ϕα = ∑ |
|
uj , fɶ |
vTj , |
(2.4.35) |
|
|
2 |
+αm(λj ) |
||||
|
j=1 |
λj |
|
|
|
|
|
|
|
|
|
|
|
где vj , uj – |
j -е столбцы матриц V, U, входящие в сингулярное |
|||||
разложение |
K =UΛVT . Тогда функционал (2.4.34) можно пред- |
|||||
ставить в виде [20]: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
αm(λj ) |
|
|
|
2 |
|
|
|
|
|
||
|
|
|
1 |
p |
|
ɶ |
N |
ɶ |
2 |
|
|
|||||||||
|
|
|
|
∑ |
|
2 |
|
|
|
|
|
|
|
|||||||
|
|
|
N |
+αm(λj ) |
yj |
+ ∑ yj |
|
|||||||||||||
|
|
|
|
j=1 |
λj |
|
|
|
j= p+1 |
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
U |
|
(α ) = |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
, |
(2.4.36) |
G |
|
|
1 |
|
p |
|
αm(λj ) |
|
|
|
N − p 2 |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
∑ |
|
|
|
|
+ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|||||
|
|
|
|
N |
j=1 |
λj +αm(λj ) |
|
N |
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где yɶj – проекции вектора yɶ =UT fɶ . Это представление функционала UG (α ) не требует обращения матрицы и для нахожде-
ния минимума позволяет использовать известные алгоритмы минимизации первого порядка, что существенно уменьшает вычислительные затраты для нахождения αU .
|
|
|
В качестве иллюстрации на рис. 2.11 показаны графики за- |
||||||||||||||
висимостей |
|
UG (α ) (кривая 1) и относительная ошибка |
|||||||||||||||
|
ϕ |
|
|
|
+ |
|
2 |
|
|
|
|
+ |
|
|
|
2 |
(кривая 2). Видим, что значение α 0.1 (точ- |
|
α |
−ϕ |
|
|
ϕ |
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
U |
|
|
|
U |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ка минимума функционала (2.4.34)) находится в области минимума относительной ошибки. Однако из рисунка видно, что левая ветвь функционала имеет пологий характер, что затрудняет поиск точки минимума численными методами.
Численные исследования точности регуляризированных решений, построенных при α =αU проводятся ниже. Сразу же от-
метим, что в случае коррелированных проекций ηi (коэффициент корреляции по модулю больше 0.2) вычисляемые значения αU на два и более порядков меньше αopt . Это обусловливает существенное понижение точности решения ϕαU по сравнению с оптимальным решением ϕαopt .
79 |
80 |
