
книги из ГПНТБ / Сакрисон, Д. Лекции об аналоговой связи
.pdf2.2. Оценивание неслучайных параметров |
21 |
в (2.13) |
вытекает, |
что lim |
c{w)u{w) = |
0. |
В |
силу |
|
|
ЬУ - > со |
|
|
|
|
симметрии |
те же |
рассуждения применимы |
и |
при |
||
â — а < 0. |
|
|
|
|
|
|
З а д а ч а 2.2. Пусть а — скалярная случайная |
вели |
|||||
чина, а Z |
обозначает /г-мерный |
случайный |
вектор, |
при |
чем совместное распределение а и Z гауссовское. Пред положим, что а и Z имеют нулевое математическое ожи
дание и матрицу ковариаций
2, |
• • • z a |
а |
2, |
|
|
RaZ — ■ |
Rz |
г] |
|
|
|
Zn |
г |
|
а |
|
где Rz есть (/гХ'г)-матрица, г — вектор-строка, г] — век тор-столбец, оа2— скаляр.
Обозначим через Q матрицу, обратную к Raг-
2, . . . Z n |
а |
2, |
— |
|
|
Qz |
q] |
Q — • |
|
Zn |
|
а |
Яа _ |
где Qz есть (п X «) -матрица.
Показать, что E {a |Z } — линейная функция от Z. При умелом использовании матричных обозначений и вида матрицы Q эта задача не требует громоздких вычис
лений.
2.2. О Ц Е Н И В А Н И Е Н Е С Л У Ч А Й Н Ы Х П А РА М ЕТРО В
Существуют различные ситуации (такие, как измере ние радиолокатором скорости вращения планеты),' когда нет смысла предполагать, что параметр а выбирается
22 |
Гл. 2. Оценка параметров |
случайным образом из некоторого множества, на кото ром можно разумным способом задать плотность априор ного распределения /(а). Этот случай, который мы ис следуем в настоящем разделе, логически не столь прост, как предыдущий. Трудность состоит в том, что нелегко непосредственно определить, что мы будем понимать под наилучшей оценкой. Чтобы обойти эту трудность, изберем следующий путь. Сначала, опираясь на интуи тивные соображения, определим некоторую оценку спе циального вида — так называемую оценку максималь ного правдоподобия. Затем получим границу качества оценивания для произвольной оценки а. Наконец, рас
смотрим ряд «хороших» свойств, которыми могут обла дать те или иные оценки, и покажем, что если суще ствует оценка, обладающая этими свойствами, то она совпадает с оценкой максимального правдоподобия.
Оценка максимального правдоподобия
Чтобы объяснить, почему мы уделяем оценке макси мального правдоподобия особое внимание, заметим сле дующее.
i) Как мы видели, при некоторых слабых ограниче ниях на плотность /(ct|z) для широкого класса функ ций потерь оптимальной оценкой является оценка мак симума апостериорной вероятности (МАВ); другими словами, это оценка, принимающая то значение а, при котором величина
f ( a \ z ) = П г \ Щ іа) |
(2.15) |
|
максимальна. |
|
|
ii) Поскольку f{z) |
в последнем равенстве не |
зави |
сит от а, оценка МАВ |
максимизирует f(z\a)f(a). |
Если |
же предположить, что наблюдение Z заметно увеличи вает надежность оценивания а, то функция /(z|a)/(a)
должна иметь гораздо более выраженный пик вблизи своей моды, чем f[a). Следовательно, в этом случае
максимум (относительно а) функции f(z|a)f(cc) распо ложен вблизи максимума функции f(z|a ).
Таким образом, в качестве оценки разумно выбрать то значение а, которое максимизирует /(z|a); эту оценку
2.2. Оценивание неслучайных параметров |
23 |
мы и будем называть оценкой максимального правдо подобия (МП). Желая подчеркнуть, что параметр а
здесь не предполагается случайным, мы будем для условной плотности /(z\a) использовать в дальнейшем обозначение fa (z). Это функция, которая при каждом фиксированном а является вероятностной плотностью по z. Рассматриваемая же как функция от а при фи ксированном z, она часто называется функцией правдо подобия.
В нашем рассуждении мы лишь для простоты счи тали, что а — скаляр; все замечания, относящиеся
к оценке максимального правдоподобия, в равной мере применимы и к векторному параметру а.
Свойства оценок
Определим свойства рассматриваемых статистиче ских оценок. Для ясности изложения будем различать следующие значения а:
а' — фактическое (истинное) значение параметра,
а— произвольное значение параметра,
а— значение оценки.
Параметр а является векторным, однако его размер ность не связана с размерностью вектора г. Мы будем обозначать через Еа { } математическое ожидание ве
личины, стоящей в фигурных скобках, относительно рас пределения вероятностей dPa (z) = fa (z)dz.
Будем называть оценку â несмещенной, если
E a{a(Z)} = a |
для всех |
« е і , |
(2.16) |
где зФ — множество тех значений' а, |
которые считаются |
||
априори возможными. |
|
|
|
Пусть Zft, k = \ , 2, |
. . . , — последовательность |
неза |
висимых одинаково распределенных случайных величин.
Предположим, что |
задана |
последовательность |
оценок |
|
о-п(z1 , • |
• • 1 zn), |
п = |
1, 2, . . . . |
|
Будем называть |
оценку |
ап |
состоятельной, |
если |
6t„(zi.......... z„) сходится по вероятности к а' при п-+оо.
24 |
Г л. 2. Оценка параметров |
|
||
Если существует такая функция a(z), что fa (z) |
||||
можно |
представить |
в виде |
|
|
|
fa (z) = |
g(a, a)w(z), |
ш (г )> 0 , |
(2.17) |
то a(z) |
называется достаточной статистикой для оценки |
|||
параметра а. Важность этого понятия объясняет |
||||
Т е о р е м а 2.3. Если a(z) — достаточная |
статистика |
для параметра а, то при любом выборе функции по терь байесовская оценка зависит лишь от a(z).
Д о к а з а т е л ь с т в о . |
|
Используя (2.17), |
предста |
||||
вим байесовский риск в виде |
|
|
|||||
% С = J dz J d a f ( a ) fa (z) C (a — â) = |
|
|
|||||
= |
|
dz w (z) |
|
dag [a (z), |
a] c (a — a). (2.18) |
||
Поскольку ш ( г )^ 0 , |
минимальное |
значение |
& c дости |
||||
гается тогда, |
когда |
внутренний интеграл минимален |
|||||
J |
|
|
J |
|
|
|
при каждом значении z. Но так как этот интеграл зави сит лишь от значения, принятого величиной а, а не от самих значений z, то любая оценка а, минимизирующая
(2.18), зависит лишь от а. Заметим, что в этом рас суждении существенную роль играет неотрицательность функции до.
Практическое значение достаточных статистик со стоит в том, что а может иметь меньшую размерность,
чем z, так что замена наблюдения z статистикой а зна чительно упрощает обработку наблюдений и вычисле ние оценок.
П р и м е р 2.4. Пусть Z u . . . , Zn — последователь
ность независимых гауссовских случайных величин с из-
2.2. Оценивание неслучайных параметров |
25 |
вестной дисперсией |
о2 и неизвестным средним а. Тогда |
|||||||||||
/a(z) = Д |
|
|
оУ е л р п |
izk - а)2 |
|
|
|
|||||
2 л |
|
2сг2 |
Г |
|
|
|
||||||
fe=I |
1 |
|
п |
1 |
||||||||
|
|
|
г |
- Л |
|
4 |
|
|
> )1 |
z k |
||
|
|
|
|
|
k=\ |
|
ехр |
— /іа" + 2 а |
. (2-19) |
|||
|
|
|
|
|
2 |
а 2 |
|
|
2от2 |
/е= |
|
|
Здесь |
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
- |
У |
|
|
|
|
|
|
|
|
|
|
|
|
!і=\ |
|
|
|
" |
^ |
“ |
( T s T |
ехр |
2а 2 |
|
|
||||
|
|
|
|
|
|
|
|
/га2 |
У1 г к |
|
|
|
g(ä, |
а) = |
ехр |
+ 2 аfc=i' |
|
|
|||||||
|
|
|
|
|
|
|
|
|
2а2 |
|
|
|
Таким образом, |
|
^ |
zk |
а |
также |
(1//г) 2 |
служит |
|||||
|
|
|
|
|
£=1 |
V |
|
|
й=1 |
/ |
||
достаточной |
статистикой |
для оценивания параметра а. |
||||||||||
З а д а ч а |
|
2.3. |
Пусть |
распределение |
имеет тот же |
вид, что и выше, со средним, равным нулю, и неизвест ной дисперсией о2. Найти достаточную статистику для а2. Является ли эта величина достаточной статистикой для стандартного отклонения а?
Отношение правдоподобия
Прежде чем приступить к выводу неравенства Кра мера— Рао, рассмотрим функцию отношения правдопо добия. Это позволит сформулировать результаты, кото
рые окажутся справедливыми и тогда, когда вместо конечномерного наблюдения г мы будем иметь дело
с выборочными функциями случайных процессов. Снова обозначим через бФ множество значений а,
предполагаемых априори возможными. Пусть суще ствует такое фиксированное значение ао, что
/a0( z ) > 0 |
(2 .20) |
|
26 |
Г л. |
2. Оценка параметров |
|
|
для тех |
z, для которых fa (z) > |
0 хотя бы при |
одном |
|
и б Л |
Определим |
отношение |
правдоподобия |
равен |
ством ') |
|
|
|
|
|
|
A a(z) = M ^ - . |
(2.21) |
Отметим, что условие (2.20) необходимо для того, чтобы функция Аа {г) была определена при каждом а s s& для всех z-событий, имеющих положительную
вероятность. При этом в качестве а0 можно взять любое значение, удовлетворяющее условию (2.20); на практике выбор ао определяется лишь удобством вычислений.
Читатель заметит также, что в случае конечномер ных наблюдений проводимые ниже вычисления, основан ные на Аа, можно с таким оке успехом провести с ис пользованием лишь fa.
Укажем теперь некоторые свойства отношения прав доподобия. Прежде всего для любого наблюдения z оценку максимального правдоподобия параметра а мож но определить как значение а, максимизирующее Aa (z). Далее, для любой случайной величины G — g(Z), зави
сящей от Z,
Ea { G } = |
J |
dzg (z) fa (z) = |
“ |
J |
rfz£ ( z ) A a (Z )/a0(Z) = E a0(G A a}> (2 -22) |
!) В том случае, когда распределение вероятностей Pa (z) нельзя описать функцией плотности, do выбирается таким образом, чтобы соотношение Р ао (В) Ф 0 выполнялось для всех событий В, для ко
торых |
Ра(В) Ф 0 хотя бы для некоторого а е Л Тогда в |
качестве |
|
A a (z) |
можно |
взять производную Радона — Никодима [3, |
стр, 140] |
вероятностной |
меры Pa(z) относительно меры Р 0о (z). Хотя |
повсюду |
в этой главе наши рассуждения опираются на существование веро ятностной плотности, все окончательные и промежуточные .резуль таты справедливы и в общем случае. Если же нельзя указать такое значение «о, что выполнено сформулированное выше условие, то при осуществлении события В по наблюдению Z можно безошибочно определить, какое из двух значений параметра передавалось. Такой случай принято называть сингулярным. Как мы видим, сингулярная математическая модель не является адекватной для большинства ре альных физических задач.
2.2. Оценивание неслучайных параметров |
27 |
где под Аа понимается случайная величина A a (Z). |
За |
метим, что |
|
1= J dz fa(Z) = J dzAa(Z) fa0(Z) = Ea, (Ла) ■ (2‘23)
Возьмем частные производные по а, от обеих частей
этого равенства и изменим порядок дифференцирова ния и взятия математического ожидания; получим
== EІr^ [ж 71пЛ“ |
A a(Z)fa0(Z) = |
|
|
ln Лп |
(2.24) |
U z ) } . |
|
Если указанное изменение порядка допустимо *) и, сле довательно, выполняется равенство (2.24), то функцию Аа называют регулярной относительно ее частных про
изводных по а первого порядка. Если же правую часть равенства (2.24) можно вторично продифференцировать по ah, изменив порядок дифференцирования и взятия математического ожидания, то функцию А а называют
регулярной относительно ее вторых частных производ ных по а.
З а д а ч а |
2.4. |
Показать, что если функция Аа регу |
|
лярна относительно вторых частных производных, то |
|||
Е“ { ~däj |
ІП Л° |
1п |
= — Е(1 { dat дак 1п А а} • (2.25) |
Левая часть равенства (2.25) представляет собой ковариацию двух случайных величин, являющуюся функцией параметра а. Обозначим эту величину через
bjk(a) и положим bjh = bjh(a'). |
Матрицу |
ковариаций, |
отвечающую bjh(а), обозначим через В (а), |
а обратную |
|
к ней — через G ( a ) = B ~ 1(a). |
Отметим, |
что хотя |
') По теореме о мажорируемой сходимости [3, стр. 135] это имеет место, если частные производные д А аІда,) ограничены абсо лютно интегрируемой (по мере Р „0(z)) функцией в некоторой после
довательности точек (*, сходящейся к интересующему нас значению параметра.
28 |
Г л. 2. Оценка параметров |
полученные в этом пункте результаты и не имеют непо средственной статистической интерпретации, однако, как мы увидим, они окажутся полезными в дальнейшем.
Неравенство Крамера— Рао
Найдем абсолютную границу эффективности, кото рую можно будет использовать как эталон для сравне ния различных оценок. При этом мы ограничимся лишь квадратичными функциями потерь и, не предполагая наличия априорного распределения параметра а, рас смотрим условный байесовский риск при а = а .
Естественной функцией потерь для векторного пара
метра а могла бы служить величина ||а — а'ІІ2Однако в ряде случаев такая мера близости не адекватна по ставленной задаче, поскольку нас может интересовать не только оценка самого параметра а, но и некоторых функций от а. Например, если а — радиолокационные координаты цели, то нас могут интересовать ее декар товы координаты. При этом, если ошибки малы (напри мер, ошибка в измерении дальности в процентном отно шении мала по сравнению с дальностью цели), для вы числения ошибки в преобразованных координатах можно воспользоваться разложением с точностью до пер вого порядка малости. Таким образом, в одной из пре образованных координат ошибка будет иметь вид
П
e = 2 c / ( a j — йу) = (с, а' — а), |
(2.26) |
и, таким образом, наша задача состоит в исследовании условных рисков вида
Е*' {е2} = Еа' |
Cjck (а' - |
Й,) (с£ — Й*)} = |
|
|
= ; 2 _Iс^,с*Еа, {(а) - |
Й/)(а; - |
ЙЛ)} = (с, |
R &с), (2.27) |
|
где Rü — корреляционная |
матрица |
ошибок |
в а-коорди* |
|
натах. |
|
|
|
|
2.2. Оценивание неслучайных параметров |
29 |
Мы хотим найти минимальное значение, которое мо жет принимать этот условный риск для любого значе ния с, какова бы ни была несмещенная оценка а. Сна
чала поясним, почему удобно потребовать выполнение условия несмещенности. Дело в том, что поскольку истинное значение а' параметра а нам неизвестно, мы должны были бы найти границу величины Еа»{е2} для некоторых значений а', которые кажутся нам наиболее характерными или вероятными. Заметим, однако, что для каждого отдельного значения а' можно получить
Е«' {е2} = 0, полагая попросту « (z) = а'. Естественно, нам хотелось бы избавиться от таких патологических оценок. Точнее, мы хотели бы, чтобы принимаемые
функцией a(z) значения отражали зависимость от а' при любых значениях а'. Одним из удобных и содержа
тельных условий такой зависимости является требова ние несмещенности оценки a(z):
Еа{а |
(Z)} = а при |
всех а е і . |
В ряде задач |
несмещенных |
оценок может не быть. |
В этом случае граница качества оценок должна также учитывать возможную величину смещения; см. ниже за мечание 2.3.
Приступим теперь к выводу границы для величины условного риска в (2.27) при произвольной несмещен ной оценке. Для такой оценки при любых с и а имеем
П
= S C/ J rfz(üy— ау) Ла ( z ) ( z ) . |
(2.28) |
Предположим, что функция Аа регулярна относи
тельно частных производных первого порядка. Диффе ренцируя обе части последнего равенства по щ и меняя
30 Гл. 2. Оценка параметров
порядок дифференцирования и интегрирования, после перегруппировки членов получаем
Сі = |
/=1 |
|
dz |
|
— аj) |
д |
ln Ла |
(«)1 |
Х С/ I |
|
(Äy — «X/) Г |
fa(z) = |
|||||
|
|
|
|
|
|
<5<хг |
|
|
Умножим |
обе |
части |
|
этого |
равенства |
на произвольные |
||
постоянные diy |
і = |
1, |
п, |
и просуммируем по і. Тогда |
(с, d) = Еа (с, а
Применим к правой части полученного равенства не равенство Шварца:
(с, d)2 ^ Еа {(с, а а)2} Еа { % |
dtd, |
д £ |
Ла |
|
||
|
|
^ г, /=I |
|
|
1 |
1 |
= |
Е„ {(с, S - « п 2 |
i ,d , Е„ { |
‘ |
^ |
I |
|
|
І, 1—1 |
^ |
|
|||
= |
Еа{(с, а — ce)2}(d, |
ß(a)d). |
|
|
(2.29) |
Рассмотрим неравенство (2.29) при а = а', В(а') = В. Предположим, что матрица В положительно определена, и положим d = Gc = В - 1с; тогда
(с, Gc)2< E a'(c, <х — а')2 (Gc, В В ~'с).
Заметим, что матрица G положительно определена (по скольку такова матрица В) и симметрична. Разделив
обе части последнего неравенства на (с, Gc), оконча тельно находим, что
Еа' {е2} = Еа' {(с, а' — а)2} = (с, Рйс) > (с, Gc). (2.30)
Мы получили хорошо известное неравенство Краме ра — Рао, описывающее абсолютную нижнюю границу редичины риски для любой несмещенной оценки при