книги / Основы теории оценивания с приложениями к задачам обработки навигационной информации. Ч. 1 Введение в теорию оценивания
.pdfВсвязи со сказанным возникает вполне логичный вопрос, а можно ли
врассматриваемом примере повысить точность оценивания за счет пере хода от линейного алгоритма к нелинейному? Ответ на него обсуждается при рассмотрении примера 2.5.1 в следующем подразделе. ♦
Анализ графиков на рис. 2.4.1 подсказывает достаточно понят ную геометрическую интерпретацию процедуры нахождения па раметров у и Н для эквивалентных линейных измерений: подоб
рать |
линейное |
описание |
для |
нелинейной |
функции |
s(x) ~ у + Н ( х - х ) |
так, чтобы в |
области априорной неопределенно |
сти она в некотором смысле наилучшим образом описывала бы s (x ) . Введем количественный критерий, соответствующий методу наименьших квадратов и характеризующий качество приближения
J(ÿ,H) = J(s(x)-H(x-x) - ÿ)2f(x)dx. |
(2.4.36) |
Проведем минимизацию этого критерия относительно у и Н.
Вычисляя необходимые производные и приравнивая их к нулю, получаем выражения:
j(*(*) ~ Щх - x) - ÿ)(x- x)f(x)dx =0,
dH
из которых с очевидностью следует, что соотношения для у и Н,
минимизирующие критерий (2.4.36), совпадают с выражениями для линейного оптимального алгоритма.
В принципе такая же геометрическая интерпретация может быть достаточно просто обобщена на общий векторный случай, при этом вместо (2.4.36) следует использовать критерий вида
J(ÿ, Я ) = J(s(x) - Н(х - х) - ÿ)T(s(x) - Н(х - je) - у)f(x)dx. (2.4.37)
Для того чтобы убедиться в этом, можно воспользоваться той же процедурой, как и при доказательстве необходимости и доста точности условий оптимальности для линейной оценки (задача 2.4.1).
В заключение подраздела еще раз обратим внимание на весьма важное обстоятельство, связанное с тем, что для получения линей
ного оптимального алгоритма оценивания х по измерениям (2.1.21) недостаточно располагать только первыми двумя момен тами для вектора х , а требуется знание ф.п.р.в. / (х ), кроме того, вместо предположения о некоррелированности х и v требуется их независимость. Таким образом, в нелинейной задаче уже не явля ется справедливым утверждение о том, что линейный оптималь ный алгоритм не зависит от характера распределений оцениваемо го вектора. Это утверждение справедливо лишь относительно рас пределения ошибок измерения, линейным образом входящих в уравнение измерений. В частности, заметим, что в рассмотренном примере 2.4.1 требование гауссовости для ошибок измерения не является принципиальным. В случае наличия независимых между
собой и от х ошибок измерения с заданными значениями г2 и v = 0 при любых законах распределения для v линейный опти мальный алгоритм сохранится прежним. Если же вместо предпо ложения о гауссовском характере для х ввести какой-либо другой закон распределения, например равномерный, то понятно, что ли нейный оптимальный алгоритм нахождения оценок изменится.
Задачи к разделу
Задача 2.4.1. Решая задачу нахождения оптимальной линейной несмещенной оценки, так как она сформулирована в 2.4.1, и пола гая, что векторы х и у центрированные, т.е. х = О и у = 0, дока жите следующее утверждение.
Для того чтобы линейная оценка х(у) = Ку вектора х по изме рениям (2.1.21) обеспечивала минимум критерия (2.4.5), необхо
димо и достаточно, чтобы матрица К 1"1, используемая при вычис лении этой оценки, удовлетворяла уравнению
К и"Ру = Р ху. |
(1) |
Н е о б х о д и м о с т ь . Пусть х(у) = К 1ту минимизирует(2.4.5), покажем, что Кшг удовлетворяет (1). Сформируем матрицу К в
виде К* - К 1"1+&К, где 8 - малый скалярный параметр, а К
произвольная матрица, соответствующей размерности. Подставляя
*
К в (2.45), получаем
J = М Х)У ^ p ( x - ( K lin + 8K)y)(x-(Kli” + 8K)y)TJ=
= Sp[px - K linP yx - P xy( K linУ + K ,in( K Kn)T ]-
- b S p (K P yx + P xyK T - K P y { K n"Y - K li"Py K r )+ b2SpKPy K T
Принимая во внимание, что следы прямой и транспонирован ной матриц совпадают, это выражение удобно преобразовать
J = Sp[Px - 2Рху (Klin)т + K lin (Klin)т] -
- 2SSp(PxyK r - K linPy K r ) + S2SpKPy K.
Поскольку матрица К 1"' по предположению минимизирует вы бранный критерий, то должно выполняться условие
dJ
= 2Sp(pxyK T - K linP yK r )= 2Sp(pxy - К !ыР у ) к т= 0 .
rfS 5=0
Очевидно, что для выполнения этого условия при любой мат
рице К , К ,ш должна удовлетворять уравнению (1).
Д о с т а т о ч н о с т ь . Предположим теперь, что К ,ш удовле творяет (1). Покажем, что оценка i'(_y) = К 1ш у минимизирует кри терий (2.4.5).
Подставляя эту оценку в (2.4.5), запишем
J Vm = М ХгУ{SH* - К Ппу){х - K ,iny)T}=
= Sp(px - 2Рху (К1'")т + K ,inPy (KUn)т).
Для произвольной матрицы К , заданной в виде (2), получим
7 = J u" - 2bSp{^Pxy - K linP y ) К Т) + 82SpKPyK T
Поскольку по предположению второе слагаемое обращается в
ноль, а третье в силу неотрицательности Р у неотрицательно, то
J n" < J , что и завершает доказательство достаточности.
Задача 2.4.2. Запишите выражения для оптимальной в средне квадратическом смысле линейной оценки и соответствующей ей апостериорной матрицы ковариаций ошибок, полагая, что реше нию подлежит линейная задача оценивания (2.1.10), (2.1.11) в ус
Контрольные вопросы
1.Сформулируйте постановку задачи получения оптимальной* в среднеквадратическом смысле оценки вектора х по измерени ям статистически связанного с ним вектора у без введения ог
раничений на класс используемых оценок.
2.Как по сравнению с постановкой задачи из первого вопроса она модифицируется для получения линейной оптимальной в сред неквадратическом смысле оценки вектора х по измерениям у ?
3.Чем количественно характеризуется потенциальная точность оптимального оценивания в рамках байесовского подхода в классе оценок, линейным образом зависящих от измерений?
4.Приведите необходимые и достаточные условия оптимальности при нахождении линейной оценки вектора х по измерениям у
ивыражение для матрицы ковариаций ошибок оценивания.
5.При каких предположениях линейная оптимальная в средне квадратическом смысле оценка вектора х по измерениям (2.1.10) совпадет с оценками, соответствующими различным вариантам МНК?
6.Дайте определение ортогональности ошибок линейных опти мальных оценок и поясните смысл этого понятия.
7.Перечислите и поясните основные свойства линейных опти мальных оценок.
8.Каким образом может быть получен линейный оптимальный алгоритм для нелинейной задачи? Приведите пример решения нелинейной задачи с использованием линейного оптимального алгоритма
9.Поясните, почему для получения линейного оптимального ал горитма в нелинейной задаче недостаточно располагать, только первыми двумя моментами для вектора х , а требуется знание ф.п.р.в. / ( х ) , а вместо предположения некоррелированности х
иV требуется их независимость?
2.5. Байесовский подход. Оптимальные оценки
Рассмотрим теперь в рамках байесовского подхода в общем случае нелинейную задачу оценивания (2.1.20), (2.1.21), сняв при
минимизации среднеквадратического критерия ограничения на класс используемых оценок. Поскольку при байесовском подходе случайным считается не только вектор ошибок измерения, но и вектор оцениваемых параметров, то для такого решения задачи необходимо располагать совместной ф.п.р.в. f xv(x,v), т. е. счи
тать, что статистические свойства векторов х и v полностью из вестны. Обсудим особенности и пути решения задачи оценивания в этом случае.
2.5.1. Постановка задачи и ее общее решение
Постановка задачи оценивания в рамках байесовского подхода при использовании квадратичной функции потерь сформулирова на в подразделе 2.4.1, из которого следует, что оценка отыскивает ся из условия минимизации критерия (2.4.1), количественно харак теризующего точность оценивания. Наличие совместной ф.п.р.в. для оцениваемого вектора и ошибок измерения f xv (.v, v) и выра
жения (2.1.21) обеспечивает возможность получения совместной
ф.п.р.в. для оцениваемого вектора и самих измерений f x<v{x,ÿ),
что в свою очередь позволяет вычислять критерий (2.4.1)
jE = м х,у - -*О0)т (х - * 0 ’))}= JJ(х - х(у)У (х - x(y))fx>},{x,ÿ)dxdy .(2.5.1) В этом случае задача оценивания х по измерениям у может
быть сформулирована так: располагая измерениями (2.1.21) и со
вместной ф.п.р.в. fx.y(x, y ) , найти оценку, минимизирующую
(2.5.1), без введения каких-либо ограничений на класс функций, которые используются при нахождении оценки. Такую оптималь ную в среднеквадратическом смысле оценку в дальнейшем будем, как правило, называть оптимальной байесовской оценкой или просто оптимальной оценкой.
Очевидно, что эта постановка полностью совпадает с рассмот ренной в подразделе 1.4.4 задачей регрессии. Отсюда следует, что
оптимальной оценкой является математическое ожидание, со ответствующее апостериорной плотности / ( JE/ у ), т. е. [16]
х(у) = J xf ( x / y)dx- |
(2.5.2) |
Таким образом, для нахождения оптимальной оценки в рамках байесовского подхода требуется вычисление многократного инте грала (2.5.2).
Заметим, что помимо квадратичной функции в (2.5.1) в байе совском подходе могут быть использованы и другие функции по терь, в частности простая или модульная [16, 44, 71]. Важно под черкнуть, что оценки, получающиеся в результате минимизации критериев при этих функциях потерь, также связаны с апостери орной плотностью. К примеру, для простой функции потерь в ка честве оценки выступает максимум апостериорной плотности, а при модульной - медианы апостериорных плотностей для
Д х ( 1у), i = [16,71].
При анализе точности в рамках байесовского подхода исполь зуются безусловная и условная апостериорные матрицы кова
риаций ошибок оценивания: |
|
P = Мху |[х -х(у)][х - х(у)]1}; |
(2.5.3) |
Р(у) = МАу {[х- .х(у)][х - х(у)]т }• |
(2.5.4) |
Матрица Р характеризует точность оценивания в среднем по всем измерениям, а Р(у) - точность оценивания при их конкрет ных значениях. В частности, диагональные элементы этих матриц определяют соответствующую точность оценивания компонент
X j J = \ . n .
Матрицы ковариаций для оптимальной оценки (2.5.2) в даль нейшем будем обозначать так:
Р = М ху{[х- х(.у)][х- х(у)П = Jj [х - х(.у)][х- x(y)}TJb,y)dxdy; (2-5.5)
Р(У) = ^ T|,{[^-Â-Cv)][x-x(y)]T} = \ [x -x{y)\[x-x{y)Yf{x/y)dxi2.5.6)
Важно обратить внимание на следующее обстоятельство. В от личие от алгоритмов, получаемых с использованием МНК или не байесовского подхода, в рамках байесовского подхода как в ли нейном, так и нелинейном случаях указывается не только алго ритм вычисления самой оценки, но и процедура вычисления соот ветствующей ей матрицы ковариаций Р(у) , характеризующей
расчетную точность оценивания для конкретной реализации изме
рений, используемой при нахождении оценок. При решении задач оценивания, связанных с обработкой навигационной информации, умение помимо самих оценок находить еще и численную характе ристику их точности, как уже отмечалось, имеет принципиальное значение. При использовании линейных алгоритмов такая харак теристика обычно формируется наряду с самой оценкой, без ка ких-либо дополнительных усилий. При решении нелинейных за дач для нахождения матрицы ковариаций Р(у) требуется вычис
ление интегралов (2.5.6).
С учетом сказанного под задачей синтеза оптимального ал горитма в рамках байесовского подхода будем понимать нахож дение процедуры, обеспечивающей не только вычисление самой оценки (2.5.2), но и соответствующей ей текущей характеристики точности в виде условной апостериорной матрицы ковариаций (2.5.6). Саму такую процедуру будем называть оптимальным ал горитмом.
Под задачей анализа точности в рамках байесовского под хода будем понимать получение безусловной апостериорной мат рицы ковариаций Р .
2.5.2. Свойства оптимальных оценок
Рассмотрим основные свойства оптимальных в среднеквадра тическом смысле байесовских оценок (2.5.2) и обсудим их особен
ности по сравнению со свойствами линейных оптимальных оце нок.
С в о й с т в о 1. Оценка (2.5.2) является несмещенной. В справедливости этого нетрудно убедиться, поскольку
М у Ш ) |
= j x ( y ) f },(y)dy = J jV (х | y ) f y(y)dxdy = |
= Л Х/( У |
I x ) f x(x)dydx = Jx(Jf ( y | x ) d y ) f x (x)dx = M x{*}. |
Обратим внимание, что требование несмещенности оказалось выполненным, хотя заранее, как это имело место при построении линейных оценок, условие несмещенности и не накладывалось.
Из свойства 1 вытекает, что выражение (2.5.2), определяющее правило отыскания оптимальных в среднеквадратическом смысле оценок в рамках байесовского подхода, обеспечивает фактически нахождение несмещенных оценок с минимальной дисперсией.
Отсюда следует, что в отличие от небайесовского подхода здесь удается указать общее правило нахождения таких оценок в виде (2.5.2).
С в о й с т в о 2 (свойство ортогональности). Ошибка опти
мальной оценки не коррелирована (ортогональна) с измерениями, т.е.
М х,у { ( х ~ * 0 ;) ) / } = 0- |
(2 -5 -7) |
Это равенство легко доказать, если вычислять математическое ожидание последовательно, сначала по f ( x / у) , а затем по f ( y ) .
Аналогично можно показать, что ошибка оценки не коррелиро вана (ортогональна) с оптимальной оценкой, т. е.
м х А ( х - *(> '))*т0>)} = °-
Ранее в разделе 2.4.3 было показано, что для оптимальной ли нейной оценки свойство ортогональности, определяемое согласно (2.5.7), является необходимым и достаточным. Для рассматривае мой здесь оценки данное свойство является лишь необходимым. Это означает, что если оценка оптимальна, то (2.5.7) справедливо, но не всякая оценка, удовлетворяющая (2.5.7), является оптималь ной байесовской оценкой, т.е. такой, которая обеспечивает мини мизацию критерия (2.5.1) без введения ограничений на класс оце нок. Исключение составляет гауссовская линейная задача, что лег ко объясняется, поскольку, как будет показано ниже, оптимальная байесовская оценка является линейной относительно измерений функцией.
С в о й с т в о 3. Матрицы ковариаций ошибки оценки (2.5.2), удовлетворяют следующим неравенствам [16, 80]:
Р - Р > 0; |
Р ( у ) - Р ( у ) > 0 . |
(2.5.8) |
Согласно (2.5.8) оптимальная в среднеквадратическом смысле
оценка минимизирует матрицы ковариаций ошибок оценивания, а сами апостериорные матрицы Р и Р(у) характеризуют потенци альную точность оптимального оценивания в рамках байесов ского подхода. Причем безусловная апостериорная матрица кова риаций Р - в среднем для всех измерений, а условная апостери орная матрица Р(у) - для конкретных измерений. Диагональные элементы этих матриц соответственно определяют потенциальную точность оценивания компонентXj, j = \.п .