Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Teoria_otsenivania.pdf
Скачиваний:
162
Добавлен:
02.04.2015
Размер:
2.66 Mб
Скачать

2.5 Байесовский метод оценивания.

Рассмотрим теперь основные положения байесовского подхода, отличительная особенность которого заключается в том, что при его использовании случайным считается не только вектор ошибок измерения, но и вектор оцениваемых параметров. Кроме того, предполагаются полностью известными их статистические свойства, заданные совместной ф.п.р.в. fx,v (x, ν) . Как будет

показано ниже, это позволяет построить алгоритмы, обеспечивающие заданные свойства ошибок оценивания, без введения каких-либо ограничений на класс используемых оценок.

2.5.1.Основные положения и постановка задачи.

Постановка задачи оценивания (2.1.20), (2.1.21) в рамках байесовского подхода при использовании квадратичной функции потерь совпадает с той, которая сформулирована в разделе 2.3.1, т.е. оценка отыскивается из условия минимизации критерия (2.3.1), количественно характеризующего точность оценивания. Но в отличие от рассматриваемого там подхода отыскиваемый алгоритм нахождения оценки не предполагается линейным, т.е. не вводится ограничений на класс функций при минимизации критерия. Такая возможность появляется в связи с тем, что известной считается совместная плотность fx,v (x, ν) , а не только ее два первых момента

[2.1, 2.2, 2.4].

 

 

 

 

 

 

 

 

 

 

 

 

Наличие fx,v (x, ν)

создает

предпосылки

для нахождения

fx,y (x, y) , что в свою

очередь

обеспечивает возможность вычисления критерия (2.3.1) в виде

 

 

 

J

Б

 

~

 

т

~

~

т

(x

~

( y)) fx,y (x, y)dxdy .

(2.5.1)

 

= M x,y {(x x ( y))

 

(x x ( y))}= ∫∫(x x ( y))

 

x

Этот критерий в рамках байесовского подхода называют байесовским риском или средними байесовскими потерями, а задача формулируется так: располагая измерениями (2.1.21) и

совместной ф.п.р.в. fx,y (x, y) найти оценку, минимизирующую (2.5.1), без введения каких либо

ограничений на класс функций, которые используются при нахождении оценки. Такую оптимальную в среднеквадратическом смысле оценку в дальнейшем будем, как правило, называть просто оптимальной оценкой.

Один из важных результатов теории статистического оценивания, заключается в том, что

оптимальной оценкой является математическое ожидание, соответствующее апостериорной

плотности f (x / y) , т. е. [2.1]

 

xˆ( y) = xf (x / y)dx.

(2.5.2)

Этот результат доказывается весьма просто [2.1]. Действительно, дифференцируя интеграл (2.5.2) по оценке и приравнивая полученный результат нулю, можем записать

68

 

d

 

 

~

 

т

~

~

 

т

 

 

 

 

(x

x

( y))

 

(x x ( y)) f (x / y)dx = −2(x x

( y))

 

f (x / y)dx = 0 .

~

( y)

 

 

 

dx

 

 

 

 

 

 

 

 

 

 

Отсюда следует, что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

т

 

 

 

~ т

( y)f (x / y)dx .

 

 

 

 

 

 

 

f (x / y)dx = x

 

 

 

Принимая во внимание условие нормировки, получаем, что оценка, минимизирующая (2.5.1), определяется в виде (2.5.2) и таким образом задача синтеза алгоритма в рамках байесовского подхода сводится к вычислению многократного интеграла (2.5.2).

Заметим, что помимо квадратичной функции в (2.5.1), в байесовском подходе могут быть использованы и другие функции потерь, в частности, простая или модульная [2.1, 2.2, 2.4]. Важно подчеркнуть, что оценки, получающиеся в результате минимизации критериев при этих функциях потерь, также связаны с апостериорной плотностью. К примеру, для простой функции потерь в качестве оценки выступает максимум апостериорной плотности, а при модульной - медианы

апостериорных плотностей для f (xi / y) , i =1.m [2.1, 2.4].

Для решения задачи анализа точности в рамках байесовского подхода можно ввести

безусловную и условную (апостериорную) матрицы ковариаций ошибок оценивания,

определяемые как:

 

 

 

 

 

 

 

 

 

 

 

 

~

~

 

~

( y)]

т

},

(2.5.3)

 

 

 

P

= M x,y {[x x

( y)][x x

 

 

 

~

 

~

~

( y)]

т

} .

 

 

(2.5.4)

 

 

P

( y) = M x|y {[x x ( y)][x x

 

 

 

Матрица

~

характеризует точность оценивания в среднем по всем измерениям, а

~

P

P( y)

точность оценивания при их конкретных значениях. В частности, диагональные элементы этих матриц определяют соответствующую точность оценивания компонент x j , j =1.n .

Матрицы ковариаций для оптимальной оценки (2.5.2) в дальнейшем будем обозначать как

P = M x,y {[x xˆ( y)][x xˆ( y)]т},

(2.5.5)

P( y) = M x|y {[x xˆ( y)][x xˆ( y)]т}.

(2.5.6)

2.5.2 Свойства оптимальных оценок.

Обсудим основные свойства оптимальной в среднеквадратическом смысле байесовской оценки

(2.5.2).

Свойство 1. Оценка (2.5.2) является несмещенной.

Заметим, что в рамках байесовского подхода оценка называется несмещенной, если выполняется равенство [2.1, 2.11]:

M y {xˆ( y)} = xfx (x)dx = M x {x}.

Такое определение уже использовалось в разделе 2.3.

69

В справедливости этого свойства нетрудно убедиться, поскольку

My {xˆ( y)} = xˆ( y) fy ( y)dy = ∫∫xf (x | y) fy ( y)dxdy =

=∫∫xf ( y | x) fx (x)dydx =x(f ( y | x)dy)fx (x)dx = M x {x}.

Обратим внимание, что требование несмещенности оказалось выполненным, хотя заранее условие несмещенности и не накладывалось.

Свойство 2 (свойство ортогональности). Ошибка оптимальной оценки не коррелирована (ортогональна) с измерениями, т.е.

M x,y {(x xˆ( y)) y т} = 0 .

(2.5.7)

Это равенство легко доказать, если вычислять математическое ожидание последовательно, сначала по f (x / y) , а затем по f ( y) .

Аналогично можно показать, что ошибка оценки не коррелирована (ортогональна) с оптимальной оценкой, т.е.

M x,y {(x xˆ( y))xˆ т ( y)} = 0 .

Свойство 3. Матрицы ковариаций ошибки оценки (2.5.2), удовлетворяют следующим

неравенствам [2.1, 2.11]

 

 

 

 

 

~

P 0 ,

~

( y)

P( y) 0 .

(2.5.8)

P

P

Напомним, что выражение P 0

для матрицы

означает неотрицательную

определенность

соответствующей ей квадратичной формы.

~

Свойство 4. Оценка (2.5.2) минимизирует определители матриц P и P( y) [2.1, 2.11].

Свойство 5. Оптимальная оценка - мерного вектора ~ , связанного с -мерным вектором m x n x

 

 

~

=Tx , где Т

произвольная m × n

матрица, определяется как

линейным преобразованием x

( y) =Txˆ( y) , где

xˆ( y) - оптимальная оценка вектора x . В этом нетрудно убедиться, используя

x

соотношение (2.5.2).

В рамках байесовского подхода также вводится понятие эффективности оценок, которое, как и при небайесовском подходе, вытекает из неравенства Рао-Крамера, записываемого в данном случае в виде [2.1, 2.11]:

 

P

=

M x,y {(x

ˆ

 

 

ˆ

т

 

Б

)

1

,

(2.5.9)

 

 

x( y))(x

x( y))

 

}

(I

 

 

 

где I Б определяется как

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ln f

 

(x, y) ln

f

 

(x, y)

т

 

 

Б

 

 

x,y

x,y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I

 

= M x,y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.

(2.5.10)

 

 

 

x

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для справедливости приведенного неравенства здесь требуется, чтобы условиям регулярности удовлетворяла совместная плотность распределения fx,y (x, y) . Суть этих условий сводится к существованию первых и вторых производных по x и абсолютной интегрируемости fx,y (x, y) .

70

Оценку xˆ( y) называют эффективной байесовской оценкой, если в (2.5.9) знак неравенства переходит в равенство.

Следует обратить внимание на тот факт, что в рамках байесовского подхода устанавливается граница для безусловной матрицы ковариаций. Соотношение между (I Б )1 и матрицей P( y) ,

которая для нелинейных задач зависит от измерений, не устанавливается.

Втеории оценивания известен следующий важный результат, который можно сформулировать как еще одно очень важное свойство [2.1].

Свойство 6. Если эффективная оценка существует, то она представляет собой оптимальную в среднеквадратическом смысле оценку, определяемую в виде (2.5.2).

Перечисленные выше свойства объясняют широкое распространение оценки (2.5.2) при решении задач оценивания в рамках байесовского подхода.

Из свойства 1 вытекает, что алгоритм (2.5.2) отыскания оптимальных в среднеквадратическом смысле оценок в рамках байесовского подхода, обеспечивает фактически нахождение

несмещенных оценок с минимальной дисперсией. Отсюда следует, что в отличие от небайесовского подхода здесь удается указать общее правило нахождения таких оценок в виде

(2.5.2).

Ранее в разделе 2.3.4 было показано, что для оптимальной линейной оценки свойство ортогональности, определяемое (2.5.7), является необходимым и достаточным. Для рассматриваемой здесь оценки данное свойство является лишь необходимым. Это означает, что если оценка оптимальна, то (2.5.7) справедливо, но не всякая оценка, удовлетворяющая (2.5.7), является оптимальной байесовской оценкой, т.е. такой - которая обеспечивает минимизацию критерия (2.5.1) без введения ограничений на класс оценок. Исключение составляет гауссовская линейная задача, что легко объясняется, поскольку как будет показано ниже, оптимальная байесовская оценка является линейной относительно измерений функцией.

Всвязи с неравенствами (2.5.8) можно говорить о том, что оптимальная в

среднеквадратическом смысле оценка минимизирует матрицы ковариаций ошибок оценивания, а

~

сами матрицы P и P( y) характеризуют потенциальную точность оптимального оценивания в

рамках баейсовского подхода. Причем матрица P - в среднем для всех измерений, а P( y) для конкретных измерений. Диагональные элементы этих матриц соответственно определяют потенциальную точность оценивания компонент x j , j =1.n .

Из (2.5.8), (2.5.9) также вытекает, что справедлива следующая цепочка неравенств:

 

 

~

Б

)

1

,

 

 

 

(2.5.11)

 

 

P P (I

 

 

 

 

 

где

~

- матрица, задаваемая выражением (2.5.3) и характеризующая точность произвольной

P

оценки

~

( y) . Знак «больше либо равно» в неравенстве P (I

Б

)

1

означает, что оптимальная в

x

 

 

среднеквадратическом смысле оценка не всегда обязана быть эффективной. В этом смысле матрица I Б определяет предельно достижимую точность оценивания в рамках байесовского

71

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]