

Тема 2. Критерий Байеса, оптимальные решающие функции.
Если известны ФПВ для классов объектов и их признаков, то на основе статистических функций и теории принятия решений могут быть разработаны
оптимальные решающие функции. Часто допускают предположение о том, что распределение признаков для каждого класса соответствует гауссовой (нормальной)
функции плотности вероятности (ФПВ), и оценивают требуемые значения среднего и дисперсии по обучающей выборке.
Функции правдоподобия и статистические решения
Пусть:
P Ci – это априорная (или безусловная) вероятность появления класса Ci , i 1, 2, , M , которая известна.
P Ci x - апостериорная вероятность того, что наблюдаемый образец x относится
к Ci .
Потери (стоимость принятия решения) - образец x относится к C j хотя он в
действительности принадлежит Ci
Li j Lii j i (при Lii 0 ).
Ожидаемые потери (средний условный риск) при отнесении x к C j , будет равен
M |
P Ci |
|
x . |
R j x Li j |
|
||
|
|||
i 1 |
|
|
|
Классификатор может вычислить R j x , j 1, 2, , M , для каждого образца x и
затем отнести x к классу, для которого условные потери окажутся наименьшими.
Такой классификатор минимизирует общие ожидаемые потери по всем возможным решениям и называется байесовским классификатором. Со статистической точки зрения байесовский классификатор представляет собой оптимальный классификатор.
В соответствии с формулой Байеса
P Ci x P Ci p x Ci , p x
где
- p x Ci условная (для класса Ci ) ФПВ от x ;
- p x безусловная ФПВ (не зависимо от принадлежности к классу).

Тогда ожидаемые потери:
|
|
|
x |
1 |
M |
|
p x |
|
Ci P Ci . |
|||
|
|
R j |
Li j |
|
||||||||
|
|
|
||||||||||
|
|
|
||||||||||
|
|
|
|
p x |
|
|
|
|
|
|
||
|
|
|
|
|
i 1 |
|
|
|
|
|
|
|
Поскольку |
1 |
является общим для всех |
j , то можно перейти к |
|||||||||
|
||||||||||||
p(x) |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
M |
p x |
|
Ci P Ci . |
|||||
|
|
|
rj x Li j |
|
||||||||
|
|
|
|
i 1
Решающее правило Байеса. Случай двух классов.
В случае двух классов при M 2 , получаем следующие выражения:
r1 x L11 p x C1 P C1 L21 p x C2 P C2 .
r2 x L12 p x C1 P C1 L22 p x C2 P C2 .
|
|
x C1 если |
r1 x r2 x , |
|
|
|
|||||||||||
то есть |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x C1 |
если L21 L22 p x |
|
C2 P C2 L12 L11 p x |
|
C1 P C1 . |
||||||||||||
|
|
||||||||||||||||
Или |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x C если |
p x |
|
C1 |
|
|
P C |
L L |
|
|
|
||||||
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
2 |
|
21 22 |
. |
|
|
|||
|
p x |
|
|
|
|
P C1 L12 L11 |
|
|
|||||||||
|
1 |
|
C2 |
|
|
|
|
||||||||||
|
|
|
|
|
|
|
Левую часть неравенства представляет собой отношение двух функций правдоподобия -
называют отношением правдоподобия:
|
|
|
|
|
|
l x |
p x |
|
C1 |
|
. |
||
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|||||||||
|
|
|
|
p x |
|
C2 |
|
||||||
|
|
|
|
12 |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|||||||
Тогда решающее правило Байеса для M 2 будет: |
|||||||||||||
|
|
|
|
|
|||||||||
|
1. |
Отнести x к классу C1 , если l12 x 12 , где 12 – это порог, задаваемый формулой |
|||||||||||
|
|
|
|
|
P(C2 ) |
L21 L22 . |
|
|
|
|
|
|
|
|
|
|
12 |
|
P C1 L12 L11 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
2. |
Отнести x к классу C2 , если l12 x 12 . |
|||||||||||
|
3. |
Принять произвольное решение, если l12 x 12 . |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|

Решающее правило Байеса. Случай M классов.
Данное правило может быть обобщено для случая M классов:
|
M |
|
|
M |
p x |
|
Cq P Cq , |
x Ci |
если Lk i |
p x |
|
Ck P Ck Lq j |
|
||
|
|
||||||
|
k 1 |
|
|
q 1 |
|
|
|
j1, 2, , M , j i .
Вбольшинстве задач Li j 1 i j , где
|
|
|
|
|
|
1, |
|
если |
i j |
|
|
|
|
|
|||||||||
|
|
|
i j |
|
|
|
|
|
|
|
|
|
|
|
, |
|
|
|
|
||||
|
|
|
|
|
|
0, |
|
в противном случае |
|
|
|
|
|
||||||||||
и |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0, |
|
если |
i j, |
|
|
|
|
|
|||||||||
|
|
|
Li j |
|
|
|
|
|
|
|
|
|
|
|
, |
|
|
|
|
||||
|
|
|
|
|
|
1, |
в противном случае |
|
|
|
|
|
|||||||||||
|
|
|
M |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
rj x 1 i j p x |
|
Ci P Ci p x p x |
|
C j P C j , |
||||||||||||||||||
|
|
|
|||||||||||||||||||||
|
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
поскольку |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
M |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
p x |
|
Ci P Ci p x . |
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
Классификатор Байеса будет относить образец x |
к классу |
Ci , если |
|||||||||||||||||||||
|
|||||||||||||||||||||||
p x p x |
|
Ci P Ci p x p x |
|
C j P C j , |
j 1,2, , M , j i , |
||||||||||||||||||
|
|
||||||||||||||||||||||
то есть |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x Ci |
если p x |
|
Ci P Ci p x |
|
C j P C j , |
|
j 1, 2, , M , j i . |
||||||||||||||||
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
||||||||||||||||
Решающие функции для M классов имеют вид |
|
|
|
|
|
||||||||||||||||||
|
di x p x |
|
Ci P Ci , |
i 1,2, , M , |
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
где объект x относится к классу Ci , если для него di x d j x j i .
Использование оценки p x Ci требует наличия обучающей выборки для каждого класса
Ci .

Наиболее распространенным подходом является принятие предположения о гауссовом
распределении и использование обучающей выборки для оценки его среднего и
дисперсии.
Классификатор Байеса для классов с нормальными распределениями
Одномерная нормальная или гауссова ФПВ для единственной случайной
переменной x задаѐтся выражением |
|
|
|
|
|
|
|||
p x |
|
1 |
|
|
1 |
x m 2 |
|
||
|
|
|
exp |
|
|
|
|
. |
|
|
|
|
|
|
|||||
2 |
|
||||||||
|
|
|
2 |
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
Оно полностью определяется двумя параметрами: средним значением
m E x |
x p x dx , |
|
|
|
|
и дисперсией |
|
|
2 E x m 2 |
|
x m 2 p x dx . |
|
||
|
|
В случае, когда M классов образов и векторы образов x размерностью n подчиняются многомерной нормальной ФПВ, имеем
p x |
|
|
1 |
|
|
|
|
|
|
|
1 |
|
T |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
C |
|
|
|
|
|
exp |
|
|
|
x m |
|
C 1 |
x m |
, |
||
|
|
|
|
|
|
|
||||||||||
|
i |
|
n 2 |
|
Ci |
|
1 2 |
|
|
|
|
i |
|
i |
i |
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
2 |
|
|
|
|
|
|
2 |
|
|
|
|
|
i 1, 2, , M , где каждая ФПВ полностью определяется еѐ вектором средних mi и еѐ ковариационной матрицей Ci размерностью n n при
mi Ei x ,
и
Ci Ei x mi x mi T ,
Здесь Ei - оператор мат. ожидания для всех образцов, относящихся к классу Ci .
Решающие функции |
|
di x p x Ci P Ci , |
i 1,2, , M. |
для нормальной ФПВ удобно использовать в виде
di x ln p x Ci P Ci ln p x Ci ln P Ci ,

Тогда
d |
x ln P C |
|
|
n |
ln 2 |
|
1 |
ln |
|
C |
|
|
1 |
x m |
T C 1 |
x m |
|
, |
||
|
|
|
||||||||||||||||||
|
|
|
||||||||||||||||||
i |
i |
|
|
2 |
|
|
2 |
|
|
i |
|
|
2 |
i |
i |
i |
|
|
||
|
|
|
|
|
|
|
|
i 1, 2, , M.
Второй член не зависит от i , следовательно, мы можем упростить di x до
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
d |
x ln P C |
|
1 |
ln |
|
C |
i |
|
|
1 |
x m |
T C 1 |
x m |
, |
i 1, 2, , M . |
|
|
|
|||||||||||||||
|
|
|||||||||||||||
i |
i |
|
2 |
|
|
|
|
|
2 |
i |
i |
i |
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Решающие функции – гиперквадраты (между каждой парой из классов образов).
Эти решающие функции будут оптимальными в среднем: они минимизируют ожидаемые потери с использованием упрощѐнной функции потерь Li j 1 i j .
Если все ковариационные матрицы равны, т. е., если Ci C , i 1, 2, , M , то после того как опустим все члены, зависящие от i , получим
d |
x ln P C |
xT C 1m |
|
1 |
mT C 1m |
, |
i 1, 2, , M . |
|
|||||||
i |
i |
i |
|
2 |
i i |
|
|
|
|
|
|
|
|
|
Теперь Байесовский классификатор представлен набором линейных решающих функций.
Перед тем как использовать описанные выше решающие функции, необходимо
-с использованием статистических тестов верифицировать гауссов характер ФПВ;
-для каждого класса получить или оценить вектор средних значений и матрицу ковариации.
Выборочные статистики рассчитываются по обучающей выборке.