Скачиваний:
66
Добавлен:
01.05.2014
Размер:
850.43 Кб
Скачать

4.2.5. Вероятность ошибок.

Рассмотрим для начала классификатор на два класса . Этот классификатор будет делить пространство на две области R1 и R2 . Решение x1 будет принято , когда образ x попадает в область R1 ; и x2 когда x попадает в область R2 . При этих предположениях будут возможны два типа ошибок :

  1. x попадает в область R1 , но в действительности x2 . Это дает вероятность ошибки E1 , которая может быть обозначена как Prob (x R1, 2 ).

  2. x попадает в область R2 , но в действительности x1 . Это дает вероятность ошибки E2 , которая может быть обозначена как

Prob (x R2, 1 ). Тогда общая вероятность ошибки будет

Это информационный критерий который необходимо минимизировать , чтобы получить хорошую классификацию. На рис. 4.1 показаны области принятия решения и области ошибок ( заштрихованы)

Рис. 4.1. Вероятности ошибок в двухклассовой задаче.

Площадь заштрихованных областей определяет суммарную ошибку классификации . Видно что ошибка E2 для произвольной решащей границы состоит из двух частей ( с левой штриховкой и поперечной). Если мы будем двигать произвольную границу к оптимальному положения область с поперечной штриховкой будет уменьшаться до нуля . Оптимальная решающая граница будет иметь место , когда x удовлетворяет следующему уравнению

d1(x) = d2(x) (4.51)

или

Для получения аналитического выражения для ошибки предположим , что мы вектора образов описываются многомерными нормальными распределениями с различными математическими ожиданиями и одинаковыми матрицами ковариаций C1 = C2 = C :

и

Тогда согласно (4.20) и (4.21)

или

Аналогично :

Подставляя выражения для нормальных плотностей вероятностей (4.53), (4.54)

получаем

Беря логарифм от этого выражения и обозначая его p12 имеем :

Тогда

и

Ожидаемая величина p12 для класса 1 определяется как

Дисперсия p12 для класса 1 определяется как

и будет равна

Так как по определению

Далее имеем

Подставляя обратно в (4.63) , получаем

E1[p12] = , (4.67)

Где r12 равно расстоянию Махаланобиса между p(x/1) и p(x/2).

Тогда для x1 отношение

распределено с математическим ожиданием и дисперсией r12,

в то время как x2 математическое ожидание равно - , и дисперсия

имеет то же значение r12. Поэтму вероятность неправильной классификации когда x2 будет равна

и вероятность неправильной классификации x1 будет

Общая вероятность ошибки Perror ,будет

Этот анализ может быть легко распространен на случай многоклассовой задачи.

Здесь больше случаев получения ошибочных решений, чем правильных. Поэтому проще вычислить вероятность правильного решения .

Выражение для вероятности правильной классификации имеет вид :

где означает вероятность того , чтоx попадает в Ri , в то время как правильное состояние природы таково , что xi. Суммируя

i = 1,2, ……M получаем общую вероятность правильной классификации . Соответственно общая вероятность ошибочной классификации будет имет вид

Perror = 1 – Pcorrect

    1. . Оптимальные дискриминантные функции для нормально распределенных образов.

4.3.1. Нормальное распределение.

Многомерное нормальное распределение представляется следующим образом :

где N- функция нормальной плотности вероятностей, mk вектор математического ожидания и Ck – ковариационная матрица для класса k,

определяемые как математическое ожидание по классу k

Образы из нормальной популяции в пространстве признаков принадлежат одному кластеру , центр которого определяется вектором математического ожидания ,а форма – матрицей ковариации. На рис .4.2. показаны три различных кластера с различной формой. В части (а) m = 0 и C = I (единичная матрица), Cij = Cji = 0 , Cii = 0. Для кластера в части (b),

C22 > C11 и для кластера в (с)

Главные оси гиперэллипсоидов (контуров равной плотности вероятностей)

Определяются собственными векторами C с собственными числами , определяющими относительную длину этих осей.

Полезная мера подобия , известная как Махаланобисово расстояние от образа

x до среднего m, определяется следующим образом :

Расстояние Махаланобиса между двумя классами определяется как :

Напомним, что для n = 1 , приблизительно 95% выборочных значений x попадает в область x - m< 2, где  - стандартное отклонение и равно С1/2.

Соседние файлы в папке LECTURE4