Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Материалы / Тема_4_ЛДФ

.pdf
Скачиваний:
3
Добавлен:
04.09.2023
Размер:
489.03 Кб
Скачать

4. Линейный дискриминант Фишера (двухклассовая задача)

Построение решающих функций для распознавания двух классов объектов ω1 и ω2 по некоторому описанию X (x1, x2, ..., xL ) представляет собой непростую задачу.

Известный байесовский подход, основанный на вычислении отношения правдоподобия, оптимален, поскольку связан с наилучшим критерием,

минимизирующим вероятность ошибочного решения. Однако на практике его трудно реализовать, так как для проведения вычислений необходимо знать условные плотности вероятностей, процедура оценивания которых довольно сложна.

Линейный дискриминант Фишера. Более простым оказывается

линейный классификатор, который можно построить, используя разные критерии оптимизации параметров решающей функции, в том числе

критерий Фишера.

Для двухклассовой задачи линейная дискриминантная функция (ЛДФ),

являющаяся разделяющей гиперплоскостью, имеет вид

D(X) WтX a 0

или WтX a,

(1)

где W w1, w2, ..., wL – весовой вектор единичной длины; a

– скалярная

пороговая величина.

 

 

 

 

Алгоритм распознавания, позволяющий отнести неизвестный объект X

к одной из групп, в этом случае имеет следующий вид:

 

если WтX a , то ω

 

(1-й класс),

 

 

1

 

 

 

если WтX a , то ω

2

(2-й класс).

 

 

 

 

 

 

x2

 

ЛДФ

ω2

 

 

 

 

 

 

ω1

 

 

X a

W

x1

Рис. 1. Пример построения линейной дискриминантной функции

Для того чтобы определить составляющие вектора W и порог а, можно воспользоваться

(I)критерием минимизации ошибки классификации (критерий Байеса, оптимальные решающие функции),

(II)критерием Фишера. Он позволяет найти такой вектор W , при котором проекции точек классов на выбранное направление разделяются наилучшим образом:

J (W) (m1 m2 )2 max ,

s12 s22

m1 и m2 – средние значения проекций выборок классов 1, 2 ;

s12 и s22 - внутриклассовый разброс.

Порог а определяется исходя из критерия оптимальности разбиения объектов на два класса.

В этом случае алгоритм поиска неизвестных параметров W и a можно представить следующим образом:

1)найти W, как наилучшее положение этого вектора в n-мерном пространстве, для которого проекции точек классов на направление W разделены наилучшим образом;

2)спроецировать точки обоих классов на прямую, определяемую положением W;

3)решить одномерную задачу по поиску наилучшей величины а,

например, по критерию минимума ошибок классификации.

Если допустить, что оба класса распределены по нормальному закону с одинаковыми ковариационными матрицами Σ1 Σ2 Σ, то из теории (см.

теорию Байеса) известно, что решение 1-го шага вышеприведенного алгоритма определяется выражением

W Σ 1(M

M

) ,

(2)

1

2

 

 

где M1 и M2 – векторы средних значений двух классов. В случае Σ1 Σ2 в качестве Σ можно использовать усредненную ковариационную матрицу в виде

Σ

1

(Σ

Σ

 

).

(3)

 

2

 

2

1

 

 

 

 

 

 

 

 

 

Так как после вычисления W по формуле (2) его надо пронормировать

для получения вектора

единичной

длины, т. е.

 

разделить на

W

,

то

коэффициент

1

в (3) можно отбросить. Тогда Σ Σ

 

Σ

 

.

 

 

 

 

 

2

 

 

 

 

2

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Оценки M1, M2 и Σ1, Σ2 определяются выражениями

 

 

 

 

 

 

 

 

1

 

n1

 

 

 

 

 

 

 

 

 

 

 

 

M1

 

 

Xi(1),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n1 i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n2

 

 

 

 

 

 

 

 

 

 

 

 

M2

 

 

Xi(2) ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n2 i 1

 

 

 

 

 

 

 

 

 

Σ j

 

n j

M j Xi( j) M j

 

, j 1, 2.

 

 

 

1

Xi( j)

 

 

 

 

 

 

 

 

 

 

 

 

т

 

 

 

 

 

 

 

 

 

n j 1i 1

 

 

 

 

 

 

 

 

 

 

 

 

где X(1)

i-й объект из 1-го класса;

X(2) i-й объект из 2-го класса, n

i

 

 

 

 

 

 

 

 

 

i

 

 

 

1

 

число объектов 1-го класса; n2 – число объектов 2-го класса.

Если спроецировать точки объектов каждого класса на направление W,

то каждый вектор X превратится в соответствующий скаляр y: y1(1) WтX1(1),

y2(1) WтX(1)2 и т. д. (рис. 2).

x2

ω2

ω1

 

 

X1(1)

 

m

 

 

2

 

y(1)

m1 m2

 

 

W

1 m1

 

x1

Рис. 12..15. Определение проекций объектов двух классов на прямую, продолжающую вектор W

Тогда средние значения для выборок спроектированных точек равны

и s22

 

 

 

1

 

n1

 

 

1

 

n1

 

 

 

 

1

 

n1

 

 

 

m1

 

yi(1)

 

WтXi(1)

Wт

 

Xi(1) WтM1,

 

 

 

 

 

 

 

 

 

 

 

 

n1 i 1

 

 

 

n1 i 1

 

 

 

 

n1 i 1

 

 

 

 

 

 

1

 

n2

(2)

 

1

 

n2

т

(2)

 

т 1

 

n2

(2)

т

 

m2

 

 

 

 

 

yi

 

 

 

 

W

Xi

W

 

 

 

 

 

Xi

W

M2.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n2 i 1

 

 

n2 i 1

 

 

 

 

 

n2 i 1

 

 

 

Очевидно, что расстояние между m1 и m2 будет отражать удаленность классов друг от друга после их проецирования на W. Это расстояние, оценивающее межклассовый разброс, задается выражением

(m1 m2 )2 WтM1 WтM2 2

 

 

Wт (M M

)(M M

)т W WтS

B

W,

(4)

 

 

 

 

 

1

2

 

 

1

2

 

 

 

 

где S

B

(M M

)(M M

)т матрица разброса между классами.

 

 

1 2

 

1

2

 

 

 

 

 

 

 

 

 

 

Также можно определить выборочный разброс для двух классов s2

и s2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

в виде

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s12

n1

yi(1)

m1

2

n1

WтXi(1)

 

 

2

 

 

 

 

 

 

WтM1 ,

 

 

 

 

 

i 1

 

 

 

 

i 1

 

 

 

 

 

 

 

 

s22

 

n2

 

m2

2

n2

WтXi(2)

 

 

2

 

 

 

 

yi(2)

 

 

WтM2 .

 

 

 

 

 

i 1

 

 

 

 

i 1

 

 

 

 

 

Этот показатель, как и дисперсия, является оценкой внутриклассового рассеяния – чем он больше, тем и рассеяние данных больше. По s12

можно определить «средний» внутриклассовый разброс в виде s12 s22.

Для определения s12 и s22 через статистические параметры выборок классов определим матрицу разброса S j для j-го класса (аналог корреляционной матрицы) в виде

n

S j j Xi( j) M j Xi( j) M j т i 1

и «усредненную» матрицу разброса для двух классов в виде SW S1 S2. Тогда

n j

WтXi( j) WтM j 2

 

n j

Xi( j) M j Xi( j)

s2j

Wт

i1

 

 

 

 

 

i1

 

 

 

 

 

n j

X( j) M

X( j) M

т

 

 

 

Wт

W WтS

W,

 

 

i

j

 

i

j

 

 

j

 

 

i1

 

 

 

 

 

 

 

 

 

M j т W

j 1, 2;

s2

s2

WтS W WтS

W Wт (S

S

)W WтS W.

(5)

1

2

1

2

1

2

W

 

Теперь можно определить линейный дискриминант Фишера – линейную функцию с максимальным отношением разброса между классами к «среднему» разбросу внутри классов.

Тогда ЛДФ Фишера определяется как такой вектор W, для которого критерий

J (W) (m1 m2 )2

s12 s22

максимален. Для вектора W, найденного по данному критерию, классы,

максимально удалены друг от друга.

С учетом выражений (4) и (5) вышеприведенный критерий записывается

как

J (W) WтSBW . WтSW W

Анализ этой формулы [1] показывает, что максимум J (W) достигается

при

W SW1(M1 M2),

что совпадает с полученным ранее выражением

WT (x - x

) 0 ,

где

W Σ 1 (m

- m

) .

0

 

 

i

j

 

для нормально распределенных классов с равными ковариационными

матрицами.

Важно отметить, что направление w Σ 1(mi - m j ) , полученное для случая 2

( Σi Σ ) полностью совпадает с направлением линейного дискриминанта

Фишера.

 

Реализация алгоритма

 

 

 

 

В практических расчетах вместо матрицы SW

можно использовать

ковариационную матрицу Σ ,

Σ Σ1 Σ2 .

 

 

 

 

 

 

 

 

 

 

 

1. Оценить ковариационные матрицы Σ [k1

] и Σ

2

[k 2

].

 

 

1

ij

 

ij

 

2.Вычислить Σ Σ1 Σ2 .

3.Вычислить обратную матрицу Σ 1 и M1,M2 .

4.Вычислить весовой вектор W (W1,W2 ,...,Wn ) .

5.Пронормировать W, сделав его единичным вектором WW .

6.Спроектировать точки обоих классов на прямую, определяемую положением W, и построить их одномерные гистограммы.

7.Найти точку на прямой (порог a), для которой ошибки классификации минимальны.

8.Определить разделяющую гиперплоскость WT X a 0 и соответствующий алгоритм распознавания.

[1]. Дуда З., Харт П. Распознавание образов и анализ сцен / пер. с англ. М.: Мир, 1976. 511 с.