Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Цифровая обработка сигналов (сборник книг) / Дронов С.В. Многомерный статистическийц анализ, 2003

.pdf
Скачиваний:
112
Добавлен:
05.03.2016
Размер:
958.12 Кб
Скачать

9.2. Линейное прогностическое правило

101

называется межгрупповой вариацией разделения. Чем она больше, тем

дальше "разводит"средние предлагаемое правило. Но одного сильного

различия групповых средних мало, хотелось бы еще, чтобы отдельные

точки плотно группировались вокруг своего группового среднего, т,е.

относительно небольшой была бы суммарная величина внутригрупповых

вариаций

2 mj

 

 

 

 

 

v(~) =

 

 

 

 

 

j=1 i=1 Y (XiY;(j)) Y (j) 2 :

 

 

 

X X

 

 

 

 

 

Здесь мы предполагаем, что наша функция Y произвела разбиение ис-

ходной обучающей выборки на XY;(1)

; :::; XY;(1)

XY;(2);

:::; XY;(2)

m1 +

 

1

m1

è

1

m2

,

m2 = n, которое не обязано совпадать с первоначальным, что приводит

к ошибкам дискриминации. Этого избежать невозможно, но нас прио-

бодряет допускаемое существование оптимального линейного правила, к

которому мы и придем.

 

 

На практике, к сожалению, увеличение межгрупповой вариации при-

водит к увеличению внутригрупповых вариаций, поэтому в качестве кри-

терия оптимальности прогностического правила выберем величину

~

~

 

V ( )

F ( ) =

 

:

~

 

v( )

Обозначим ~ ~

 

 

 

 

M1; M2 средние величины элементов обучающей выборки,

отнесенных в новой классификации к первому, второму классу:

 

~

1

mi

Y;(i)

 

Mi =

 

jX

 

 

mi

Xj ; i = 1; 2

 

 

=1

 

и введем центрированные значения

 

^(i)

Y;(i)

 

~

j = 1; :::; mi; i = 1; 2:

Xj

= Xj

Mi;

Тогда несложные выкладки показывают, что

 

 

m1

m1

P

^

 

^

^

 

 

 

 

m2 P m2

 

^

^

 

 

 

 

~

 

m1

~

 

(1)

 

2

+

m2

~

^(2)

 

2

 

 

 

v( ) =

 

j=1

 

Xj

 

 

 

j=1

 

Xj

 

 

 

 

P

 

P

 

 

(1)

 

(1)

 

 

 

P

P

 

 

(2)

 

(2)

=

 

i=1 j=1

i jXi Xj

 

+

 

i=1 j=1 i jXi Xj

=

 

 

 

 

X X

 

+ X X

 

:

 

 

 

 

 

 

 

 

~t

^

(1)t ^(1)

 

 

^

(2)t

^(2)

 

~

 

 

 

 

=

=

102 Глава 9. Дискриминантный анализ

Припомнив теперь оценку (9.2) ковариационной матрицы, и сделанные выше предположения о практическом совпадении разных оценок этой матрицы, видим, что можно положить

~

~

~

v( ) = (n1

+ n2 2)V

 

(здесь мы, конечно же, учли, что m1 + m2 = n1 + n2:). Оценим межгрупповую вариацию.

~

~

(1)

~

(2)

)

2

~t

(1)

(2)

(1)

(2)

t ~

V ( )

= (

X

 

X

 

=

(X

X

))(X

X

) :

Обозначая

 

 

(1)

 

(2)

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

~a

 

 

;

 

 

 

 

;

 

 

 

 

 

 

 

 

= X

X

 

L = a~

 

 

 

 

 

получим, что критерий оптимальности запишется в виде

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

F (~) =

L

 

:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

V

 

 

 

 

 

 

 

 

 

 

Исследуем эту функцию на максимум методами математического ана-

лиза. Нам понадобится следующее утверждение.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

~

 

~

 

 

Лемма 7 Если матрица B симметрична, f( )

= B

, òî@fвектор

f0

, координатами которого являются частные производные

 

; j =

@ j

1; :::; p; может быть записан в виде

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f0 = 2B~:

 

 

 

 

 

 

 

 

 

 

Доказательство. Запишем f(~) = Pi;j Bi;j i j; откуда

 

 

 

 

 

 

@f

 

 

 

Xi6

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

@ j

= 2Bj;j j +

(Bi;j + Bj;i) i

= 2(B )j

 

 

 

 

 

=j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

для произвольного j, что и завершает доказательство.

 

 

 

 

 

Заметим, что

 

~

~

 

 

 

~ 2

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

:

 

 

 

 

(9.3)

 

В силу леммы

 

 

L

 

(~a )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

~

~

 

 

 

~

~

~

 

 

 

 

 

 

 

 

F 0

=

2L (V

)

2V (L

)

:

 

(9.4)

 

 

 

 

 

 

 

 

 

 

 

 

 

~

~

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(V

)

 

 

 

 

 

 

 

 

9.3. Практические рекомендации

 

 

 

103

Пусть эта производная обращается в ~. Тогда из (9.3) имеем

 

 

 

0

 

 

 

~

~

~

~

 

~ 2

:

~a(~a )(V

) = V (~a

)

~

 

 

~

 

 

 

Следовательно, либо ~a = 0, но тогда F ( ) = 0, и мы имеем дело с

минимумом нашего критерия, либо

 

 

 

 

 

 

~

= b~a

 

 

(9.5)

 

V

 

 

~

для некоторой константы b. Таким образом, поиск коэффициентов , для

которых критерий F принимает максимальное значение, может проводится лишь в множестве параметров, удовлетворяющих (9.5) для какого-

нибудь b.

Отсюда получаем

~

= bV

1

(1)

 

(2)

):

 

 

(X

X

 

Учитывая вид критерия оптимальности, видим, что при любом выборе b значение этого критерия остается постоянным, а значит, мы можем взять

b = 1 (иногда, впрочем, выбирают b так, чтобы 1 = 1).

Теорема 16 Если оптимальное прогностическое правило линейно, то оно имеет вид

 

1

(1)

 

(2)

 

1

(1)

(2)

 

Y (X) = V

 

(X

X

 

) (X

2

(X

+ X

));

причем наблюдение X относится к первому классу тогда и только тогда, когда Y (X) > 0.

Смысл утверждения этой теоремы понять нетрудно наблюдение относится к тому из классов, к среднему из которых оно лежит ближе, т.е. "по ту же сторону"от полусуммы средних. Выражение "по ту же сторону"как раз и формализуется в утверждении теоремы.

9.3Что делать, если модель Фишера не может быть принята?

В любом случае способ построения прогностического правила на основе отношения правдоподобия, описанный выше, работает. Просто в слу- чае, когда распределения, описывающие классы, нормальны, да еще и

Глава 9. Дискриминантный анализ

104

обладают одинаковыми ковариационными матрицами, формулы особенно просты и легко доказуемы. В случае, когда никаких предположений о виде плотностей просто нет, а значит и нет возможности выписать отношение правдоподобия точно, можно предложить некоторые способы оценки отношения правдоподобия по выборочным данным.

Один из способов: оценим (X), заданное в (9.1), так

^(X) =

n1

k

 

 

(1)

2

 

;

Pn2

X

(2)k2

=b)

 

n1 i=1 k(

 

Xi

 

 

 

n2 Pi=1 k(kX Xi

k =b)

 

ãäå b малый параметр, задаваемый исследователем, а ная функция, удовлетворяющая условиям

k(t) 0; k(t) = k( t);

1

 

Z

k(t)dt = 1:

 

1

 

(9.6)

k(t) произволь-

Чаще всего в качестве этой функции берут плотность стандартного нормального распределения. Дальнейшие рассуждения стандартны. Посколь-

ку мы собираемся создать прогностическое правило на основе ^(X), то для всех элементов обучающей выборки, принадлежавших первому клас-

су, вычислим ^(X), и то же проделаем со всеми элементами второго

класса. Мы получим n действительных чисел. Если все эти числа, соответствующие элементам разных классов, лежат по разные стороны от

некоего порогового значения c, то прогностическое правило будет иметь следующий вид: если ^(X) лежит по ту же сторону от c, ÷òî è ^(X1(1)),

òî X относим к первому классу, иначе ко второму.

Как и все остальные алгоритмы дискриминации, этот можно сделать самообучающимся: при наборе дополнительной статистики двигать чис-

ëî c в ту или другую сторону.

Если же множества значений ^(X) по разным классам пересекаются, то можно провести разделение таким же образом, как уже было описано, с некоторым количеством ошибочно классифицирующихся элементов. В этом случае самообучение алгоритма не только желательно, но и обязательно, поскольку лучшей классификации, чем основанной на отношении правдоподобия, построить, вероятнее всего, нельзя,

Известно также очень простое эмпирическое прогностическое прави-

ло, которое носит название "метод k ближайших соседей". Исходя из содержания решаемой задачи, исследователь задает расстояние между

9.4. Один пример

105

выборочными p-мерными точками (например, обычное евклидово расстояние) и выбирает, как правило, нечетное число k. После этого для

поступающей на изучение точки X ищется k ближайших соседей из обу- чающей выборки с точки зрения выбранного расстояния. Если большинство из этих соседей окажутся элементами первого класса, то мы отнесем

X к первому классу, иначе ко второму.

Отметим также следующее. Очевидно, что включение в прогности- ческое правило малоинформативных переменных не только усложняет вычисления, но может заметно ухудшить качество классификации. Действительно, каждый малоинформативный показатель несет в себе достаточно большую долю "шума", и включение его в алгоритм приводит к серьезному ухудшению отношения сигнал/шум. Но, к сожалению, если объем обучающей выборки небольшой, то легко принять информативный показатель за малоинформативный, отбросить его при первом же подходе к задаче, и тем самым, сильно ухудшить последующую обучаемость алгоритма. Вывод: при малых объемах обучающей выборки показателей лучше не отбрасывать.

Мы видим, что дискриминация изучаемых объектов производится, в конце концов, по одному числовому параметру, который в особенно важном частном случае линейного прогностического правила, получа- ется линейной комбинацией координат, что можно воспринимать, как переход к новым координатам, одна из которых и служит дискриминационной функцией. Таким образом, поиск линейной дискриминационной функции можно представлять себе, как переход (при помощи поворота, поскольку постоянный множитель не изменяет качества дискриминации) к новой системе параметров, характеризующих наши объекты, и выбор в качестве соответствующего правила первого из полученных параметров. Эти соображения позволяют слегка по иному подойти к задаче дискриминации, и вначале попробовать слегка "повращать"векторы параметров с целью добиться большего разделения классов по новым координатам.

9.4Один пример

Рассмотрим условный пример, иллюстрирующий решение задачи дискриминантного анализа. В качестве обучающей выборки возьмем по 5 типичных рок-групп, играющих музыку в стиле рэп (первый класс) и в стиле эйсид-хаус (второй класс). Для каждой из них обозначим через

106

Глава 9. Дискриминантный анализ

x количество концертных выступлений за последние 2 года, а через x показатель1 финансовой успешности проекта, рассчитанный в тыс. услов-2

ных единиц на участника группы. Данные обучающей выборки собраны в таблице:

Обучающая выборка в музыкальном примере

 

Первый класс

 

 

 

Второй класс

 

 

 

 

 

 

N

x1

x2

 

 

 

N

x1

x2

 

 

1

 

 

 

1

 

 

 

97

94

 

 

 

 

39

38

 

 

2

58

39

 

 

 

2

32

64

 

 

3

73

45

 

 

 

3

44

53

 

 

4

70

80

 

 

 

4

36

33

 

 

5

96

46

 

 

 

5

60

78

 

 

средние

78,8

60,8

 

 

 

 

42,2

53,2

 

Подготовимся к оценке ковариационной матрицы по формуле (9.2):

X^(1)tX^(1) =

725; 8

2414; 8

! ; X^(2)tX^(2)

=

725; 1

1370; 8

! :

 

1170; 8

725; 8

 

 

472; 8

725; 1

 

Тогда

V =

181; 4

473; 2

! ; V 1

=

0; 0028

0; 0032

! :

 

205; 4

181; 4

 

 

0; 0074

0; 0028

 

Выпишем также

1

(1)

(2)

 

t

(1)

(2)

 

t

 

 

(X

+ X

)

 

= (60; 5; 57); (X

X

)

 

= (36; 6; 7; 6):

2

 

 

Таким образом, линейное прогностическое правило имеет вид

Y = 0; 248x1 0; 079x2 10; 5;

что приводит к следующим значениям:

 

Значения линейного прогностического правила

 

1

Первый класс

5

1

Второй класс

5

2

3

4

2

3

4

6,13

0,80

4,05

0,54

9,67

-3,83

-7,62

-3,77

-4,18

-1.78

9.4. Один пример

107

Это вполне соответствует хорошей степени дискриминации. Возьмем теперь новый музыкальный коллектив с характеристиками x1 = 52; x2 =

63: Построенное правило дает Y = 2; 57, а значит этот коллектив следует отнести ко второму классу.

Для сравнения произведем дискриминацию методом ближайших соседей, для чего изобразим точки, соответствующие обучающей выборке, на плоскости. Здесь единицами помечены точки первого класса, двойками второго класса, а новый коллектив помечен символом x. Отчетливо видно, что три ближайших соседа нового коллектива принадлежат второму классу, а значит и его тоже следует отнести ко второму классу (скорее всего, ребята играют эйсид-хаус).

108

Глава 9. Дискриминантный анализ

 

Метод ближайших соседей

6x2

 

 

 

*

 

 

 

1

 

2

*

 

 

 

1

 

2

x

 

 

 

2

 

*

 

 

1

 

 

*

1

2

*1

 

 

2

 

 

 

-x1

Наконец, приведем значения, полученные при вычислении оценки отношения правдоподобия методом (9.6) при различных значениях b:

Различные дискриминационные функции при оценке отношения правдоподобия

b

класс

 

значения ^

 

интервал

x

1

1

1,00

1,00

1,00

1,00

1,00

1

0

 

2

0,00

0,00

0,00

0,00

0,00

0

 

10

1

0,99

0,77

0,99

0,63

0,99

(0,63;0,99)

0,12

 

2

0,07

0,00

0,08

0,04

0,37

(0,00;0,37)

 

15

1

0,98

0,56

0,86

0,59

0,99

(0,56;0,99)

0,27

 

2

0,16

0,04

0,18

0,13

0,42

(0,04;0,42)

 

50

1

0,63

0,47

0,52

0,53

0,60

(0,47;0,63)

0,46

 

2

0,41

0,39

0,43

0,40

0,49

(0,39;0,49)

 

В предпоследней колонке указаны границы, в которых изменяется^(X) при изменении X в рамках представителей соответствующего клас-

са. Мы видим, что с ростом b соответствующие интервалы начинают

9.5. Более двух классов

109

сближаться и, в конце концов, становятся пересекающимися. Последняя колонка - значение оценки отношения правдоподобия на новом коллективе (он тот же, что и раньше). Видно, что это значение всегда находится в рамках интервала для второго класса, поэтому вопроса классификации

его не возникает. Конечно же, b следует выбирать так, чтобы пересечения интервалов не возникало (по возможности).

9.5Число классов, не меньшее трех

В случае, когда классов более двух, задача отнесения нового объекта к одному из этих классов усложняется. Для начала упомянем две следующие очевидные процедуры:

1.Будем применять описанную выше процедуру (любую из них) по отношению к произвольно выбранной паре классов, пусть, например, для первого и второго класса. Если новый объект классифицируется как объект второго класса, первый из дальнейшего рассмотрения исключаем. Завершение процесса обеспечивается уменьшением числа классов, остающихся в классификации. Можно также рассмотреть видоизменение этой процедуры, не зависящее от порядка рассмотрения пар рассматриваем все пары и запоминаем на каждом шаге номер класса, к которому объект причисляется. Затем относим его к тому классу, который встречался чаще всего.

2.Для каждой пары из множества рассматриваемых классов постро-

им линейное прогностическое правило. Оно задает в p-мерном пространстве гиперплоскость. После построения всех этих гиперплоскостей облако точек обучающей выборки, определяющее каждый

из классов, окажется внутри некоторого p-мерного многогранника, гранями которого служат части построенных гиперплоскостей. Теперь мы отнесем новый объект к тому классу, в многогранник которого он попал.

Перейдем к более формальной постановке задачи. Пусть имеется k

классов, определяемых плотностями распределений p(:; j);

j = 1; :::; k è

у нас имеется обучающая выборка объема

n = n1 + ::: + nk

, в которой

nj

элементов относятся к

 

 

j-му классу, j = 1; :::; k. Числа j = nj=n называют априорными вероятностями j-го класса. Пусть нам известна функция

110 Глава 9. Дискриминантный анализ

c(jji), задающая цену ошибки при принятии объекта, относившегося к классу i за объект класса j. Очевидно, что

c(iji) = 0; c(ijj) > 0 ïðè i 6= j:

(9.7)

Задача состоит в том, чтобы разбить все пространство наблюдений

на непересекающиеся множества A ; :::; A

решения об отнесении объекта в тот1èëè èíîék, соответствующиекласс так, чтобыпринятиюминими-

зировать потери.

Вероятность отнести объект к j-му классу, если он принадлежал на самом деле i-му, равна

Z

P (jji) = p(t; i)dt;

Aj

а значит, математическое ожидание понесенных потерь

k

X X

Q =

i=1

i c(jji)P (jji):

 

j6=i

 

 

При фиксации значения вектора параметров нового объекта X получаем, что апостериорная вероятность отнести его в i-й класс равна

i(X) =

 

 

 

ip(X; i)

 

;

 

 

 

 

k

 

 

 

 

 

Pj=1 jp(X; j)

 

а ожидаемые потери при отнесении его в j-й класс составят

 

c(jji)

 

 

 

ip(X; i)

:

 

 

 

 

 

 

 

 

 

 

 

k

 

sp(X; s)

 

 

=j

 

 

s=1

 

 

 

 

Xi

P

 

 

 

 

 

 

6

 

 

 

 

 

 

Ясно, что эти потери будут минимальны, если будет минимален числи-

тель результирующей дроби. Поэтому определим множество

Aj êàê ìíî-

жество тех наборов показателей

 

 

 

 

 

 

 

функции

X, для которых минимальное значение

 

 

ip(X; i)c(sji)

 

f(s) =

 

 

 

X

i6=s

достигается при s = j.

Отметим, что если мы считали, что c(sji) = 1 при всех s 6= i, то X будет согласно полученному правилу отнесено к тому из классов, для

которого jp(X; j) наибольшее. Описанное прогностическое правило называют байесовским.