Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Цифровая обработка сигналов (сборник книг) / Дронов С.В. Многомерный статистическийц анализ, 2003

.pdf
Скачиваний:
112
Добавлен:
05.03.2016
Размер:
958.12 Кб
Скачать

13.4. Пример

171

Приведем также вкратце результаты второго способа, использующего бинарную матрицу данных. Почему обработка этим методом приведена

не столь подробно, становится ясно при одном взгляде на матрицу Y , которая приведена на отдельной странице, ведь в ней 5 столбцов и 25

строчек! Матрицы

Y1

è

Y2 отделены в этой таблице двойной линией. При

составлении

 

Y для простоты предполагалось, что в верхнюю левую клет-

ку нашей таблицы сопряженности попали первые 5 из изученных нами

фирм и т.п. В принципе, это конечно же могло быть не так, но всегда

можно добиться этого апостериорной перенумерацией объектов. Можно

вычислить

 

 

0

0

14

5

3

6

1

 

Y tY = B

11

0

5

3

3

C :

 

5 5 10

0

0

 

 

 

B

 

 

 

 

 

C

 

 

 

B

 

 

 

 

 

C

 

 

 

B

 

 

 

 

 

C

 

 

 

B

3

3

0

6

0

C

 

 

 

B

 

 

 

 

 

C

 

 

 

@

 

 

 

 

 

A

3 6 0 0 9

В этой матрице просматриваются два диагональных блока, по диагонали которых расположены суммы всех остальных элементов соответствующей строки и еще два блока, каждый из которых воспроизводит первона- чальную таблицу сопряженности. Оказывается, такой вид матрица Y tY будет иметь всегда. Она носит название матрицы Берта. Далее, строя

диагональную матрицу D, диагональные элементы которой совпадают с диагональными элементами матрицы Берта, вычислим

T (2) =

1

D 1=2Y tY D 1=2

:

2

 

 

 

Получим

0 0 050

0;050 0; 21 0; 16 0; 27

1

 

 

B

;

 

0; 24 0; 18

0; 15

C

 

T (2) =

0; 24

0; 21

0; 50

0

0

;

 

B

 

 

 

 

 

C

 

 

B

0; 18 0; 16

0

0; 50

0

C

 

 

B

 

 

 

 

 

C

 

 

B

0; 15

0; 27

0

0

0; 50

C

 

 

B

 

 

 

 

 

C

 

 

@

 

 

 

 

 

A

 

после чего при помощи математического пакета Mathlab вычислим собственные числа и собственные векторы этой матрицы.

Получим 1 = 1; 2 = 0; 58; 3 = 0; 5; 4 = 0; 47; 5 = 0: При этом, как мы знаем, первое собственное число использовать не имеет смысла. Как было показано в предыдущем разделе, имеет смысл привлекать только собственные векторы, отвечающие собственным числам, не меньшим,

172

Глава 13. Оцифровка

Таблица 13.1: Бинарная матрица в задаче о сопряженности доходности

и размера фирм

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

0

 

 

 

1

 

0

 

0

 

 

 

 

 

 

 

 

 

 

1

 

0

 

 

 

1

 

0

 

0

 

 

 

1

 

0

 

 

 

1

 

0

 

0

 

 

 

1

 

0

 

 

 

1

 

0

 

0

 

 

 

1

 

0

 

 

 

1

 

0

 

0

 

 

 

1

 

0

 

 

 

0

 

1

 

0

 

 

 

1

 

0

 

 

 

0

 

1

 

0

 

 

 

1

 

0

 

 

 

0

 

1

 

0

 

 

 

1

 

0

 

 

 

0

 

0

 

1

 

 

 

1

 

0

 

 

 

0

 

0

 

1

 

 

 

1

 

0

 

 

 

0

 

0

 

1

 

 

 

0

 

1

 

 

 

1

 

0

 

0

 

 

 

0

 

1

 

 

 

1

 

0

 

0

 

 

 

0

 

1

 

 

 

1

 

0

 

0

 

 

 

0

 

1

 

 

 

1

 

0

 

0

 

 

 

0

 

1

 

 

 

1

 

0

 

0

 

 

 

0

 

1

 

 

 

0

 

1

 

0

 

 

 

0

 

1

 

 

 

0

 

1

 

0

 

 

 

0

 

1

 

 

 

0

 

1

 

0

 

 

 

0

 

1

 

 

 

0

 

0

 

1

 

 

 

0

 

1

 

 

 

0

 

0

 

1

 

 

 

0

 

1

 

 

 

0

 

0

 

1

 

 

 

0

 

1

 

 

 

0

 

0

 

1

 

 

 

0

 

1

 

 

 

0

 

0

 

1

 

 

 

0

 

1

 

 

 

0

 

0

 

1

 

13.4. Пример

173

÷åì 1=p = 0; 5 в нашем случае, поэтому используем второе и третье собственные числа. (Заметим в скобках, что для нашего случая среднее ненулевых собственных чисел, строго меньших единицы, равно 0,517,

так что можно было обойтись одномерной меткой, не используя

3, ÷òî

вполне соответствует результатам анализа соответствий выше.)

Два собственных вектора, соответствующие

2 è 3 и имеющие еди-

ничную длину, равны

 

 

 

 

 

 

 

 

 

 

 

0

0; 47

1

 

 

 

 

0

 

0

1

 

 

 

 

0; 53

C ;

 

 

B

 

0

C :

 

 

~c2 = B 0; 34

~c3 =

 

0; 68

 

 

B

0; 25

C

 

 

B

0; 73

C

 

 

B

C

 

 

B

 

C

 

 

B

0; 57

C

 

 

B

0:02

C

 

 

B

C

 

 

B

 

C

 

 

B

 

 

 

C

 

 

B

 

 

C

 

@

 

 

 

A

 

 

@

A

 

Теперь мы можем выписать двумерные метки для всех 5 категорий:

Метки категорий объектов

 

 

 

в задаче о сопряженности размеров и доходности

 

 

категория

 

 

 

метка

 

обозначение

 

 

 

убыточные

0,53

 

 

 

0

 

 

ó

 

 

 

 

доходные

 

-0,47

 

 

 

0

 

 

ä

 

 

 

 

малые

 

0,34

 

 

-0,68

 

 

ì

 

 

 

 

средние

 

0,25

 

 

-0,73

 

 

ñ

 

 

 

 

крупные

 

0,57

 

 

-0,02

 

 

ê

 

 

 

Для определения меток объектов (повторений эксперимента) будем

пользоваться формулами

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~zj =

 

 

1

 

Y ~cj; j = 2; 3;

 

 

 

 

 

 

 

 

 

 

 

 

 

pq

 

 

 

 

 

 

j

 

 

 

 

которые дают 25 меток строк матрицы Y . К счастью, среди них много одинаковых, т.к. объекты, попавшие в одну клетку таблицы сопряженности, получают одинаковые метки. Эти метки приводятся в таблице.

Метки объектов (повторений эксперимента)

в задаче о сопряженности размеров и доходности

174

 

 

 

 

Глава 13. Оцифровка

 

категория

 

метка

 

обозначение

 

 

 

 

 

 

малые убыточные

 

0,58

-0,48

 

ìó

 

 

средние убыточные

 

0,50

-0,52

 

ñó

 

 

крупные убыточные

 

0,71

-0,01

 

êó

 

 

малые доходные

 

-0,07

-0,48

 

ìä

 

 

средние доходные

 

-0,15

-0,52

 

ñä

 

 

крупные доходные

 

0,06

-0,02

 

êä

 

Соответствующие точки с приведенными обозначениями приведены на рисунке. Различия, полученные по отношению к методу анализа соответствий, легко объяснить тем, что во время того исследования мы использовали малоинформативное наибольшее собственное число, а второе (0,03) оказалось слишком малым, чтобы картинка оказалась похожей на правду ведь мы знаем, что стоило работать лишь с собственными числами, не меньшими 0,5. Итак, рисунок, полученный сейчас, следует признать более удовлетворительно описывающим реальную картину.

13.5Случай смешанных данных

Выше мы предполагали, что данные о всех объектах носят чисто ка- чественный, нечисловой характер. Но в практических задачах нередко можно встретить сочетание характеристик (см. пример с травматологи- ческим отделением больнице во вводной части главы, посвященной экспертным оценкам и прочим нечисловым данным). Поэтому здесь рассмотрен один из способов присвоения числовых меток категориям объектов, у которых некоторые из показателей числовые.

Предположим, что наши показатели пронумерованы так, что первые из них X(1); :::; X(q) качественные (нечисловые) показатели, причем X(i)

имеет m(i) категорий, i = 1; :::; q. Будем писать Xs(i) 2 (k), åñëè â s-м эксперименте показатель X(i) принял значение из своей k-й категории.

Остальные показатели X(q+1); :::; X(p) являются числовыми.

Данные наблюдений собраны в таблицу из n строк и p столбцов, в каждой строке стоят данные наблюдений, полученные в очередном экс-

перименте над всеми показателями. В первых q столбцах расположены условные обозначения категорий, в которые попал соответствующий этому столбцу признак при проведении эксперимента, его номер совпадает

с номером текущей строки, в следующих p q столбцах значения, принимаемые числовыми показателями. Задача состоит в замене условных

Xs(i) 2

13.5. Случай смешанных данных

175

обозначений категорий числовыми метками. Оказывается, для разных

методов последующей обработки данных наилучшие возможные метки

должны присваиваться по разному, но всегда они связаны с ковариаци-

онной матрицей показателей. При этом всегда удобно предполагать, что

присваиваемые метки имеют нормированный характер это упрощает

записываемые формулы и гарантирует от присвоения разным категори-

ям одинаковых меток. Поясним, что имеется ввиду.

Пусть k-й категории i-го признака присвоена метка cki ; k = 1; :::; m(i),

i = 1; :::; q: Условия нормировки имеют вид

 

n

1 n

2

s=1 cri

(s) = 0; n s=1 cri (s)

= 1

X

X

 

при каждом i = 1; :::; q. Здесь r(s) есть номер категории, который принял i-й признак в s-м эксперименте, т.е. определяется соотношением

(r(s)).

Если после присвоения числовых меток мы хотим заняться исследованием зависимостей между показателями или сокращением размерностей, то нужно подбирать числовые метки, максимизирующие величину

p 1 p

K2 = X X 2(X(i); X(j)); i=1 j=i+1

Очевидно, что когда в выписанной сумме переменная суммирования i

становится больше q, коэффициенты корреляции перестают зависеть от присвоенных меток, поэтому речь может идти только о максимизации

q 1

q

 

q

p

(X(i); X(j)):

 

Q =

2(X(i); X(j)) +

 

 

2

 

Xi

X

 

X X

 

 

=1 j=i+1

 

i=1 j=q+1

 

 

Обозначим первую из двойных сумм через

Q1

, а вторую через

Q2.

Пусть

 

 

 

 

 

~ci = (c1i ; :::; cmi

(i))t вектор меток категорий i-го показателя,

матрица F (i; j), имеющая m(i) строк и m(j) столбцов нормирован-

ная таблица сопряженности i-ãî è j-го показателя, т.е. на месте

(k; s)

ýòîé(j)

матрицы располагается число экспериментов, в которых X(i)

2 (k),

X

2 (s) одновременно, деленное на общее число экспериментов:

 

Fk;s(i; j) =

n(k; s)

; k = 1; :::; m(i); s = 1; :::; m(j):

n

 

 

 

m число категорий
по тем экспериментам, в ко-

176

 

 

 

 

 

 

 

 

 

Глава 13. Оцифровка

Обозначим также через nki

число тех экспериментов, в которых X(i) 2

,

 

 

 

и построим диагональные матрицы

Di

, ñ

диагональными элементами

 

 

 

 

 

 

 

 

(k) k = 1; :::; m(i); i = 1; :::; q;

 

 

 

 

 

 

 

 

 

 

 

ni

; :::; ni

 

i = 1; :::; q . Вычислим при каж-

 

 

 

1

 

 

m(i),

 

 

 

 

 

дом наборе j = (q + 1); :::; p è k = 1; :::; m(i); i = 1; :::; q

 

 

 

(j)

 

 

1

 

 

 

(j)

 

 

 

 

Xk

(i) =

 

 

 

 

Xs

 

 

 

ni

(i)

 

 

 

 

 

 

 

 

k

 

(k)

 

 

 

 

 

 

 

 

s:XXs

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

среднее значение числового показателя X(j)

торых качественный показатель X(i) попал в свою k-ю категорию. Составим из рассчитанных средних величин вектор

(j)

(j)

(j)

(i)):

X

(i) = (X1

(i); :::; Xm(i)

Тогда

Q1

Q2

=

q 1

q

2

i=1 j=i+1 F (i; j)~cj ~ci

;

 

X X

 

=

q

p

 

i=1 j=q+1 Di~ci X(j)(i) 2 :

 

X X

 

Вычисляя частные производные Q ïî ci

 

 

для определения меток:

 

 

k, получаем систему уравнений

q 1 q

j

j i

q

p

(j)

i (j)

X X

Xi

X

(F (i; j)~c )kF (i; j)~c ~c +

(DiX (i))kDi~c X (i) = 0;

i=1 j=i+1

=1 j=q+1

 

 

 

 

ãäå k пробегает номера всех категорий всех качественных признаков (их

общее количество равно m(1) + ::: + m(q)).

Выписанная система решается при помощи итеративных процедур. Подробности можно прочитать в [11, глава 12].

Наконец, коротко рассмотрим задачу оцифровки для задач дискриминации. Пусть обучающая выборка содержит (возможно многомерные)

данные о качественных признаках X и числовых признаках Y некоторого набора объектов, а также сведения о том, какому из имеющихся q

классов принадлежал этот объект. Обозначим через качественного признака.

Так же, как это было проделано в подпункте 13.1.2, вычислим для каждого из классов его центр M(s;~c) для качественного признака, а

13.5. Случай смешанных данных

177

также средние значения

 

 

 

 

Ys; s = 1; ::; ; q для числового признака. Будем

предполагать, что и метки, и значения Y нормированы, а значит, "центр

центров"в терминологии 13.1.2 имеет нулевые координаты.

Для каждого класса вычислим оценку ковариационной матрицы

(s;~c)

= cov(X; Y; s); s = 1; :::; q

и средневзвешенную общую ковариационную матрицу

 

 

 

q

 

 

(~c) =

(s;~c)fs;::

 

 

 

=1

 

 

 

sX

Тогда метки ~c можно искать исходя из максимизации критерия

Q(~c) =

 

q

(~c) M(s;~c); Ys k2f:;s:

 

s=1 k 1

 

 

X

 

178 Глава 13. Оцифровка

Рис. 13.1: Изображение категорий величины и доходности. Метод анализа соответствий.

6

 

*

 

ó

+ñ,ì

*

*

ñ

ì

 

 

-

*

*

ä

 

á

 

Рис. 13.2: Множественный анализ соответствий таблицы сопряженности в задаче о доходности и размере.

6

*

 

 

 

*

 

 

 

*

 

ê

*

ä

 

êä

 

ó

 

êó-

 

ñä*

 

có*

 

 

*

ìä

*

*

ìó

 

 

 

c

 

 

 

 

 

*

ì

 

 

 

Глава 14

Многомерное шкалирование

В обработке данных, особенно в последние десятилетия, выделилось особое направление, которое правильнее всего было бы назвать анализом данных, понимая под этим скорее некоторый качественный процесс, чем определенные вычислительные процедуры. Выше мы уже сталкивались с проблемой анализа данных например, визуального в задачах классификации. Задачи подобного рода решались нами в предыдущей главе, когда для осознания близости определенных качественных, а не числовых объектов, мы ассоциировали эти объекты с некоторыми числами или векторами, сводя тем самым задачу к ранее решенной.

Многомерное шкалирование ориентировано в рамках этого подхода в основном на придание наглядной структуры данным, полученным в результате некоторого эксперимента, т.е. решает задачу, близкую к оцифровке качественных данных. Но здесь, в отличие от ранее рассмотренных методов, в качестве исходных данных рассматривается матрица близостей определенных объектов или категорий одного объекта. Близости эти задаются в некоторой условной шкале балльной относительно некоторого образца или порядковой, т.е. для изучаемых отношений "похожести"объектов задаются их ранги в порядке убывания этой "похожести". Затем при помощи определенных приемов эти близости переводятся в расстояния. Задача многомерного шкалирования считается успешно решенной, если удалось изобразить все данные точками в пространстве относительно небольшой размерности так, чтобы с точки зрения оцененных расстояний геометрическая структура экспериментальных данных подверглась бы минимальным возможным изменениям. Естественно, термин "геометрическая структура"нуждается в уточнении и может в принципе

179

180

Глава 14. Многомерное шкалирование

быть формализован по разному.

 

14.1Подготовка данных для многомерного шкалирования

Как уже было сказано, на входе любого из алгоритмов многомерного шкалирования должна фигурировать матрица различий или матрица сходств определенных объектов. Пусть, например у нас имеются различ-

ные объекты X ; :::; X

заводы, университеты,1 K. Этиавтомобили,объекты кандидатымогутбытьнасамымипост президентаразличнымии

т.п. Нам необходимо подготовить квадратную матрицу D порядка K, íà

месте (i; j) в которой будет стоять мера различия i-ãî è j-го объекта (или хотя бы его оценка). При этом мы хотим, чтобы в конце концов наша матрица была бы матрицей расстояний между объектами, т.е. для

элементов матрицы D должен быть выполнен набор аксиом расстояния:

Di;j 0;

Di;i = 0;

i; j = 1; :::; K;

 

Di;j = Dj;i;

i; j = 1; :::; K;

 

Di;j + Dj;k Di;k;

i; j; k = 1; :::; K:

(14.1)

(14.2)

(14.3)

При этом довольно типичной является ситуация, когда матрица, оценивающая различия объектов, строится по результатам опросов экспертов, например, на основе шкал сравнений в графической или категоризованной форме. И если при таком подходе свойство (14.1) как правило, выполнено, то даже свойство (14.2), не говоря уже о (14.3), оказывается нарушенным. Чтобы понять, почему это происходит, достаточно представить себе ответ на вопросы "Похожи ли Москва и Петербург?"и "Похожи ли Петербург и Москва?"на геометрической шкале сравнений. Даже если эти вопросы задаются предельно добросовестному эксперту подряд (он имеет возможность сверить свои ответы), и он хочет, чтобы ответы совпадали, все равно добиться точного совпадения ответов практи- чески невозможно. Поэтому, чтобы добиться выполнения условия (14.2)

(симметричности), чаще всего полагают

Di;j

è

Dj;i

 

соответствующих оценок различия

 

 

 

равными полусумме

 

между

 

 

объектами:

 

 

i-ì è j-м и между j-ì è i

1

 

 

 

 

 

Di;j = Dj;i =

( (i; j) + (j; i)):

 

2