Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Назаметдинов Анализ данных 2012

.pdf
Скачиваний:
10
Добавлен:
12.11.2022
Размер:
5.66 Mб
Скачать

Проекции (координаты) остальных точек на первую ось, как видно из рис. 12.1, составят

x j1

 

d12j d 2j 2 d122

.

 

 

 

2d12

Строится матрица расстояний по найденным координатам, которая сравнивается с матрицей различий. Если соответствие приемлемое, решение достигнуто; в противном случае необходимо искать вторую ось, проходящую через точку, наиболее удаленную от прямой А1 А2 .Очевидно, это точка, которая доставит максимум

h2j d12j x2j1 , j=3,4,…,N.

Координаты остальных точек – проекции на полученные оси – можно получить геометрическим построением либо аналитически. Однако повышение размерности приводит к сложностям получения оценок. К тому же решение оказывается излишне чувствительным к данным, поскольку оно определяется всего по нескольким точкам.

В методе главных проекций Торгерсона предполагается, что матрица G – матрица евклидовых расстояний между объектами, не содержащая ошибок. По матрице G необходимо определить раз-

мерность

пространства и проекции точек на его оси. Пусть

dij , dik , d jk

– расстояния между точками i, j, k (рис.12.2).

 

j

dij

djk

 

 

 

i

dik

k

Рис. 12.2. Графическая иллюстрация скалярного произведения

Вычислим симметричную матрицу Bi размерности N×N с элементами bjk , представляющими скалярное произведение векторов с началом в точке i и концами в точках j и k:

261

bjk dij dik cos (dij2 dik2 d 2jk ) / 2 .

Любая из N точек может быть взята в качестве i-й. Таким обра-

зом можно получить N возможных матриц Bi. Согласно теореме Янга-Хаусхолдера [25]:

1.Если какая-либо матрица Bi (i=1,2,…,N) является положительно полуопределенной (ППО), то различия между объектами можно рассматривать как расстояния между точками в вещественном евклидовом пространстве.

2.Ранг любой ППО матрицы соответствует размерности r множества точек. (Напомним, что ранг ППО матрицы равен числу положительных собственных значений.)

3.Любую ППО матрицу можно факторизовать в виде B i = XX ′. Элементы Х есть проекции точек-объектов на r ортогональных осей в r-мерном вещественном пространстве с центром в точке i.

Для того чтобы уменьшить влияние возможных ошибок, начало координат помещают в центр тяжести всех объектов. Тогда координаты искомых (центрированных) точек будут иметь вид:

j

 

j

 

1

N

j

 

xi

 

ci , i 1,2,...,r; j 1,2,...,N, где ci

 

xi

.

xi

 

 

 

 

 

 

N j 1

 

 

Матрица скалярных произведений B новых переменных должна факторизоваться в виде B XX . Подставляя сюда выражение для центрированных переменных и выражая координаты через расстояния, можно получить, что

 

 

 

 

 

2

2

2

 

2

) / 2 ,

 

 

 

 

bjk (d jk

d j. d.k

d..

 

где d 2j.

1

d 2jk ,

d.2k

1

d

2jk , d..2

 

 

1

d 2jk .

 

N

N

 

2

 

 

k

 

j

 

 

N

j

k

 

Легко видеть, что bjk 0, k 1,2,...,N; bjk 0,

j 1,2,...,N .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

k

 

Матрицу B называют матрицей с двойным центрированием. Фак-

торизация матрицы B проводится так же, как и в факторном анализе (см. п. 11.2).

262

В алгоритме Торгерсона предполагается, что матрица различий является и матрицей расстояний, т.е. G = D. Это требование можно ослабить, допуская, что матрица различий может быть преобразована в матрицу расстояний с помощью аддитивной константы, т.е.

D = G + C,

где С – матрица, по главной диагонали которой стоят нули, а остальные элементы – число с (аддитивная константа).

Константа с должна быть такой, чтобы разместить объекты в вещественном пространстве возможно меньшей размерности. Так,

0

0

1

0

2

 

 

 

 

 

0

0

0

3

1

для матрицы G 1

0

0

0

2 с=5.

0

3

0

0

1

 

1

2

1

 

2

0

Преобразованная матрица

0

5

6

5

3

 

 

 

 

 

5

0

5

8

4

D 6 5

0 5

3

5

8

5

0

4

 

4

3

4

 

3

0

стала матрицей расстояний пяти точек на плоскости (рис.12.3).

А1

5

3

 

5

 

 

 

4

 

4

 

 

 

А4

А5

 

А2

5

3

 

5

 

 

А3

Рис.12.3. Конфигурация точек для матрицы расстояний D

263

Отметим, что при с <5 разместить объекты в вещественном евклидовом пространстве невозможно (не выполняется правило треугольника), при с > 5 размерность превышает 2.

12.3. Неметрическое шкалирование

Рассмотрим один из известных алгоритмов неметрического многомерного шкалирования, предложенный Дж. Краскалом.

Пусть xˆi

– оценки координат, где i – номер точки; k – номер

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

p

 

 

 

ˆ

 

ˆi

ˆ j

 

p

 

 

 

 

 

координаты;

 

 

 

 

– оценка расстояний по l p -ме-

dij

 

xk xk

 

 

 

 

 

k

 

 

 

 

трике; hij ранговые образы расстояний, иначе отклонения. Эти

величины должны соответствовать, насколько это возможно, оценкам расстояний, но с сохранением условия монотонности:

gij gi j hij hi j . (12.1)

Для оценки степени расхождения вводят меру соответствия (S- стресс):

 

 

 

 

 

 

 

ˆ 2

12

 

 

 

ˆ 2

12

 

 

 

 

 

 

hij dij

 

 

 

hij dij

 

 

 

 

 

 

S1

 

i, j

 

либо S2

 

i, j

 

 

 

 

 

,

 

 

 

 

 

ˆ 2

 

 

 

 

 

2

 

 

 

 

 

 

 

ˆ

 

ˆ

 

 

 

 

 

 

 

dij

 

 

 

 

 

 

 

 

 

 

 

 

 

i, j

 

 

dij

d

 

 

 

 

 

 

 

 

 

 

 

 

 

i, j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

где d

 

 

 

 

 

dij – среднее арифметическое оцененных рас-

N N

1

 

 

 

i j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

стояний.

Наряду с S-стрессом используется SS-стресс, где в числителе оценки расстояний и отклонения заменены их квадратами. SS- стресс обеспечивает более быструю сходимость, если матрица различий симметрична.

264

Алгоритм Краскала состоит из пяти основных этапов:

1)формирование стартовой конфигурации, т.е. получение начальных оценок координат (размерность пространства предполагается известной);

2)стандартизация расстояний и оценок координат;

3)неметрический этап, в ходе которого вычисляются отклоне-

ния;

4)метрический этап: перерасчет оценок координат;

5)подсчет меры соответствия.

Если мера улучшилась, то возвращаются к этапу 2; в противном случае работа алгоритма завершается.

Рассмотрим перечисленные этапы подробнее. Стартовая конфигурация строится по методу Торгерсона (ортогональное проектирование). Затем по координатам найденных точек вычисляется матрица расстояний с элементами

ˆ0

 

i

j 2

12

.

dij

 

xk xk

 

 

 

 

 

 

 

На втором этапе в ходе первой итерации текущие расстояния и координаты – те, которые получены из стартовой конфигурации. Для всех итераций, кроме первой, в качестве текущего расстояния и оценок используются те, что были получены на метрическом этапе предыдущей итерации.

Стандартизация оценок расстояний и координат состоит в деле-

нии их на сумму квадратов ˆ 2 . Очевидно, подобное преобразо-

dij

i, j

вание делает сумму квадратов расстояний равной единице, что снижает вероятность получения вырожденного решения и упрощает вычисления, особенно при использовании S1-стресса, выражение для которого приобретает вид

 

 

ˆ

2

12

 

S1

 

 

.

(12.2)

hij dij

 

i, j

 

 

 

 

 

 

 

 

 

 

265

Неметрический этап

На этом этапе данные о различиях и стандартизированные оценки расстояний из предыдущей итерации используются для вычисления отклонений.

Этап состоит из нескольких шагов.

1.Упорядочить по возрастанию данные о различиях по исходной матрице G. Получившийся порядок пар объектов задает и порядок оценок расстояний или отклонений.

2.Серия проходов: в начале первого прохода на конкретной итерации отклонениями являются текущие оценки расстояний из предыдущей итерации или стартовой конфигурации. В начале каждого последующего прохода на той же итерации отклонения берутся из предыдущего прохода. Проход начинается с разбиения оце-

нок отклонений на блоки равных значений. Пусть m=(1,...,M) будет индексом, обозначающим блоки от самого верхнего (m=1) до самого нижнего (m=M). Начиная с m=1, элементы m-го блока сравниваются с элементами (m+1)-го блока. Если элементы m-го блока меньше элементов (m+1)-го блока, необходимо перейти к сравнению двух следующих блоков. Как только элементы m-го блока окажутся больше элементов (m+1)-го блока, то все элементы m-го и (m+1)-го блоков приравниваются среднему арифметическому обоих блоков. Эти два блока объединяют в один, который становится новым

m-ым блоком. Затем опять сравнивают m-й и (m+1)-й блоки; проход заканчивается после сравнения всех соседних блоков. Результат прохода – новый набор оценок отклонений. После завершения

проходов отклонения будут удовлетворять условию монотонности (12.1). Пример работы алгоритма дается в табл.12.1.

 

 

 

 

 

 

 

Таблица 12.1

 

 

До объединения

После 1-го

 

После 2-го

 

прохода

 

прохода

Различие

 

 

 

п/п

Откло-

Блок

Откло-

Блок

Откло-

Блок

 

 

 

нение

нение

нение

 

 

 

 

 

 

1

2

3

4

5

 

6

7

8

1

0,19

0,11

1

0,11

 

1

0,11

1

2

0,22

0,12

2

0,12

 

2

0,12

2

3

0,23

0,16

3

0,15

 

3

0,15

3

266

Продолжение табл. 12.1

 

 

До объединения

После 1-го

После 2-го

 

прохода

прохода

Различие

 

 

п/п

Откло-

Блок

Откло-

Блок

Откло-

Блок

 

 

 

нение

нение

 

нение

 

 

 

 

 

 

1

2

3

4

5

6

7

8

4

0,25

0,14

4

0,15

3

0,15

3

5

0,26

0.21

5

0.21

4

0.21

4

6

0,27

0,23

6

0,23

5

0,23

5

7

0,28

0,25

7

0,25

6

0,24

6

8

0,29

0,23

8

0,23

7

0,24

6

9

0,32

0.27

9

0.27

8

0,27

7

В столбце 3 нет подряд идущих одинаковых чисел, так что каждая строка образует блок. Просматривая этот столбец сверху вниз, обнаруживаем, что в строках 3 и 4 имеет место инверсия (нарушение монотонности –– 0,16> 0,14). Блоки 3 и 4 объединяются в один со значением (0,16+0,14)/2=0,15. Просматривая теперь столбец 5, убеждаемся в необходимости слияния блоков 6 и 7. Как видно из 7- го столбца нарушений условия монотонности не осталось, что позволяет считать элементы столбца 7 искомыми отклонениями hij .

Метрический этап

На этом этапе решают задачу математического программирования, в результате чего получают новые оценки координат, по которым рассчитывают новые оценки расстояний. Исходными данными являются отклонения, рассчитанные на неметрическом этапе, оценки координат и расстояний предыдущей итерации. В качестве целевой функции выступает S1 (12.2).

Минимизация S1 проводится одним из градиентных методов.

12.4. Нелинейные методы шкалирования

Ортогональное проектирование (Орлочи, Торгерсона) обеспечивает наименьшие потери информации, когда данные имеют сильный разброс в одних направлениях и малый – в ортогональных направлениях. Когда же в данных присутствует существенная нелинейность, ортогональное проектирование ведет к наложению точек. Так, ортогональное проектирование на плоскость правиль-

267

ного 19-мерного симплекса с пятью точками, помеченных одной и

той же буквой, в окрестности каждой из 20 вершин, позволило различить лишь шесть вершин (рис. 12.4).

Рис.12.4. Проекция на плоскость 19-мерного симплекса по методу главных компонент

Нелинейные методы многомерного шкалирования ориентированы на переход в пространство малой размерности с минимальными искажениями геометрической структуры исходного множества и основываются на получении матрицы расстояний путем прямой минимизации критерия соответствия матриц G и D. Широкую известность получили критерии вида

S p

1

gijp gij dij 2 .

 

 

gij i j

i j

Отображение упомянутого симплекса на плоскость с использованием критерия S 1 (критерий Семмона) позволил получить более регулярную структуру (рис.12.5).

268

Рис.12.5. Проекция на плоскость 19-мерного симплекса нелинейным шкалированием по критерию Семмона

Вопросы и упражнения

1.Поясните происхождение термина «многомерное шкалирова-

ние».

2.Матрица корреляций является матрицей сходства или разли-

чия?

3.Как определяется размерность пространства в метрическом шкалировании?

4.В чем состоит различие между метрическим и неметрическим шкалированием?

5.Какой характер (монотонно убывающий, монотонно возрастающий) должен иметь график «расстояния–отклонения»? Объясните почему?

6.С какой целью нормируются расстояния в алгоритме Краска-

ла?

7.Как определяется окончание работы алгоритма Краскала?

269

13. ИНТЕЛЛЕКТУАЛЬНЫЕ МЕТОДЫ АНАЛИЗА ДАННЫХ

Интеллектуальные методы анализа данных основываются на аналогиях с интеллектуальной деятельностью человека, с его поведением, а также эволюцией в живой природе. Сюда относят такие направления как data mining (добыча или разработка данных), нейронные сети, генетические алгоритмы, нечеткие системы, нелинейная динамика [15]. Каждое из направлений может рассматриваться независимо, тем не менее все большее распространение получают гибридные системы. Так, генетические алгоритмы применяются для подбора весов и топологии нейронной сети, тогда как нейросети используются в генетических алгоритмах для подбора параметров скрещивания и мутации. Теория нечетких множеств находит применение в нейросетях и генетических алгоритмах.

13.1.Нейросетевые методы анализа данных

Впоследнее время широкое применение при решении задач анализа данных находят нейронные сети (НС). Известны примеры

успешного применения НС в технике, физике, бизнесе, медицине и других областях. Такие задачи, как аппроксимация функций, клас-

сификация данных с учителем, кластеризация данных, сжатие информации, восстановление пропущенных данных, являются типичными для нейрокомпьютинга. Нейросетевые методы могут использоваться независимо или как дополнение к классическим методам анализа данных. Эти методы требуют минимума априорной информации и особенно эффективны в разведочном анализе данных,

когда требуется выяснить, имеется ли зависимость между перемен- ными-предикторами (входами) и выходной переменной, даже если эта связь носит сложный нелинейный характер. Несомненное достоинство нейросетевого подхода в том, что он базируется на единой методологии решения перечисленных задач. Характерная особенность НС состоит в том, что процесс поиска решения задачи

270