Проекции (координаты) остальных точек на первую ось, как видно из рис. 12.1, составят
x j1 |
|
d12j d 2j 2 d122 |
. |
|
|
|
2d12 |
Строится матрица расстояний по найденным координатам, которая сравнивается с матрицей различий. Если соответствие приемлемое, решение достигнуто; в противном случае необходимо искать вторую ось, проходящую через точку, наиболее удаленную от прямой А1 А2 .Очевидно, это точка, которая доставит максимум
h2j d12j x2j1 , j=3,4,…,N.
Координаты остальных точек – проекции на полученные оси – можно получить геометрическим построением либо аналитически. Однако повышение размерности приводит к сложностям получения оценок. К тому же решение оказывается излишне чувствительным к данным, поскольку оно определяется всего по нескольким точкам.
В методе главных проекций Торгерсона предполагается, что матрица G – матрица евклидовых расстояний между объектами, не содержащая ошибок. По матрице G необходимо определить раз-
мерность |
пространства и проекции точек на его оси. Пусть |
dij , dik , d jk |
– расстояния между точками i, j, k (рис.12.2). |
Рис. 12.2. Графическая иллюстрация скалярного произведения
Вычислим симметричную матрицу Bi размерности N×N с элементами bjk , представляющими скалярное произведение векторов с началом в точке i и концами в точках j и k:
bjk dij dik cos (dij2 dik2 d 2jk ) / 2 .
Любая из N точек может быть взята в качестве i-й. Таким обра-
зом можно получить N возможных матриц Bi. Согласно теореме Янга-Хаусхолдера [25]:
1.Если какая-либо матрица Bi (i=1,2,…,N) является положительно полуопределенной (ППО), то различия между объектами можно рассматривать как расстояния между точками в вещественном евклидовом пространстве.
2.Ранг любой ППО матрицы соответствует размерности r множества точек. (Напомним, что ранг ППО матрицы равен числу положительных собственных значений.)
3.Любую ППО матрицу можно факторизовать в виде B i = XX ′. Элементы Х есть проекции точек-объектов на r ортогональных осей в r-мерном вещественном пространстве с центром в точке i.
Для того чтобы уменьшить влияние возможных ошибок, начало координат помещают в центр тяжести всех объектов. Тогда координаты искомых (центрированных) точек будут иметь вид:
j |
|
j |
|
1 |
N |
j |
|
xi |
|
ci , i 1,2,...,r; j 1,2,...,N, где ci |
|
xi |
. |
xi |
|
|
|
|
|
|
N j 1 |
|
|
Матрица скалярных произведений B новых переменных должна факторизоваться в виде B XX . Подставляя сюда выражение для центрированных переменных и выражая координаты через расстояния, можно получить, что
|
|
|
|
|
2 |
2 |
2 |
|
2 |
) / 2 , |
|
|
|
|
bjk (d jk |
d j. d.k |
d.. |
|
где d 2j. |
1 |
d 2jk , |
d.2k |
1 |
d |
2jk , d..2 |
|
|
1 |
d 2jk . |
|
N |
N |
|
2 |
|
|
k |
|
j |
|
|
N |
j |
k |
|
Легко видеть, что bjk 0, k 1,2,...,N; bjk 0, |
j 1,2,...,N . |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
|
|
|
|
k |
|
Матрицу B называют матрицей с двойным центрированием. Фак-
торизация матрицы B проводится так же, как и в факторном анализе (см. п. 11.2).
В алгоритме Торгерсона предполагается, что матрица различий является и матрицей расстояний, т.е. G = D. Это требование можно ослабить, допуская, что матрица различий может быть преобразована в матрицу расстояний с помощью аддитивной константы, т.е.
D = G + C,
где С – матрица, по главной диагонали которой стоят нули, а остальные элементы – число с (аддитивная константа).
Константа с должна быть такой, чтобы разместить объекты в вещественном пространстве возможно меньшей размерности. Так,
0 |
0 |
1 |
0 |
2 |
|
|
|
|
|
0 |
0 |
0 |
3 |
1 |
для матрицы G 1 |
0 |
0 |
0 |
2 с=5. |
0 |
3 |
0 |
0 |
1 |
|
1 |
2 |
1 |
|
2 |
0 |
Преобразованная матрица
0 |
5 |
6 |
5 |
3 |
|
|
|
|
|
5 |
0 |
5 |
8 |
4 |
D 6 5 |
0 5 |
3 |
5 |
8 |
5 |
0 |
4 |
|
4 |
3 |
4 |
|
3 |
0 |
стала матрицей расстояний пяти точек на плоскости (рис.12.3).
А1
А3
Рис.12.3. Конфигурация точек для матрицы расстояний D
Отметим, что при с <5 разместить объекты в вещественном евклидовом пространстве невозможно (не выполняется правило треугольника), при с > 5 размерность превышает 2.
12.3. Неметрическое шкалирование
Рассмотрим один из известных алгоритмов неметрического многомерного шкалирования, предложенный Дж. Краскалом.
Пусть xˆi |
– оценки координат, где i – номер точки; k – номер |
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
p |
|
|
|
ˆ |
|
ˆi |
ˆ j |
|
p |
|
|
|
|
|
координаты; |
|
|
|
|
– оценка расстояний по l p -ме- |
dij |
|
xk xk |
|
|
|
|
|
k |
|
|
|
|
трике; hij – ранговые образы расстояний, иначе отклонения. Эти
величины должны соответствовать, насколько это возможно, оценкам расстояний, но с сохранением условия монотонности:
gij gi j hij hi j . (12.1)
Для оценки степени расхождения вводят меру соответствия (S- стресс):
|
|
|
|
|
|
|
|
ˆ 2 |
12 |
|
|
|
ˆ 2 |
12 |
|
|
|
|
|
|
|
hij dij |
|
|
|
hij dij |
|
|
|
|
|
|
|
S1 |
|
i, j |
|
либо S2 |
|
i, j |
|
|
|
|
|
, |
|
|
|
|
|
|
ˆ 2 |
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
ˆ |
|
ˆ |
|
|
|
|
|
|
|
|
dij |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i, j |
|
|
dij |
d |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i, j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ˆ |
|
|
|
|
ˆ |
|
|
|
|
|
|
|
|
|
|
|
где d |
|
|
|
|
|
dij – среднее арифметическое оцененных рас- |
|
N N |
1 |
|
|
|
|
i j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
стояний.
Наряду с S-стрессом используется SS-стресс, где в числителе оценки расстояний и отклонения заменены их квадратами. SS- стресс обеспечивает более быструю сходимость, если матрица различий симметрична.
Алгоритм Краскала состоит из пяти основных этапов:
1)формирование стартовой конфигурации, т.е. получение начальных оценок координат (размерность пространства предполагается известной);
2)стандартизация расстояний и оценок координат;
3)неметрический этап, в ходе которого вычисляются отклоне-
ния;
4)метрический этап: перерасчет оценок координат;
5)подсчет меры соответствия.
Если мера улучшилась, то возвращаются к этапу 2; в противном случае работа алгоритма завершается.
Рассмотрим перечисленные этапы подробнее. Стартовая конфигурация строится по методу Торгерсона (ортогональное проектирование). Затем по координатам найденных точек вычисляется матрица расстояний с элементами
На втором этапе в ходе первой итерации текущие расстояния и координаты – те, которые получены из стартовой конфигурации. Для всех итераций, кроме первой, в качестве текущего расстояния и оценок используются те, что были получены на метрическом этапе предыдущей итерации.
Стандартизация оценок расстояний и координат состоит в деле-
нии их на сумму квадратов ˆ 2 . Очевидно, подобное преобразо-
dij
i, j
вание делает сумму квадратов расстояний равной единице, что снижает вероятность получения вырожденного решения и упрощает вычисления, особенно при использовании S1-стресса, выражение для которого приобретает вид
|
|
ˆ |
2 |
12 |
|
S1 |
|
|
. |
(12.2) |
hij dij |
|
i, j |
|
|
|
|
|
|
|
|
|
|
265
Неметрический этап
На этом этапе данные о различиях и стандартизированные оценки расстояний из предыдущей итерации используются для вычисления отклонений.
Этап состоит из нескольких шагов.
1.Упорядочить по возрастанию данные о различиях по исходной матрице G. Получившийся порядок пар объектов задает и порядок оценок расстояний или отклонений.
2.Серия проходов: в начале первого прохода на конкретной итерации отклонениями являются текущие оценки расстояний из предыдущей итерации или стартовой конфигурации. В начале каждого последующего прохода на той же итерации отклонения берутся из предыдущего прохода. Проход начинается с разбиения оце-
нок отклонений на блоки равных значений. Пусть m=(1,...,M) будет индексом, обозначающим блоки от самого верхнего (m=1) до самого нижнего (m=M). Начиная с m=1, элементы m-го блока сравниваются с элементами (m+1)-го блока. Если элементы m-го блока меньше элементов (m+1)-го блока, необходимо перейти к сравнению двух следующих блоков. Как только элементы m-го блока окажутся больше элементов (m+1)-го блока, то все элементы m-го и (m+1)-го блоков приравниваются среднему арифметическому обоих блоков. Эти два блока объединяют в один, который становится новым
m-ым блоком. Затем опять сравнивают m-й и (m+1)-й блоки; проход заканчивается после сравнения всех соседних блоков. Результат прохода – новый набор оценок отклонений. После завершения
проходов отклонения будут удовлетворять условию монотонности (12.1). Пример работы алгоритма дается в табл.12.1.
|
|
|
|
|
|
|
|
Таблица 12.1 |
|
|
|
До объединения |
После 1-го |
|
После 2-го |
|
№ |
|
прохода |
|
прохода |
|
Различие |
|
|
|
|
п/п |
Откло- |
Блок |
Откло- |
Блок |
Откло- |
Блок |
|
|
|
|
|
нение |
нение |
нение |
|
|
|
|
|
|
|
|
1 |
2 |
3 |
4 |
5 |
|
6 |
7 |
8 |
|
1 |
0,19 |
0,11 |
1 |
0,11 |
|
1 |
0,11 |
1 |
|
2 |
0,22 |
0,12 |
2 |
0,12 |
|
2 |
0,12 |
2 |
|
3 |
0,23 |
0,16 |
3 |
0,15 |
|
3 |
0,15 |
3 |
Продолжение табл. 12.1
|
|
|
До объединения |
После 1-го |
После 2-го |
|
№ |
|
прохода |
прохода |
|
Различие |
|
|
|
п/п |
Откло- |
Блок |
Откло- |
Блок |
Откло- |
Блок |
|
|
|
|
|
нение |
нение |
|
нение |
|
|
|
|
|
|
|
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
|
4 |
0,25 |
0,14 |
4 |
0,15 |
3 |
0,15 |
3 |
|
5 |
0,26 |
0.21 |
5 |
0.21 |
4 |
0.21 |
4 |
|
6 |
0,27 |
0,23 |
6 |
0,23 |
5 |
0,23 |
5 |
|
7 |
0,28 |
0,25 |
7 |
0,25 |
6 |
0,24 |
6 |
|
8 |
0,29 |
0,23 |
8 |
0,23 |
7 |
0,24 |
6 |
|
9 |
0,32 |
0.27 |
9 |
0.27 |
8 |
0,27 |
7 |
В столбце 3 нет подряд идущих одинаковых чисел, так что каждая строка образует блок. Просматривая этот столбец сверху вниз, обнаруживаем, что в строках 3 и 4 имеет место инверсия (нарушение монотонности –– 0,16> 0,14). Блоки 3 и 4 объединяются в один со значением (0,16+0,14)/2=0,15. Просматривая теперь столбец 5, убеждаемся в необходимости слияния блоков 6 и 7. Как видно из 7- го столбца нарушений условия монотонности не осталось, что позволяет считать элементы столбца 7 искомыми отклонениями hij .
Метрический этап
На этом этапе решают задачу математического программирования, в результате чего получают новые оценки координат, по которым рассчитывают новые оценки расстояний. Исходными данными являются отклонения, рассчитанные на неметрическом этапе, оценки координат и расстояний предыдущей итерации. В качестве целевой функции выступает S1 (12.2).
Минимизация S1 проводится одним из градиентных методов.
12.4. Нелинейные методы шкалирования
Ортогональное проектирование (Орлочи, Торгерсона) обеспечивает наименьшие потери информации, когда данные имеют сильный разброс в одних направлениях и малый – в ортогональных направлениях. Когда же в данных присутствует существенная нелинейность, ортогональное проектирование ведет к наложению точек. Так, ортогональное проектирование на плоскость правиль-
ного 19-мерного симплекса с пятью точками, помеченных одной и
той же буквой, в окрестности каждой из 20 вершин, позволило различить лишь шесть вершин (рис. 12.4).
Рис.12.4. Проекция на плоскость 19-мерного симплекса по методу главных компонент
Нелинейные методы многомерного шкалирования ориентированы на переход в пространство малой размерности с минимальными искажениями геометрической структуры исходного множества и основываются на получении матрицы расстояний путем прямой минимизации критерия соответствия матриц G и D. Широкую известность получили критерии вида
S p |
1 |
gijp gij dij 2 . |
|
|
gij i j |
i j
Отображение упомянутого симплекса на плоскость с использованием критерия S 1 (критерий Семмона) позволил получить более регулярную структуру (рис.12.5).
Рис.12.5. Проекция на плоскость 19-мерного симплекса нелинейным шкалированием по критерию Семмона
Вопросы и упражнения
1.Поясните происхождение термина «многомерное шкалирова-
ние».
2.Матрица корреляций является матрицей сходства или разли-
чия?
3.Как определяется размерность пространства в метрическом шкалировании?
4.В чем состоит различие между метрическим и неметрическим шкалированием?
5.Какой характер (монотонно убывающий, монотонно возрастающий) должен иметь график «расстояния–отклонения»? Объясните почему?
6.С какой целью нормируются расстояния в алгоритме Краска-
ла?
7.Как определяется окончание работы алгоритма Краскала?
269
13. ИНТЕЛЛЕКТУАЛЬНЫЕ МЕТОДЫ АНАЛИЗА ДАННЫХ
Интеллектуальные методы анализа данных основываются на аналогиях с интеллектуальной деятельностью человека, с его поведением, а также эволюцией в живой природе. Сюда относят такие направления как data mining (добыча или разработка данных), нейронные сети, генетические алгоритмы, нечеткие системы, нелинейная динамика [15]. Каждое из направлений может рассматриваться независимо, тем не менее все большее распространение получают гибридные системы. Так, генетические алгоритмы применяются для подбора весов и топологии нейронной сети, тогда как нейросети используются в генетических алгоритмах для подбора параметров скрещивания и мутации. Теория нечетких множеств находит применение в нейросетях и генетических алгоритмах.
13.1.Нейросетевые методы анализа данных
Впоследнее время широкое применение при решении задач анализа данных находят нейронные сети (НС). Известны примеры
успешного применения НС в технике, физике, бизнесе, медицине и других областях. Такие задачи, как аппроксимация функций, клас-
сификация данных с учителем, кластеризация данных, сжатие информации, восстановление пропущенных данных, являются типичными для нейрокомпьютинга. Нейросетевые методы могут использоваться независимо или как дополнение к классическим методам анализа данных. Эти методы требуют минимума априорной информации и особенно эффективны в разведочном анализе данных,
когда требуется выяснить, имеется ли зависимость между перемен- ными-предикторами (входами) и выходной переменной, даже если эта связь носит сложный нелинейный характер. Несомненное достоинство нейросетевого подхода в том, что он базируется на единой методологии решения перечисленных задач. Характерная особенность НС состоит в том, что процесс поиска решения задачи