Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский ядерный университет (МИФИ)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Назаметдинов Анализ данных 2012

.pdf

Скачиваний:

Добавлен:

12.11.2022

Размер:

5.66 Mб

Скачать

☆

<<< < Предыдущая 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2627 / 2927 28 29 > Следующая >>>

Проекции (координаты) остальных точек на первую ось, как видно из рис. 12.1, составят

x j1	d12j d 2j 2 d122	.

	2d12

Строится матрица расстояний по найденным координатам, которая сравнивается с матрицей различий. Если соответствие приемлемое, решение достигнуто; в противном случае необходимо искать вторую ось, проходящую через точку, наиболее удаленную от прямой А1 А2 .Очевидно, это точка, которая доставит максимум

h2j d12j x2j1 , j=3,4,…,N.

Координаты остальных точек – проекции на полученные оси – можно получить геометрическим построением либо аналитически. Однако повышение размерности приводит к сложностям получения оценок. К тому же решение оказывается излишне чувствительным к данным, поскольку оно определяется всего по нескольким точкам.

В методе главных проекций Торгерсона предполагается, что матрица G – матрица евклидовых расстояний между объектами, не содержащая ошибок. По матрице G необходимо определить раз-

мерность	пространства и проекции точек на его оси. Пусть
dij , dik , d jk	– расстояния между точками i, j, k (рис.12.2).

	j
dij	djk
	djk

dik

Рис. 12.2. Графическая иллюстрация скалярного произведения

Вычислим симметричную матрицу Bi размерности N×N с элементами bjk , представляющими скалярное произведение векторов с началом в точке i и концами в точках j и k:

261

bjk dij dik cos (dij2 dik2 d 2jk ) / 2 .

Любая из N точек может быть взята в качестве i-й. Таким обра-

зом можно получить N возможных матриц Bi. Согласно теореме Янга-Хаусхолдера [25]:

1.Если какая-либо матрица Bi (i=1,2,…,N) является положительно полуопределенной (ППО), то различия между объектами можно рассматривать как расстояния между точками в вещественном евклидовом пространстве.

2.Ранг любой ППО матрицы соответствует размерности r множества точек. (Напомним, что ранг ППО матрицы равен числу положительных собственных значений.)

3.Любую ППО матрицу можно факторизовать в виде B i = XX ′. Элементы Х есть проекции точек-объектов на r ортогональных осей в r-мерном вещественном пространстве с центром в точке i.

Для того чтобы уменьшить влияние возможных ошибок, начало координат помещают в центр тяжести всех объектов. Тогда координаты искомых (центрированных) точек будут иметь вид:

j		j		1	N	j
j	xi		ci , i 1,2,...,r; j 1,2,...,N, где ci		xi		.
xi	xi		ci , i 1,2,...,r; j 1,2,...,N, где ci		xi		.
				N j 1

Матрица скалярных произведений B новых переменных должна факторизоваться в виде B XX . Подставляя сюда выражение для центрированных переменных и выражая координаты через расстояния, можно получить, что

) / 2 ,

bjk (d jk

d j. d.k

d..

где d 2j.

d 2jk ,

d.2k

2jk , d..2

d 2jk .

Легко видеть, что bjk 0, k 1,2,...,N; bjk 0,

j 1,2,...,N .

Матрицу B называют матрицей с двойным центрированием. Фак-

торизация матрицы B проводится так же, как и в факторном анализе (см. п. 11.2).

262

В алгоритме Торгерсона предполагается, что матрица различий является и матрицей расстояний, т.е. G = D. Это требование можно ослабить, допуская, что матрица различий может быть преобразована в матрицу расстояний с помощью аддитивной константы, т.е.

D = G + C,

где С – матрица, по главной диагонали которой стоят нули, а остальные элементы – число с (аддитивная константа).

Константа с должна быть такой, чтобы разместить объекты в вещественном пространстве возможно меньшей размерности. Так,

0	0	1	0	2

0	0	0	3	1
для матрицы G 1	0	0	0	2 с=5.
0	3	0	0	1
	1	2	1
2	1	2	1	0

Преобразованная матрица

0	5	6	5	3

5	0	5	8	4
D 6 5		0 5		3
5	8	5	0	4
	4	3	4
3	4	3	4	0

стала матрицей расстояний пяти точек на плоскости (рис.12.3).

А1

5	3		5
	3
4		4
4		4
А4	А5		А2
5	3		5
5			5

А3

Рис.12.3. Конфигурация точек для матрицы расстояний D

263

Отметим, что при с <5 разместить объекты в вещественном евклидовом пространстве невозможно (не выполняется правило треугольника), при с > 5 размерность превышает 2.

12.3. Неметрическое шкалирование

Рассмотрим один из известных алгоритмов неметрического многомерного шкалирования, предложенный Дж. Краскалом.

Пусть xˆi	– оценки координат, где i – номер точки; k – номер
k
					1
						p
	ˆ		ˆi	ˆ j			p
							p
координаты;								– оценка расстояний по l p -ме-
координаты;	dij		xk xk					– оценка расстояний по l p -ме-
		k

трике; hij – ранговые образы расстояний, иначе отклонения. Эти

величины должны соответствовать, насколько это возможно, оценкам расстояний, но с сохранением условия монотонности:

gij gi j hij hi j . (12.1)

Для оценки степени расхождения вводят меру соответствия (S- стресс):

ˆ 2

hij dij

i, j

либо S2

i, j

ˆ 2

dij

i, j

dij

i, j

где d

dij – среднее арифметическое оцененных рас-

N N

i j

стояний.

Наряду с S-стрессом используется SS-стресс, где в числителе оценки расстояний и отклонения заменены их квадратами. SS- стресс обеспечивает более быструю сходимость, если матрица различий симметрична.

264

Алгоритм Краскала состоит из пяти основных этапов:

1)формирование стартовой конфигурации, т.е. получение начальных оценок координат (размерность пространства предполагается известной);

2)стандартизация расстояний и оценок координат;

3)неметрический этап, в ходе которого вычисляются отклоне-

ния;

4)метрический этап: перерасчет оценок координат;

5)подсчет меры соответствия.

Если мера улучшилась, то возвращаются к этапу 2; в противном случае работа алгоритма завершается.

Рассмотрим перечисленные этапы подробнее. Стартовая конфигурация строится по методу Торгерсона (ортогональное проектирование). Затем по координатам найденных точек вычисляется матрица расстояний с элементами

ˆ0	i	j 2	12	.
dij	xk xk			.

На втором этапе в ходе первой итерации текущие расстояния и координаты – те, которые получены из стартовой конфигурации. Для всех итераций, кроме первой, в качестве текущего расстояния и оценок используются те, что были получены на метрическом этапе предыдущей итерации.

Стандартизация оценок расстояний и координат состоит в деле-

нии их на сумму квадратов ˆ 2 . Очевидно, подобное преобразо-

dij

i, j

вание делает сумму квадратов расстояний равной единице, что снижает вероятность получения вырожденного решения и упрощает вычисления, особенно при использовании S1-стресса, выражение для которого приобретает вид

		ˆ	2	12
S1		ˆ		.	(12.2)
S1	hij dij			.	(12.2)
	i, j

265

Неметрический этап

На этом этапе данные о различиях и стандартизированные оценки расстояний из предыдущей итерации используются для вычисления отклонений.

Этап состоит из нескольких шагов.

1.Упорядочить по возрастанию данные о различиях по исходной матрице G. Получившийся порядок пар объектов задает и порядок оценок расстояний или отклонений.

2.Серия проходов: в начале первого прохода на конкретной итерации отклонениями являются текущие оценки расстояний из предыдущей итерации или стартовой конфигурации. В начале каждого последующего прохода на той же итерации отклонения берутся из предыдущего прохода. Проход начинается с разбиения оце-

нок отклонений на блоки равных значений. Пусть m=(1,...,M) будет индексом, обозначающим блоки от самого верхнего (m=1) до самого нижнего (m=M). Начиная с m=1, элементы m-го блока сравниваются с элементами (m+1)-го блока. Если элементы m-го блока меньше элементов (m+1)-го блока, необходимо перейти к сравнению двух следующих блоков. Как только элементы m-го блока окажутся больше элементов (m+1)-го блока, то все элементы m-го и (m+1)-го блоков приравниваются среднему арифметическому обоих блоков. Эти два блока объединяют в один, который становится новым

m-ым блоком. Затем опять сравнивают m-й и (m+1)-й блоки; проход заканчивается после сравнения всех соседних блоков. Результат прохода – новый набор оценок отклонений. После завершения

проходов отклонения будут удовлетворять условию монотонности (12.1). Пример работы алгоритма дается в табл.12.1.

							Таблица 12.1
		До объединения		После 1-го			После 2-го
№		До объединения		прохода			прохода
№	Различие			прохода			прохода
п/п	Различие	Откло-	Блок	Откло-	Блок		Откло-	Блок
п/п		Откло-		Откло-			Откло-
		нение		нение			нение
		нение		нение			нение
1	2	3	4	5		6	7	8
1	0,19	0,11	1	0,11		1	0,11	1
2	0,22	0,12	2	0,12		2	0,12	2
3	0,23	0,16	3	0,15		3	0,15	3

266

Продолжение табл. 12.1

		До объединения		После 1-го		После 2-го
№		До объединения		прохода		прохода
№	Различие			прохода		прохода
п/п	Различие	Откло-	Блок	Откло-	Блок	Откло-	Блок
п/п		Откло-		Откло-	Блок	Откло-	Блок
		нение		нение		нение
		нение		нение		нение
1	2	3	4	5	6	7	8
4	0,25	0,14	4	0,15	3	0,15	3
5	0,26	0.21	5	0.21	4	0.21	4
6	0,27	0,23	6	0,23	5	0,23	5
7	0,28	0,25	7	0,25	6	0,24	6
8	0,29	0,23	8	0,23	7	0,24	6
9	0,32	0.27	9	0.27	8	0,27	7

В столбце 3 нет подряд идущих одинаковых чисел, так что каждая строка образует блок. Просматривая этот столбец сверху вниз, обнаруживаем, что в строках 3 и 4 имеет место инверсия (нарушение монотонности –– 0,16> 0,14). Блоки 3 и 4 объединяются в один со значением (0,16+0,14)/2=0,15. Просматривая теперь столбец 5, убеждаемся в необходимости слияния блоков 6 и 7. Как видно из 7- го столбца нарушений условия монотонности не осталось, что позволяет считать элементы столбца 7 искомыми отклонениями hij .

Метрический этап

На этом этапе решают задачу математического программирования, в результате чего получают новые оценки координат, по которым рассчитывают новые оценки расстояний. Исходными данными являются отклонения, рассчитанные на неметрическом этапе, оценки координат и расстояний предыдущей итерации. В качестве целевой функции выступает S1 (12.2).

Минимизация S1 проводится одним из градиентных методов.

12.4. Нелинейные методы шкалирования

Ортогональное проектирование (Орлочи, Торгерсона) обеспечивает наименьшие потери информации, когда данные имеют сильный разброс в одних направлениях и малый – в ортогональных направлениях. Когда же в данных присутствует существенная нелинейность, ортогональное проектирование ведет к наложению точек. Так, ортогональное проектирование на плоскость правиль-

267

ного 19-мерного симплекса с пятью точками, помеченных одной и

той же буквой, в окрестности каждой из 20 вершин, позволило различить лишь шесть вершин (рис. 12.4).

Рис.12.4. Проекция на плоскость 19-мерного симплекса по методу главных компонент

Нелинейные методы многомерного шкалирования ориентированы на переход в пространство малой размерности с минимальными искажениями геометрической структуры исходного множества и основываются на получении матрицы расстояний путем прямой минимизации критерия соответствия матриц G и D. Широкую известность получили критерии вида

S p	1	gijp gij dij 2 .

	gij i j

i j

Отображение упомянутого симплекса на плоскость с использованием критерия S 1 (критерий Семмона) позволил получить более регулярную структуру (рис.12.5).

268

Рис.12.5. Проекция на плоскость 19-мерного симплекса нелинейным шкалированием по критерию Семмона

Вопросы и упражнения

1.Поясните происхождение термина «многомерное шкалирова-

ние».

2.Матрица корреляций является матрицей сходства или разли-

чия?

3.Как определяется размерность пространства в метрическом шкалировании?

4.В чем состоит различие между метрическим и неметрическим шкалированием?

5.Какой характер (монотонно убывающий, монотонно возрастающий) должен иметь график «расстояния–отклонения»? Объясните почему?

6.С какой целью нормируются расстояния в алгоритме Краска-

ла?

7.Как определяется окончание работы алгоритма Краскала?

269

13. ИНТЕЛЛЕКТУАЛЬНЫЕ МЕТОДЫ АНАЛИЗА ДАННЫХ

Интеллектуальные методы анализа данных основываются на аналогиях с интеллектуальной деятельностью человека, с его поведением, а также эволюцией в живой природе. Сюда относят такие направления как data mining (добыча или разработка данных), нейронные сети, генетические алгоритмы, нечеткие системы, нелинейная динамика [15]. Каждое из направлений может рассматриваться независимо, тем не менее все большее распространение получают гибридные системы. Так, генетические алгоритмы применяются для подбора весов и топологии нейронной сети, тогда как нейросети используются в генетических алгоритмах для подбора параметров скрещивания и мутации. Теория нечетких множеств находит применение в нейросетях и генетических алгоритмах.

13.1.Нейросетевые методы анализа данных

Впоследнее время широкое применение при решении задач анализа данных находят нейронные сети (НС). Известны примеры

успешного применения НС в технике, физике, бизнесе, медицине и других областях. Такие задачи, как аппроксимация функций, клас-

сификация данных с учителем, кластеризация данных, сжатие информации, восстановление пропущенных данных, являются типичными для нейрокомпьютинга. Нейросетевые методы могут использоваться независимо или как дополнение к классическим методам анализа данных. Эти методы требуют минимума априорной информации и особенно эффективны в разведочном анализе данных,

когда требуется выяснить, имеется ли зависимость между перемен- ными-предикторами (входами) и выходной переменной, даже если эта связь носит сложный нелинейный характер. Несомненное достоинство нейросетевого подхода в том, что он базируется на единой методологии решения перечисленных задач. Характерная особенность НС состоит в том, что процесс поиска решения задачи

270

<<< < Предыдущая 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2627 / 2927 28 29 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
12.11.20221.82 Mб32Морозов Введение в теорию горячей плазмы Ч.1 2011.pdf
#
12.11.20221.9 Mб14Морозов Введение в теорию горячей плазмы Част2 2013.pdf
#
12.11.20223.45 Mб6Морозов Скхемные решения и принтсипы работы пассивныкх систем 2015 (1).pdf
#
12.11.20223.45 Mб9Морозов Скхемные решения и принтсипы работы пассивныкх систем 2015.pdf
#
12.11.202212.8 Mб2Муравев Инженерная олимпиада школников 2016.pdf
#
12.11.20225.66 Mб10Назаметдинов Анализ данных 2012.pdf
#
12.11.2022982.63 Кб6Наумов Современные проблемы философии науки 2011.pdf
#
12.11.20221.98 Mб79Наумов Физические основы безопасности ядерных реакторов 2013.pdf
#
12.11.20224.79 Mб33Никитенко Нестационарные процессы переноса и 2011.pdf
#
12.11.2022820.93 Кб9Никифоров Лабораторныы практикум по курсу Взаимосвяз открытыкх систем 2015.pdf
#
12.11.20221.04 Mб0Никова Тхе Басиц Иссуес оф Манагемент ин Усе 2016.pdf