Скачиваний:
57
Добавлен:
01.05.2014
Размер:
886.78 Кб
Скачать

Министерство образования и науки РФ

Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»

кафедра математического обеспечения ЭВМ

Отчет

по лабораторной работе №6

«Многомерное шкалирование»

по дисциплине «Анализ и интерпретация данных»

Выполнил: студент гр. 3341 Рыжок М.С.

Проверил: Жукова Н.А.

Санкт-Петербург 2007 г.

Лабораторная работа №6

«Многомерное шкалирование»

Цель работы: познакомиться с методами многомерного шкалированияи его реализацией в системе STATISTIKA.

Предварительные сведения.

Многомерное шкалирование (МНШ) можно рассматривать как альтернативу факторному анализу. Целью последнего, вообще говоря, является поиск и интерпретация "латентных (т.е. непосредственно не наблюдаемых) переменных", дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Для определенности и краткости, далее, как правило, будем говорить лишь о сходствах объектов, имея ввиду, что на практике это могут быть различия, расстояния или степени связи между ними. В факторном анализе сходства между объектами (например, переменными) выражаются с помощью матрицы (таблицы) коэффициентов корреляций. В методе МНШ дополнительно к корреляционным матрицам, в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов. Таким образом, на входе всех алгоритмов МНШ используется матрица, элемент которой на пересечении ее i-й строки и j-го столбца, содержит сведения о попарном сходстве анализируемых объектов (объекта [i] и объекта [j]). На выходе алгоритма МНШ получаются числовые значения координат, которые приписываются каждому объекту в некоторой новой системе координат (во "вспомогательных шкалах", связанных с латентными переменными, откуда и название МНШ), причем размерность нового пространства признаков существенно меньше размерности исходного (за это собственно и идет борьба).

Логику МНШ можно проиллюстрировать на следующем простом примере. Предположим, что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) между крупными американскими городами. Анализируя матрицу, стремятся расположить точки с координатами городов в двумерном пространстве (на плоскости), максимально сохранив реальные расстояния между ними. Полученное размещение точек на плоскости впоследствии можно использовать в качестве приближенной географической карты США

В общем случае метод МНШ позволяет таким образом расположить "объекты" (города в нашем примере) в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно "измерить" эти расстояния в терминах найденных латентных переменных. Так, в нашем примере можно объяснить расстояния в терминах пары географических координат Север/Юг и Восток/Запад.

Проведение лабораторной работы.

Матрица расстояний между объектами

C_1

C_2

C_3

C_4

C_5

C_6

C_7

C_8

C_9

C_10

C_1

0,00000

0,53852

0,50990

0,64807

0,14142

0,61644

0,51962

0,17321

0,92195

0,46904

C_2

0,53852

0,00000

0,30000

0,33166

0,60828

1,09087

0,50990

0,42426

0,50990

0,17321

C_3

0,50990

0,30000

0,00000

0,24495

0,50990

1,08628

0,26458

0,41231

0,43589

0,31623

C_4

0,64807

0,33166

0,24495

0,00000

0,64807

1,16619

0,33166

0,50000

0,30000

0,31623

C_5

0,14142

0,60828

0,50990

0,64807

0,00000

0,61644

0,45826

0,22361

0,92195

0,52915

C_6

0,61644

1,09087

1,08628

1,16619

0,61644

0,00000

0,99499

0,70000

1,45945

1,00995

C_7

0,51962

0,50990

0,26458

0,33166

0,45826

0,99499

0,00000

0,42426

0,54772

0,47958

C_8

0,17321

0,42426

0,41231

0,50000

0,22361

0,70000

0,42426

0,00000

0,78740

0,33166

C_9

0,92195

0,50990

0,43589

0,30000

0,92195

1,45945

0,54772

0,78740

0,00000

0,55678

C_10

0,46904

0,17321

0,31623

0,31623

0,52915

1,00995

0,47958

0,33166

0,55678

0,00000

….

Итоговая конфигурация – координаты объектов на плоскости:

X

Y

C_1

-1,27584

0,003040

C_2

-1,27310

0,149335

C_3

-1,35022

0,102764

C_4

-1,29211

0,146386

C_5

-1,29384

-0,008143

C_6

-1,14002

-0,107917

C_7

-1,33571

0,069525

C_8

-1,24935

0,040179

C_9

-1,35995

0,225961

C_10

-1,25669

0,126732

C_11

-1,22837

-0,084023

C_12

-1,24256

0,067531

C_13

-1,30614

0,160479

C_14

-1,50193

0,170518

C_15

-1,27660

0,391081

C_16

-1,24778

-0,341855

C_17

-1,28830

-0,138122

C_18

-1,26395

-0,000215

C_19

-1,08223

0,152186

C_20

-1,25287

-0,057111

C_21

-1,12616

0,000528

C_22

-1,23073

-0,040053

C_23

-1,48886

0,021548

C_24

-1,11967

0,038622

C_25

-1,13687

0,085817

C_26

0,50161

0,325890

C_27

0,36531

0,143455

C_28

0,56716

0,268612

C_29

0,05837

-0,230075

C_30

0,42029

0,109897

C_31

0,24622

-0,087331

C_32

0,43965

0,134834

C_33

-0,31045

-0,340995

C_34

0,40335

0,179150

C_35

-0,01611

-0,236145

C_36

-0,21263

-0,456608

C_37

0,20061

-0,008307

C_38

0,06856

-0,030993

C_39

0,38052

0,025305

C_40

-0,08049

-0,057627

C_41

0,36052

0,229448

C_42

0,25911

-0,126382

C_43

0,08266

-0,048023

C_44

0,35412

-0,123475

C_45

0,00874

-0,125470

C_46

0,44964

-0,042081

C_47

0,13334

0,042325

C_48

0,49189

0,037533

C_49

0,35147

0,023861

C_50

0,27578

0,120156

C_51

1,19324

-0,167372

C_52

0,71152

-0,246677

C_53

1,19545

0,119933

C_54

0,92981

-0,063112

C_55

1,07993

-0,054314

C_56

1,51062

0,271251

C_57

0,36246

-0,599217

C_58

1,32322

0,228611

C_59

1,05210

0,100867

C_60

1,38262

0,062353

C_61

0,82723

0,008127

C_62

0,85620

-0,076053

C_63

1,01482

0,036242

C_64

0,68448

-0,331061

C_65

0,80114

-0,329211

C_66

0,93722

-0,109601

C_67

0,92171

0,002017

C_68

1,64835

0,195730

C_69

1,64042

0,371049

C_70

0,65387

-0,294085

C_71

1,13397

0,048546

C_72

0,63287

-0,330411

C_73

1,54826

0,336840

C_74

0,70431

-0,098657

C_75

1,07475

0,016459

График итоговой конфигурации

D-Stars и D-Hats - расстояния

D-stars вычисляются с помощью процедуры, известной как метод вычисления отклонений по Гутману. В общих чертах, эта процедура стремится воспроизвести ранговый порядок различий в матрице различий.

D-hats вычисляются с помощью процедуры, называемой процедурой преобразования методом монотонной регрессии. В этом случае программа пытается определить наилучшее монотонное (регрессионное) преобразование для воспроизведения различий в исходной матрице.

D-hats расстояния

C_1

C_2

C_3

C_4

C_5

C_6

C_7

C_8

C_9

C_10

C_1

0,000000

0,157749

0,140714

0,191453

0,021190

0,188124

0,140714

0,039396

0,295231

0,140714

C_2

0,157749

0,000000

0,075910

0,075910

0,188124

0,341176

0,140714

0,116289

0,140714

0,039396

C_3

0,140714

0,075910

0,000000

0,059422

0,140714

0,341176

0,059422

0,116289

0,117439

0,075910

C_4

0,191453

0,075910

0,059422

0,000000

0,191453

0,366671

0,075910

0,140714

0,075910

0,075910

C_5

0,021190

0,188124

0,140714

0,191453

0,000000

0,188546

0,117439

0,046934

0,295231

0,157749

C_6

0,188124

0,341176

0,341176

0,366671

0,188546

0,000000

0,302965

0,226812

0,498589

0,302965

C_7

0,140714

0,140714

0,059422

0,075910

0,117439

0,302965

0,000000

0,116289

0,182528

0,140714

C_8

0,039396

0,116289

0,116289

0,140714

0,046934

0,226812

0,116289

0,000000

0,254750

0,086863

C_9

0,295231

0,140714

0,117439

0,075910

0,295231

0,498589

0,182528

0,254750

0,000000

0,188124

C_10

0,140714

0,039396

0,075910

0,075910

0,157749

0,302965

0,140714

0,086863

0,188124

0,000000

D – stars расстояния

C_1

C_2

C_3

C_4

C_5

C_6

C_7

C_8

C_9

C_10

C_1

0,000000

0,144614

0,124408

0,186564

0,019240

0,165205

0,138296

0,022105

0,287355

0,113794

C_2

0,144614

0,000000

0,062389

0,070963

0,164034

0,352980

0,127155

0,097354

0,125068

0,028183

C_3

0,124408

0,062389

0,000000

0,036267

0,124473

0,349606

0,042952

0,093180

0,100070

0,064388

C_4

0,186564

0,070963

0,036267

0,000000

0,181563

0,386993

0,067356

0,122486

0,051872

0,065630

C_5

0,019240

0,164034

0,124473

0,181563

0,000000

0,167018

0,110174

0,031567

0,288180

0,141738

C_6

0,165205

0,352980

0,349606

0,386993

0,167018

0,000000

0,315308

0,205120

0,525641

0,324061

C_7

0,138296

0,127155

0,042952

0,067356

0,110174

0,315308

0,000000

0,096560

0,151755

0,115783

C_8

0,022105

0,097354

0,093180

0,122486

0,031567

0,205120

0,096560

0,000000

0,239308

0,071044

C_9

0,287355

0,125068

0,100070

0,051872

0,288180

0,525641

0,151755

0,239308

0,000000

0,153050

C_10

0,113794

0,028183

0,064388

0,065630

0,141738

0,324061

0,115783

0,071044

0,153050

0,000000

Соседние файлы в папке Лабораторная работа №6
  • #
    01.05.20148.7 Кб40Euclidean.sta
  • #
    01.05.2014119.3 Кб39IRIS_1.stw
  • #
    01.05.201432.77 Кб38Learning.stw
  • #
    01.05.201410.24 Кб38Workbook5.stw
  • #
    01.05.2014886.78 Кб57АИД_06.doc
  • #
    01.05.2014451.07 Кб39Многомерное шкалирование.stw