Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 2

.pdf
Скачиваний:
1
Добавлен:
12.11.2023
Размер:
19.38 Mб
Скачать

Матрица сходства между 25 случайными блоками; содержит расстояния Говера; часть матрицы, расположенная с помощью вычитания сумм строк и столбцов

 

a

b

c

d

e

i

 

1,0000

0,2262

—0,7412

—0,8077

—0.8564

0.3341

а

1,0720

1,0000

—0,7339

—0,6850

0.1049

0,2151

ь

0,2415

0,9586

1,0000

0,9852

0,5418

—0,7u02

С

—0,7098

—0,7593

0,9906

1,0000

0,5617

0,1892

d

—0,7810

-0,7151

0,9711

0,9813

1,0000

—0,7909

е

-0,8551

0,0495

0,5024

0,5177

0,9306

1,0000

/

1,0546

0,2289

—0,6704

—0,7640

—0.7910

i ,0690

S

0,9071

—0,0803

—0,5719

—0,6220

—0,9016

0,8669

h

—0,9390

—0,2548

0,7408

0,7555

0,8817

—0,8826

i

0,3470

0,8211

—0,5550

—0,5825

0,1134

0,3762

i

0,4833

0,6296

—0,8683

—0,7777

—0,5144

0,3782

k

0,4697

0,7855

—0,9084

—0,8271

—0,4036

0,3900

i

—0,8590

■-0,6471

0,9487

0,9558

0,6280

—0,0.211

m

0,3111

■—0,8425

0,3595

0,2940

—0,5675

0,3)31

n

0,7659

■—0,0741

—0,5688

—0,5674

—0,9086

0,6940

0

0,6957

■—0,5691

—0,0561

-0,1427

—0,7883

0,6882

p

0,4746

0,2308

—0,1474

—0,2901

0,0296

0,5791

r

—0 ,i584

0,6667

—0,1923

—0,2124

0,5752

0 0982

—0,9751

■-0,0728

0,5287

0,6020

0,8124

—0,9549

s

1,0461

0,2712

—0,6559

—0,7527

—0.7369

I,0598

t

0,1256

0,1052

—0,4431

-0,3302

—0,4039

0,0'.98

и

0,4113

0,9005

—0,6983

—0,7017

—0,0028

0, 1;05

V

—0,9803

•-0,3818

0,7456

0,8145

0,6970

—0,9766

w

—0,4782

--0,9064

0,9361

0,9146

0,1804

—0.1646

X

—0,7142

--0,0972

0,2293

0.3639

0,3156

—0,7764

У

—0,9549

--0,4889

0,8523

0,896.4

0,7001

—0,9377

Весьма широко используется также расстояние Говера

 

Gi} - — У (1 ----- ^

,

(0.74)

1

т

\

р а з м а х k /

 

 

 

4= 1

 

 

Для вычисления расстояния Говера между i-м и /-м объектами необходимо вычислить абсолютное значение разности между ними для переменной с номером k и разделить на размах пере­ менной к. Это дает некоторое число из интервала 0,0—1,0, при­ чем близости объектов соответствует малое значение коэффи­ циента сходства, а близким к единице числам — максимальное расхождение объектов. Для того чтобы получить меру сходства, ведущую себя по аналогии с коэффициентом корреляции, эта величина вычитается из 1,0. Вычисление повторяется для всех т переменных к, измеренных на объектах i и /, затем результа­ ты суммируются и делятся на число переменных т, что б за­ ключение приводит к величине G,/.

322

 

 

 

 

 

 

 

 

Т а б л и ц а 6.34

часть матрицы, расположенная над значениями 1,000,

 

пол

значениями 1,000, содержит расстояния Говера,

преобразованные

н прибавления

общего среднего

 

 

 

 

 

Я

h

 

1

 

/

k

1

 

0 , 8 3 4 3

— 0 ,9 4 5 5

 

0 ,3 1 7 2

0 ,4 5 1 0

0,4431

— 0 ,8 7 9 0

— 0 .0 9 0 3

— 0 ,2 0 4 5

 

0,8481

0,6541

0 ,8 1 5 7

— 0 ,6 1 0 4

— (■■, еоээ

0 ,7

7 5 !

0,5441

— 0,8599

— 0 ,8 9 4 3

0 ,9 6 9 3

— 0 .6 4 9 4

0,7 9 4 4

— 0,5 6 6 9

— 0,7 6 4 6

— 0,8084

0,9811

— о . 9036

0,9 4 6 0

 

0 ,1 5 4 3

— 0,4 7 6 0

— 0,3594

0 ,6 7 8 7

 

0 , ; 0 57

— 0 ,8

8 7 5

 

0 ,3 4 8 0

0 ,3 4 7 5

0,3 6 4 9

— 0 ,8 3 9 7

 

1,0000

— 0 ,8 8 9 6

— 0 ,1 7 0 8

0 ,4 6 2 2

0 ,3 2 9 8

— 0 ,7 0 9 2

 

',0 7 3 4

1,0000

0,1

4 0 5

— 0,6391

— 0,5781

0,8794

— 9, «825

0 ,9 4 0 8

 

1,0000

0 ,2 6 9 2

0 ,4 7 8 0

— 0 ,5 2 2 !

— 9,1 4 0 3

— 0,1763

 

0 ,9 8 7 6

1,0000

0 ,9 6 6 6

— 0 ,7 6 7 5

 

0 .4 9 5 2

— 0,6724

 

0,2 5 9 3

0 ,9 9 2 5

1,0000

— 0 ,7 9 0 5

 

'•J, 3671

— 0,6171

 

0 ,4 6 2 3

0 ,9 5 3 4

0 ,9 8 1 !

1,0000

— 0 .6 8 8 5

1', 8338

— 0 ,5 4 4 3

— 0,7 8 7 2

— 0,8159

0 ,9 6 8 0

 

0 ,5 8 3 0

— 0 ,2 8 6 9

— 0,7371

— 0 ,3 0 1 8

— 0,4739

0 ,1 8 8 0

 

. 9072

— 0,8617

0,2 8 9 8

0,6344

0,4691

— 0,6 3 6 5

 

0 .9 1 9 3

— 0,6164

0,4 6 5 3

- 0 , 0 0 4 1

— 0,1701

— 0,2 4 1 0

 

' ’. 3752

— 0,1 1 6 5

 

0,6894

— 0 ,3 1 6 8

— 0,1592

— 0,2761

-

. - 4 7

0 .3 1 5 8

 

0,8304

— 0 ,0 6 3 !

0 ,1 4 8 2

— 0 ,1 1 6 9

- - .-4 6 8

0,8404

— 0,2 1 9 2

— 0,3431

— 0,3 0 6 6

0,6971

 

Ох 916

- О Д

458

 

0,4 6 9 2

0,3 4 3 4

0,3 7 3 8

— 0 ,8 1 4 5

 

10 4 518

— 0 ,4 3 6 8

0 ,3 9 4 6

0 ,7 5 2 9

0 ,6 0 6 7

— 0 ,3 4 0 9

- . 0 . 4 1 2

— 0,3031

 

0,9 6 1 0

0 ,4 5 3 5

0,6391

— 0 ,6 6 5 3

- к ” 33

0 .8 3 6 0

— 0 ,4 8 2 6

— 0 ,4 8 4 8

— 0 ,5 0 8 6

0 ,8 5 8 8

— 0 ,2 8 3 3

0 ,4 8 3 8

- 0 , 7 2 1 7

— 0,7 6 7 0

— 0 ,8 6 6 4

0 ,8 4 0 8

— < .3890

0 ,3 9 6 !

0,5 1 6 4

0 ,1 5 7 3

0,0741

0 ,4 0 8 8

-

0 , " Г 6

0 ,£ 6 5 2

0,4 9 1 8

— 0 ,6 3 2 2

— 0,6 5 3 3

0,9 2 6 4

При вычислении расстояния Говера не делается никаких до­ пущений относительно природы данных; наблюдения могут быть номинальными или порядковыми, или более высокого ранга. Действительно, матрица данных может состоять из смеси чисел различного типа, таких .как числа пластинок в чашечках кринондей, длин их щупалец и отношений высот чашечек к их диаметрам. Меры сходства для всех возможных пар объектов представляются з виде .матрицы ассоциаций [А] порядка пХп. Этс матрица будет симметричной и будет иметь единичные значения на диагонали и числа, принадлежащие интервалу от нуля до единицы, в остальных местах.

Данные каждой строки матрицы [Л] суммируются, получен­ ная сумма делится на п\ эта процедура дает среднее значение по строке. Данные каждого столбца матрицы [Л] также сумми­ руются и сумма делится на п, что дает среднее значение по столбцу. Обозначим эти средние соответственно через а/. и а.*. Нсходится также общее среднее как строк, так и столбцов и

21

3 2 3

 

m

 

 

 

P

 

<7

 

 

 

$

а

0,2417

0,7021

0,6164

0

,4 2 0 1

— 0

, 1 7 2 9

— 0

. 9 7 0 2

0

. 9 7 5 0

—0,8552

—0,0808

—0,5916

0

, 2 3 3 0

0

, 7 0 8 9

— 0 , 0 1 1 2

0

, 2 5 6 8

Ъ

0,3308

—0,5915

—0,0947

— 0 , 1 6 1 2

— 0

,1 6 6 1

0

, 5 7 4 3

— 0 , 6 8 6 3

с

0.2700

—0,5855

—0,1766

— 0 , 2 9 9 3

— 0 , 1 8 1 5

0 , 6 3 2 2

— 0 , 7 7 8 5

d

—0.5661

-0,9013

—0,7969

0

, 0 4 5 8

0

, 6 3 1 4

0

,8 8 8 1

— 0 , 7 3 7 2

е

0,2453

0,6321

0,6104

0 ,5 2 6 1

— 0 , 1 1 1 2

— 0 , 9 4 8 4

0

. 9 9 0 3

i

0,5130

0,9431

0,8394

0

, 0 1 9 9

— 0

, ')568

— 0

,8 4 2 6

0 , 7 2 9 9

8

—0,2907

—0,8595

—0,6301

— 0 ,1 0 5 4

0

. 3 6 6 9

0

. 9 1 0 9

— 0 ,8 5 1 3

h

—0,7642

—0,3110

—0.6023

0

,6 7 7 1

0

,8 5 8 1

- 0 . 1 7 2 0

0

,4 4 0 4

i

—0,3314

0,6108

—0,0437

— 0 ,3 3 1 6

— 0

,0 3 7 8

— 0 ,2 9 8 5

0

,3 1 2 0

J

—0,4977

0,4312

—0,2039

— 0 ,1 6 8 3

0

,1 7 9 2

— 0 . 2 5 6 3

0 ,3 4 8 2

к

0,1706

—0,6479

—0,2683

— 0 ,2 7 8 6

— 0 ,0 7 9 4

0

,7 3 4 0

- 0 , 8 3 3 6

l

1,0000

0,5012

0,8785

— 0 ,1 8 0 3

— 0

.8 8 3 1

— 0

, 1139

0 . 1 7 1 8

tn

1,0667

1,0000

0,7526

— 0 ,2 8 9 5

— 0 ,6 5 2 7

— 0 ,6 9 3 7

0 ,5 4 2 5

п

0,5620

I,0548

1,0000

0

,0 2 9 5

— 0 . 7 6 9 8

— с . 7373

0 ,5 4 4 0

О

0,9551

0,8232

1,0865

1 ,0 0 0 0

0 ,5 7 9 6

— 0 . 4 0 8 3

0 . 6 0 8 7

р

—0,1285

—0,2437

0,0912

1 ,0 3 7 0

1 ,0 0 0 0

0

,3 0 3 0

— 0 ,0 1 2 8

с/

—0.8713

—0,6769

—0,7481

0 ,5 7 6 5

0 . 9 5 6 9

1 .0 0 0 0

— 0 .9 4 3 1

Г

-0,4215

—0,70/ 3 —0,7350

— 0 ,4 3 0 8

0 ,2 4 0 6

6

. 9 ! 81

1 ,0 0 0 0

S

0,2402

0,С050

0,6224

0

,6 6 2 3

0 ,0 0 0 8

— 0 ,9 4 9 0

! ,0701

i

0,1146

0,7062

0.1833

— 0 ,7 9 6 2

— 0 , 5 5 0 3

— 0.0G 62

~ 0 . 0 7 9 9

и

—0.7464

—0,1378

—0,4463

0

, 55С0

0 ,7 4 6 5

— 0 ,2 6 0 1

0 ,4 9 3 5

ХУ

—0,1055

—0,6202

—0,3074

— 0 . 5 3 4 8

— 0 ,0 3 4 8

0

,8 6 4 6

— 0 ,9 8 1 3

0,6632

—0,2589

0.2637

— 0 , 2 3 5 4

— 0 ,4 9 6 3

0

,2 8 5 8

— 0 ,4 7 5 6

X

—0,160!

—0,10i6

—0,4115

— 0 ,9 0 4 8

— 0 ,2 5 6 3

с1. 082в

— 0 ,8 3 6 1

У

—0,0074

—0,6680

—0,4279 — 0 ,4 1 5 3

— 0 ,0 4 0 7

0 ,8 1 0 2

— 0 ,9 3 1 7

обозначается а... В результате этого эле.менты aik преобразуют­ ся, получается новая матрица [QI элементы которой находятся по формуле

qik = atk+ a.. — (а/. — а.к).

(6.75)

Рассмотрим п объектов, расположенных в /ц-мерном прост­ ранстве, определенном этими переменными. Преобразование (6.75) приводит к переносу начала координат m-мсрного прост­ ранства в центроид множества точек. Эта операция приводит к замыканию множества данных, так как все строки и столбцы имеют теперь суммы элементов, равные нулю, поэтому одно из собственных значений матрицы [Q] обязано быть нулем. Это приводит к возрастанию относительной величины первых не­ скольких собственных значений.

Далее, находятся собственные значения н собственные век­ торы матрицы [Q]; это и есть главные координаты множества данных. Относительная важность каждой координаты может быть оценена простым вычислением процентного вклада каж­ дого собственного значения в след матрицы [Q]. Обычно только

324

 

 

 

 

 

 

 

П р о д о л ж е н и е

т абл . 6 .3 4

 

t

 

и

 

V

W

X

 

 

 

V

0 , 0 9 8 0

0 , 3 8 3 6

— 0 , 9 8 5 2

— 0 , 5 2 2 0

— 0 , 7 1 5 7

— 0 , 9 6 5 6

0 , 1 3 4 3

0 , 9 2 9 5

— 0 , 3 2 9 9

— 0 , 8 9 3 4

— 0 , 0 4 1 9

— 0 , 4 4 2 9

— 0 , 4 3 0 0

— 0 ,6 8 5 4

0 , 7 8 1 4

0 , 9 3 3 0

0 , 2 6 8 5

0 , 8 8 2 3

— 0 , 3 1 2 6

— 0 ,6 8 4 1

0 , 8 5 4 9

0 , 9 1 6 2

0 , 4 0 7 7

0 ,9 3 1 1

— 0 , 4 2 0 8

0 , 0 4 0 2

0 ,7 629

0 . 2 0 7 3

0 ,3 8 4 8

0 . 7 6 0 0

— 0 ,0 0 6 4

0 ,3 9 3 3

— 0 ,9 7 9 9

- 0 , 5 0 6 9

— 0 ,7 7 6 4

— 0 ,9 4 6 9

0 , 4 2 3 5

— 0 , 0 6 %

— 0 ,7 7 8 9

— 0,3278'

— 0 ,3 9 1 2

- 0 , 7 8 7 0

— 0 , 3 9 8 8

— 0,2ГГ;2

0 . 8 9 6 "

0 ,5 0 5 6

с. 4622

1 с 9200

— 0 ,5 8 0 0

0 ,9 7 5 5

— 0 ,

>453

— 0 ,7 2 3 2

- с . 47 56

— 0 . 1 6 0 3

0 ,7 0 5 0

0 ,4 6 5 6

— 0 . 4 4 S 9

— 0 , 7 7 ] !

0 . '9ГС

— 0 . 6 0 3 2

0 , 0 2 4 5

0 . 0 , .69

— 0 . 4 6 8 0

— 0 ,8 6 1 7

0,1

184

v

. 6 1 85)

— 0 ,3 1 6 5

0 . ( 4 * 1?

0 ,3 0 6 0

0 ,8 4 9 0

0 ,4 5 9 3

0

9677

0 ,0 8 9 6

— 0 . 7 7 1 4

— 0 . 1 0 7 7

0 . 6 2 2 !

- и , i Г89

— л ,,.4"4

!',. бо) 2

— 0 ,1 5 6 3

— 0 ,6 1 6 4

— 0 ,2 9 4 1

— 0 . 0 9 4 5

— с , 1,701

0 , 1 4 8 9

— 0 ,4 8 1 2

— 0 ,5 1 9 5

0 ,2 1 2 7

— Г .4 2 0 3

__*1, J -J 5Я

- 0 ,6 9 0 0

0 ,5 3 9 8

0 ,7221

— (1,2617

— п > & - 7

— 0 . 4 „ 8 5

— 0 ,3 2 0 4

0

 

0,6 ГД!

— 0 ,4 8 2 5

- ' б б ы щ

■с d 161

0 ,i 4 69

:. | о :

0 ,4 5 6 6

0 3190

: . 7." !

 

|

8824

1ЫТ.

0 ,4 6 0 8

- 0 . 6 3 5 3

— С , ( 7

— 1■_

77

1 . 7 4 ”а

1 , 0000

— Г:, - 7 ’ .7

- •

0 1 7 ;)

---Г ,2727

(1 >(

1

а

__1 .1728

 

63

1

6630

___ !

9

 

—2,77

1

— 0 . 5 4 0 9

1

15^7

>

' .3-:

1 , 00со

7 ,(,127

0 6

л ,

(

, с Ы 9

— 0 , С-573

__£>

.'If/!

0 ,9 3 7 7

1,0000

0 . 2 0 3 2

0 . 7 2 3 5

— 0 , 2 7 3 3

— 0 ,52" ',’

0 ,5 9 0 4

1 ,0 1 5 5

I , 0000

0 . 6 3 4 5

0 ,5 7 7 0

— 0,415л;

0 ,6 9 5 8

0 , 1 7Т5

0 ,9 ,3 !6

1.0000

- 0 , 2 0 6 5

— 0 ,3 8 6 5

0 ,9 2 5 4

0 ,7 0 6 0

0,5747

0,9494

первые несколько координат представляют интерес, так как не­ редко они учитывают большую часть различии между наблюде­ ниями. В заключение индивидуальные нагрузки на глазные координаты наносятся на график; это делается попарным изоб­ ражением множества п собственных векторов, каждый из ко­ торых соответствует некоторому объекту.

Для иллюстрации анализа главных координат воспользуемся данными по искусственным блокам. Этот пример позволит нам сравнить результаты, полученные разными методами. В табл. G.34 представлены коэффициенты сходства между индивидуаль­ ными блоками (матрица порядка 25x25), вычисленные с по­ мощью расстояния Говера. В части, расположенной выше зна­

чений 1,000, представлены расстояния

Говера,

определенные

для элементов матрицы [Л] по формуле

(6.74); в части, распо­

ложенной ниже этих значений, — меры

сходства

после указан­

ного преобразования, состоящего в вычитании из каждого эле­ мента среднего по строке и столбцу и последующего добавления общего среднего, как это указано в уравнении (6.75). Для этой матрицы [Q] находятся собственные векторы н собственные значения.

325

Т а б л и ц а 6.35

Собственные значения, ассоциированные с первыми семью координатами, извлеченными из данных по блокам; графа i — последовательность собственных значений, графа 2 — процент от общей изменчивости, учитываемой для каждого собственного значения, графа 3 — кумулятивная изменчивость ( % )

Киординаты

1

2

3

I

13,3598

5 3 ,5 7 5 8

5 3 ,5 7 5 8

II

6 ,9 1 2 2

2 7 ,7 1 0 7

8 1 ,2 9 5 4

III

4 ,2 6 2 7

1 7 ,0 9 4 3

98 ,3 8 9 7

IV

0,3291

1 ,3 2 0 0

9 9 ,7 0 9 7

V

0 ,0 6 8 2

0 , 2 7 3 5

9 9 ,9 8 3 2

VI

0 ,0 0 4 2

0 ,0 1 0 8

100,0000

VII

0 ,0 0 0 0

О.ОСОС;

100,0000

 

Т а б л и ц а 6.S0

 

Первые две главные

 

координаты данных

 

по блокам; каждый

 

элемент соответствует

 

конкретному

блоку

 

Главн!-12 : ООрДИНаТЫ

Блок

!

и

 

I

а

0 ,2 6 8 5

 

— 0 ,0 3 4 7

ь

0 ,1 3 1 8

 

0 ,3 1 1 3

С

— 0,24-05

 

- 0 , 1 2 3 5

d

— 0 ,2 5 0 3

 

— 0,1 ПО

С

— 0 ,2 0 7 1

 

0 ,2 0 8 6

/

0 , 2 6 0 6

 

- 0 , 0 7 4 5

g

0 , 2 2 5 0

 

0,2210

к

— 0 , 2 4 9 9

 

0 ,1 0 1 9

i

0 ,1 2 4 9

 

0 ,3 1 0 8

/

0 ,1 8 8 0

 

0 ,0 6 8 3

к

0 ,1 8 9 7

 

0 ,1 4 6 3

1

— 0 ,2 6 0 9

 

— 0 ,0 7 2 7

т

0 ,0 1 0 5

 

— 0 ,3 8 2 2

п

0 ,2 0 0 5

 

— 0 ,2 3 3 3

о

0 ,1 2 6 6

 

— 0 ,3 4 1 0

Р

0 , 0 9 7 8

 

0 ,1 2 2 2

q

— 0 , 0 0 5 0

 

0 ,3 5 0 0

Т

— 0 ,2 3 0 4

 

0 ,1 2 5 6

S

0 , 2 5 7 3

 

— 0 ,0 4 3 1

t

0 ,0 7 5 3

 

— 0 , 1 0 9 0

и

0 ,1 5 3 2

 

0 ,3 0 3 0

V

— 0 ,2 5 7 2

 

0 , 0 0 8 5

W

— 0 , 1 9 4 2

 

— 0 ,2 3 7 0

X

— 0 ,1 4 9 1

 

— 0 , 0 0 7 6

У

— 0 ,2 6 5 7

 

— 0 ,0 1 5 9

326

В табл. 6.35 приведены первые семь собственных значений матрицы [Q], Заметим, что седьмое и последующие собственные значения равны нулю. Действительно, первые два собственных значения дают вклад з общую изменчивость данных по блокам, равный 81%, а третье собственное значение дает еще дополни­ тельный вклад, равный 17%, что составляет в сущности почти всю изменчивость. (Напомним, что данные были порождены только тремя независимыми переменными. Небольшая доля из­ менчивости, не учтенная первой, второй н третьей главными координатами, может быть объяснена ошибками округления в вычислениях.)

Первые две главных координаты, состоящие из элементов собственных векторов I и II, приведены в табл. 6.36. Каждый элемент соответствует индивидуальному наблюдению. Эти на­ грузки изображены на рис. 6.43. Сравните результаты, получен­ ные методом главных координат, с решением, полученным Q- методом факторного анализа (см. рис. 6.39). Заметим, что тот факт, что диагональные элементы матрицы [Q] могут быть не равными 1,00, означает, что представление общности в виде диаграммы невозможно осуществить па единичной окружности.

А Н А Л И З С О О Т В Е Т С Т В И Я

Факторный анализ предназначен для данных, представлен­ ных в интервальной форме или в шкале отношений, т. е. для измерений, сделанных в непрерывной численной шкале. Он не­ пригоден, например, для таких данных, как число ископаемых остатков различного типа в образцах. Такие номинальные или порядковые данные могут оказаться единственными доступными для исследования, и в некоторых случаях может оказаться по­ лезным обработать их, используя методы теории собственных значений, аналогичные факторному анализу.

Задачи, в которых имеются данные-перечисления, обычно свойственны общественным наукам, В качестве примера можно назвать результаты анкетирования, которые подразделяются на категории. В силу этого большинство исследований, основан­ ных на использовании методоз теории собственных значений для анализа такого рода данных, были созданы социологами и статистиками, работающими над решением социологических проблем. Эти данные обычно представляются в виде условных таблиц; первая известная работа, в которой были применены такие таблицы, принадлежитХиршфельду [27J, см. также [17]. Совсем недавно Бензекри и другие исследователи [4] подробно изложили этот метод, и термин «анализ соответствия», введен­ ный Бензекри, получил широкое распространение. Его работа стала основой для многих приложений в геологии [60, 61, 12].

327

Г'нс. 6.43. П р ед ст а в л ен и е д в у х главны х к оор ди н ат д л я д а н н ы х п о сл учайн ы м

блокам.

Ьдокл изображены в положениях, соответствующих нч нагрузкам на главные координаты

В этих геологических приложениях, однако, методы Беизекри к его предшественников претерпели большие изменения. Хилл [26] излагает историю анализа соответствия п связи между ра­ ботами различных авторов. Детальное изложение анализа со­ ответствия и его обобщений содержится в монографии [41].

Анализ соответствия начинается с обработки матрицы, полу­ ченной из условной таблицы, которая преобразуется таким об­ разом, чтобы ее элементы можно было рассматривать как ус­ ловные вероятности. В силу природы этого преобразования (в действительности некоторая форма шкалирования) соотно­ шения между строками и столбцами преобразованной таблицы такие же, как и в исходной матрице данных. Это означает, что

3 2 8

теорема Зккарта — Юнга верна, и решения, полученные Р- и Q-методами, эквивалентны.

Матрица необработанных данных [X] имеет п строк, пред­ ставляющих наблюдения, и т столбцов переменных. Сами эле­ менты рассматриваются как бирки. В задачах по палеонтоло­ гии, например, столбцы могут соответствовать видам останков микроорганизмов, строки могут представлять образцы, отобран­ ные из различных стратиграфических интервалов в скважине, а элементы в таблице будут представлять собой результаты подсчета чисел образцов каждого вида останков микроорганиз­ мов по выборкам. Общее число индивидуумов есть просто сум-

ма всех

элементов

матрицы данных,

п

т

Сумма

или Б

2 Х ц .

 

 

т

Г-1

/=1

 

элементов

по строке

микроорганизмов

всех

Б Хц есть число

типов, которые были

/=i

 

 

 

обнаружены в каждой выборке, н сумма

элементов

по столбцу

II

 

 

 

Б Хц есть число микроорганизмов каж-

 

 

i=1

 

 

 

дого вида, которые были обнаружены во всех выборках. Бирки можно обратить в проценты к общей сумме, а последние уже можно считать вероятностями

Pf) = —тЧ- - - •- -

хц i=i /= 1

Эти значения Рц можно трактовать как совместные вероят­ ности того, что конкретные виды остатков могут быть найдены, в заданной выборке. Суммы строк, деленные на общую сумму.. дают маргинальные вероятности

т

которые являются вероятностями того, что конкретные выборки будут содержать микроостанки, не взирая на их вид. Суммы столбцов, трактуемые аналогично, дают маргинальные вероят­ ности

п[ п т .

г = 1 /

£

1

Z

Xi'’

(6-78>

 

 

1

1

329

которые являются вероятностями того, что конкретные виды мик­ роорганизмов имеются независимо от того, из какой выборки они были извлечены. Если объединенные вероятности разделить на соответствующие маргинальные вероятности, то в результа­ те получим условные вероятности

Рт=Рч!Р-1\

P(.i\i)= PnlPi--

 

(6.79)

Первая из этих условных вероятностей

описывает

ситуацию,

когда, обнаружив микроорганизм вида /,

мы

хотим

оценить

вероятность того,

что он появился в

выборке с

номером

i. Вторая условная

вероятность,

основанная на

суммах строк,

дает вероятность того, что найденные микроорганизмы будут принадлежать к виду /', если известно, что этот образец был извлечен из t-й выборки.

В гл. 2 (см. кн. 1) было показано, что таблица наблюдений может быть представлена через пропорции к общему числу на­ блюдений. Тогда, если строки и столбцы таблицы независимы, наблюдения должны быть приблизительно равными произведе­ ниям маргинальных вероятностей соответствующих им строк и столбцов. Если две переменные / и k тесно связаны, то все ожи­ даемые значения в /'-м и k-м столбцах должны быть очень по­ хожими. Это наводит па мысль, что степень сходства можно выразить с помощью вычисления попарного произведения, ко­ торое содержит наблюдаемые и ожидаемые вероятности для всех строк в двух сравниваемых столбцах. Такая мера исполь­ зуется в анализе соответствия и имеет вид коэффициента кор­ реляции между двумя переменными [34]:

P u - P j . P . j

Pi - P i .

I "Pi. p.j

(6,80)

 

 

где Pa — «наблюдаемая» вероятность в i-й строке и /-м столбце случайной таблицы; Pi.P.j — «ожидаемая» вероятность, вычис­

ленная как произведение маргинальных вероятностей. Выражая гиг через величины, введенные в гл. 2, получаем

Оц — Вч

( Oi,;- E : k

ГЁ~}

(6.81)

\ \"Ё7*

Связь между этим выражением и статистикой %2 в применении к случайной таблице становится более ясной, если возвести в квадрат один из членов:

/ ОI) Е,•A2

(Oij-EjjY

\ I Щ )

Еи

Мы видим, что мера сходства, используемая в анализе соответ-

330

ствия, может рассматриваться как произведение двух значений %2. Это приводит к выражению «расстояние %2», которое иногда применяется к этой мере [41]. Если меры сходства г,-* вычислить для всех пар столбцов i и k, они образуют квадратную матрицу порядка тХт. Из этой матрицы затем получаются собственные значения и собственные векторы. Эго и есть главные оси анализа соответствия. Заметим, что так как все элементы случайной таблицы выражены как пропорции от общей суммы всех эле­ ментов, то сумма элементов столбца (и элементов строки) равна 1,00. Поэтому мы имеем дело с замкнутой таблицей данных, и од­ но собственное значение должно быть нулевым. Эго означает, что размерность нашей задачи уменьшается от т до т—1, п, воз­ можно, еще меньше. Вместо того чтобы прямо использовать уравнение (6.80), можно использовать другую формулу для вы­ числения коэффициента сходства, например следующую:

>'ik = }

PijPi

(6.82)

/w

Pi. y p . i p -u

i=i

 

Она дает то же множество собственных векторов.

Последнее собственное значение, как это вытекает из урав­ нения (6.80), тривиально и в точности равно нулю. Так как данные до выделения факторов не центрировались относитель­ но нуля, то при использовании уравнения (6.82) факторное ре­ шение будет содержать исходное тривиальное собственное зна­ чение, которое тождественно разно 1,0. Вычисления, связанные с формулой (6.82), легче описать в матричной форме. Сначала обозначим исходную .матрицу данных порядка nXtn через [X]. Элементы [X] преобразуются в объединенные вероятности с по­ мощью деления каждого элемента матрицы на общую сумму, которая равна скаляру ЕЕлу/. В результате получаем матри­ цу [В]:

: m -

(6-83>

Затем определим квадратную матрицу [М] порядка т х т , ко­ торая содержит суммы столбцов [5], расположенных в порядке убывания по диагонали, и с нулями во всех внедиагональных позициях. Определим также другую квадратную матрицу [N], которая имеет порядок пХ п и содержит суммы строк [В] по диагонали и нули в прочих местах. Эти две матрицы содержат

столбец и строку маргинальных

вероятностей

н используются

для преобразования матрицы [В]:

 

 

__i_

_ j_

(6.-84)

lll7] = [/v f 2

[В] \М\~ 2 .

(Так как мы имеем дело с диагональными матрицами, то опе-

331