Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистика и анализ геологических данных

..pdf
Скачиваний:
2
Добавлен:
12.11.2023
Размер:
21.12 Mб
Скачать

О О О о о о о о о о о о о о о о о о о о о о о о о о о о о о о

. . .

PROGRAM 7 .1 0

 

 

 

 

 

 

 

PRINCIPAL

COMPONENT ANALYSIS

 

 

 

THE PROGRAM ACCEPTS AN N BY M DATA

MATRIX WHERE N IS THE NUMBER

OF OBSERVATIONS AND M IS THE NUMBER OF VARIABLES. IF THE

FIRST OPTION

IS

I ,

AN M BY M MATRIX OF COVARIANCES

BETWEEN

COLUMNS WILL

BE

COMPUTED.

IF TH IS

OPTION IS 2 , AN

N BY N

MATRIX OF COVARIANCES BETWEEN ROWS WILL BE COMPUTED. IF THE

OPTION IS

0 ,

THE

PROGRAM CALLS E X IT , AS THE PROGRAM

LOOPS BACK

AND RESTARTS AFTER COMPLETION OF AN ANALYSIS. IF THE SECOND

OPTION IS

I ,

A STANDARDIZED COVARIANCE (CORRELATION) MATRIX

IS

CREATED.

IF

TH IS OPTION IS 2 ,

A RAW

COVARIANCE

MATRIX

IS

CREATED.

 

 

 

 

 

 

 

FORMAT OF CONTROL CARD

 

 

 

 

 

COL

1 -3

0

*

END OF

JOB

INPUT

DATA MATRIX

 

 

 

1 *

DQ NOT TRANSPOSE

 

 

 

2

*

TRANSPOSE INPUT

DATA MATRIX

 

 

COL

4 -6

1 = CALCULATE CORRELATION MATRIX

 

 

 

 

2 .« CALCULATE COVARIANCE MATRIX

 

SUBROUTINES

REQUIRED ARE

READM, PRINTM,

STAND, RCOEF, COV,

EIG ENJ, AND

MMULT.

 

 

 

 

 

DIMENSION

X ( 5 0 ,5 0 ) , A ! ( 5 0 , 5 0 ) ,A 2 ( 5 0 , 5 0 ) ,SCORE(5 0 ,5 0 )

 

M D*50

 

 

 

 

 

 

 

 

ND=50

 

 

 

 

 

 

 

 

MM*50

 

 

 

 

 

 

 

 

READ CONTROL

CARD

 

 

 

 

 

О О О

1 READ ( 5 ,1 0 0 0 ) IT R A N S ,IS IM

I F (ITRANS .L E . 0 ) CALL E X IT

. . . READ AND PRINT INPUT DATA MATRIX

О О О О

CALL

READM (X,N,M,ND,MD)

CALL

PRINTM( X , N , M, ND, MD)

WRITE

(6 ,2 0 0 1 )

. . . IF CORRELATION MATRIX IS TO BE CALCULATED, STANDARDIZE

INPUT

DATA MATRIX AND PRINT STANDARDIZED DATA MATRIX

О О О

IF (IS IM .N E . I ) GO TO 2

 

CALL

STA ND(X,N,M ,ND,M D)

 

CALL

PR IN T M (X ,N ,M ,N D ,M D )

 

WRITE

 

(6 ,2 0 0 6 )

 

 

. . .

TRANSPOSE

INPUT

DATA

MATRIX ( I F REQUIRED)

2

IF

(ITRANS

.N E .

2 ) GO

TO 3

 

MT*M

 

.G T .

M) MT=N

 

 

IF

(N

 

 

 

DO

110

1 * 1 , MT

 

 

 

DO

110

J * I,M T

 

 

X S * X ( I,J )

X ( I , J ) * X ( J , I )

X (J ,I) = X S

110CONTINUE MT*M

О О О О О О

. . .

. . .

M=N

N=MT

CALCULATE

AND PRINT S IM ILA R ITY MATRIX

3 IF

(IS IM

.EQ. I ) CALL

R C O E F(X ,N ,M ,N D ,M D ,A l, MM)

IF

(IS IM

.EQ . 2 ) CALL

COV ( X ,N ,M ,N D ,M D ,A 1,MM>

CALL

PRINTM (AI,M ,M ,M M ,M M )

WRITE

(6 ,2 0 0 2 )

 

CALCULATE

EIGENVALUES

AND-EIGENVECTORS

О О О О

. . .

CALL E IC E N J(A l',A 2,M ,M M )

MOVE EIGENVALUES TO FIRST COLUMN CALCULATE SUM OF EIGENVALUES

SUME=0.0

DO 100 1 = 1 ,M

A 1 ( 1 , 1 ) = A I( 1 , 1 ) SUME=SUME+AI( 1 , 1 )

100 CONTINUE

О О О

. . .

CALCULATE PERCENT CONTRIBUTION OF EACH EICENVALUE

О О О О О О О

 

SUM EE-0.0

 

DO 101

1 = 1 ,M

 

A i d , 2 ) =A 1 (1 , I )*1 0 0 .0/SUME

 

SUMEE=SUMEE+A1 ( 1 ,1 )

101

A I ( 1 , 3 ) =SUMEE*I 0 0 . 0/SUME

CONTINUE

. . . PRINT EIGENVALUES AND PERCENT CONTRIBUTION

 

CALL

PRINTM( A I , M, 3 , MM, MM)

 

WRITE

(6 ,2 0 0 3 )

. . .

PRINT

EIGENVECTORS

 

N O T E ...

EIGENVECTORS ARE STORED COLUMNWISE

О О О

. . .

CALL

PR INTM( A 2, M, M, MM, MM)

WRITE

(6 ,2 0 0 4 )

CALCULATE AND PRINT SCORES

CALL

MMULT(X,A2,SCORE,N,M,M,ND,MD,MM,MM,ND,MD)

CALL

PRINTM(SCORE,N,M,ND,MD)

 

WRITE

(6 ,2 0 0 5 )

 

 

 

1000

00

TO

I.

 

 

 

FORMAT

(2 1 3 )

DATA

MATRIX - ' , 1 X ,

2001

FORMAT

(IH 0 ,4 X ,'IN P U T

1

'COLUMNS = VARIABLES, ROWS = OBSERVATIONS')

2002

FORMAT

( IH 0 .4 X ,'S IM IL A R IT Y

M A T R IX ')

2003

FORMAT

( I Н О ,4X,'COLUMN

I =

El GENVALUES',2X,

1

'COLUMN 2 = PERCENT OF T R A C E ',/,

2

5X,'COLUMN 3 = CUMULATIVE PERCENT OF TRACE')

2 0 0 4

FORMAT

( IH 0 ,4 X ,'P R IN C IP A L

AXIS MATRIX - ' , IX ,

I

'COLUMNS = EIGENVECTORS,

ROWS = VARIABLES')

2 005

FORMAT

( I Н О ,4 X , 'P R IN C IP A L

COMPONENT SCORES - ' , I X ,

I

'COLUMNS = EIGENVECTORS,

ROWS = OBSERVATIONS')

2 0 0 6

FORMAT

(1 Н О ,4X,'STANDARDIZED

INPUT DATA MATRIX - ' . I X ,

I

'COLUMNS = VARIABLES,

ROWS =

OBSERVATIONS')

END

Программа 7.10. МГК

EIGENJ (программа 4.10). Программа 7.10 представляет воз­ можность выбора ковариационной матрицы для стандартизиро­ ванных и для нестандартизированных переменных. Стандарти­ зированные ковариации, конечно, являются корреляциями и вы­ числяются по подпрограмме RCOEF (программа 7.3). В этом примере подпрограмма COV (программа 7.11) используется для вычисления необработанной ковариационной матрицы. Главные компоненты, т. е. собственные векторы, приведены в табл. 7.23. Отметим, что две первые главные компоненты учитывают 90% изменчивости данных. Натрузки по переменным для двух компо­ нент представлены на фиг. 7.24. Из этого графика видно, что первая главная компонента характеризует относительные доли тонких и очень тонких фракций в осадке, т. е. отношение песок/глина + ил. Вторая компонента характеризуется отношением содержаний мелкого и очень мелкого песка, а все другие пере­ менные имеют веса, близкие к нулю. Этих двух компонент вполне достаточно для описания почти всей изменчивости исход­ ных данных, из которого вытекает, что разделение на илистую и глинистую фракции несущественно. Основные различия между

СPROGRAM 7 . И

с

С

SUBROUTINE ТО CALCULATE THE MATRIX OF VARIANCE AND

C

COVARIANCES BETWEEN COLUMNS OF

DATA MATRIX

X

C

SUBROUTINE

COV( X ,N ,M ,N 1 ,M I,A ,M 2 )

 

 

 

 

DIMENSION

X ( N I , M 1 ) ,A (M 2 ,M 2 )

 

 

 

AN=N

 

.

 

 

C

A N I= N -I

 

 

 

CALCULATE

VARIANCE-COVARIANCE

BETWEEN COLUMNS I AND J

C . . .

C

DO

IOO

1 = 1 ,M'

 

 

 

 

 

C

DO

100

J « I,M

 

 

ZERO SUMS

 

 

 

C . . .

 

 

 

C

S X 1 = 0 .0

 

 

 

 

 

 

 

 

 

 

S X 2 = 0 .0

 

 

 

 

C

SX 1X 2 = 0 .0

 

 

 

CALCULATE

SUMS AND SUM OF CROSS PRODUCT

 

C . . .

 

C

DO

101

K = 1 ,N

 

 

 

 

 

 

S X 1 = S X I+ X (K ,I)

 

 

 

S X 2 = S X 2 + X (K ,J>

 

 

' l ‘d l

S X IX 2 * S X 1 X 2 + X ( K ,I) * X ( K ,J )

 

 

CONTINUE

 

 

 

C

CALCULATE

VARIANCE-COVARIANCE

AND STORE IN

MATRIX A

C . . ,

C

A( I , J )= ( SX1X2-SXI*SX2/AN)/AN 1

 

 

 

 

 

 

A ( J ,I ) = A ( I ,J )

 

 

IOO CONTINUE

RETURN

END

Программа 7.11. Подпрограмма COV

 

 

 

 

 

 

Т а б л и ц а 7.23

Собственные значения и собственные векторы (главные

 

компоненты) ковариационной матрицы, указанной

 

 

 

в табл.

7.22

 

 

 

В е к т о р

С о б с т в е н н о е

В к л а д В д и с п ер ­

С у м м а р н а я

 

1

з н а ч е н и е

с и ю , %

 

д и с п е р с и я

 

659,7759

64,18

 

64,19

 

II

318,4384

30,98

 

95,17

 

III

35,1959

3,42

 

98,59

 

IV

 

6,7528

0,66

 

99,25

 

V

 

3,8193

0,37

 

99,62

 

VI

 

2,3763

0,23

 

 

99,85

 

VII

 

1,5540

0,15

 

 

100,00

 

П ере

 

 

С о б с т в е н н ы й в е к т о р

 

 

I

II

III

IV

V

VI

VII

м е н н а я

X,

-0 ,0 0 1 9

0,0039

- 0 ,0 6 8 9 - 0 ,5 8 2 9

0,7554

0,2793

0,0818

X,

0,7710

-0 ,4 7 7 7

0,3194

0,1885

0,1169

0,1581

0,0326

Хз

0,4167

0,8647

0,0531

0,2116

0,1123

0,1294

0,0421

Х4

-0 ,3 9 0 7

0,0761

0,8844

0,0704

0,0490

0,2280

0,0028

Х5

- 0 ,1 8 9 5

-0 ,0 7 9 4

- 0 ,0 7 7 5

0,6308

0,6255

—0,3240

- -0,2401

Хв

- 0 ,1 6 1 8

- 0 ,0 8 1 3

- 0 ,1 6 2 9

0,3330

0,0526

0,2570

0,8723

Х7

- 0 ,1 3 0 8

- 0 ,0 7 3 5

- 0 ,2 7 5 0

0,2570 -0 ,0 8 1 5

0,8107

- -0,4146

Х ,=

1 -2 ф, Х2 = 2-Зф , Х3 ==3-4ф, Х4 = 4-5ф, Ха = 5-6ф, Хв= 6 -7 ф. X, = 7-8ф.

осадками можно почти полностью описать только с помощью двух переменных.

Мы можем проверить результаты нашего анализа путем построения проекций наблюдений на первые две главные компо­ ненты, что также осуществляется программой 7.10 (МГК). На фиг. 7.25 изображено распределение проекций для первых двух главных компонент; пять различных типов осадочных по­ род представлены различными символами. Сравните различие между типами осадочных пород на этой диаграмме и диаграмме на фиг. 7.26, на которой изображена зависимость медианы раз­ меров зерен от коэффициента сортированности (квартиль откло­ нения). Вероятно, что еще больший интерес представляет фиг. 7.27, где изображено отношение процентного содержания мелкой и очень мелкой песчаных фракций. Все эти диаграммы имеют приблизительно одинаковую эффективность с точки зре­ ния разделения пяти типов осадков, хотя для построения диа­ граммы, изображенной на фиг. 7.27, требуется больше экспери­ ментальных данных, чем для диаграммы на фиг. 7.26. Таким образом, для разделения образцов на семь разных классов по размеру достаточно только двух операций просеивания. Кроме того, результаты анализа с использованием МГК показывают, что осадки в бассейне можно рассматривать как смесь двух

20

 

О

 

 

 

 

 

 

 

 

10

о

 

 

 

 

 

 

 

 

о

 

 

 

\

 

 

 

 

 

 

®о

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

о

~~

о

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

о 1

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

^

-20

 

 

 

 

 

 

 

п

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

\

 

 

-30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-40

 

 

 

 

 

 

 

 

О

1

 

 

 

 

 

 

 

 

 

-50

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

-60

 

 

 

 

 

 

 

 

А

4

 

 

 

 

 

О

 

 

 

 

5

-70

______ I______ I______ 1______ 1

1

1

1

1

+10 +20

- 70

- 60

- 50

- 40

- 30

- 20

-10

 

0

I

Фиг. 7.25. Проекции анализов осадков залива Баратария на плоскость двух главных компонент.

Различные символы соответствуют пяти различным типам осадочных пород [15]: 1 — пля­ жевые и прибрежные пески, 2 — алевритистые русловые пески; 3 — алевритистые берего­ вые пески; 4 — органический донный алеврит, органические илы.

соответствующий из критериев ANOVA, указанных в гл. 3, опре­ делите, которая из трех переменных является наиболее эффек­ тивной.

Возможны и другие методы исследования, которые подтверж­ дают пользу набора статистик и квазистатистик, используемых для характеристики осадочных отложений. Вычислив эти статис­ тики, можно использовать их в качестве переменных в МГК, а также выбрать из них те комбинации, интерпретация которых позволит получить эффективную характеристику осадков. Опре­ деления различных статистик, используемых при изучении раз­ меров зерен, приведены во многих справочных изданиях по оса­ дочной петрологии. Напишите короткую программу вычисления некоторых из них и примените ее к необработанным данным табл. 7.21. Используйте статистики в качестве новых перемен­ ных в программе главных компонент (программа 7.10) и про­ думайте полученные результаты. (Аналогичные исследования приводят Гриффитс и Ондрик [8].)

R-метод факторного анализа. Основой метода главных ком­ понент является линейное преобразование ш исходных перемен­ ных в ш новых переменных, где каждая новая переменная яв­ ляется линейной комбинацией старых. Этот процесс осуществ­ ляется таким образом, чтобы каждая новая переменная давала возможно больший вклад в суммарную дисперсию. При вычис­ лении новых переменных учитываются все исходные дисперсии. Так как МГК, вообще говоря, не является статистическим мето­ дом, мы ничего не можем сказать о вероятности, связанной с проверкой гипотез. Это просто математический метод. Однако при принятии решений об отбрасывании некоторых новых пере­ менных или компонент, дающих очень малый вклад в суммар­ ную дисперсию, приходится использовать некоторые статистиче­ ские критерии, несмотря на то что последние имеют сильные ограничения и редко применимы (обзор этих критериев приводит Моррисон [22]). Метод главных компонент, как и анализ групп, относится к той категории методов, о пригодности которых судят после их применения, а не на основании теоретических рассуж­ дений.

Фиг. 7.26. Диаграмма зависимости квартиля от медианы в осадках залива Баратария в ср-единицах.

Символы те же, что и на фиг. 7.25.

Песок (%)

Фиг. 7.27. Диаграмма зависимости процентного содержания песка от отноше­ ния содержания мелкого песка к очень мелкому в осадках залива Баратария.

Символы те же, что и на фиг. 7.25.

Факторный анализ, который принято считать статистическим методом, несколько отличается от этих методов, так как в его основе лежат некоторые предположения о природе изучаемой совокупности. Эти предположения позволяют указать те опе­ рации, которые должны быть выполнены, а также путь, по кото­ рому надо следовать при интерпретации результатов. Для неко­ торых процедур факторного анализа созданы даже критерии значимости (см. Лоули и Максвелл [17]), которые, однако, редко используются.

В факторном анализе предполагается, что связь между m переменными можно считать отражением корреляционной зави­ симости каждой из переменных с р взаимно некоррелирован­ ными факторами. Обычное допущение состоит в том, что р < ш. Поэтому дисперсия для ш переменных может быть вычислена с помощью дисперсии р факторов плюс вклад, происхождение которого одинаково для всех ш исходных переменных. В фак­ торном анализе р независимых факторов носят название общих факторов, а независимая от них суммарная добавка обычно

34 Заказ № 455

называется фактором специфичности. Факторная модель выра­ жается в виде

X j = 2 /jrfr+ e j ,

(7.34)

Г = I

 

где fr — r-й общий фактор, р — заранее заданное число факторов и ej — случайная компонента, присущая исходной переменной Xj. Так как имеется ш исходных переменных X], то существует и ш случайных переменных ej; рассматриваемые вместе, они состав­ ляют вектор факторов специфичности. Коэффициент 1$ называ­ ется нагрузкой j -й переменной на г-й фактор. В компонентном анализе этому понятию соответствуют нагрузки или веса на главные компоненты.

Предположим, что переменные Xj имеют многомерное нор­ мальное распределение. Дисперсии и ковариации образуют мат­

рицу порядка m X m . Из

формулы (7.34)

вытекает, что диаго­

нальные элементы этой

матрицы — дисперсии ш переменных —

можно выразить формулой

 

s n = 2 / j r + v a r e j ,

( 7 . 3 5 )

Г= 1

анедиагональные элементы, или ковариации, имеют вид

covjk= 2 V k r -

(7.36)

Г = 1

 

Основную гипотезу факторного анализа в матричной форме можно сформулировать следующим образом. Наблюдаемая ко­ вариационная матрица, которую мы обозначим через [s2], явля­ ется произведением матрицы порядка ш Х р факторных нагрузок (которую мы обозначим [L]) и ее транспозиции плюс диаго­ нальная матрица порядка гпХш дисперсий факторов специфич­ ности [varej]:

[s2] = [L] [L]'-f-[vare^.

(7.37)

В результате умножения матрицы порядка т Х р на ее транс­ понированную получим матрицу порядка m X m , которая, однако, будет иметь только р положительных собственных значений и соответствующих им собственных векторов. Если р = гп, то мат­ рица [var ejk] оказывается тождественной и наша задача в точ­ ности эквивалентна МГК. В тех случаях, когда р < т , мы дол­ жны оценить матрицу параметров [L], т. е. матрицу факторных нагрузок, и дисперсии факторов специфичности, т. е. матрицу [var ej]. Отметим, что в факторном анализе предполагается, что число факторов р известно до анализа, так как исследователь на основании некоторых предварительных рассмотрений в со-

20

15

х2

10

5

0

5

10

15

20

Xi

Фиг. 7.28. Множество данных до стандартизации.

Необработанные данные имеют средние значения

и Х2“ Ю.

стоянии предсказать число факторов, от которых зависит рас­ сматриваемая модель. Если число факторов р заранее предска­ зать нельзя, то разделение дисперсий между общими факторами и фактором специфичности становится неопределенным. Этот важный момент иногда остается незамеченным эксперимента­ торами, которые пытаются использовать факторный анализ для «ловли рыбы».

2 г

 

 

1- •

 

 

-2

-1I

J

_________L

 

 

1

2

2

Фиг. 7.29. Данные фиг. 7.28 после стандартизации, имеющие нулевые средние значения и единичное стандартное отклонение.

Отметим, что пределы изменения обеих переменных одинаковы.