![](/user_photo/_userpic.png)
книги / Статистика и анализ геологических данных
..pdfкопаемых |
организмов |
или |
хими |
(,оо |
|
|
|
|
|
|
|
|
||||||||
ческие анализы трех пород. Если |
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
||||||||||||
нанести |
|
каждое |
измерение |
на |
0,50 |
|
|
|
|
|
|
|
|
|||||||
график так, как это указано на |
000- |
|
|
|
|
|
|
|
|
|||||||||||
фиг. 7.9, мы убедимся в том, что |
|
|
|
|
|
|
|
|
||||||||||||
соотношения |
между |
|
переменны |
-0,50 - |
|
|
|
|
|
|
|
|
||||||||
ми в двух объектах |
|
сходны. Им |
|
|
|
|
|
|
|
|
||||||||||
соответствуют |
более |
или менее |
1,0 0 - |
|
|
|
|
|
|
|
|
|||||||||
параллельные графики А и В на |
|
|
|
|
|
|
|
|
|
|||||||||||
диаграмме. |
У |
третьего |
графи |
|
|
|
|
|
|
|
|
|
||||||||
ка другой вид, |
но |
он значитель |
|
|
|
|
|
|
|
|
|
|||||||||
но ближе к графическому |
пред |
|
|
|
|
|
|
|
|
|
||||||||||
ставлению |
множества |
измере |
|
|
|
|
|
|
|
|
|
|||||||||
ний, соответствующего одному из |
|
|
|
|
|
|
|
|
|
|||||||||||
двух |
других |
|
объектов. |
|
В этом |
|
|
|
|
|
|
|
|
|
||||||
примере А и В сильно коррели- |
|
|
|
|
|
|
|
|
|
|||||||||||
рованы, |
т. е. имеют |
высокие ли |
|
|
|
|
|
|
|
|
|
|||||||||
нейные |
связи, |
но |
зато |
расстоя |
|
|
|
|
|
|
|
|
|
|||||||
ние |
между В |
и |
С |
минимально. |
|
|
|
|
|
|
|
|
|
|||||||
Если бы |
в |
качестве |
перемен |
|
|
|
|
|
|
|
|
|
||||||||
ных были выбраны размеры ис |
|
|
|
|
|
|
|
|
|
|||||||||||
копаемых |
организмов, |
например |
|
|
|
Фиг. 7.8. |
|
|
|
|||||||||||
раковин |
брахиопод, |
то |
это |
при |
а — д е н д р о гр а м м а , постр оен на я |
по |
м е |
|||||||||||||
вело бы к выводу, что А и В име |
т о д у |
гр у пп о во го |
о бъ ед и н ен и я, |
осн о в а н |
||||||||||||||||
ют близкую |
форму, а В |
и С — |
ного |
на |
уср ед нен и и |
коэф ф и ц и ентов |
||||||||||||||
к орреляц и и . |
И с х о д н а я |
м а тр и ц а п риве |
||||||||||||||||||
сходные размеры. Если |
бы в ка |
д ена |
в та б л . |
7.15. К о ф енети чески й |
к о |
|||||||||||||||
эф ф и ц и е н т |
к о р р ел яц и и |
равен 0,77. |
б — |
|||||||||||||||||
честве |
переменных |
были выбра |
д е н д р о гр а м м а , постр оен на я |
тем ж е |
м е |
|||||||||||||||
ны процентные содержания тяже |
тод о м , но |
осн ован на я |
на |
р ассто ян и и . |
||||||||||||||||
К о ф енети чески й |
ко эф ф и ц и е нт |
к о р р е л я |
||||||||||||||||||
лых |
металлов |
в образцах |
руды, |
|
|
ции |
равен |
0,91. |
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
||||||||||||
то |
мы |
|
могли |
бы |
|
заключить, |
|
|
|
|
|
|
|
|
|
что образцы А и В аналогичны по составу, но что А обладает пониженными содержаниями металлов в сравнении с В. Кон центрации металлов в В и С близки, но отношения их содер жаний различны.
Необходимо пояснить, что коэффициент корреляции указы вает на наибольшее .сходство в тех случаях, когда он имеет вы сокое положительное значение, в то время как расстояние ука зывает на наибольшее сходство в тех случаях, когда оно наи меньшее. Поэтому коэффициент корреляции выявит наличие связи при его высоких значениях, а расстояние — при низких.
Критерий объединения двух объектов в группу требует, чтобы оба они имели наибольшую корреляцию относительно друг друга. Возможны также и другие критерии. Так, напри мер, известен простой метод образования групп, называемый простым объединением, основанный на использовании наивыс шего коэффициента сходства между некоторым фиксированным
Фиг. 7.9. Графики переменных, измеренных на трех объектах.
Кривые А к В сильно коррелированы, но разделены большим расстоянием. Кривые В и С ■отрицательно коррелированы, но «близки» в смысле расстояния.
объектом и любым объектом группы. Результаты анализа групп этим методом по корреляционной матрице, приведенной в табл. 7.15, изображены на фиг. 7.10. Так как объекты вво дятся в группу на основании наивысшего значения коэффици ента корреляции с любым объектом, уже принадлежащим группе, то теснота связи в этом случае оказывается более вы сокой, чем в методах группового объединения. При этом, кроме сжатия дендрограммы, возникают и другие отличия. Так, на пример, группа СЕ прямо соединена с группой BFD в силу на личия высокой корреляции между Е и D. Если корреляции с С и Е усреднить, то наивысшей будет корреляция между СЕ и А.
Простое объединение прямо приводит нас к окончательной характеристике, среднему арифметическому мер сходства объ ектов, которые уже определены по группам. При использова нии этого метода образования групп никакого усреднения со всем не делается. Методы, проиллюстрированные на фиг. 7.8, а и б и в предыдущем примере (см. фиг. 7.6), называются мето дами взвешивания, хотя на самом деле их следовало бы назвать равным взвешиванием. На фиг. 7.8, а С и Е соединены в начале образования групп. Корреляции новой группы СЕ находятся комбинированием строк и столбцов С и Е и делением каждого из элемента на 2. Далее в группу вводится объект А, и коэф фициент корреляции новой группы АСЕ находится комбиниро ванием строк и столбцов группы СЕ со строками и столбцами А и делением их на 2. Иными словами, СЕ считается единст венным объектом, в то время как на самом деле он состоит
Фиг. 7.11. Дендрограмма корреляционной матрицы, приведенной в табл. 7.15.
Группы построены на основании метода невзвешенного усреднения. Кофенетический ко эффициент корреляции'равен 0,72.
который трактуется как индикатор малых изменений в дендро грамме. Значения кофенетических коэффициентов корреляции, меньшие 0,8, могут указывать на столь сильные изменения в дендрограмме для слабых связей, что диаграмма оказывается ошибочной. В анализе групп матрицы расстояний обычно ис пользуются с большим успехом, чем матрицы коэффициентов корреляции, так как дают более высокую кофенетическую кор реляцию. По-видимому, матрицы расстояний также менее чув ствительны к замене метода при анализе групп. Однако недо статок состоит в том, что они ограничивают использование ка ких-либо статистических методов. (Для других методов анализа групп имеются некоторые теоретические обоснования; см., на пример, Свицер [27].) Большинство исследователей, использую щих методы анализа групп, применяют различные меры сход ства и процедуры построения групп, а затем выбирают те из них, которые дают наиболее удовлетворительные результаты
сPROGRAM 7 .6
с
сCLUSTER ANALYSIS
с
с |
THE PROGRAM ACCEPTS |
AN N BY M DATA MATRIX WHERE N |
IS |
THE NUMBER |
|||||||
с |
OF OBSERVATIONS AND M IS THE NUMBER OF VARIABLES. |
IF |
THE FIRST |
||||||||
с |
OPTION ON THE CONTROL CARD IS |
I , |
AN M BY M MATRIX OF |
SIM ILARITIES |
|||||||
с |
BETWEEN COLUMNS |
IS |
COMPUTED. |
IF THE OPTION IS 2 , |
AN N BY N |
||||||
с |
MATRIX OF SIM ILARITIES |
BETWEEN ROWS IS COMPUTED. |
IF |
THE OPTION |
|||||||
с |
IS 3 , AN M BY M SIMILARITY |
MATRIX |
IS ACCEPTED AS |
INPUT. IF |
|||||||
с |
OPTION TWO |
IS |
I , |
THE CORRELATION |
COEFFICIENT WILL |
BE |
USED IN THE |
||||
с |
SIMILARITY.MATRIX. |
IF THIS OPTION IS 2 , THE DISTANCE COEFFICIENT |
|||||||||
с |
WILL BE USED. |
THE |
PROGRAM LOOPS BACK AND RESTARTS AFTER |
||||||||
с |
COMPLETION. |
TO |
EXIT, |
READ IN |
A CONTROL CARD AFTER YOUR DATA |
||||||
с |
AND SET TO ZERO. |
|
|
|
|
|
|
|
|
||
с |
|
|
|
|
|
|
|
|
|
|
|
с |
FORMAT OF CONTROL CARD |
|
|
|
|
|
|
||||
с |
|
|
|
|
|
|
|
|
|
|
|
с |
COL. |
1-3 |
0 * |
END OF |
JOB |
|
|
|
|
||
с |
|
|
1 = |
INPUT A |
DATA MATRIX |
|
|
||||
с |
|
|
2 |
» |
INPUT A DATA MATRIX AND TRANSPOSE IT |
||||||
с |
|
|
3 |
= |
INPUT A |
SIMILARITY MATRIX |
|
|
|||
с |
|
|
|
|
|
|
|
|
|
|
|
с |
COL. |
4 -6 |
I |
= |
CORRELATION |
MATRIX |
|
|
|||
с |
|
|
2 |
= |
DISTANCE MATRIX |
|
|
для их данных. Это вносит некоторую степень субъективизма в процедуры, цель которых — выявить объективно действующие закономерности, однако кофенетическая корреляция позволяет управлять этим процессом. Ценность анализа групп состоит в том, что он дает возможность относительно просто классифи цировать объекты, а результаты этой классификации предста вить в понятной и легко доступной форме.
Хотя анализ групп для небольшого массива исходных дан ных осуществляется сравнительно просто, он становится все более сложным по мере увеличения объема данных. Естест венно, что в этих случаях графические процедуры при построе нии дендрограмм также становятся очень сложными. Для облег чения этой процедуры мы написали программу CLUSTR (программа 7.6), которая на основании матрицы сходства осуще-
СPROGRAM 7 .7
СSUBROUTINE TO PERFORM WEIGHTED PAIR-GROUP AVERAGE CLUSTERING.
C
SUBROUTINE WPGA(X,M,MI, IPAIR,XLEV,ISIM) -DIMENSION X(MI,MI),IPAIR(2,MI),XLEV(M1) DIMENSION II(IO O )f 12(100),XSIM(I 00)
C
C . . . INITIALIZE C
WRITE ( 6 t 2001) DO МО I - 1,M
I I ( I ) « I
110CONTINUE XXXX— 9.0E+35
IF (ISIM .NE. I) XXXX-+9.0E+35
M3^M-I
IC-0
C
C . . . FOR A CORRELATION MATRIX FIND LARGEST SIMILARITY IN
C |
EACH |
COLUMN. |
|
|
|
|
||
C |
FOR A |
DISTANCE MATRIX FIND SMALLEST SIMILARITY IN EACH COLUMN |
||||||
C |
|
|
|
|
|
|
|
|
I DO 100 I-1,M |
0) |
GO |
TO |
100 |
||||
|
IF |
( I I ( I ) |
,LE . |
|||||
|
IX-O |
|
|
|
|
|
|
|
|
XX-XX XX |
|
|
|
|
|
||
|
DO |
101 J=I,M |
GO |
TO |
101 |
|
||
|
IF |
(I |
.EQ. |
J ) |
I 01 |
|||
|
IF |
(I |
I ( J ) |
.LE . |
0) |
GO |
TO |
|
11 |
GO |
TO |
( 1 1 , 1 2 ) , ISIM |
|
|
|||
IF |
(X (J,I) - X X ) |
101,101,13 |
||||||
12 |
IF |
(X (J,I) - X X ) |
13,101,101 |
13X X -X(J,I) IX-J
101CONTINUE I2 (I) - IX
100 |
XSIM(I)«XX |
CONTINUE |
|
C |
FOR A CORRELATION MATRIX FIND MUTUALLY HIGH PAIRS |
C . . . |
|
C |
FOR A DISTANCE MATRIX FIND MUTUALLY LOW PAIRS |
C |
|
DO |
102 I»I,M3 |
0) |
GO |
TO |
102 |
|
IF |
(11(1) |
.LE. |
||||
J - I 2 ( I ) |
.LE. |
0) |
GO |
TO |
102 |
|
IF |
( I K J ) |
честве меры сходства. Матрицы коэффициентов корреляции вы числяются по программе RCOEF (программа 7.3), а матрицы расстояний — по подпрограмме DIST (программа 7.9). Большин ство наших массивов исходных данных, включая и приведенный ниже, размещается в гп столбцах, представляющих переменные, и п строках, соответствующих наблюдениям. Если наша цель, как обычно,— анализ групп наблюдений, то матрица исходных данных должны быть считана и транспонирована для того, чтобы программа позволила нам получить матрицу порядка п хп , ха рактеризующую сходство между наблюдениями. В вычислитель ных центрах обычно имеется множество программ анализа групп' различной сложности. Среди них можно назвать программы из Computer Contribution Series, NT-SYS — систему численной так сономии и BCTRY — систему, созданную Трайоном (Трайон и Бейли [29]). Информацию о них читатель может найти в при ложении.
Вкачестве упражнения в анализе групп мы используем
программу CLUSTR (программа 7.6) для исследования набора
Т а б л и ц а 7.16
Десять отношений, полученных по результатам измерения десяти видов кембрийских трилобитов, собранных в штате Юта а
Виды |
X, |
х 2 |
Х3 |
х4 |
Х5 |
х в |
х 7 |
х . |
X, |
Х,о |
AphelaspLs brachyptULsis 0,208 |
0,250 0,542 0,237 0,875 0,292 |
0,284 |
0,925 |
0,343 |
0,373 |
|||||
A. haguei |
0,318 |
0,318 |
0,545 |
0,428 |
1 ,0 0 0 |
0,318 |
0,296 |
0,796 |
0,444 |
0,537 |
A.subaUtus |
0,174 |
0,304 |
0,391 |
0,375 |
0,913 |
0,304 |
0,297 |
0,946 |
0,405 |
0,486 |
Mcanthopyde conuergens 0,259 |
0,370 0,370 0,859 0,852 0,333 |
0,500 |
0,591 |
0,591 |
0,818 |
|||||
U. quadrata. |
0,250 |
0,350 |
0,500 |
0,615 |
0,900 |
0,351 |
0,434 |
0,783 |
0,478 |
0,652 |
D. reductus |
0,316 |
0,421 |
0,474 |
0,736 |
1.158 |
0,421 |
0,500 |
0,675 |
0,500 |
0,775 |
Prehousia alata, |
0,136 |
0,409 |
0,273 |
0,469 |
1 ,0 0 0 |
0,136 |
0,269 |
0,769 |
0,327 |
0,423 |
P. Lndenta, |
0,192 |
0,308 |
0,259 |
0,628 |
0,923 |
0,154 |
0,308 |
0,795 |
0,308 |
0,436 |
P. prima* |
0,261 |
0,261 |
0,261 |
0,545 |
0,956 |
0,261 |
0,296 |
0,833 |
0,333 |
0,407 |
A. Longispina |
0,259 |
0,370 |
0,556 |
0,444 |
0,852 |
0,296 |
0,372 |
0,824 |
0,431 |
0,706 |
a C — длина |
глабели; X 1 — длина краевого валика/С; |
Х а - длина |
края/С ; |
Х 3 — |
||||
длина |
глазной |
крышки/С; |
X , - ширина |
глабели/С; |
Х«1 — ширина |
неподвижной |
||
щеки/С; |
Х 6 — длина главного |
шипа/длина |
свободной |
щеки; D — ширина пигидия; |
||||
Х 7 — ширина оси пнгндия/D; Х 8 — ширина плевральной |
оси/D; Х 9 — длина |
оси |
||||||
пигндия/D; Хю — длина пнгндия/D. |
|
|
|
|
|
СPROGRAM 7.8
СSUBROUTINE ТО PRINT A DENDROGRAM
С
SUBROUTINE DENDRO(IPAIR,XLEV,M,MI, ISIM) DIMENSION IPAIR(2VMI) , XLEV(Ml) DIMENSION 11(100),12(100)
DIMENSION I0UT(6I) , XX<13)
DATA IBLNK,ICI, ICP,ICM/IH , IHI, 1 H 1Н-/
C
C . . . DETERMINE ORDER THAT BRANCHES HILL BE PRINTED IN C
M2*M-1
DO 100 1 *1 ,M
I l t n - 0 I 2 ( I ) - 0
100 CONTINUE
DO |
101 |
1*1,М2 |
J * I - I |
|
|
11 IF |
( J .LE . 0) GO TO 12 |
|
IF |
(IPAIR(1,I) .EQ. IPAIR(I, J ) ) GO TO 13 |
|
J - J - l |
II |
|
GO |
TO |
12 12(1)e1
GO TO 15 13 K *II(J>
IF (K .EQ. 0) GO TO 14 J-K
GO TO 13 14 I I ( J ) - I
15 DO 102 J - I , I
K - J
IF (IPAIR(2,I> .EQ. IPAIR(I, J )) GO TO 16
102CONTINUE GO TO 101
161 2 0 0 * 0 I I ( I ) *K
101 CONTINUE
C
C. . . FIND STARTING CLUSTER C
DO 103 1*1,М2 JS - I
IF (12(1) .NE. 0) GO TO 20 103 CONTINUE
CALL EXIT
20 NODE=IPAIR(I,JS)
C
C . . . FIND LARGEST AND SMALLEST SIMILARITY COEF. C
XMIN=XLEV(I)
XMAX*XMIN
DO 104 I=*I,M2
IF (XLEV(I) .LT. XMIN) XMIN-XLEV(I)
IF (XLEV(I) .GT. XMAX) XMAX-XLEV(I)
104CONTINUE DX*(XMAX-XMIN)/25.0 XMIN*XMIN-DX XMAX*XMAX+DX DX*(XMAX-XMIN)/6 0 .0
IF (ISIM .NE. 2) GO TO 21 DX— DX
XMIN-XMAX
C
C . . . BLANK OUT PRINT LINE ARRAY C
21 DO 105 1*1,61 IOUT( I)*IBLNK
105 CONTINUE
C
C...PRINT DENDROGRAM C
X*XMIN
DO 106 1-1,13 XX(I)-X X*X+DX*5.0
106 CONTINUE