Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Пермский национальный исследовательский политехнический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

книги / Статистика и анализ геологических данных

..pdf

Скачиваний:

Добавлен:

12.11.2023

Размер:

21.12 Mб

Скачать

☆

<<< < Предыдущая 34 35 36 37 38 39 40 41 42 43 44 45 46 47 4849 / 5849 50 51 52 53 54 55 56 57 58 > Следующая >>>

1 0 2 C O N T I N U E

101C O N T I N U E A N I = N S ( 1 ) A N 2 = N S ( 2 )

A N 3 - A N I + A N 2 - 2 . 0

DO	1 0 3	1 = 1 , M
B ( I ) = C ( 1 , I ) / A N I - C ( 2 , I ) / A N 2
DO	1 0 3	J = I , M

A ( I , J ) = ( A ( I , J ) - C ( 1 , I ) * C ( 1 , J ) / A N 1 - C ( 2 , I ) * C ( 2 , J ) / A N 2 ) / A N 3 1 0 3 C O N T I N U E

C S O L V E S L E

C A L L * S L E ( A , B , M , M M , 1 . 0 E - 0 7 )

C C A L C U L A T E R 1 , R 0 , R 2 , D 2 , E T C

R O - O . O

R 1 = 0 # 0 *

R 2 = 0 . 0

D 2 = 0 . O

DO 104 1 = 1, M

R O * R O + B ( I ) * ( C ( I , I ) / A N 1+ C ( 2 , 1 ) / A N 2 ) / 2 . 0

R I = R 1+B ( I ) * C ( 1 , 1 ) / A N I

R 2 = R 2 + B ( I ) * C ( 2 , I ) / A N 2

D 2 = D 2 + B ( I ) * ( C ( I , 1 ) / A N 1- C ( 2 , 1 ) / A N 2 )

1 0 4 C O N T I N U E

F = ( ( ( A N 1+ A N 2 - A M - 1 . 0 ) * A N 1* A N 2 ) / ( A N 3 * A M * ( AN I + A N 2 ) ) > * D 2

N D I= M

N D 2 = N S ( 1 ) + N S ( 2 ) - M - l

W R I T E ( 6 , 2 0 0 0 )

W R I T E ( 6 , 2 0 0 1 ) F , N D 1 , N D 2

W R I T E ( 6 , 2 0 0 2 ) D2

W R I T E ( 6 , 2 0 0 3 ) R I , R 0 , R 2

W R I T E ( 6 , 2 0 0 4 )

	DO	1 0 5	1 = 1 , M
	E = ( B ( I ) * ( C ( I , I ) / A N I - C ( 2 , I ) / A N 2 ) / D 2 ) * I 0 0 . 0
	W R I T E ( 6 , 2 0 0 5 ) I , B ( I ) , E
1 0 5	C O N T I N U E
	DO	1 0 6	1 = 1 , 2
	W R I T E ( 6 , 2 0 0 0 )
	J = N S ( I )
	DO	1 0 7	K = I , J
	D = 0 . 0
	DO	1 0 8	L = 1 ,M
	D = D + B ( L ) * X ( K , L , I )
1 0 8	C O N T I N U E
	W R I T E ( 6 , 2 0 0 6 ) K , D
1 0 7	C O N T I N U E
	W R I T E ( 6 , 2 0 0 8 ) I
1 0 6	C O N T I N U E
	C A L L E X I T
2 0 0 0	F O R M A T ( 1 H 1 )
2 0 0 1 F O R M A T ( ' F = ' , F I 2 . 4 , ' W IT H ' , 1 3 , ' A N D ' , 1 3 ,
	I ' D E C R E E S O F F R E E D O M ' )

2 0 0 2	F O R M A T ( ' O M A H A L A N O B IS D2 = ' , F I 2 . 2 )
2 0 0 3 F O R M A T ( ' O R I = ' , 3 X , F I 5 . 4 , / , ' R Z E R O = ' , F ! 5 . 4 , / , ' R2 = ' , 3 X , F 1 5 . 4 )
2 0 0 4	F O R M A T	( I Н О , 4 X , ' V A R I A B L E ' , I O X , ' C O N S T A N T ' , 9 X , ' P R C T . A D D E D ' I
2 0 0 5	F O R M A T ( 6 X , I 4 , 2 F 2 0 . 4 )
2 0 0 6 F O R M A T ( 6 X , I 9 , F 2 0 . 4 )
2 0 0 7	F O R M A T	( I H 0 , 4 X , ' I N P U T D A T A M A T R I X FOR GROUP ' , I 2 , 3 H - ,
	I 'C O L U M N S = V A R I A B L E S , RO NS = O B S E R V A T I O N S ' )
2 0 0 8	F O R M A T	( I Н О , 4 X ; ' D I S C R I M I N A N T	S C O R E S F O R GROUP ' , 1 2 )
	END
		Программа	7.5. DISCRM

31*

Результаты анализа проб, собранных на двух площадях в Швеции

Группа 1 представлена пробами, взятыми	в районе имеющихся разработок; группа 2 состоит из	проб, взяты х на площ адях, где
оруденения не обнаружено; пробы группы 3	взяты на площ адях, которые нужно классифицировать	на перспективные и неперспек
тивные.

Э лем енты

	Т\п		Мп"	Адс		Ва“	Cod	Сг"
Группа	7 280	1 300		30,0		720	30	150
	10 300	1	200	0,7	1	280	20	160
	6 500		700	1,0	1	070	20	200
	7 000	1	500	0,7		760	30	160
	5 100	1 000		0,5		740	20	140
	10 600	2 100		0,3		980	30	50
	14 200	2 000		0,2		690	30	70
	9 700		900	0,2		680	35	70
	2 300	1	500	0,2		710	5	110
	12 100	6 300		0,1	1	520	30	.30
	3 000	1	100	0,2		510	5	30
	7 500	2 400		0,7		690	30	30
	7 800	1 800		4,0		730	55	40
	6 900	1 500		1,0		326	30	50
	11 200	3 100		1,5		660	50	40
	5 200	1 400		0,8		680	35	50
	5 100	1 500		0,9		700	25	60
	10 600	2 900		0,4	1 640		25	20
	11 500	3 200		0,7		710	30	30
	7 100	1 800		0,9		490	75	50

О с	Ni“	РЬЯ	Sr"	Vя	Zn"	Auc
73	50	70	60	70	190	0,02
25	50	70	90	50	50	0,02
48	70	100	210	50	170	0,01
70	40	110	240	40	250	0,01
39	50	80	50	60	130	0,02
25	30'	70	150	160	110	0;01
25	50	60	160	70	180	0,01
38	30	70	80	110	250	0,01
50	20	70	80	30	120	0,01
24	30	80	320	160	,190	0,02
15	30	30	240	30	50	0,02
31	10	100	210	40	280	0,03
24	30	20	90	320	90	0,01
25	10	90	70	200	70	0,04
20	40	50	140	280	90	0,01
42	20	50	30	150	150	0,01
67	40	80	40	190	90	0,01
21	30	30	320	90	200	0,01
15	20	20	260	270	180	0,01
8	10	30	80	180	100	0,02

Группа	Z	4 820		500	0,1	160	20
		3 040		500	0,2	150	20
			890	600	0,1	50	10
		2 100		500	0,1	100	15
		5 060		700	о.з	140	20
		1	980	700	0,1	80	15
		3 220		600	0,2	160	20
		3 280		800	0,2	90	15
		2 020		700	0,1	80	15
		4 600		700	0,3	160	20
		3 100		500	0,2	100	15
		3 020		600	0,2	90	15
		1	860	500	0,1	70	10
		2 800		700	0,1	110	15
		1	040	1 600	0,1	20	5
		4 640		800	о,з	220	15
		4 990		900	0,3	190	20
		2 830		800	0.2	120	15
		4 500		700	0.2	140	20
		2 900		600	0.1	80	15
Группа	3	4 260		800	0,3	180	20
		6 500		1 200	0,5	380	30
		12 200		5 200	1,5	630	25
		1	080	1 600	0,2	80	5
		3 820		500	0,2	170	25
		1 020		2 400	0,1	20	0

л Точность	анализа	10 млн-1.	с	Точность	анализа	менее 1 млн~:
Ь Точность	анализа	100 млн-1.	d	Точность	анализа	5 млн-1.

70	30	10	0	720	140	200	0Т01
30	82	10	20	1 580	160	70	0,01
10	61	10	0	340	40	50	0,02
30	77	10	0	650	90	80	0,02
50	154	20	0	1 240	140	80	0,01
20	63	20	0	720	80	110	0,00
30	45	20	10	1 100	120	60	0,01
10	40	30	20	1 480	70	40	0,00
20	104	20	0	420	80	70	0,00
60	48	10	20	780	150	50	0,02
30	65	10	20	710	100	40	0,01
10	69	0	30	1 310	110	30	0,02
20	63	0	10	480	80	50	0,00
20	58	10	20	730	120	80	0,01
10	37	0	10	140	30	80	0,01
20	121	20	20	1 200	210	160	0,00
40	59	20	30	480	230	120	0,02
20	40	10	20	690	140	60	0,00
30	82	20	10	710	170	70	0,00
10	99	0	0	760	80	90	0,01
60	128	30	30	460	110	80	0,02
40	72	50	20	320	90	160	0,01
80	39	40	90	210	200	180	0,01
10	102	0	10	160	30	80	0,00
40	60	20	10	1 100	160	40	0,02
10	28	0	0	1 320	20	60	0,00

Если использовать уже созданную библиотеку подпрограмм, то написать программу вычисления дискриминантной функции совсем нетрудно. Программа 7.5 DISCRM как раз предназна чена для этого, и в ней использовано большинство подпрограмм, содержащихся в гл. 4. Мы применим программу DISCRM для решения следующей задачи.

Правительственная разведочная группа проводила поиски месторождений тяжелых металлов в густо заросших лесом го рах северной Швеции. Данные, собранные аэромагнитометром, оказались недостаточными, и поэтому было проведено геохими ческое исследование, основанное на анализах водных потоков. Было выбрано семь переменных и проведено две последователь ности измерений. Группа А состоит из измерений, сделанных в потоках, дренирующих площади, на которых имеются дейст вующие шахты и подтвержденные рудные тела. Группа В со стоит из аналогичных измерений на площадях, на которых ору денение не обнаружено. Данные по этим площадям приведены в табл. 7.10. Вычислите для них дискриминантную функцию для продуктивного и непродуктивного районов. Определите, явля ются ли различия между двумя группами значимыми, и иссле дуйте относительное влияние используемых переменных. Для удобства в этом примере предполагается, что изучаемые совокупности этих двух групп подчиняются многомерному нор мальному распределению. В табл. 7.10 проведен также ряд измерений, сделанных на площадях, относительно которых не известно, разведывались ли они когда-нибудь. Используя ди скриминантную функцию, можно ли рекомендовать какую-либо из этих площадей в качестве перспективной для разведки?

Анализ групп

Классификация — распределение объектов по более или ме нее однородным группам и установление соотношений между группами — важная особенность работы таксономистов, зани мающихся определением происхождения живых организмов на основании их характеристик и сходства. Таксономия — в высшей степени субъективная наука, в которой выводы определяются интуицией ученого, выработанной годами опыта. В этом отно шении таксономия очень сходна с многими разделами геологии. Ряд ученых, в том числе геологи, неудовлетворенные субъектив ностью и капризностью традиционных методов, разработали но вые способы классификации, которые находятся в соответствии с возможностями современных вычислительных машин. Эта группа исследователей называет себя численными таксономис-

тами, и им мы обязаны многими достижениями в численных ме тодах классификации.

В настоящее время численная таксономия является предме том ожесточенных споров среди биологов, очень напоминающих острые дебаты психологов вокруг вопросов факторного анализа, имевших место в 30—40-х годах нашего века. В этих обсужде ниях некоторые практики рьяно отстаивают методы численной таксономии, заявляя, что они позволяют понять происхождение групп организмов лучше, чем любой другой метод классифика ции. Конечно, доказательств они представить не могут, так как в настоящее время теоретическое обоснование анализа групп не является достаточно удовлетворительным, плохо исследованы статистические основы методов численной таксономии, нет со ответствующих критериев значимости. По-видимому, здесь дело обстоит так же, как и в случае факторного анализа. Однако уже многие методы численной таксономии нашли применение в гео логических исследованиях, в особенности при классификации ископаемых беспозвоночных и при изучении палеообстановок.

Предположим, что мы располагаем некоторым множеством объектов, которые желательно иерархически расклассифициро вать. В биологии эти объекты обычно называются «операцион ными таксономическими единицами» или ОТЕ. На каждом объ екте мы производим ряд измерений, которые составляют наше множество данных. Если мы имеем п объектов и измеряем m характеристик, то множество данных образует матрицу порядка nxm . Далее между каждой парой объектов вычисляется неко торая мера сходства или подобия. Коэффициенты сходства мо гут быть разными, как, например, коэффициент корреляции или стандартизованное m-мерное евклидово расстояние d\y Послед нее вычисляется по формуле

(7.33)

где Xik — значение k-й переменной на i-м объекте и Xjk— значе ние k-й переменной на j -м объекте. Естественно ожидать, что малое значение этого расстояния указывает на то, что объекты подобны или «близки друг другу», в то время как большое значение указывает на отсутствие подобия. Обычно матрица ис ходных данных до вычисления расстояний подвергается стан дартизации. Это позволяет учитывать каждую переменную с оди наковым весом. В противном случае расстояние определялось бы переменной, имеющей наибольшее значение. В некоторых случаях это даже желательно, однако неразумный выбор единиц измерения может иногда привести к нежелательным

последствиям. Яркой иллюстрацией этой зависимости служит пример измерения трех осей образцов гальки. Если измерить две оси в сантиметрах, а третью — в миллиметрах, то третья ось бу дет иметь в десять раз большее влияние на расстояние, чем две другие переменные.

Множество мер сходства между вееми парами объектов мо жно представить в виде симметричной матрицы порядка п Х п . Для вычисления элементов этой матрицы с использованием уже написанных подпрограмм требуется транспонировать матрицу


исходных		данных, порядок которой п Х ш ,	в матрицу	порядка
m xn . В		результате мы получим матрицу	порядка mXm		сход
ства	между переменными (в отличие от		корреляционной		мат
рицы	сходства между наблюдениями .порядка п Х п ) .			Элемент

Cij матрицы дает характеристику сходства между i-м и j -м объ ектами. Следующая задача — получение иерархической группи ровки объектов, при которой объекты с наивысшим коэффици ентом сходства размещаются вместе. Затем группы объектов соединяются в другие группы, с которыми они наиболее тесно связаны, и так продолжается до тех пор, пока не будет полу чена полная классификация объектов. Существует много мето дов анализа групп; рассмотрение всех разновидностей этих ме тодов и их сравнение выходят за рамки настоящей книги. Од нако мы рассмотрим один простой метод, называемый методом взвешенной парной группировки с арифметическими средними, а затем укажем некоторые полезные разновидности этой схемы.

Подробное изложение этого и других методов	можно найти
в книгах Трайона и Бейли [29], а также Сокала	и Снита [26].

В первой из них вопросы классификации излагаются с точки

зрения экспериментальной			физиологии,		во	второй — численной
таксономии.
				Т а б л и ц а 7.11
	Матрица коэффициентов корреляции
	для шести образцов песчаников
	Измерения производились в шлифах
	А	В	С	D	Е	F
"А	1 ,0 0	0 ,5 7	0 ,2 9	- 0 , 5 9	- 0 , 5 9	- 0 , 5 9 '
В	0 ,5 7	1 ,0 0	0 ,2 9	- 0 , 5 9	- 0 , 5 9	- 0 , 5 9
С	0 ,2 9	0 ,2 9	1 ,0 0	- 0 , 5 9	- 0 , 5 9	- 0 , 5 9
D	- 0 , 5 9	- 0 , 5 9	- 0 , 5 9	1 ,0 0	0 ,6 6	0,41
Е	- 0 , 5 9	- 0 , 5 9	- 0 , 5 9	0 ,6 6	1 ,0 0	0,41
_F - 0 J 5 9		- 0 , 5 9	- 0 , 5 9	0,41	0,41	1 ,0 0

В табл. 7.11 приведена полная симметричная матрица коэф фициентов корреляции между шестью объектами, названными А, В, ., F. Объектами являются шлифы песчаника, а перемен-

ными — характеристики

структу

{.о

ры породы, включающие показа

тели

размеров и

формы

зерен,

0,5

размеров

и формы

пор

плот

ности заполнения. В этом приме

0,0

ре в качестве меры сходства взят

коэффициент корреляции.

групп

-0,5

Первый шаг

анализа

- 1,0

методом

попарного

объединения

состоит в нахождении в корреля

ционной матрице

небольших

ко

1.0

эффициентов корреляции с целью

Ш 4i

выделения

центров

групп.

Наи

0,5

высшие

коэффициенты

корреля

0,0 -

ции в каждом

столбце

матрицы

(табл. 7.11)

выделены

жирным

-0,5

шрифтом. Объекты А и В об

разуют

пару

с высокой

мерой

- 1,0

сходства,

так

как

наиболее

близок к В и В наиболее близок

/п

к А. Однако

С и В не обра

зуют пары с высокой мерой сход

ч.

ства,

так

как,

хотя

близок

0,5

к В, В ближе к А, чем к С. Для

выделения

пары

высокой

ме

0,0

рой сходства коэффициенты с^ и

-0,5

су должны

иметь

наибольшие

значения

соответствующих

- 1,0

столбцах.

Пары

наивысшими

мера

Фиг. 7.6.

ми

сходства

изображены

на

а — первый

ш аг

построения

дендро

фиг. 7.6, а. Объект

А связан

с В

граммы;

б — построение

групп для

на уровне 0,57, указывающем ме

остальных объектов; в — окончание по

строения

дендрограммы;

две

группы

ру их взаимного сходства. Таким

связываю тся

между собой.

же образом связаны D и Е. Это

первый шаг в построении дендрограммы, или «дерева», позво ляющего наглядно изобразить результаты разбивки на группы.

Далее матрица сходства должна быть вычислена снова, при чем сгруппированные элементы при этом считаются одним эле ментом. Существует несколько методов выполнения этой про цедуры. Мы будем использовать наиболее простой из них, со стоящий в том, что новые коэффициенты корреляции между всеми группами и объектами, не включенными в группы, вычис ляются заново с помощью простого усреднения. Например, но вый коэффициент корреляции между группой АВ и объектом С равен сумме коэффициентов корреляции элементов, входящих

как в АВ, так и в С, деленной на 2. В табл. 7.12 приведены ре зультаты этих вычислений. Наиболее высокие значения коэффи циентов корреляции в каждом столбце указаны жирным шриф том.

Процедура образования групп снова повторяется: находим пары с сильными связями и объединяем. На этом этапе объект

С	присоединяется	к группе АВ, а объект F присоединяется
к	группе DE (фиг.	7.6, б). Процесс продолжается до тех пор,

пока все группы не объединятся вместе. Окончательная матрица

сходства, как показано в					табл.	7.13, будет иметь порядок 2 x 2
			Т а б л и ц а		7.12		Т а б л и ц а 7.13
	Матрица	коэффициентов				Матрица усредненных
корреляции между двумя						Матрица усредненных
усредненными		группами		и двумя		коэффициентов корреляции
	песчаниками					между двумя последними
							группами
	АВ	С	DE	F
АВ	1,00	0,29	-0 ,7 0	-0 ,5 5 '			АВС	DEF
С	0,29	1,00	-0 ,5 9	-0 ,5 2		АВС	Г 1,00	-0 ,5 9 ]
DE	-0 ,7 0	-0 ,5 9	1,00	0,41		АВС	Г 1,00	-0 ,5 9 ]
F -0 ,5 5		-0 ,5 2	0,41	1,00.		DEF	1-0,59	1,00j

и соответствовать двум последним группам.					Очевидно, что
группа	АВС	имеет	с группой	DEF коэффициент сходства
—0,59.	На	этом	построение	дендрограммы	заканчивается

(фиг. 7.6, в).

Построение групп является эффективным способом представ ления сложных соотношений между объектами. Однако процесс усреднения по элементам группы и их трактовка в качестве единственного нового объекта приводят к изменениям дендро граммы. Это изменение становится все более очевидным по мере роста уровня усредняемых и объединяемых групп. Можно оце нить степень этого изменения, исследуя матрицу, которая в так сономии носит название матрицы кофенетических значений. Это не что иное, как матрица коэффициентов корреляции дендро граммы. Например, коэффициенты корреляции между группами D, Е и F, с одной стороны, и А, В, С — с другой, в дендрограмме на фиг. 7.6 равны —0,59. Аналогично коэффициент корреляции между F и D, а также между F и Е равен 0,41. Наиболее силь ные связи отмечаются только между парами А и В, а также D и Е. В табл. 7.14 приведена полная матрица кофенетических значений, соответствующих дендрограмме. Мы можем получить наглядное представление о степени изменения в дендрограмме, сопоставив на графике каждый элемент исходной корреляцион ной матрицы с каждым элементом кофенетической матрицы (фиг. 7.7.). Если обе матрицы совпадут, то график этой зави-

Таблица 7.14

Матрица кофенетических коэффициентов корреляции, полученных из дендрограммы фиг. 7.6

	А	В	С	D	Е	F
"А	1,00	0,57	0,12	-0 ,6 5	-0 ,6 2	-0,39"
В	0,57	1,00	0,46	-0 ,7 9	-0,72	-0,72
С	0,12	0,46	1,00	-0,58	-0,61	-0,52
D -0 ,6 5		-0,79	-0,58	1,00	0,66	0,41
Е	-0,62	-0,72	-0,61	0,66	1,00	0,40
F	-0,39	-0,72	-0,52	0,41	0,40	1,00

симости будет представлен прямой линией. Отклонения от нее указывают на изменения в дендрограмме: если точка оказыва ется выше прямой, то корреляция, соответствующая дендро грамме, оказывается слишком высокой. Наоборот, если точка попадет в область под прямой, то усреднение коэффициентов корреляции приводит к более низкому значению корреляции по сравнению с истинным. Численную меру сходства между двумя матрицами можно найти в результате простого вычисле ния коэффициентов корреляции между одинаково расположен

ными	элементами. Так					как
обе матрицы			симметричны
относительно			диагонали,			то
для этой		цели		достаточно
использовать			только		одну
половину элементов					матри
цы либо выше,				либо	ниже
диагонали. В			нашем		случае
коэффициент				корреляции
равен	0,98.		существенные
Наиболее
черты этого метода анализа
групп	заключаются				в сле
дующем:		Коэффициент кор
	1.						Исходные коэффициенты корреляции
реляции				используется

в качестве				меры сход			Фиг. 7.7. Графическое построение зави
ства.							симости	кофенетических коэффициентов
	2.	Объединение				в	корреляции для		дендрограммы, пред
							ставленной на фиг. 7.6, от эквивалент
группы			начинается			с	ных им исходных коэффициентов корре
объектов, имеющих наи							ляции,	значения	которых приведены
более высокие значения								в табл. 7.11.
коэффициентов					корре		Если дендрограмма		точно характеризует струк
							туру корреляционной матрицы, то все точки
ляции,			характеризую				ния от этой линии представляют неточности
							попадают на диагональную линию. Отклоне
щих сходство.								дендрограммы.

<<< < Предыдущая 34 35 36 37 38 39 40 41 42 43 44 45 46 47 4849 / 5849 50 51 52 53 54 55 56 57 58 > Следующая >>>

Соседние файлы в папке книги

#
19.11.202338.86 Mб0Станочные приспособления. Т. 2.pdf
#
19.11.202334.49 Mб14Старая Пермь Дома. Улицы. Люди, 1723-1917.pdf
#
12.11.20231.58 Mб3Статика в задачах биомеханики..pdf
#
19.11.202329.96 Mб0Статика сооружений..pdf
#
12.11.202314.69 Mб0Статика сыпучей среды..pdf
#
12.11.202321.12 Mб2Статистика и анализ геологических данных..pdf
#
12.11.20233.39 Mб1Статистическая механика и теория надежности..pdf
#
12.11.20236.7 Mб1Статистическая механика композитных материалов..pdf
#
12.11.20232.43 Mб2Статистическая обработка результатов экспериментального иcследования технологических процессов..pdf
#
12.11.202312.3 Mб2Статистические закономерности малоциклового разрушения..pdf
#
12.11.20238.94 Mб8Статистические и интеллектуальные методы прогнозирования..pdf