Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Пермский национальный исследовательский политехнический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

книги / Статистический анализ данных в геологии. Кн. 2

.pdf

Скачиваний:

Добавлен:

12.11.2023

Размер:

19.38 Mб

Скачать

☆

<<< < Предыдущая 19 20 21 22 23 24 25 26 27 28 29 30 31 3233 / 4333 34 35 36 37 38 39 40 41 42 43 > Следующая >>>

Матрица сходства между 25 случайными блоками; содержит расстояния Говера; часть матрицы, расположенная с помощью вычитания сумм строк и столбцов

	a	b	c	d	e	i
	1,0000	0,2262	—0,7412	—0,8077	—0.8564	0.3341
а	1,0720	1,0000	—0,7339	—0,6850	0.1049	0,2151
ь	0,2415	0,9586	1,0000	0,9852	0,5418	—0,7u02
С	—0,7098	—0,7593	0,9906	1,0000	0,5617	0,1892
d	—0,7810	-0,7151	0,9711	0,9813	1,0000	—0,7909
е	-0,8551	0,0495	0,5024	0,5177	0,9306	1,0000
/	1,0546	0,2289	—0,6704	—0,7640	—0.7910	i ,0690
S	0,9071	—0,0803	—0,5719	—0,6220	—0,9016	0,8669
h	—0,9390	—0,2548	0,7408	0,7555	0,8817	—0,8826
i	0,3470	0,8211	—0,5550	—0,5825	0,1134	0,3762
i	0,4833	0,6296	—0,8683	—0,7777	—0,5144	0,3782
k	0,4697	0,7855	—0,9084	—0,8271	—0,4036	0,3900
i	—0,8590	■-0,6471	0,9487	0,9558	0,6280	—0,0.211
m	0,3111	■—0,8425	0,3595	0,2940	—0,5675	0,3)31
n	0,7659	■—0,0741	—0,5688	—0,5674	—0,9086	0,6940
0	0,6957	■—0,5691	—0,0561	-0,1427	—0,7883	0,6882
p	0,4746	0,2308	—0,1474	—0,2901	0,0296	0,5791
r	—0 ,i584	0,6667	—0,1923	—0,2124	0,5752	0 0982
r	—0,9751	■-0,0728	0,5287	0,6020	0,8124	—0,9549
s	1,0461	0,2712	—0,6559	—0,7527	—0.7369	I,0598
t	0,1256	0,1052	—0,4431	-0,3302	—0,4039	0,0'.98
и	0,4113	0,9005	—0,6983	—0,7017	—0,0028	0, 1;05
V	—0,9803	•-0,3818	0,7456	0,8145	0,6970	—0,9766
w	—0,4782	--0,9064	0,9361	0,9146	0,1804	—0.1646
X	—0,7142	--0,0972	0,2293	0.3639	0,3156	—0,7764
У	—0,9549	--0,4889	0,8523	0,896.4	0,7001	—0,9377

Весьма широко используется также расстояние Говера
Gi} - — У (1 ----- ^			,	(0.74)
1	т	\	р а з м а х k /
		4= 1

Для вычисления расстояния Говера между i-м и /-м объектами необходимо вычислить абсолютное значение разности между ними для переменной с номером k и разделить на размах пере менной к. Это дает некоторое число из интервала 0,0—1,0, при чем близости объектов соответствует малое значение коэффи циента сходства, а близким к единице числам — максимальное расхождение объектов. Для того чтобы получить меру сходства, ведущую себя по аналогии с коэффициентом корреляции, эта величина вычитается из 1,0. Вычисление повторяется для всех т переменных к, измеренных на объектах i и /, затем результа ты суммируются и делятся на число переменных т, что б за ключение приводит к величине G,/.

322

								Т а б л и ц а 6.34
часть матрицы, расположенная над значениями 1,000,
пол	значениями 1,000, содержит расстояния Говера,							преобразованные
н прибавления		общего среднего
	Я	h			1		/	k	1
	0 , 8 3 4 3	— 0 ,9 4 5 5			0 ,3 1 7 2		0 ,4 5 1 0	0,4431	— 0 ,8 7 9 0
— 0 .0 9 0 3		— 0 ,2 0 4 5			0,8481		0,6541	0 ,8 1 5 7	— 0 ,6 1 0 4
— (■■, еоээ		0 ,7	7 5 !	—	0,5441		— 0,8599	— 0 ,8 9 4 3	0 ,9 6 9 3
— 0 .6 4 9 4		0,7 9 4 4		— 0,5 6 6 9			— 0,7 6 4 6	— 0,8084	0,9811
— о . 9036		0,9 4 6 0			0 ,1 5 4 3		— 0,4 7 6 0	— 0,3594	0 ,6 7 8 7
	0 , ; 0 57	— 0 ,8	8 7 5		0 ,3 4 8 0		0 ,3 4 7 5	0,3 6 4 9	— 0 ,8 3 9 7
	1,0000	— 0 ,8 8 9 6		— 0 ,1 7 0 8			0 ,4 6 2 2	0 ,3 2 9 8	— 0 ,7 0 9 2
	',0 7 3 4	1,0000		—	0,1	4 0 5	— 0,6391	— 0,5781	0,8794
— 9, «825		0 ,9 4 0 8			1,0000		0 ,2 6 9 2	0 ,4 7 8 0	— 0 ,5 2 2 !
— 9,1 4 0 3		— 0,1763			0 ,9 8 7 6		1,0000	0 ,9 6 6 6	— 0 ,7 6 7 5
	0 .4 9 5 2	— 0,6724			0,2 5 9 3		0 ,9 9 2 5	1,0000	— 0 ,7 9 0 5
	'•J, 3671	— 0,6171			0 ,4 6 2 3		0 ,9 5 3 4	0 ,9 8 1 !	1,0000
— 0 .6 8 8 5		1', 8338		— 0 ,5 4 4 3			— 0,7 8 7 2	— 0,8159	0 ,9 6 8 0
	0 ,5 8 3 0	— 0 ,2 8 6 9		— 0,7371			— 0 ,3 0 1 8	— 0,4739	0 ,1 8 8 0
	. 9072	— 0,8617		—	0,2 8 9 8		0,6344	0,4691	— 0,6 3 6 5
	0 .9 1 9 3	— 0,6164		—	0,4 6 5 3		- 0 , 0 0 4 1	— 0,1701	— 0,2 4 1 0
	' ’. 3752	— 0,1 1 6 5			0,6894		— 0 ,3 1 6 8	— 0,1592	— 0,2761
-	. - 4 7	0 .3 1 5 8			0,8304		— 0 ,0 6 3 !	0 ,1 4 8 2	— 0 ,1 1 6 9
- - .-4 6 8		0,8404		— 0,2 1 9 2			— 0,3431	— 0,3 0 6 6	0,6971
	Ох 916	- О Д	458		0,4 6 9 2		0,3 4 3 4	0,3 7 3 8	— 0 ,8 1 4 5
	10 4 518	— 0 ,4 3 6 8		—	0 ,3 9 4 6		0 ,7 5 2 9	0 ,6 0 6 7	— 0 ,3 4 0 9
- . 0 . 4 1 2		— 0,3031			0,9 6 1 0		0 ,4 5 3 5	0,6391	— 0 ,6 6 5 3
- к ” 33		0 .8 3 6 0		— 0 ,4 8 2 6			— 0 ,4 8 4 8	— 0 ,5 0 8 6	0 ,8 5 8 8
— 0 ,2 8 3 3		0 ,4 8 3 8		- 0 , 7 2 1 7			— 0,7 6 7 0	— 0 ,8 6 6 4	0 ,8 4 0 8
— < .3890		0 ,3 9 6 !		—	0,5 1 6 4		0 ,1 5 7 3	0,0741	0 ,4 0 8 8
-	0 , " Г 6	0 ,£ 6 5 2		—	0,4 9 1 8		— 0 ,6 3 2 2	— 0,6 5 3 3	0,9 2 6 4

При вычислении расстояния Говера не делается никаких до пущений относительно природы данных; наблюдения могут быть номинальными или порядковыми, или более высокого ранга. Действительно, матрица данных может состоять из смеси чисел различного типа, таких .как числа пластинок в чашечках кринондей, длин их щупалец и отношений высот чашечек к их диаметрам. Меры сходства для всех возможных пар объектов представляются з виде .матрицы ассоциаций [А] порядка пХп. Этс матрица будет симметричной и будет иметь единичные значения на диагонали и числа, принадлежащие интервалу от нуля до единицы, в остальных местах.

Данные каждой строки матрицы [Л] суммируются, получен ная сумма делится на п\ эта процедура дает среднее значение по строке. Данные каждого столбца матрицы [Л] также сумми руются и сумма делится на п, что дает среднее значение по столбцу. Обозначим эти средние соответственно через а/. и а.*. Нсходится также общее среднее как строк, так и столбцов и

3 2 3

	m				P		<7				$
а	0,2417	0,7021	0,6164	0	,4 2 0 1	— 0	, 1 7 2 9	— 0	. 9 7 0 2	0	. 9 7 5 0
а	—0,8552	—0,0808	—0,5916	0	, 2 3 3 0	0	, 7 0 8 9	— 0 , 0 1 1 2		0	, 2 5 6 8
Ъ	0,3308	—0,5915	—0,0947	— 0 , 1 6 1 2		— 0	,1 6 6 1	0	, 5 7 4 3	— 0 , 6 8 6 3
с	0.2700	—0,5855	—0,1766	— 0 , 2 9 9 3		— 0 , 1 8 1 5		0 , 6 3 2 2		— 0 , 7 7 8 5
d	—0.5661	-0,9013	—0,7969	0	, 0 4 5 8	0	, 6 3 1 4	0	,8 8 8 1	— 0 , 7 3 7 2
е	0,2453	0,6321	0,6104	0 ,5 2 6 1		— 0 , 1 1 1 2		— 0 , 9 4 8 4		0	. 9 9 0 3
i	0,5130	0,9431	0,8394	0	, 0 1 9 9	— 0	, ')568	— 0	,8 4 2 6	0 , 7 2 9 9
8	—0,2907	—0,8595	—0,6301	— 0 ,1 0 5 4		0	. 3 6 6 9	0	. 9 1 0 9	— 0 ,8 5 1 3
h	—0,7642	—0,3110	—0.6023	0	,6 7 7 1	0	,8 5 8 1	- 0 . 1 7 2 0		0	,4 4 0 4
i	—0,3314	0,6108	—0,0437	— 0 ,3 3 1 6		— 0	,0 3 7 8	— 0 ,2 9 8 5		0	,3 1 2 0
J	—0,4977	0,4312	—0,2039	— 0 ,1 6 8 3		0	,1 7 9 2	— 0 . 2 5 6 3		0 ,3 4 8 2
к	0,1706	—0,6479	—0,2683	— 0 ,2 7 8 6		— 0 ,0 7 9 4		0	,7 3 4 0	- 0 , 8 3 3 6
l	1,0000	0,5012	0,8785	— 0 ,1 8 0 3		— 0	.8 8 3 1	— 0	, 1139	0 . 1 7 1 8
tn	1,0667	1,0000	0,7526	— 0 ,2 8 9 5		— 0 ,6 5 2 7		— 0 ,6 9 3 7		0 ,5 4 2 5
п	0,5620	I,0548	1,0000	0	,0 2 9 5	— 0 . 7 6 9 8		— с . 7373		0 ,5 4 4 0
О	0,9551	0,8232	1,0865	1 ,0 0 0 0		0 ,5 7 9 6		— 0 . 4 0 8 3		0 . 6 0 8 7
р	—0,1285	—0,2437	0,0912	1 ,0 3 7 0		1 ,0 0 0 0		0	,3 0 3 0	— 0 ,0 1 2 8
с/	—0.8713	—0,6769	—0,7481	0 ,5 7 6 5		0 . 9 5 6 9		1 .0 0 0 0		— 0 .9 4 3 1
Г	-0,4215	—0,70/ 3 —0,7350		— 0 ,4 3 0 8		0 ,2 4 0 6		6	. 9 ! 81	1 ,0 0 0 0
S	0,2402	0,С050	0,6224	0	,6 6 2 3	0 ,0 0 0 8		— 0 ,9 4 9 0		! ,0701
i	0,1146	0,7062	0.1833	— 0 ,7 9 6 2		— 0 , 5 5 0 3		— 0.0G 62		~ 0 . 0 7 9 9
и	—0.7464	—0,1378	—0,4463	0	, 55С0	0 ,7 4 6 5		— 0 ,2 6 0 1		0 ,4 9 3 5
ХУ	—0,1055	—0,6202	—0,3074	— 0 . 5 3 4 8		— 0 ,0 3 4 8		0	,8 6 4 6	— 0 ,9 8 1 3
ХУ	0,6632	—0,2589	0.2637	— 0 , 2 3 5 4		— 0 ,4 9 6 3		0	,2 8 5 8	— 0 ,4 7 5 6
X	—0,160!	—0,10i6	—0,4115	— 0 ,9 0 4 8		— 0 ,2 5 6 3		с1. 082в		— 0 ,8 3 6 1
У	—0,0074	—0,6680	—0,4279 — 0 ,4 1 5 3			— 0 ,0 4 0 7		0 ,8 1 0 2		— 0 ,9 3 1 7

обозначается а... В результате этого эле.менты aik преобразуют ся, получается новая матрица [QI элементы которой находятся по формуле

qik = atk+ a.. — (а/. — а.к).

(6.75)

Рассмотрим п объектов, расположенных в /ц-мерном прост ранстве, определенном этими переменными. Преобразование (6.75) приводит к переносу начала координат m-мсрного прост ранства в центроид множества точек. Эта операция приводит к замыканию множества данных, так как все строки и столбцы имеют теперь суммы элементов, равные нулю, поэтому одно из собственных значений матрицы [Q] обязано быть нулем. Это приводит к возрастанию относительной величины первых не скольких собственных значений.

Далее, находятся собственные значения н собственные век торы матрицы [Q]; это и есть главные координаты множества данных. Относительная важность каждой координаты может быть оценена простым вычислением процентного вклада каж дого собственного значения в след матрицы [Q]. Обычно только

324

							П р о д о л ж е н и е			т абл . 6 .3 4
	t		и		V	W	X				V
0 , 0 9 8 0		0 , 3 8 3 6		— 0 , 9 8 5 2		— 0 , 5 2 2 0	— 0 , 7 1 5 7			— 0 , 9 6 5 6
0 , 1 3 4 3		0 , 9 2 9 5		— 0 , 3 2 9 9		— 0 , 8 9 3 4	— 0 , 0 4 1 9			— 0 , 4 4 2 9
— 0 , 4 3 0 0		— 0 ,6 8 5 4		0 , 7 8 1 4		0 , 9 3 3 0	0 , 2 6 8 5			0 , 8 8 2 3
— 0 , 3 1 2 6		— 0 ,6 8 4 1		0 , 8 5 4 9		0 , 9 1 6 2	0 , 4 0 7 7			0 ,9 3 1 1
— 0 , 4 2 0 8		0 , 0 4 0 2		0 ,7 629		0 . 2 0 7 3	0 ,3 8 4 8			0 . 7 6 0 0
— 0 ,0 0 6 4		0 ,3 9 3 3		— 0 ,9 7 9 9		- 0 , 5 0 6 9	— 0 ,7 7 6 4			— 0 ,9 4 6 9
0 , 4 2 3 5		— 0 , 0 6 %		— 0 ,7 7 8 9		— 0,3278'	— 0 ,3 9 1 2			- 0 , 7 8 7 0
— 0 , 3 9 8 8		— 0,2ГГ;2		0 . 8 9 6 "		0 ,5 0 5 6	с. 4622			1 с 9200
— 0 ,5 8 0 0		0 ,9 7 5 5		— 0 ,	>453	— 0 ,7 2 3 2	- с . 47 56			— 0 . 1 6 0 3
0 ,7 0 5 0		0 ,4 6 5 6		— 0 . 4 4 S 9		— 0 , 7 7 ] !	0 . '9ГС			— 0 . 6 0 3 2
0 , 0 2 4 5		0 . 0 , .69		— 0 . 4 6 8 0		— 0 ,8 6 1 7	0,1	184		— v	. 6 1 85)
— 0 ,3 1 6 5		— 0 . ( 4 * 1?		0 ,3 0 6 0		0 ,8 4 9 0	0 ,4 5 9 3			0	9677
0 ,0 8 9 6		— 0 . 7 7 1 4		— 0 . 1 0 7 7		0 . 6 2 2 !	- и , i Г89			— л ,,.4"4
!',. бо) 2		— 0 ,1 5 6 3		— 0 ,6 1 6 4		— 0 ,2 9 4 1	— 0 . 0 9 4 5			— с , 1,701
0 , 1 4 8 9		— 0 ,4 8 1 2		— 0 ,5 1 9 5		0 ,2 1 2 7	— Г .4 2 0 3			__*1, J -J 5Я
- 0 ,6 9 0 0		0 ,5 3 9 8		— 0 ,7221		— (1,2617	— п > & - 7			— 0 . 4 „ 8 5
— 0 ,3 2 0 4		0		— 0,6 ГД!		— 0 ,4 8 2 5	- ' б б ы щ			■с d 161
— 0 ,i 4 69		:. \| о :		0 ,4 5 6 6		0 3190	: . 7." !			\|	8824
—	1ЫТ.	0 ,4 6 0 8		- 0 . 6 3 5 3		— С , ( 7	— 1■_	77		— 1 . 7 4 ”а
1 , 0000		— Г:, - 7 ’ .7		- •	0 1 7 ;)	---Г ,2727	(1 >(	1	а	__1 .1728
	63	1	6630	___ !	9		—2,77		1	— 0 . 5 4 0 9
— 1	15^7	>	' .3-:	1 , 00со		7 ,(,127	0 6	л ,		(	, с Ы 9
— 0 , С-573		__£>	.'If/!	0 ,9 3 7 7		1,0000	0 . 2 0 3 2			0 . 7 2 3 5
— 0 , 2 7 3 3		— 0 ,52" ',’		0 ,5 9 0 4		1 ,0 1 5 5	I , 0000			0 . 6 3 4 5
0 ,5 7 7 0		— 0,415л;		0 ,6 9 5 8		0 , 1 7Т5	0 ,9 ,3 !6			1.0000
- 0 , 2 0 6 5		— 0 ,3 8 6 5		0 ,9 2 5 4		0 ,7 0 6 0	0,5747			0,9494

первые несколько координат представляют интерес, так как не редко они учитывают большую часть различии между наблюде ниями. В заключение индивидуальные нагрузки на глазные координаты наносятся на график; это делается попарным изоб ражением множества п собственных векторов, каждый из ко торых соответствует некоторому объекту.

Для иллюстрации анализа главных координат воспользуемся данными по искусственным блокам. Этот пример позволит нам сравнить результаты, полученные разными методами. В табл. G.34 представлены коэффициенты сходства между индивидуаль ными блоками (матрица порядка 25x25), вычисленные с по мощью расстояния Говера. В части, расположенной выше зна

чений 1,000, представлены расстояния	Говера,	определенные
для элементов матрицы [Л] по формуле	(6.74); в части, распо
ложенной ниже этих значений, — меры	сходства	после указан

ного преобразования, состоящего в вычитании из каждого эле мента среднего по строке и столбцу и последующего добавления общего среднего, как это указано в уравнении (6.75). Для этой матрицы [Q] находятся собственные векторы н собственные значения.

325

Т а б л и ц а 6.35

Собственные значения, ассоциированные с первыми семью координатами, извлеченными из данных по блокам; графа i — последовательность собственных значений, графа 2 — процент от общей изменчивости, учитываемой для каждого собственного значения, графа 3 — кумулятивная изменчивость ( % )

Киординаты	1	2	3
I	13,3598	5 3 ,5 7 5 8	5 3 ,5 7 5 8
II	6 ,9 1 2 2	2 7 ,7 1 0 7	8 1 ,2 9 5 4
III	4 ,2 6 2 7	1 7 ,0 9 4 3	98 ,3 8 9 7
IV	0,3291	1 ,3 2 0 0	9 9 ,7 0 9 7
V	0 ,0 6 8 2	0 , 2 7 3 5	9 9 ,9 8 3 2
VI	0 ,0 0 4 2	0 ,0 1 0 8	100,0000
VII	0 ,0 0 0 0	О.ОСОС;	100,0000

	Т а б л и ц а 6.S0
	Первые две главные
	координаты данных
	по блокам; каждый
	элемент соответствует
	конкретному	блоку
	Главн!-12 : ООрДИНаТЫ
Блок		!	и
	I	!	и
а	0 ,2 6 8 5		— 0 ,0 3 4 7
ь	0 ,1 3 1 8		0 ,3 1 1 3
С	— 0,24-05		- 0 , 1 2 3 5
d	— 0 ,2 5 0 3		— 0,1 ПО
С	— 0 ,2 0 7 1		0 ,2 0 8 6
/	0 , 2 6 0 6		- 0 , 0 7 4 5
g	0 , 2 2 5 0		— 0,2210
к	— 0 , 2 4 9 9		0 ,1 0 1 9
i	0 ,1 2 4 9		0 ,3 1 0 8
/	0 ,1 8 8 0		0 ,0 6 8 3
к	0 ,1 8 9 7		0 ,1 4 6 3
1	— 0 ,2 6 0 9		— 0 ,0 7 2 7
т	0 ,0 1 0 5		— 0 ,3 8 2 2
п	0 ,2 0 0 5		— 0 ,2 3 3 3
о	0 ,1 2 6 6		— 0 ,3 4 1 0
Р	0 , 0 9 7 8		0 ,1 2 2 2
q	— 0 , 0 0 5 0		0 ,3 5 0 0
Т	— 0 ,2 3 0 4		0 ,1 2 5 6
S	0 , 2 5 7 3		— 0 ,0 4 3 1
t	0 ,0 7 5 3		— 0 , 1 0 9 0
и	0 ,1 5 3 2		0 ,3 0 3 0
V	— 0 ,2 5 7 2		0 , 0 0 8 5
W	— 0 , 1 9 4 2		— 0 ,2 3 7 0
X	— 0 ,1 4 9 1		— 0 , 0 0 7 6
У	— 0 ,2 6 5 7		— 0 ,0 1 5 9

326

В табл. 6.35 приведены первые семь собственных значений матрицы [Q], Заметим, что седьмое и последующие собственные значения равны нулю. Действительно, первые два собственных значения дают вклад з общую изменчивость данных по блокам, равный 81%, а третье собственное значение дает еще дополни тельный вклад, равный 17%, что составляет в сущности почти всю изменчивость. (Напомним, что данные были порождены только тремя независимыми переменными. Небольшая доля из менчивости, не учтенная первой, второй н третьей главными координатами, может быть объяснена ошибками округления в вычислениях.)

Первые две главных координаты, состоящие из элементов собственных векторов I и II, приведены в табл. 6.36. Каждый элемент соответствует индивидуальному наблюдению. Эти на грузки изображены на рис. 6.43. Сравните результаты, получен ные методом главных координат, с решением, полученным Q- методом факторного анализа (см. рис. 6.39). Заметим, что тот факт, что диагональные элементы матрицы [Q] могут быть не равными 1,00, означает, что представление общности в виде диаграммы невозможно осуществить па единичной окружности.

А Н А Л И З С О О Т В Е Т С Т В И Я

Факторный анализ предназначен для данных, представлен ных в интервальной форме или в шкале отношений, т. е. для измерений, сделанных в непрерывной численной шкале. Он не пригоден, например, для таких данных, как число ископаемых остатков различного типа в образцах. Такие номинальные или порядковые данные могут оказаться единственными доступными для исследования, и в некоторых случаях может оказаться по лезным обработать их, используя методы теории собственных значений, аналогичные факторному анализу.

Задачи, в которых имеются данные-перечисления, обычно свойственны общественным наукам, В качестве примера можно назвать результаты анкетирования, которые подразделяются на категории. В силу этого большинство исследований, основан ных на использовании методоз теории собственных значений для анализа такого рода данных, были созданы социологами и статистиками, работающими над решением социологических проблем. Эти данные обычно представляются в виде условных таблиц; первая известная работа, в которой были применены такие таблицы, принадлежитХиршфельду [27J, см. также [17]. Совсем недавно Бензекри и другие исследователи [4] подробно изложили этот метод, и термин «анализ соответствия», введен ный Бензекри, получил широкое распространение. Его работа стала основой для многих приложений в геологии [60, 61, 12].

327

Г'нс. 6.43. П р ед ст а в л ен и е д в у х главны х к оор ди н ат д л я д а н н ы х п о сл учайн ы м

блокам.

Ьдокл изображены в положениях, соответствующих нч нагрузкам на главные координаты

В этих геологических приложениях, однако, методы Беизекри к его предшественников претерпели большие изменения. Хилл [26] излагает историю анализа соответствия п связи между ра ботами различных авторов. Детальное изложение анализа со ответствия и его обобщений содержится в монографии [41].

Анализ соответствия начинается с обработки матрицы, полу ченной из условной таблицы, которая преобразуется таким об разом, чтобы ее элементы можно было рассматривать как ус ловные вероятности. В силу природы этого преобразования (в действительности некоторая форма шкалирования) соотно шения между строками и столбцами преобразованной таблицы такие же, как и в исходной матрице данных. Это означает, что

3 2 8

теорема Зккарта — Юнга верна, и решения, полученные Р- и Q-методами, эквивалентны.

Матрица необработанных данных [X] имеет п строк, пред ставляющих наблюдения, и т столбцов переменных. Сами эле менты рассматриваются как бирки. В задачах по палеонтоло гии, например, столбцы могут соответствовать видам останков микроорганизмов, строки могут представлять образцы, отобран ные из различных стратиграфических интервалов в скважине, а элементы в таблице будут представлять собой результаты подсчета чисел образцов каждого вида останков микроорганиз мов по выборкам. Общее число индивидуумов есть просто сум-

ма всех	элементов	матрицы данных,	п	т	Сумма
ма всех	элементов	матрицы данных,	или Б	2 Х ц .	Сумма
		т	Г-1	/=1
элементов	по строке	т	микроорганизмов		всех
элементов	по строке	Б Хц есть число	микроорганизмов		всех
типов, которые были		/=i
типов, которые были		обнаружены в каждой выборке, н сумма
элементов	по столбцу	II
элементов	по столбцу	Б Хц есть число микроорганизмов каж-
		i=1

дого вида, которые были обнаружены во всех выборках. Бирки можно обратить в проценты к общей сумме, а последние уже можно считать вероятностями

Pf) = —тЧ- - - •- -

хц i=i /= 1

Эти значения Рц можно трактовать как совместные вероят ности того, что конкретные виды остатков могут быть найдены, в заданной выборке. Суммы строк, деленные на общую сумму.. дают маргинальные вероятности

которые являются вероятностями того, что конкретные выборки будут содержать микроостанки, не взирая на их вид. Суммы столбцов, трактуемые аналогично, дают маргинальные вероят ности

п[ п т .

г = 1 /	£	1	Z	Xi'’	(6-78>
г = 1 /		1		1	1

329

которые являются вероятностями того, что конкретные виды мик роорганизмов имеются независимо от того, из какой выборки они были извлечены. Если объединенные вероятности разделить на соответствующие маргинальные вероятности, то в результа те получим условные вероятности


Рт=Рч!Р-1\		P(.i\i)= PnlPi--			(6.79)
Первая из этих условных вероятностей			описывает		ситуацию,
когда, обнаружив микроорганизм вида /,			мы	хотим	оценить
вероятность того,	что он появился в		выборке с		номером
i. Вторая условная	вероятность,	основанная на		суммах строк,

дает вероятность того, что найденные микроорганизмы будут принадлежать к виду /', если известно, что этот образец был извлечен из t-й выборки.

В гл. 2 (см. кн. 1) было показано, что таблица наблюдений может быть представлена через пропорции к общему числу на блюдений. Тогда, если строки и столбцы таблицы независимы, наблюдения должны быть приблизительно равными произведе ниям маргинальных вероятностей соответствующих им строк и столбцов. Если две переменные / и k тесно связаны, то все ожи даемые значения в /'-м и k-м столбцах должны быть очень по хожими. Это наводит па мысль, что степень сходства можно выразить с помощью вычисления попарного произведения, ко торое содержит наблюдаемые и ожидаемые вероятности для всех строк в двух сравниваемых столбцах. Такая мера исполь зуется в анализе соответствия и имеет вид коэффициента кор реляции между двумя переменными [34]:

iк	P u - P j . P . j	Pi - P i .
iк	I "Pi. p.j	(6,80)
	I "Pi. p.j

где Pa — «наблюдаемая» вероятность в i-й строке и /-м столбце случайной таблицы; Pi.P.j — «ожидаемая» вероятность, вычис

ленная как произведение маргинальных вероятностей. Выражая гиг через величины, введенные в гл. 2, получаем

Оц — Вч	( Oi,;- E : k
ГЁ~}	(6.81)
ГЁ~}	\ \"Ё7*

Связь между этим выражением и статистикой %2 в применении к случайной таблице становится более ясной, если возвести в квадрат один из членов:

/ ОI) — Е,•A2	(Oij-EjjY
\ I Щ )	Еи

Мы видим, что мера сходства, используемая в анализе соответ-

330

ствия, может рассматриваться как произведение двух значений %2. Это приводит к выражению «расстояние %2», которое иногда применяется к этой мере [41]. Если меры сходства г,-* вычислить для всех пар столбцов i и k, они образуют квадратную матрицу порядка тХт. Из этой матрицы затем получаются собственные значения и собственные векторы. Эго и есть главные оси анализа соответствия. Заметим, что так как все элементы случайной таблицы выражены как пропорции от общей суммы всех эле ментов, то сумма элементов столбца (и элементов строки) равна 1,00. Поэтому мы имеем дело с замкнутой таблицей данных, и од но собственное значение должно быть нулевым. Эго означает, что размерность нашей задачи уменьшается от т до т—1, п, воз можно, еще меньше. Вместо того чтобы прямо использовать уравнение (6.80), можно использовать другую формулу для вы числения коэффициента сходства, например следующую:

>'ik = }	PijPi
>'ik = }	(6.82)
/w	Pi. y p . i p -u
i=i

Она дает то же множество собственных векторов.

Последнее собственное значение, как это вытекает из урав нения (6.80), тривиально и в точности равно нулю. Так как данные до выделения факторов не центрировались относитель но нуля, то при использовании уравнения (6.82) факторное ре шение будет содержать исходное тривиальное собственное зна чение, которое тождественно разно 1,0. Вычисления, связанные с формулой (6.82), легче описать в матричной форме. Сначала обозначим исходную .матрицу данных порядка nXtn через [X]. Элементы [X] преобразуются в объединенные вероятности с по мощью деления каждого элемента матрицы на общую сумму, которая равна скаляру ЕЕлу/. В результате получаем матри цу [В]:

: m -

(6-83>

Затем определим квадратную матрицу [М] порядка т х т , ко торая содержит суммы столбцов [5], расположенных в порядке убывания по диагонали, и с нулями во всех внедиагональных позициях. Определим также другую квадратную матрицу [N], которая имеет порядок пХ п и содержит суммы строк [В] по диагонали и нули в прочих местах. Эти две матрицы содержат

столбец и строку маргинальных	вероятностей	н используются
для преобразования матрицы [В]:
__i_	_ j_	(6.-84)
lll7] = [/v f 2	[В] \М\~ 2 .	(6.-84)

(Так как мы имеем дело с диагональными матрицами, то опе-

331

<<< < Предыдущая 19 20 21 22 23 24 25 26 27 28 29 30 31 3233 / 4333 34 35 36 37 38 39 40 41 42 43 > Следующая >>>

Соседние файлы в папке книги

#
12.11.2023410.65 Кб4Статистические методы исследования качества объектов производства..pdf
#
12.11.20231.76 Mб1Статистические методы принятия решений с элементами конфлюентного анализа..pdf
#
19.11.202347.02 Mб9Статистический анализ временных рядов..pdf
#
12.11.202314.8 Mб1Статистический анализ геофизических полей..pdf
#
12.11.202314.63 Mб17Статистический анализ данных в геологии. Кн. 1.pdf
#
12.11.202319.38 Mб1Статистический анализ данных в геологии. Кн. 2.pdf
#
12.11.20236.88 Mб4Статистическое управление качеством технологических процессов..pdf
#
12.11.20239.13 Mб4Статическая выносливость элементов авиационных конструкций..pdf
#
19.11.202327.66 Mб9Статические и динамические проблемы теории упругости..pdf
#
12.11.20233.51 Mб3Статический расчёт металлического каркаса одноэтажного производственного здания..pdf
#
19.11.202338.48 Mб105Стационарные установки шахт..pdf