Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистика и анализ геологических данных

..pdf
Скачиваний:
2
Добавлен:
12.11.2023
Размер:
21.12 Mб
Скачать

 

W R I T E ( 6 , 2 0 0 0 )

 

 

 

W R I T E

( 6 , 2 0 0 1 )

( X X ( I ) , I = 2 , 1 2 , 2 )

 

W R I T E ( 6 , 2 0 0 2 )

( X X ( I ) , 1 = 1 , 1 3 , 2 )

 

W R I T E ( 6 , 2 0 0 3 )

 

 

2 2

X = X M I N

 

 

 

 

I F ( J S

. N E . 0 ) X = X L E V ( J S )

 

 

I S = I F I X ( ( X - X M I N ) / D X ) + 1

 

 

DO 1 1 0 I = I S , 6 I

 

 

 

I O U T ( I ) = I C M

 

 

I 1 0 C O N T I N U E

 

 

 

I O U T ( I S ) = I C P

 

 

 

I F ( J S

. N E . 0 ) W R I T E ( 6 , 2 0 0 4 )

I O U T , N O D E , X

 

I F ( J S

. E Q . 0 ) W R I T E ( 6 , 2 0 0 4 )

I 0 1 J T , N 0 D E

 

I F ( J S . E Q . 0 ) GO T O 31

 

 

DO I I 1 I = I S , 6 I

 

 

 

I O U T ( I ) = I B L N K

 

 

1 I I C O N T I N U E

 

 

 

I O U T ( I S ) = I C I

 

 

 

W R I T E ( 6 , 2 0 0 4 )

( I O U T U ) , 1 = 1 , I S )

 

N O D E = I P A I R ( 2 , J S )

 

 

J S = I I ( J S )

 

 

 

GO T O

2 2

 

 

31 W R I T E ( 6 , 2 0 0 3 )

 

 

 

W R I T E

( 6 , 2 0 0 2 )

( X X ( I ) , 1 = 1 , 1 3 , 2 )

 

W R I T E

( 6 , 2 0 0 1 )

( X X ( I ) , 1 = 2 , 1 2 , 2 )

 

W R I T E ( 6 , 2 0 0 5 )

 

 

 

R E T U R N

 

 

 

2 0 0 0 F O R M A T ( I H I )

 

 

2 0 0 1 F O R M A T ( 6 X , 6 F 1 0 . 4 )

 

2 0 0 2 F O R M A T ( 1 X , 7 F 1 0 . 4 )

 

2 0 0 3

F O R M A T

< 6 X , ' +

' , 1 2 ( ' --------- + ' ) )

 

2 0 0 4 F O R M A T ( 6 X , 6 I A l , 1 X , 1 3 , F I 0 . 4 )

 

2 0 0 5 F O R M A T ( I Н О , 4 X , 'D E N D R O G R A M - ' , 1 X ,

1 ' V A L U E S A L O N G X - A X I S A R E S I M I L A R I T I E S ' ) E N D

Программа 7.8. Подпрограмма DENPRO

о о о о о

P R O G R A M

7 . 9

S U B R O U T I N E T O C A L C U L A T E

B E T W E E N

C O L U M N S O F D A T A

T H E M A T R I X O F D I S T A N C E C O E F F I C I E N T S M A T R I X X

О О О

. . .

S U B R O U T I N E D I S T ( X , N , M , N I , M I , A , M 2 )

D I M E N S I O N X ( N I , M 1 ) , A ( M 2 , M 2 )

A N = N

C A L C U L A T E D I S T A N C E C O E F F I C I E N T B E T W E E N C O L U M N S I A N D J

О О О

 

DO

1 0 0

1 = 1 , M

 

DO

1 0 0

J = I , M

. . .

Z E R O SUM A N D C A L C U L A T E D I S T A N C E

 

D I S T X = 0 . 0

 

DO

101

K = 1 , N

 

D I S T X = D I S T X + ( X ( K , I ) - X ( K , J ) ) * * 2

101 C O N T I N U E

О О О

. . . C A L C U L A T E D I S T A N C E C O E F F I C I E N T A N D S T O R E I N M A T R I X A

A ( I , J ) = S Q R T ( D I S T X / A N )

A ( J , I ) = A ( I , J )

1 0 0 C O N T I N U E R E T U R N END

Программа 7.9. Подпрограмма DIST

данных,

 

представляющих

 

измерения

 

 

 

 

 

кембрийских

трилобитов,

 

собранных

 

 

 

 

 

на Западе США. В соответствии с тре­

 

 

 

 

 

бованиями

таксономических

процедур

 

 

 

 

 

образцы были разделены на три рода.

 

 

 

 

 

На десяти трилобитах, каждый из ко­

 

 

 

 

 

торых представлял определенный вид,

 

 

 

 

 

были измерены 10 характеристик или

 

 

 

 

 

переменных. Результаты

этих

измере­

 

 

 

 

 

ний приведены в табл. 7.16. Вообще

 

 

 

 

 

говоря,

было

установлено,

что

раз­

 

 

 

 

 

ные виды трилобитов

плохо

свя­

 

 

 

 

 

заны между собой. Чтобы избежать

 

 

 

 

 

недоразумений,

проистекающих от то­

 

 

 

 

 

го, что хвостовая часть больших инди­

Фиг. 7.12.

 

 

 

видуумов

может случайно

ассоцииро­

Трилобит

из от­

ваться с

передней частью

малых,

все

ряда

Opistoparia.

 

измерения были преобразованы в от­

П оказана

схема строения

и из­

меряемые

характеристики,

при­

ношения.

 

Все

измерения,

 

сделанные

веденные

в

табл. 7.16. 1 — паль­

на глабели, или осевой части головно­

пебральная

лопасть

(глазная

кры ш ка);

2 — край; 3 — краевой

го щита,

были

разделены

 

на

длину

валик; 4 — свободная щ ека; 5 —

 

глабель;

6 — неподвижная щ ека;

глабели.

Аналогично

все

измерения,

7 — главный

шип; 8 — ось

пигн-

сделанные

на

пигидиуме,

 

или

хво­

дня; 9 — плевральная

часть.

стовом

щите,

были

разделены

на

 

 

 

 

 

ширину хвостового щита. Части скелета, выбранные в качестве переменных, указаны на фиг. 7.12. После подходящей стан­ дартизации выполните анализ групп по данным измерений три­ лобитов и посмотрите, дают ли численные методы ту же класси­ фикацию, которая получается методами обычной таксономии. Вычислите и используйте в качестве мер сходства коэффициенты корреляции и расстояния. Какая из этих мер дает лучший ре­ зультат по сравнению с результатами, полученными методами обычной таксономии?

Факторный анализ

Цель факторного анализа — интерпретация структуры кова­ риационной матрицы многомерной совокупности. Этот метод основан на нахождении собственных значений и собственных векторов ковариационной матрицы. Математические операции, требуемые для этой цели, в точности такие же, какие были рас­ смотрены в гл. 4, однако для их использования в факторном анализе требуются некоторые усовершенствования.

В настоящее время факторный анализ принято считать глу­ боким и таинственным методом необыкновенной сложности.

Специалисты по факторному анализу строго подразделяются на две категории в зависимости от темы их занятий: одни занима­ ются обоснованием факторных моделей, а другие разрабатывают методы их реализации. Тем не менее сейчас это один из наиболее широко используемых многомерных методов, представляющийся экспериментаторам, имеющим дело с большими массивами дан­ ных, очень обнадеживающим, однако позволяющий пока полу­ чать лишь весьма неглубокое проникновение в структуру дан­ ных.

Таинственность, окружающую факторный анализ, отчасти можно объяснить сложностью языка, на котором он излага­ ется. Факторный анализ возник в экспериментальной психоло­ гии в 30—40-х годах нашего века, и многие используемые в нем термины имеют смысл лишь в пределах* этой специфической области. Первоначально цель факторного анализа заключалась в том, чтобы получить основные меры интеллекта на основании значений результатов психологических тестов и других крите­ риев умственных способностей. Вообще говоря, такие резуль­ таты нельзя считать истинной мерой развития интеллекта, однако они связаны с умственным развитием. Человек, нахо­ дящийся на более высокой ступени умственного развития, будет иметь более высокие показатели по всем (или большин­ ству) критериям, чем человек, считающийся умственно отсталым. Разница в значении критериев, однако, отражает не только раз­ личия в уровне развития интеллекта, но также различия в об­ разовании, культурном уровне, условиях, в которых проводится испытание индивидуума, и т. д. Несмотря на то что ни один из индивидуальных критериев не позволяет прямо измерить сте­ пень интеллигентности, психологи верят в то, что факторный анализ дает возможность на основании значений критерия дать характеристику умственного развития. Конечно, измерить сте­ пень интеллигентности на основании одного критерия нельзя, однако, используя множество несовершенных критериев, пред­ назначенных для оценки степени умственного развития, на ос­ новании факторной модели можно получить абстрактную или идеализированную схему оценки уровня интеллигентности. Воз­ можно, факторный анализ можно развить таким образом, чтобы он позволял оценить не только первоначальный уровень умст­ венного развития, но также и такие факторы, как математиче­ ские или лингвистические способности.

Вначале психологи-экспериментаторы считали факторный анализ мощным методом исследования. Однако факторная мо­ дель основывалась на нескольких необычных допущениях. Вопервых, точное число изучаемых факторов должно быть изве­ стно заранее. Это позволяло разделить изменчивость критерия на две части: на возникающую благодаря действию факторов

«интеллигентности» и на часть, свойственную данной задаче и другие источники изменчивости. Далее, фактор умственного раз­ вития имеет определенный смысл и не нуждается в различной интерпретации; например, в заданной модели первый главный фактор — степень умственного развития. Однако когда фактор­ ный анализ приходилось применять к другим задачам, то зара­ нее нельзя было дать какой-либо интерпретации вычисленным факторам. Действительно, вся концепция факторов умственного развития подвергалась критике в психологии, в особенности в той части, которая связана с жесткими требованиями раннего факторного анализа. Тем не менее методы и понятия, применяв­ шиеся ранее психологами-зкспериментаторами, продолжают процветать в факторном анализе даже применительно к совер­ шенно другим ситуациям и обстоятельствам. Например, фактор­ ный анализ сейчас широко применяется в биологических и гео­ логических исследованиях. В этих областях заранее невозможно задать число или смысл используемых факторов. Пытаясь ис­ пользовать факторный анализ в далеких от первоначальных об­ ластей его применения ситуациях, мы сталкиваемся и с другими трудностями, которые будут указаны ниже по мере изложения метода.

Стандартизация. Одна из тем, рассмотренных в гл. 3, имеет

очень важное значение

для факторного

анализа

и связанных

с ним методов — вопрос

стандартизации

данных.

Читатель, на­

верное, помнит, что множество данных

можно

преобразовать

в стандартную или безразмерную форму с помощью вычитания из каждого наблюдения соответствующего среднего арифметиче­ ского и деления разности на стандартное отклонение. После этого преобразования новые переменные имеют нулевое среднее значение и единичную дисперсию. Эта процедура очень удобна, если мы хотим сравнить распределение одной переменной с дру­ гой, когда они выражены в различных единицах измерения. Об­ разно говоря, это позволяет сравнить между собой яблоки и апельсины.

Факторный анализ имеет дело с интерпретацией структуры ковариационной матрицы, полученной по множеству многомер­ ных наблюдений. Измеренные переменные не всегда допускают прямое сравнение, поэтому целесообразно привести их к стан­ дартизированному виду. Однако, чтобы вычислить ковариацион­ ную матрицу, совсем не обязательно проводить полную стандар­ тизацию всех данных, так как ковариационная матрица стандартизированных переменных является нечем иным, как кор­ реляционной матрицей. Читатель может убедиться в этом, стан­ дартизировав некоторое множество данных и затем вычислив для него ковариационную и корреляционную матрицы. Эти мат­ рицы совпадут, и легко понять, почему это так. Стандартизация

состоит в преобразовании множества данных таким образом, чтобы оно имело нулевое среднее и единичную дисперсию (или стандартное отклонение). Если оба множества данных имеют единичные стандартные отклонения, знаменатель коэффициента корреляции также будет равен единице и коэффициенты корре­ ляции и ковариации совпадут. Поэтому мы можем считать кор­ реляционную матрицу просто ковариационной матрицей стан­ дартизированных переменных.

Стандартизация имеет огромное влияние на структуру ко­ вариационных матриц и, следовательно, на результаты фактор­ ного анализа. Во многих случаях мы не имеем никакой другой альтернативы, кроме стандартизации наших данных, так как необработанная (или нестандартизированцая) матрица ковариа­ ций содержит такое множество единиц измерения, что какаялибо логическая интерпретация кажется невозможной. Однако в других задачах единицы измерения бывают одинаковыми для всех переменных, и в этих случаях* стандартизация не является необходимой. Примером может служить изучение содержаний редких элементов, когда все измерения производятся в частях на миллион. Конечно, в том случае, когда наблюдения пред­ ставлены в процентах и составляют замкнутую систему, как это указывалось в гл. 3, мы имеем другие, более серьезные причины для беспокойства. В качестве другого примера мы могли бы рассмотреть вопрос о потреблении подземных вод в централь­ ных районах западных штатов США. В качестве переменных можно выбрать годовой расход воды различными потребите­ лями, такими, как ирригационные хозяйства, муниципалитеты, различные отрасли промышленности и т. д., для каждой админи­ стративной единицы штата. Мы можем вычислить ковариацион­ ную матрицу, в которой единицы измерения одни и те же для всех потребителей, т. е. (галлоны воды)2. В такой матрице каж­ дая переменная будет оказывать влияние на анализ, прямо про­ порциональное ее дисперсии. Если изменчивость потребления воды ирригаторами будет в десять раз превышать изменчивость любой другой переменной, то соответствующая переменная бу­ дет оказывать на анализ влияние, в десять раз превосходящее влияние любой другой характеристики. Интуитивно это пред­ ставляется обоснованным.

В некоторых примерах для дисперсий можно применять ло­ гические схемы взвешивания даже в тех случаях, когда диспер­ сии выражены в различных единицах. Например, петрографиче­ ским переменным при изучении проб руды можно приписать веса, являющиеся функциями экономической ценности ее состав­ ных частей. Однако большинство таких попыток приводит к про­ изволу при оценке важности переменных и потому нарушает объективность, которую желательно достичь в анализе. Возмо­

жно, более предпочтительным является взвешивание перемен­ ных в соответствии с их величиной, основанное на использова­ нии ковариационной матрицы, или приписывание им равных ве­ сов в случае, когда используется корреляционная матрица.

Ниже мы будем иметь дело главным образом с наборами двумерных данных, которым соответствует матрица ковариаций порядка 2x2. Ограничиваясь вначале рассмотрением таких про­ стых примеров, мы сможем графически пояснить смысл величин, с которыми оперирует факторный анализ. Позже мы расширим область наших исследований, включив в нее многомерные дан­ ные, в которых известны связи между всеми переменными, и рассмотрим задачи, типичные для современных исследований в геологии.

Метод главных компонент. В этом разделе мы рассмотрим две важные процедуры: метод главных компонент (МГК) и соб­ ственно факторный анализ. Главные компоненты — это не что иное, как собственные векторы ковариационной матрицы. Сами по себе они позволяют глубже проникнуть в структуру матрицы, но часто их можно интерпретировать и как факторы. Все совре­ менные схемы факторного анализа используют метод главных компонент в качестве отправного пункта для анализа. По этой

причине, а также

в

силу

того,

 

 

 

 

что доказательства и интерпрета­

 

 

Т а б л и ц а 7.17

ция

метода

главных

компонент

Двумерные наблюдения

более

просты, мы начнем

с его

рассмотрения.

 

 

 

 

с дисперсией Хь равной 20,3,

 

 

 

 

дисперсией Х2, равной 24,1,

 

Предположим, что мы измеря­

 

и ковариацией

15,6

ем две переменные на множе­

 

 

 

 

стве

объектов, например

длину

Xi

х,

х,

х,

и

ширину

раковин

брахиопод.

 

 

 

 

Полученные

данные

приведены

3

2

12

10

в табл. 7.17 и графически

изо­

4

10

12

11

бражены на фиг. 7.13. Дисперсия

6

5

13

6

переменной Xi равна 20,3, пере­

6

8

13

14

менной

Х2 — 24,1,

а

ковариация

равна

15,6. Мы можем

предста­

6

10

13

15

вить себе структуру этих дис­

7

2

13

17

персий, если

нанесем

их на оси

7

13

14

7

той же системы координат, в ко­

8

9

15

13

торой

представлены

 

исходные

 

9

5

17

13

наблюдения. Изобразим

диспер­

сию Xi отрезком

прямой

вдоль

9

8

17

17

оси Xi, длина которого равна дис­

9

14

18

19

персии

Xi.

Однако

переменная

10

7

20

20

Xi

является

ковариантной, т. е.

11

12

 

 

изменяющейся

с

изменением

 

 

 

 

 

 

Фиг. 7.13. Диаграмма рассеяния двумерных данных из табл. 7.17.

переменной Х2. Чтобы изобразить это, проведем вторую линию из конца отрезка дисперсии Xi параллельно оси Х2. На этой линии отложим отрезок, длина которого равна величине кова­ риации. Аналогичным образом изобразим дисперсию величины Х2 вдоль второй оси и проведем в ее конце параллельно Xi от­ резок, длина которого равна ковариации. Эти построения изоб­ ражены на фиг. 7.14.

Таким образом, структуру ковариационной матрицы, постро­ енной по нашим данным, можно представить двумя векторами

30г

Ковариация с Х<

20

10

Дисперсия

0

_____ __ _____L

 

10

30

Фиг. 7.14. Метод графического

Фиг. 7.15. Векторное

представле­

координатного

представления

ние дисперсий и ковариаций мат­

дисперсии

и ковариаций.

рицы порядка

2x2.

(фиг. 7.15). Ту же структуру можно записать в матричном виде:

Г20,3

15,61

.15,6

24,1 J“

Как указывалось в гл. 4, элементы матрицы порядка гпХш мо­ гут рассматриваться как точки, определяющие m-мерный эллип­ соид. Собственные векторы матрицы дают главные оси эллип­ соида, а собственные значения — длины этих осей. Очевидно, наша ковариационная матрица может трактоваться подобным же образом. Метод главных компонент сводится к нахождению этих осей и к измерению их длины.

Если мы измеряем m переменных на некотором множестве объектов, то для них можно вычислить матрицу ковариаций по­ рядка mXm. Найдем m ее собственных векторов и m собствен­ ных значений. Так как ковариационная матрица всегда симмет­ рична, то эти m собственных векторов будут ортогональными, т. е. углы между ними будут прямыми.

Вычислим собственные векторы и собственные значения на­ шей ковариационной матрицы и изобразим полученные векторы графически. Первый собственный вектор имеет координаты

0,66

1 =

0,75

что означает, что на каждые 0,66 единицы вдоль оси Xi линия отклоняется вниз на 0,75 единицы. Первое собственное значение равно 37,9 и является длиной первого вектора. Соответствующая линия указана на фиг. 7.16 и является первой главной осью эл­ липса, определяемого ковариационной матрицей. Второй собст­ венный вектор имеет координаты

Легко проверить, что он образует прямой угол с первым. Собственное значение, соответствующее этому вектору, или его длина, равно 6,5. Вторая главная ось также изображена на фиг. 7.16.

Определим суммарную дисперсию наших данных как сумму вкладов от индивидуальных дисперсий. Так как последние рас­ положены на диагонали ковариационной матрицы, то эта про­ цедура эквивалентна нахождению следа матрицы. В нашем примере суммарная дисперсия есть 20,3 + 24,1 = 4 4 ,4 . Вклад пе­ ременной Xi составляет 20,3/44,4, или около 46% суммарной дисперсии, а вклад Хг составляет примерно 54%. Как указыва­ лось в гл. 4, сумма собственных значений матрицы равна ее следу, поэтому сумма ее собственных значений также равна

37,9 + 6,5 = 44,4. Эти собственные значения задают длину двух главных осей. Следовательно, главные оси также характери­ зуют суммарную дисперсию множества данных, и вклад каждой из них в суммарную дисперсию равен соответствующему собст­ венному значению, деленному на след матрицы. Первая глав­

ная ось составляет 37,9/44,4, или 86% суммарной

дисперсии,

в то время как вторая ось составляет только 14%.

Иными сло­

вами, изменчивость множества данйых вдоль первой главной оси составляет 4/s общей изменчивости наблюдений. Как пра­ вило, оказывается, что по крайней мере одна из главных осей является более эффективной (по вкладу в суммарную диспер7 сию), чем любая из первоначальных переменных. С другой сто­ роны, по -меньшей мере одна из осей должна оказаться менее эффективной, чем любая из исходных переменных.

Если мы сделаем преобразование вида Yi = aiXi + a 2X2, где ai и а 2— координаты первого собственного вектора, то получим новое множество данных, которое имеет дисперсию 37,9. Анало­ гичное преобразование Y2 = £1X1 + 02X2, где (3i и р2 — коорди­ наты второго собственного вектора, приведет к преобразованию данного множества точек в множество, имеющее дисперсию, равную только 6,5.

Так как эти новые переменные расположены на осях, обра­ зующих прямой угол друг с другом, то ковариация между ними

Фиг. 7.16. Эллипс,

определяемый дисперсиями и

ковариациями данных

табл. 7.17,

для ореола точек, изображенного

на фиг. 7.13.

Первая главная компонента соответствует 86% суммарной дисперсии, вторая главная компонента — 14%.

равна нулю. В табл. 7.18 представ­ лены данные табл. 7.17, преобразо­ ванные таким образом.

В этой таблице каждое исход­ ное наблюдение заменено его проек­ цией на главные оси. Проектирова­ ние на первую главную ось осуще­ ствляется по формуле

Yu =0,66 ^ + 0 ,7 5 X 2 ,,

Т а б л и ц а 7.18

Главные компоненты для данных табл. 7.17, вычисленные с помощью проектирования исходных данных на главные оси; дисперсия Y! равна 37,9,

дисперсия У2 равна 6,5

Y ,

Y 2

Y ,

Y 2

где коэффициенты при Xi и Х2 явля­

3,49

0,92

15,44

2,35

10,14

- 3,64

16,19

1,69

ются координатами первого

собст­

7,72

1,18

13,11

5,75

венного вектора. Проектирование на

9,97

- 0,81

19,10

0,45

вторую

главную роль

осуществля­

11,46

- 2,14

19,85

- 0,22

ется по

формуле

 

 

6,14

3,91

21,35

- 1,54

Y2l = 0,75X1I — 0,66Х2|.

 

14,37

- 3,38

14,52

5,84

 

12,04

0,02

19,68

2,60

Координаты собственных

векто­

9,71

3,42

21,00

4,10

11,96

1,43

24,00

1,45

ров, используемые для

вычисления

16,45

- 2,45

26,16

0,87

проекций

наблюдений,

называются

11,87

2,84

28,23

1,70

нагрузками. Они являются коэффи­

16,28

0,28

 

 

циентами

линейного уравнения, ко­

 

 

 

 

торое используется для определения собственного вектора. В ли­ тературе по факторному анализу обычно используется термин «нагрузка переменной А на первый фактор», который означает, что речь идет о коэффициенте первого собственного вектора при переменной А.

Снова обратимся к нашему множеству данных. Мы опреде­ лили собственные векторы матрицы и нашли, что первый собст­ венный вектор дает вклад в суммарную дисперсию около 86% • Предположим, что мы хотим свести нашу систему только к од­ ной переменной. Это можно сделать, отбросив любую из пере­ менных Xi или Х2, что приведет к потере либо 46%, либо 54% изменчивости в зависимости от того, какую переменную мы со­ храним. Однако если мы спроектируем все наблюдения на пер­ вую главную ось, то потеряем только 14% изменчивости наших данных.

На фиг. 7.17 представлены проекции данных точек на глав­ ные оси. Необходимо отметить, что дисперсия, соответствующая первой главной оси, больше любой из дисперсий вдоль какойлибо прямой, проходящей через точки заданного множества. Од­ нако эта дисперсия не превосходит сумму дисперсий вдоль двух осей Xi и Х2, и если второй собственный вектор исключается из рассмотрения, то неизбежно происходит потеря изменчивости. В этом легко убедиться, если спроектировать вектор факторных значений Уц снова на оси Xi и Х2. Хотя при этом некоторые точки и могут удалиться от своего среднего значения, все равно