Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика и анализ геологических данных

..pdf
Скачиваний:
20
Добавлен:
15.11.2022
Размер:
21.12 Mб
Скачать

ложенная выше версия программы 4.10 (EIGENJ) на ФОРТРАНе аналогична многим другим программам, находя­ щимся в библиотеках большинства вычислительных центров. Подробное изложение используемых в ней операций выходит за рамки этой книги. Отметим только, что в настоящее время это, вероятно, наиболее широко используемый и доступный ме­ тод, который можно с успехом применять при решении задач, рассмотренных в последующих главах. Здесь мы отметим только одно важное свойство собственных векторов симметричных мат­ риц. Они всегда ортогональны, друг другу, что имеет большое значение в факторном анализе. Это неверно для собственных векторов матриц общего вида, не являющихся симметричными.

Если вы тщательно изучили эту главу и детально прорабо­ тали примеры (а также обдумали возможность комплексного применения изложенных методов в более сложных задачах), то уже достаточно подготовлены к тому, чтобы перейти к изучению современных вычислительных методов, применяемых в геологи­ ческих исследованиях. Мы попытались изложить в упрощенной форме основы матричной алгебры. Как отмечалось в третьей

Фиг. 4.7. Собственные векторы матрицы порядка 3X 3 расположены в том же пространстве, что и векторы фиг. 4.6.

Отметим, что первый собственный вектор проходит внутри угла, образованного тремя данными векторами.

главе, статистика слишком сложная наука, чтобы ее можно было изложить в одной главе или даже в одной книге. Матрич­ ная алгебра тоже достаточно сложна, и ее нельзя хорошо изложить на немногих страницах. Однако нам кажется, что

С

PROGRAM 4 . 1 0

 

 

 

 

 

 

с

 

 

 

 

 

 

 

 

 

 

 

С

S U B R O U T IN E

Т О C A L C U L A T E T H E

E I G E N V A L U E S AND

E IG E N V E C T O R S

C

OF

AN

NXN

 

S Y M M E T R IC

M A T R I X .

 

 

 

C

 

 

 

 

 

 

 

 

 

 

 

C

UPON C O M P L E T IO N T H E

E IG E N V A L U E S

ARE STO R ED I N

T H E D IA G O N A L

C

E L E M E N T S OF M A T R IX A ( I N D E S C E N D IN G O R D E R ) . T H E E IG E N V E C T O R S

C

ARE

S T O R E D

 

BY COLUMNS

I N M A T R IX

B .

 

C

 

 

 

 

 

 

 

 

 

 

 

C

E I G E N V A L U E

А СI « I >

CO RRESPONDS

TO E IG E N V E C T O R

( B ( J , I ) , J « 1 , N )

C

S U B R O U T IN E E I G E N J ( A , B , N , N 1 )

 

 

 

 

 

 

 

C

D I M E N S IO N A ( N 1 , N 1 ) , B ( N ! , N 1 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C . . .

C A L C U L A T E

 

I N I T I A L

AND

F I N A L

NORMS

 

C

S E T В TO I D E N T I T Y M A T R IX

 

 

 

C

A N O R M - O . O

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DO

1 0 0

I *

1 , N

 

 

 

 

 

 

 

DO

101

J = I , N

 

 

 

 

 

 

 

I F

( I - J )

2 , 1 , 2

 

 

 

 

 

 

 

1 B ( I , J ) « 1 . 0

 

 

 

 

 

 

 

 

GO

TO

101

 

 

 

 

 

 

 

 

2B ( I , J ) « 0 . 0

A NORM =A NORM + A ( I , J ) A ( I , J )

101 C O N T IN U E

 

 

 

 

1 0 0 C O N T IN U E

 

 

 

 

 

A N O R M =S Q R T ( ANORM)

 

 

C

F N O R M * A N O R M * 1 . 0 E - 0 9 / F L 0 A T ( N )

 

 

 

 

 

 

 

 

C . . .

I N I T I A L I Z E

IN D IC A T O R S

AND C OMPUTE

TH R E S O L D

C

T H R *A N O R M

 

 

 

 

 

 

 

 

 

2 3 T H R » T H R / F L O A T ( N )

 

 

3

I N D “ 0

 

 

 

 

 

C

 

 

 

 

 

 

 

C . . .

SCAN DOWN

COLUMNS FOR

O F F - D IA G O N A L

E LEM EN TS

C

GREATER

THAN

OR EQUAL

TO T H R E S O L D

 

C

DO

1 0 2

I « 2 , N

 

 

 

 

 

 

 

 

I 1

- I - I

 

 

 

 

 

 

DO

1 0 3

J « 1 , I 1

 

 

C

I F ( A B S ( A ( J , I ) ) - T H R ) 1 0 3 , 4 , 4

 

 

 

 

 

 

 

 

C . . .

COMPUTE

S I N

AND COS

 

 

C

 

 

 

 

 

 

 

4

; N D « I

 

 

 

 

 

 

A L — A ( J , I )

 

 

 

 

 

A M « ( A ( J , J ) - A ( I , I ) ) / 2 . 0

 

 

 

A O - A L /S Q R T C A L * A L + A M * A M )

 

 

I F

(A M )

5 , 6 , 6

 

 

5

AO— AO

 

 

 

 

 

6 S I N X « A O / S Q R T ( 2 . О * ( I . 0 + S Q R T ( 1 . 0 - A 0 * A 0 ) ) )

S I N X 2 - S I N X * S I N X

C O S X * S Q R T ( 1 . 0 - S I N X 2 ) C 0 S X 2 « C 0 S X * C 0 S X

Программа 4.10. Подпрограмма EIGEN

С . . .

RO TA TE

COLUMNS I

AND J

C

DO

1 0 4 , K = 1 , N

 

 

 

 

I F

( K - J )

7 , 1 0 , 7

 

7

I F

( K - I )

8 , 1 0 , 8

 

8

A T = A ( K , J )

 

 

 

A ( K , J ) = A T * C O S X - A ( K , I ) * S I N X

 

A ( К , I ) = A T * S I N X + A ( К « I ) * C O S X

10

B T = B ( K , J )

 

 

 

В ( K , J ) = B T * C O S X - B

( IC, I ) * S I NX

1 0 4

B ( K , I ) = B T * S I N X + B ( K , I ) * C O S X

C O N T IN U E

 

 

 

X T = 2 . 0 * A ( J , I ) * S I N X * C O S X

 

A T = A ( J , J )

 

 

 

B T = A ( 1 , 1 )

 

 

 

A ( J , J ) = A T * C 0 S X 2 + B T * S I N X 2 - X T

 

A ( I , I ) = A T * S I N X 2 + B T * C 0 S X 2 + X T

 

A ( J , I ) = ( A T - B T ) * S I N X * C O S X + A ( J , I ) * ( C 0 S X 2 - S I N X 2 )

 

A ( I , J ) = A ( J , I )

 

 

DO

1 0 5

K = I , N

 

 

A ( J , K ) = A ( K , J )

 

1 0 5

A ( I , K ) = A ( K , I )

 

C O N T IN U E

 

 

1 0 3

C O N T IN U E

 

 

1 0 2

C O N T IN U E

 

 

 

I F

( I N D ) 2 0 , 2 0 , 3

 

2 0

I F ( T H R - F N O R M ) 2 5 , 2 5 , 2 3

C

 

 

 

 

 

C . . .

SORT E IG E N V A L U E S

AND E IG E N V E C T O R S

C

 

 

 

 

 

2 5 DO 1 1 0 1 = 2 , N

 

 

J = I

 

 

 

 

2 9 I F

( A ( J - I , J - I ) - A ( J , J ) ) 3 0 , 1 1 0 , 1 1 0

3 0

A T = A ( J - I , J - I )

 

 

A ( J - 1 , J - 1 ) = A ( J , J )

 

A ( J , J ) = A T

 

 

 

DO

111

K = 1 , N

 

AT = B ( K , J - I )

B( K , J - 1 ) = B ( K , J )

B( K , J ) = A T

111 C O N T IN U E J = J - 1 •

I F ( J - 1 ) 1 1 0 , 1 1 0 , 2 9

ПО C O N T IN U E R E TU R N

END

Продолжение программы 4.10

читатель получил некоторое представление о методах матричной алгебры, что позволит ему без труда усвоить основы вычисли­ тельных методов, которые будут изложены во второй половине этой книги.

СПИСОК ЛИТЕРАТУРЫ

1. Beiser A., Essential math for the sciences, algebra, trigonometry, and vectors, McGraw-Hill, Inc., New York, 244, 1969.

Обзор по алгебре и тригонометрии.

2.Davis Р. /., The mathematics of matrices, Blaisdell Publ. Co., Waltham, Mass., 348, 1965.

Наиболее распространенный учебник по теории матриц с минимальным количеством терминов и максимумом примеров и приложений.

3.Gere J. М ., Weaver W., Jr ., Matrix algebra for engineers, D. Van Nostrand Co., Inc., Princeton, N. J., 168, 1965.

Хорошо написанное руководство по матричной алгебре. Два примера этой главы взяты из этой книги.

4.Gould A , On the geographic interpretation of eigenvalues, an initial ex­ ploration, Trans. Inst. British Geographers, No. 42, 53—86, 1967. Прекрасное изложение геометрической теории собственных значений и соб­ ственных векторов, предназначенное для студентов. При написании этой главы были использованы частично материалы этой книги.

5. Li J. С. A ,

Statistical inference, II, Edwards Bros., Inc.,

Ann Arbor, Mich.,

575,

1964.

 

систем линейных

Гл. 27 представляет собой сжатое изложение теории

уравнений,

приспособленное к теории множественной регрессии.

6.McCalla Т. R., Introduction to numerical methods and FORTRAN program­ ming, John Wiley & Sons, Inc., New York, 359, 1967.

Гл. 5 содержит алгоритмы и программы на языке ФОРТРАН, решения систем уравнений, обращения матриц, вычисления определителей, собствен­ ных значений и собственных векторов.

7.Pettofrezzo А. /., Matrices and transformations, Prentice-Hall, Inc., Engle­ wood Cliffs, N. J., 133, 1966.

Эта книга представляет собой традиционный односеместровый курс мат­ ричной алгебры для учителей. Приводятся примеры.

8.Wang Р. С., Numerical and matrix methods in structural mechanics, John

Wiley & Sons, Inc., New York, 426, 1966.

Книга предназначена для инженеров, гл. 5 представляет собой прекрасное изложение алгоритмов программ по матричной алгебре. В приложении дано краткое введение в ФОРТРАН.

9.Westlake /. A , A handbook of numerical matrix inversion and solution of linear equations, John Wiley & Sons, Inc., New York, 171, 1968. Исчерпывающее изложение процедур решения систем однородных уравне­

ний, в особенности тех методов, которые предназначены для ЭВМ. В гл. 8 приведены сравнения между различными методами.

Глава 5 АНАЛИЗ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ДАННЫХ

Последовательности геологических данных

В этой главе мы рассмотрим методы исследования данных, которые характеризуются своим положением на прямой. Для таких данных существенную роль играет место, занимаемое некоторым определенным значением в данной последователь­ ности. Множество данных такого типа часто встречается в гео­ логии. Например, они могут состоять из последовательности значений литологических признаков, геохимических и минерало­ гических характеристик проб, взятых по разрезу или в буровой скважине, значений электрического каротажа нефтяных скважин, зарегистрированных приборами. К этой общей категории можно отнести также данные, изменяющиеся с течением времени, как, например, измерения стока воды в реке, характеристика добычи газа из скважины. Методы исследования последовательностей одномерных данных можно отнести к анализу временных рядов, несмотря на то что последовательности могут характеризовать как временные, так и пространственные зависимости.

Прежде чем переходить к изложению методов исследова­ ния таких последовательностей и рассмотрению примеров из геологии, остановимся на различных типах последователь­ ностей данных, с которыми приходится встречаться геологу. Это может быть последовательность точных измерений значений переменной или последовательность интервалов шкалы, вдоль которой расположены измеряемые значения. В качестве при­ мера можно рассмотреть значения каротажной кривой для бу­ ровой скважины и изменение продуктивности скважины во вре­ мени. В первом примере переменной является признак, изме­ ряемый в омах, а единицами шкалы измерений являются футы. Во втором примере переменная — тоже признак, измеряемый в баррелях нефти, а единицами шкалы измерений являются дни, месяцы или годы. При любой форме записи существенны два момента. Во-первых, измеряемая переменная выражается в еди­ ницах интервальной шкалы или шкалы отношений; 1000 барре­ лей нефти в два раза больше, чем 500 баррелей, а сопротивление

в 10 Ом в десять раз превышает сопротивление в 1 Ом. Во-вторых, интервалы шкалы, вдоль которой располагаются данные, тоже имеют определенную величину. Глубина скважины в 3000 футов в десять раз превышает глубину в 300 футов, а десятилетие между 1940 и 1950 гг. имеет ту же продолжи­ тельность, что и десятилетие между-1950 и 1960 гг. На этих за­ мечаниях ввиду их тривиальности не стоило бы останавливаться, но, как мы увидим в дальнейшем, далеко не все геологические последовательности обладают такими свойствами.

В качестве примера рассмотрим последовательность стра­ тиграфических данных, образованную значениями литологиче­ ских разновидностей горных пород, слагающих осадочную толщу. Такой последовательностью можно считать серию (снизу вверх): известняк — глинистый сланец — известняк — глинистый сланец — песок — уголь — глинистый сланец — известняк. Мы хотим как-то осмысленно описать эту последовательность, од­ нако не можем выбрать для нее шкалу. Очевидно, что это из­ менение литологических признаков происходит в течение опре­ деленного времени, но у нас нет никакого способа выбора соот­ ветствующей временной шкалы. Мы могли бы использовать мощность, но она может очень сильно меняться от места к месту, даже если последовательность пород остается неизменной. Та­ ким образом, использование мощности пород вряд ли поможет нам в наших исследованиях. Тот факт, что известняк в разрезе стоит на третьем месте, а уголь — на шестом, не имеет того значения, которое можно было бы выразить числом (то, что но­ мер 6 вдвое больше номера 3, для нас не имеет смысла). Ана­ логично литологический состав слоев не может быть выражен на числовой шкале. Можно только закодировать приведенную последовательность, например, таким образом:

1—2 — 1—2 —3 — 4 —2 — 1,

где известняк обозначается цифрой 1, глинистый сланец — 2, пе­ сок— 3, уголь — 4. Но такая условность совершенно произ­ вольна и не выражает никаких соотношений между разновид­ ностями пород. Очевидно, что эта последовательность ставит перед исследователями большее число различных проблем, чем это было в ранее рассмотренных примерах.

Имеются, однако, другие возможности. Пусть, например, нас интересует некоторая измеряемая характеристика, входящая в последовательность. Предположим, что мы установили зна­ чения содержаний бора в каждой литологической разновид­ ности рассматриваемой серии. Мы можем использовать шкалу расстояний в футах между пробами и считать, что решаем за­ дачу, связанную с изучением глубины или расстояния. Кроме того, мы можем рассматривать зависимость содержания бора

от места, занимаемого этим значением в последовательности. Близко связанной с предыдущими является задача анализа последовательности, которую можно охарактеризовать присут­ ствием или отсутствием некоторой переменной или переменных в некоторых ее местах. Нас может интересовать, например, повторное появление зависящей от фаций микрофауны в образ­ цах пород, отобранных при бурении скважины. Другой класс задач — это установление последовательности минеральных зе­ рен, наблюдаемых на пересечении шлифа. В этом случае мы можем использовать миллиметровую шкалу, но она не позво­ ляет оценить, что чаще встречается — оливин или плагиоклаз. Данные, которые могут быть охарактеризованы непрерыв­ ным расположением в пространстве или времени, часто назы­ вают рядами, последовательностями или цепями. Природа рас­ сматриваемых данных предопределяет те задачи, которые мо­ гут быть для них поставлены. Ясно, что мы не можем извлечь информацию о временных интервалах из последовательности стратиграфических данных, так как временная шкала, соответ­ ствующая этой последовательности, неизвестна. В стратиграфи­ ческих задачах часто используют вместо временной шкалы пространственную, но при этом наши заключения не лучше, чем взятое в их основу предположение о том, что время, требуемое для образования осадка определенной мощности, может быть

измерено.

В табл. 5.1 приведена классификация различных методов анализа данных, которые будут рассмотрены в этой главе. При этом можно выделить три типа рядов. В первом из них расстояние между наблюдениями изменяется и потому должно быть охарактеризовано в каждой точке. Во втором предпола­ гается, что точки расположены в пространстве регулярно и рав­ номерно и, кроме единственной постоянной, никакие числовые характеристики пространственного расположения данных не уча­ ствуют в анализе. Наконец, в третьем существенна лишь после­ довательность наблюдений, а их пространственное расположе­ ние не имеет значения.

Эти методы можно классифицировать также и по типам необходимых наблюдений. В одних случаях требуется знать ин­ тервал между наблюдениями или их отношение; переменная должна быть измерена по некоторой шкале и выражена в ве­ щественных числах. В других используются номинальные или порядковые данные, и наблюдения требуется лишь некоторым образом расклассифицировать. В методах, рассматриваемых в этой главе, классы не ранжированы, т. е. состояние А нельзя считать в некотором смысле более широким или объемлющим, чем состояние В или С. Номинальные данные обычно представ­ ляют целыми числами, буквами или символами.

 

 

 

 

 

 

 

Т а б л и ц а 5.1

Классификация рассматриваемых в этой главе методов по

типу переменных

 

 

 

 

и их расположению на линии

 

 

 

 

Наблюдения, нерегу­

Наблюдения, равно­

Пространственное

Тип переменных

мерно и регулярно

лярно расположенные

расположенные

размещение

 

 

 

в пространстве

в пространстве

не рассматривается

Переменные,

из­

Методы

исследо­

Регрессионный

Корреляция и ав­

меренные

в

ин­

вания в услови­

анализ

токорреляция

тервальной шка­

ях

равномерно­

Анализ временно­

 

ле или

шкале

го

пространст­

го тренда

 

отношений

 

венного

распо­

Корреляция и ав­

 

 

 

 

ложения

токорреляция

 

 

 

 

Регрессионный

Анализ Фурье

 

 

 

 

анализ

 

 

 

Переменные,

из­

Ряды событий

Корреляция и ав­

Корреляция и ав­

меренные

в

но­

 

 

 

токорреляция

токорреляция

минальной

или

 

 

 

Матрицы

Матрицы

порядковой

 

 

 

 

перехода

перехода

шкалах

 

 

 

 

 

Критерии скачков

Критерии скачков

В этой главе мы рассмотрим математические методы, исполь­ зуемые при анализе последовательностей данных. Однако рас­ сматриваемые здесь методы не исчерпывают все существующие возможности. Скорее их можно охарактеризовать как особенно перспективные при количественных исследованиях в науках о Земле. Другие методы могут оказаться более подходящими или более мощными в специфических ситуациях или для некоторых особых последовательностей данных. На наш взгляд, знакомство

с

описанными ниже

методами является хорошим

введением

в

обширную область

аналитического исследования

геологиче­

ских данных. Однако многие из этих методов были разработаны специалистами в областях науки, далеких от геологии, и их опи­ сание, приспособленное к использованию в инженерном деле, в биологии клетки, к анализу рыночных отношений или речевой терапии, трудно приспособить для решения геологических задач. Некоторые из этих методов оперируют с непараметрическими статистиками, почти не рассматриваемыми во вводных курсах статистики. Так как большинство геологов незнакомо с осно­ вами анализа последовательностей данных, то мы полагаем, что им будет полезно прочесть приведенный здесь обзор разнообраз­ ных методов и подходов. Как видно из табл. 5.1, эти методы охва­ тывают последовательности различных типов и предназначены для ответа на ряд вопросов. Ни один из методов не излагается

здесь исчерпывающе, однако рассмотренные здесь примеры

иприложения могут помочь геологу выбрать наиболее подходя­ щий метод для решения задачи. Список литературы поможет найти детальное изложение специальных вопросов.

Рассмотренные методы дают возможность получить ответы на ряд вопросов, а именно: можно ли считать наблюдения слу­ чайными или в них обнаруживается некоторый тренд; если тренд существует, то какова его форма; можно ли обнаружить

иизмерить циклы и повторения; позволяют ли данные сделать оценки и предсказания; можно ли оценить зависимости между

переменными и указать их силу? Хотя вопросы такого рода и не явно ставятся в последующем изложении, читателю реко­ мендуется продумать сущность каждого метода, а также его

возможности при решении

задач

различного

типа. Заметим,

что выбранные нами задачи

могут

помочь в

решении многих

других.

 

 

 

Геологам приходится иметь дело не только с анализом по­ следовательностей данных, но и сравнивать между собой раз­ личные ряды наблюдений. Наглядный пример — стратиграфиче­ ская корреляция при изучении разрезов или при электрическом каротаже скважин. Причина, по которой геологи используют корреляцию,— простое желание ускорить получение геологиче­ ских выводов из закодированных данных, хранящихся в банках данных. Кроме того, геологи сталкиваются с задачами корреля­ ции в тех случаях, когда не могут своими силами решить во­ прос об эквивалентности двух рядов наблюдений. Слабое сход­ ство, слишком незначительное, чтобы его можно обнаружить визуально, может быть выявлено этими методами, даже если это невозможно при использовании других приемов. Численные методы позволяют геологам рассматривать одновременно не­ сколько переменных, что является мощным средством распозна­ вания изучаемых объектов. Наконец, в силу абсолютной инва­ риантности операций в вычислительной программе корреляцион­ ный анализ бросает вызов геологу. Если корреляционные зависимости, очевидные геологу, не согласуются с результатами, полученными машиной, геолог обязан определить причину этого расхождения. Обычно более тщательное исследование позволяет выявить осложнения и смещения, не замеченные при первона­ чальном исследовании. Это не означает, что геолог должен из­ менить свою интерпретацию таким образом, чтобы она согласо­ вывалась с результатами, .полученными с помощью вычисли­ тельной машины. Совсем наоборот, имеющиеся в настоящее время в нашем распоряжении программы автоматической кор­ реляции являются довольно грубыми и составлены просто в со­ ответствии с ходом мыслей, используемых геологами. Однако по мере продолжения исследований по корреляции можно ожи­

дать, что будут созданы весьма полезные алгоритмы, которые позволят значительно облегчить работу геолога.

Большую часть методов сравнения двух или более последо­ вательностей можно разбить на две большие категории. В пер­ вой из них пары данных могут занимать только одно положение, и наша задача — определить степень сходства между этими двумя последовательностями. В качестве примера можно рас­ смотреть сравнение дифрактограммы неизвестного минерала с целью его идентификации с некоторым рядом стандартов. Сравнение со стандартами производится не только по интенсив­ ности отражения, но и по соответствующему ей углу отражения. Например, никаких выводов нельзя сделать, если сравнивать интенсивность отражения рентгеновских лучей под углом 20° 29 с интенсивностью отражения под углом 30° 20. Даже если ве­ личина интенсивности одинакова, сравнение совершенно лишено смысла.

Тот факт, что данные, аналогичные приведенным, записаны в виде последовательности, не имеет значения, так как каждый элемент ряда рассматривается как отдельная и независимая пе­ ременная. Интенсивность отражения под углом 20° 20 характе­ ризуется одной переменной, а интенсивность под углом в 30° 20 — другой. Методы сравнения таких последовательностей мы рас­ смотрим подробно в гл. 7, где укажем многомерные критерии сходства и рассмотрим задачи классификации и дискриминант­ ного анализа. В этом классе задач положение наблюдения в последовательности служит для его идентификации с данной переменной и не играет больше никакой роли.

Наоборот, некоторые из описанных в данной главе методов основаны на рассмотрении последовательностей данных как вы­ борок из непрерывного множества наблюдений. Априори нет никаких причин считать, что одна из сравниваемых величин лучше другой. Такие методы, как взаимная корреляция и ассо­ циация, наиболее близки геологам, но, к сожалению, их приме­ нение ограниченно, так как они не допускают изменений мас­ штаба одного разреза при его сравнении с другим. Для многих типов последовательностей, рассматриваемых в этой главе, из­ менение масштаба не требуется, и поэтому трудностей не воз­ никает. Однако скорости осадконакопления, например, не яв­ ляются постоянными, поэтому стратиграфические данные трудно изучать с помощью существующих методов корреляционного анализа.

Некоторые из этих методов требуют высокой квалификации, и этого уровня нужно достигнуть, если это ваша первая работа, связанная с вычислительной машиной. Для этого мы привели много программ, необходимых для проведения анализа и ре­ шения задачи. Везде, где возможно, использованы уже создан­