Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика и анализ геологических данных

..pdf
Скачиваний:
20
Добавлен:
15.11.2022
Размер:
21.12 Mб
Скачать

изменяются. Попытка вычислить коэффициент корреляции при­ водит к необходимости деления на нуль; в этом случае коэффи­ циент корреляции неопределен. В примере, изображенном на фиг. 3.11 ,е, имеется очевидная взаимная зависимость между двумя переменными. Наблюдения Xi и Хг расположены на окружности, поэтому соотношение между двумя переменными можно представить в виде

Х2= |/" а2—X?

впредположении, что центром окружности является начало ко­ ординат. Радиус окружности равен а. Однако, если вычислить корреляцию между Xi и Хг,. она окажется равной нулю. Это про­ исходит потому, что коэффициент корреляции является мерой

линейной зависимости между двумя переменными, а указанное соотношение нелинейно. Существует много возможных нелиней­ ных соотношений, которые могут возникнуть между двумя пере­ менными. В подобной ситуации коэффициент корреляции нельзя считать удовлетворительной мерой степени таких зависимостей.

На практике выборочный коэффициент корреляции rjic вы­ числяется по формуле

(3.17)

Так как г измеряет линейное соотношение между двумя пе­ ременными, можно определить прямую линию, характеризую­ щую зависимость между ними. Это важный вопрос статистиче­ ского корреляционного и регрессионного анализа, являющегося основой большинства методов аппроксимации поверхностей. Де­ тально этот вопрос будет рассмотрен в следующих главах,

аздесь мы остановимся на процедуре вычисления величины г. При биологических исследованиях обычно наблюдается силь­

ная корреляция свойств в пределах одной биологической группы организмов, так как результаты измерения отдельных характе­ ристик в значительной степени зависят от общих размеров особи. Так, например, в табл. 3.5 приведены результаты измере­ ния длины и ширины раковин брахиопод рода Composita. Как легко установить, имеется сильная связь между этими двумя ха­ рактеристиками, о чем свидетельствует вычисленное значение выборочного коэффициента корреляции.

 

 

 

Т а б л и ц а 3.5

Размеры раковин брахиопод рода C om p osita, мм

Длина

Ширина

Длина

Ширина

18,4

15,4

11.4

9,7

16,9

15,1

7.8

7 ,4

13,6

10,9

6,3

5,3

Для вычисления оценки коэффициента корреляции между двумя столбцами измерений — подсчитаем соответствующие ква­ драты и смешанные произведения. Это сделано в табл. 3.6, где

Т а б л и ц а 3.6

Вычисление сумм квадратов, смешанных произведений и коэффициента корреляции по данным табл. 3.5

у2

Х1

 

х ,х 2

 

 

Х2

Х2

А1

 

 

 

Л2

338,56

 

18,4

283,36

 

15,4

237,16

285,61

 

16,9

255,19

 

15,1

228,01

184,96

 

13,6

148,24

 

10,9

118,81

129,96

 

11,4

110,58

 

9,7

94,09

60,84

 

7,8

57,72

 

7,4

54,76

39,69

 

6,3

33,39

 

5,3

28,09

2X^ = 1039,62

EXi =

74,4 SXiX2 = 888,48

ЕХ2 = 63,8

2X 1=760,92

 

SP i2 =

(888,48) — (74.4) (б3 ,8 )

97,37

 

 

 

 

 

О

 

 

 

 

C O V i 2 = ^ ^ = 19,47

 

 

 

 

 

 

 

О

 

 

 

 

 

 

S S , =

(1039,62) ■

 

 

 

 

 

S S 2 -

(760,92)

• <63’8 ) !- 82,51

 

 

s b

117'0 6 -

23,41

Si =

1/2M T =

4,84

 

s2=

~ g ~

=

16,50

s2 =

/16750 =

4,06

 

 

rl----

19,47

 

 

 

 

 

12

(4,84)

(4,06)

- 0,991'

 

 

Фиг. 3.12. Гипотетический геологический разрез, на котором представлены две формации с увеличивающейся слева направо мощностью.

Xi — длина, а Х2 — ширина. Коэффициент корреляции, равный 0,99, оказывается очень высоким, что подтверждает наше подцзрение в том, что имеется прямая связь между длиной и шири­ ной раковины. Столь сильные зависимости встречаются не всегда; в действительности весьма обычны задачи, в которых требуется определить, существует ли хоть какая-нибудь корре­ ляция. К этому вопросу мы еще вернемся.

Вычисление оценки коэффициента корреляции можно легко запрограммировать; эта процедура является прямым расшире­ нием алгоритма вычисления оценки ковариации. Для вычисления коэффициента корреляции для двух серий данных, каждая из которых состоит из п наблюдений, мы можем переписать BICOV (программа 3.4, BICOR). Используя эту программу для вычисле­ ния коэффициента корреляции между микроэлементами, пред­ ставленными в табл. 3.3, постройте таблицу коэффициентов кор­ реляции порядка 3 x3, аналогичную таблице ковариаций для тех же данных. Каковы значения диагональных элементов (гн, Г22,

гзз) ?

Ложная корреляция. В последующих главах мы детально рассмотрим зависимости между парами переменных. Существует много способов изображения этих зависимостей, но, вероятно, самый простой из них — нанесение значений пары переменных на точечную диаграмму. Мы будем использовать этот метод для иллюстрации вычислений, связанных с геологическими исследо­ ваниями. На фиг. 3.12 изображен ряд измерений мощности в разрезах, которые геологически сопоставимы. Мощность пород возрастает слева направо, причем мощность слоя В увеличи­ вается быстрее, чем мощность слоя А. Если значения мощности каждого из этих двух слоев нанести на график, то мы увидим, что увеличение одной мощности сопровождается увеличением другой (фиг. 3.13). Данные измерений в каждом сечении при­ ведены в табл. 3.7. Коэффициент корреляции, вычисленный по этим данным, равен 0,98. Предположим, что мы хотим записать эти измерения в процентах. Тогда каждая пара значений ука­ зывает относительный вклад слоя А и слоя В в измеряемое

о о о о о о о о о о о

оо о

оо

C

C

 

PROGRAM

3 - 4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

PROGRAM

ТО COMPUTE —

 

 

 

 

 

 

 

 

 

 

 

 

A .

V A R IA NC E

OF EACH V A R IA B L E

 

 

 

 

 

 

 

B .

MEAN

OF

EACH

V A R IA B L E

 

 

 

 

 

 

 

 

C « C O V A R IA N C E BETWEEN V A R IA B L E S

 

 

 

 

 

 

D . C O R R E L A T IO N BETWEEN

V A R IA B L E S

 

 

 

 

 

 

SET

SUMS

TO

ZERO

 

 

 

 

 

 

 

 

 

 

 

 

S U M X I - 0 . 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S U M X 2 - 0 . 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S X I S Q = 0 . 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S X 2 S Q = 0 . О

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S X I X 2 = 0 . 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

READ NUMBER OF SAMPLES TO BE USED

 

 

 

 

 

 

READ

( 5 , I OOO)

NS

 

 

 

 

 

 

 

 

 

 

 

 

DO 1 0 0

1 = 1 , NS

 

 

 

 

 

 

 

 

 

 

 

 

 

READ A SAMPLE AND ADD TO SUM

 

 

 

 

 

 

 

 

READ

( 5 , 10 0 1 ) X I , X 2

 

 

 

 

 

 

 

 

 

 

 

 

S U M X I= S U M X 1+ X 1

 

 

 

 

 

 

 

 

 

 

 

 

 

S U M X2=S UMX2+X2

 

 

 

 

 

 

 

 

 

 

 

 

 

S X I S Q = S X I S Q + X I * X I

 

 

 

 

 

 

 

 

 

 

 

 

S X 2 S Q = S X 2 S Q + X 2 * X 2

 

 

 

 

 

 

 

 

 

 

 

I 0 0

S X 1X 2 = S X I X 2 + X I * X 2

 

 

 

 

 

 

 

 

 

 

 

C O N T IN U E

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P R I N T

SUMS

 

N S , SUMX1 , S X 1S O ,S U M X 2 , S X 2 S Q , S X I X 2

 

W R IT E

( 6 , 2 0 0 0 )

 

COMPUTE

AND

P R I N T MEAN,

V A R IA N C E

AND

STANDARD

D E V I A T IO N

 

OF V A R IA B L E

X I

 

 

 

 

 

 

 

 

 

 

 

 

 

A M E A N = S U M X I/F L O A T ( N S )

 

 

 

 

 

 

 

 

 

 

 

V A R = ( F L O A T ( N S ) * S X 1S Q - S U M X I * S U M X I ) / F L O A T ( N S * ( N S - I ) )

 

S T D E V 1= S Q R T ( V A R )

 

 

 

 

 

 

 

 

 

 

 

 

W R I T E ( 6 , 2 0 0 I ) A M E A N , VA R , S T D E V 1

AND

STANDARD

D E V I A T IO N

 

COMPUTE

AND

P R I N T MEAN,

VAR IA NC E

 

OF V A R IA B L E

X2

 

 

 

 

 

 

 

 

 

 

 

 

 

A M E A N = S U M X 2 /F L 0 A T ( N S )

 

 

 

 

 

 

 

 

 

 

 

V A R * ( F L 0 A T ( N S ) * S X 2 S Q - S U M X 2 * S U M X 2 ) / F L 0 ' A T ( N S * ( N S - I ) )

 

S T D E V 2 *S Q R T ( VAR )•

 

 

 

STD EV2

 

 

 

 

 

 

W R IT E

( 6 , 2 0 0 2 )

AMEAN, V A R ,

 

X I

AND X2

 

 

COMPUTE

AND

P R I N T C O VARIANCE

BETWEEN

 

 

C O V = ( F L O A T ( N S ) * S X I X 2 - S U M X I * S U M X 2 ) / F L O A T ( N S * ( N S - I ) )

 

W R IT E

( 6 , 2 0 0 3 )

COV

 

 

 

 

BETWEEN

X I

AND X2

 

 

CMPUTE

AND

P R I N T C O R R E LA TIO N

 

 

C O R = C O V /( S T D E V I * S T D E V 2 )

 

 

 

 

 

 

 

 

 

 

W R IT E

( 6 , 2 0 0 4 )

COR

 

 

 

 

 

 

 

 

 

 

 

1 0 0 0

CALL

E X I T

 

 

 

 

 

 

 

 

 

 

 

 

 

FORMAT

( 1 4 )

 

 

 

 

 

 

 

 

 

 

 

 

 

1001

FORMAT

( 2 F I 0 . 0 )

NUMBER

OF

SAMPLES

, 1 1 0 , / / ,

2 0 0 0 FORMAT

( I H I , 1 1 X , 2 I H

I 2 I X , I 2 H S U M OF XI = , F I 0 . 2 , / / ,

 

 

 

 

 

 

2 1 0 X ,2 3 H S U M

OF

SQUARES

OF

X I

-

, F I 0 . 2 , / / ,

 

 

3 2 I X ,1 2 H S U M OF X2 = , F I 0 . 2 , / / ,

, F I 0 . 2 , / / ,

 

 

4 1 0 X ,2 3 H S U M

OF

SQUARES

OF

X2

»

 

 

5

9 X ,

24HSUM

OF

CROSS

PRODUCTS

=

, F I 0 . 2 )

 

 

 

2 0 0 1 FORMAT

( / , 2 O X ,I3 H M E A N

OF

X I

«

, F 1 0 . 2 , / / ,

 

 

1 1 6 X ,I 7 H V A R I A N C E OF X I = , F I 0 . 2 , / / ,

 

 

 

 

 

2 6 X ,2 7 H S T A N D A R D D E V I A T IO N OF X I - , F I 0 . 2 )

 

 

2 0 0 2 FORMAT

( / , 2 0 X , I 3 H M E A N

OF

X2

«

, F I 0 . 2 , / / ,

 

 

1 1 6 X , I7 H V A R IA N C E OF X2 = , F I 0 . 2 , / / ,

 

 

 

 

 

2 6 X ,2 7 H S T A N D A R D D E V I A T IO N OF X2 - , F I 0 . 2 )

X2 -

, F I 0 . 2 )

2 0 0 3 FORMAT

( / , 2 X , 3 I H C 0 V A R I A N C E

BETWEEN

XI

AND

2 0 0 4 FORMAT

( / , IX ,3 2 H C O R R E L A T IO N

BETWEEN

X I

AND

X2

- , F I 0 . 4 )

 

END

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Программа 3.4. BICOR

100

75 -

У 50 -

I

25

 

 

25

50.

 

 

формация А, %

Фиг. 3.13. Диаграмма

зависимости

Фиг. 3.14. Диаграмма зависи-

мощности формации А от мощно-

мости относительной мощности

сти формации

В.

формации А от

аналогичной

 

 

характеристики формации В,

 

 

выраженных в

процентах.

сечение. Эти данные приведены в табл. 3.7. Если их нанести на график, как на фиг. 3.14, мы увидим, что наклон линии проти­ воположен предыдущему. Коэффициент корреляции теперь ра­ вен —0,99. Даже, несмотря на то что абсолютные значения мощ­ ностей слоев А и В увеличиваются, относительная мощность А должна уменьшаться с увеличением мощности слоя В. Это оче­ видный пример ложной корреляции, которая возникает всегда в тех случаях, когда последовательности значений имеют посто­ янную сумму. В данном примере сумма относительных мощно­ стей слоев А и В должна быть равной 100%. Поэтому увеличе­ ние относительной мощности одного слоя должно компенсиро­ ваться уменьшением в другом. Эта обратная связь, которую называют индуцированной отрицательной корреляцией, неиз­ бежно возникает всегда, когда переменные подчинены условию постоянства суммы, хотя влияние этого условия в случае многих переменных не совсем очевидно. Однако этот факт оказывает

7 З а к а з № 455

 

 

 

 

Т а б л и ц а

3.7

Мощности стратиграфических подразделений (слоев) А и В

 

Номер сечения

Мощность, футы

Характеристика сечения,

%

 

Слой А

Слой В

Слой А

Слой В

 

1

50

50

50,0

50,0

 

2

60

85

41,4

58,6

 

3

70

110

38,9

61,1

 

4

75

140

34,9

65,1

 

5

80

170

32,0

68,0

 

6

90

200

31,0

69,0

 

влияние на все операции, выполняемые над переменными, и мо­ жет целиком изменить результаты всего анализа.

К сожалению, пока не существует удовлетворительного спо­ соба учета эффекта таких замкнутых систем, хотя с этой целью были использованы различные идеи и методы. Значительное ко­ личество специальных статистических процедур, предназначен­ ных для данных с постоянной суммой, собрано в работе Коча и Линка [1 1 ] и в книге о корреляционном отношении Чэйеса [1], причем в каждой из них содержится описание общих свойств' данных такого рода. Хотя в большей части нашей книги мы не налагаем ограничения постоянства суммы, но и здесь и там можно встретить иногда слова предостережения. То, что мы не уделяем достаточно внимания этому вопросу, не является дока­ зательством его малой значимости, а скорее означает, что общих методов решения не существует. Конечно, он важен’ для геоло­ гии, например для данных типа размеров зерен и химических

составов с постоянной суммой, для соотношений песчаной и гли­ нистой фракций и процентных данных другого типа.

Проверка гипотезы о нормальном распределении

Прежде чем продолжить изложение, возвратился немного назад к распределениям частот, и в частности, к Нормальному распределению. Если вместо того, чтобы рассматривать выбопку

только из шести значений, представленных в табл. 3 §

л

Р У

длины раковин очень большой коллекции C o m p o s it

мьеРить

дйм, что' частотная диаграмма будет выглядеть анал0гичн 1

^ВИ'

фику на фиг. 3.15. Среднему значению длины, в Данном °

Г^3"

Фиг. 3.15. Гипотетическое распределение значений длины особей рода Сотposita.

равному 14,2 мм, будет соответствовать наибольшая частота, а постепенно уменьшающимся и увеличивающимся значениям будут отвечать уменьшающиеся частоты. Приблизительно две

трети раковин попадают

в пределы интервала (р — s,

p + s)

с центром в точке р = 14,2,

причем оценка стандартного

откло­

нения s приблизительно равна 4,7 мм. Теперь рассмотрим изме­ рения ш и р и н ы , которые были сделаны при исследовании этой очень большой коллекции Composita. Распределение этого пока­ зателя по форме напоминает распределение длины, но его сред­ нее значение и стандартное отклонение в этом случае иные. Оно может выглядеть, например, подобно графику, изображенному на фиг. 3.16, со средним значением 10,3 мм и стандартным от­ клонением 3,6 мм.

•Можем ли мы сравнивать два распределения друг с другом? Измерения проведены в одних и тех же единицах, что облегчает проблему сравнения распределений длины и ширины. Оба эти распределения можно изобразить в одном и том же масштабе, в результате чего получим фиг. 3.17.

Конечно, сравнение было бы проще, если бы оба распределе­ ния имели один и тот же центр, т. е. равные средние значения. Мы можем центрировать их по отношению к общему среднему значению, вычитая подходящее число из всех значений совокуп­ ности (или прибавляя некоторое число к значениям другой сово­ купности) таким образом, чтобы средние обеих совокупностей совпали. Вместо этого вычтем соответствующее среднее значение из каждого наблюдения в каждой из двух совокупностей. Полу­

чим

новые

значения X '= X i — X.'

Это преобразование

сдвигает

каждое из

распределений вдоль

горизонтальной

оси

до тех

пор,

пока

их центры не совпадут со значением 0,

являющимся

I

I

I

l

I

J----- J

0

5

10

15

20

25

30

Ширина, MM

Фиг. 3.16. Гипотетическое распределение значений ширины особей рода С о т - posita.

Фиг. 3.17. Диаграммы распределения значений длины и ширины особей рода

Composita.

средним значением обоих преобразованных распределений, изо­

браженных на фиг. 3.18.

В рассмотренном примере мы связаны размерностью резуль­ татов измерений, выраженной в миллиметрах. При этом ника­ ких проблем не возникает, если мы будем сравнивать распреде­ ления длины и ширины, но если мы захотим сравнивать эти рас­ пределения с распределениями, характеризующими вес раковин, то нам это сделать не удастся. Существует ли какое-либо допол­ нительное преобразование, которое позволяет сделать наши рас­ пределения не зависящими от единиц измерения? Одно из таких чрезвычайно полезных преобразований называется стандартиза­ цией; в результате его применения новые значения переменных

Фиг. 3.18. Распределения значений длины и ширины особей рода Composita после приведения обеих переменных к нулевым средним значениям.

Фиг. 3.19. Распределения значений длины и ширины ос° б®“ Р после стандартизации имеют нулевое среднее значение и т дартное откло-

нение. оавное 1,0.

имеют не только нулевое среднее значение, но также измеряются в единицах стандартных отклонений. Это делается просто с по­ мощью вычитания среднего значения распределения из каждого наблюдения и деления каждой полученной разности на стан­ дартное отклонение распределения. Эта новая переменная имеет

стандартную нормальную форму

Z

,

-

-

<3-18>

Теперь, как это показано на фиг. 3.19, наши кривые частот различных совокупностей рода Composita идентичны. Характе­ ристики стандартного нормального распределения очень хорошо известны, а таблицы площадей, ограниченных указанными сегментами кривой, содержатся почти во всех учебниках по

статистике. Напомним, что площади выражаются прямо через вероятности. Используя сокращенную таблицу, как, например, табл. 3.8, мы можем найти любую вероятность, связанную со случайной выборкой из нормальной совокупности, значения ко­ торой расположены в некотором заданном интервале. Мы дол­ жны, однако, знать дисперсию совокупности.

Таблица 3.8

Значения кумулятивной функции распределения стандартного

нормального распределения [8]

Стандартные откло­ Кумулятивная

Стандартные откло­ Кумулятивна?

нения от среднего

вероятность

нения от среднего

вероятность

значения

 

значения

0,5000

-з,о

0,0014

+ 0,0

-2,9

0,0019

+ 0,1

0,5398

-2,8

0,0026

+ 0,2

0,5793

-2,7

0,0035

+ 0,3

0;6179

-2,6

0,0047

+ 0,4

0,6554

-2,5

0,0062

+ 0,5

0,6915

-2,4

0,0082

+ 0,6

0,7257

-2,3

0,0107

+ 0,7

0,7580

-2,2

0,0139

+ 0,8

0,7881

-2,1

0,0179

+ 0,9

0,8159

-2,0

0,0228

+ 1,0

0,8413

-1,9

0,0287

+ 1,1

0,8643

-1,8

0,0359

+ 1,2

0,8849

-1,7

0,0446

+ 1,3

0,9032

--1,6

0,0548

+ 1,4

0,9192

-1.5

0,0668

+ 1,5

0,9332

-1,4

0,0808

+ 1,6

0,9452

-1,3

0,0968

+ 1,7

0,9554

-1,2

0,1151

+ 1,8

0;9641

-1,1

0,1357

+ 1,9

0,^713

-1,0

0,1587

+ 2,0

0,9773

-0,9

0,1841

+ 2,1

0,9821

-0,8

0,2119

+ 2,2

0,9861

-0,7

0,2420

+ 2,3

0,9893

-0.6

0,2743

+ 2,4

0,9918

-0,5

0,3085

+ 2,5

0,9938

-0,4

0,3446

+ 2,6

0,9953

-0,3

0,3821

+ 2,7

0,9965

-0,2

0,4207

+ 2,8

0,9974

-0,1

0,4602

+ 2,9

0,9981

-0,0

0,5000

+ 3,0

0,9987

Давайте сделаем нереальное предположение, что мы иссле­ довали всю совокупность рода Composite,. Это значит, что мы знаем среднее значение длин ее элементов, равное 14,2 мм,