Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика и анализ геологических данных

..pdf
Скачиваний:
20
Добавлен:
15.11.2022
Размер:
21.12 Mб
Скачать

Величина п — 1 , которая содержится как в формуле (3.7), так и в формуле (3.8), требует некоторого пояснения. Дисперсия определяется как среднее значение квадратов отклонений от среднего. Однако, имея дело лишь с выборкой, мы не знаем ис­ тинного среднего значения совокупности р, но можем оценить

его с помощью выборочного среднего X, которое вычисляется так, чтобы минимизировать квадраты отклонений от него. Иначе

говоря, операция Х = — £]Xi дает значение X, для которого

. 2 № — X) 2 имеет минимальное значение среди всех возможных значений, которые могли бы быть выбраны. В силу этого свой­ ства выборочного среднего оценка дисперсии будет занижена.

22 (Xi— X)2

Иными словами,

s2= -

п

является смещенной оценкой

Z ( X I -

P ) 2

 

 

устранить смещение, мы исполь-

для а2= ----------------

. Чтобы

Г1

 

 

 

зуем в качестве знаменателя в формуле для выборочной диспер­ сии п — 1 , увеличивая таким образом оценку дисперсии.

Вычисление этих величин можно показать на примере гео­ химических данных по содержанию хрома в глинистых сланцах, приведенных в табл. 3.1. Переписав эту таблицу так, чтобы она содержала столбец квадратов, получим табл. 3.2.

 

 

 

Таблица 3.2

Вычисление сумм квадратов и дисперсий

 

для данных табл. 3.1

 

X

 

X*

 

205

 

42 025

 

255

 

65 025

 

195

 

38 025

 

220

 

48 400

 

235.

 

55225

2 Х ,=

1110

 

2Х? = 248 700

(2Х|)2 =

1 232 100

 

S S = 2 4 8 7 0 0 -

1 232100 —2280

 

 

 

5

S2 =

=

570

 

4

 

 

s =

/ 5 7 0

=

23.88

Допуская, что содержания хрома распределены приблизи­ тельно по нормальному закону, можно ожидать, что около двух третей значений расположено в пределах 198—246 млн-1. Ана­ лиз таблицы показывает, что три значения из пяти, т. е. 60%, действительно попадают в этот интервал.

Процедуру вычисления оценок дисперсии и стандартного от­ клонения можно легко запрограммировать для вычислительной машины. Программа 3.2 предназначена для вычисления оценок дисперсий и стандартных отклонений по выборке любого объема.

с

PROGRAM

3 - 2

 

 

 

с

 

 

 

 

 

 

С

PROGRAM

ТО COMPUTE THE VARIANCE OF

'N '

SAMPLES

C

 

 

 

 

 

 

C

SET SUMS TO ZERO

 

 

 

SUMX=0.0

 

 

 

C

SUMX2=

 

.0

 

 

 

READ NUMBER OF SAMPLES TO BE USED

 

 

 

READ (5 ,1 0 0 0 )

NS

 

 

C

DO 100

 

1 = 1 ,NS

 

 

 

READ A SAMPLE AND ADD TO SUM

 

 

 

READ (5 ,1 0 0 1 )

X

 

 

 

SUMX=SUMX+X

 

 

 

I 00

SUMX2=SUMX2+X*X

 

 

CONTINUE

 

 

 

C

COMPUTE THE VARIANCE

 

 

C

VAR=(FLOAT(NS)*SUMX2-SUMX*SUMX)/FLOAT( N S*( N S - I))

PRINT RESULTS

 

 

 

C

WRITE

(6 ,2 0 0 0 )

NS, SUMX, SUMX2, VAR

 

 

COMPUTE THE STANDARD DEVIATION AND MEAN

 

STDEV=SQRT(VAR)

 

 

C

AMEAN=SUMX/FLOAT(NS)

 

 

PRINT STANDARD DEVIATION AND MEAN

 

 

 

WRITE

(6 ,2 0 0 1 )

STDEV,AMEAN

 

 

I 000

STOP

 

(14)

 

 

 

FORMAT

 

 

 

 

1001

FORMAT

 

(FI 0 . 1 )

 

 

 

2000

FORMAT

 

( IHI,8X,20HNUMBER OF SAMPLES

=

, 1 1 0 , / / ,

112 X , 17HSUM OF SAMPLES

=

, FI 0

. 3 , / / ,

229H SUM OF SQUARES OF

SAMPLES

= , FI 0 . 3 , / / ,

37X,22HVARIANCE

OF SAMPLES

= , F I 0 . 3 )

2001 FORMAT ( / , 8 X , 2

1HSTANDARD

DEVIATION = , F I 0 . 3 , / / ,

I 1lX, 1 8HMEAN OF

SAMPLES

=

, F I 0 . 3 )

END

 

 

 

 

Программа 3.2. VAR

Отметим одну техническую деталь. Вы должны заметить, что

при вычислении сумм квадратов

геохимических данных появ­

ляются числа, содержащие семь знаков. Эта тенденция к возник­ новению в процессе вычисления очень больших чисел приводит иногда к возникновению затруднений в ЭВМ, приспособленных для работы с числами, содержащими мало значащих цифр. Это также приводит к возникновению трудностей при выводе дан­ ных, если поля формата недостаточно широки для того, чтобы вмещать числа, которые должны быть напечатаны.

Для большинства геологических исследований характерно, что на каждом изучаемом объекте измеряется более одной пере­

менной. В качестве примеров можно привести результаты изме­ рений коллекции кораллов, последовательности проб из ряда скважин или же определения параметров пород в коллекции об­ разцов песчаника. Такие данные обычно записываются в виде таблицы порядка пХш, где п — число наблюдений, а ш — число изучаемых переменных. Так, например, полные анализы, из кото­ рых извлечены данные табл. 3.1, содержат 17 переменных. Если мы рассмотрим только три из них, а именно содержания никеля, ванадия и хрома, то получим табл. 3.3. Для каждого столбца можно подсчитать соответствующие суммы и оценить среднее значение и стандартное отклонение. Необходимо отметить, что различные переменные, измеренные на одном и том же объекте, обычно обладают тенденцией к согласованному изменению. Пе­ ременные, которые не имеют связи друг с другом, называются взаимно независимыми; это значит, что увеличение или умень­ шение одной переменной не сопровождается заранее предсказуе­ мым изменением другой переменной. Так как переменные могут не быть независимыми, то нужно ввести некоторую меру их вза­ имной связи.

Т а б л и ц а 3.3

Содержание хрома, никеля и ванадия

(млн-1)

 

в сланцах Канзаса

 

Сг

N1

V

205

130

180

255

165

215

195

100

135

220

135

200

235

145

205

Сумма 1110

675

935

Среднее

135

187

значение 222

Вычислительные процедуры, используемые для вычисления | оценки дисперсии одной переменной, можно расширить для вы­ числения меры взаимной изменчивости пары переменных. Эта мера, называемая ковариацией, является характеристикой сов­ местного изменения двух переменных по отношению к их общему среднему значению. Это соотношение показано на фиг. 3.8, где изображены формы поверхностей распределения вероятностей, порожденных двумя кривыми нормального распределения.

ГЛАВА 3

Фиг. 3.8. Совместное вероятностное распределение двух независимых нор­ мальных случайных величин.

Обе величины Xi и Х2 распределены по нормальному закону.

 

Пусть Х\ и Хг

имеют кривые расп редел ен и я вероят ност ей,

аналогичные изображенным на фиг. 3.7. Точно так же, как д и с ­

персия характеризует разброс значений

относительно

ц ен т рал ь­

ной точки (как это показано на

фиг. 3 .7 ),

к о ва р и а ц и я

являет ся

мерой разброса значений

распределения

относительно о б щ е го

среднего.

 

 

 

 

 

 

 

 

 

 

Для вычисления

оценки

ковариации

мы

снова

в в е д е м

в е л и ­

чину, аналогичную сумме квадратов. Эта

 

вели чи н а н азы вает ся

центрированной суммой смешанных п рои зведен и й

(S P )

и о п р е ­

деляется по формуле

 

 

 

 

 

 

 

 

 

 

SPJk

(Ху - Х}) (X lk -

X k),

 

 

(*■12)

где Xjj - i - e значение

j -й переменной, a

Хдс— i-e зн а ч ен и е

k - й

переменной. Символ SPjk является

сум м ой

 

п р о и звед ен и й

ц е н ­

трированных j -й и k-й

переменных.

Запиш ем

это

вы р а ж ен и е

в форме, удобной для вычислений:

 

 

 

 

 

 

 

 

"

 

2

х « I I

x,fc

 

 

(3.13)

S P „ = - 2

 

 

 

----

 

 

Величина 2 ] (XtjXik) называется

нецентрированной сум м о й

с м е ­

шанных произведений. Связь величины SPjk с суммой квадратов

можно легко установить, если выбрать j = к. Тогда получаем

n

n

п

/

П

\ 2

2

хц 2

2

-

2

хи )

SPJJ= 2 ( Х „ Х и). 11

1 = 1

1= 1

VI = 1

/

= S S J.

1=1

 

 

 

 

 

 

(3.14)

Если мы вычислим суммы смешанных произведений и суммы квадратов для всех возможных комбинаций наших трех пере­ менных табл. 3.3, то получим следующую таблицу порядка 3X3:

Сг

N1

V

Сг

ssCr

S P N I - C r

и 1 > со

N1

V

S P C r - N I

S P C r - V

SSNi

S P N I - V

SPV_N1

ssv

Легко заметить, что некоторые из величин встречаются в этой таблице дважды: например, сумма произведений для ванадия и никеля такая же, как и сумма произведений для никеля и вана­ дия. Обобщая этот факт, можно написать SPjic = SPkj. Это ра­ венство будет нами использовано в следующих главах.

Подобно тому, как мы при вычислении дисперсии делили ве­ личину SS на п — 1 , вычислим оценку ковариации, также разде­ лив величину SP на п — 1 :

 

 

П

 

 

/

П

 

П

Xik/n

covjk=

SPjk

2

xuxik -

 

2

X >J

2

1 = 1

 

 

\I = I

 

1= 1

n — 1

 

 

 

 

 

 

 

 

 

n 2

В д к -

2

2

xik

 

 

 

1= 1

 

i=l

i=l

 

 

 

(3.15)

 

 

n (n

1)

 

 

 

 

 

 

 

 

 

 

 

 

 

Теперь, возвращаясь к геохимическим данным, приведенным в табл. 3.3, можно вычислить оценки ковариаций для всех трех элементов. Обозначая содержания хрома и никеля соответст­ венно через Xi и Хг, мы можем вычислить величины, приведен­ ные в табл. 3.4’. Мы знаем теперь дисперсию Xi (хрома) и оценку ковариации между Xi и Хг (хромом и никелем). У нас есть также все необходимые данные для вычисления дисперсии Аг (никеля) по формуле 3.5. Читатель может попытаться вычислить это значение, дополнив таблицу порядка 2X2, приведенную ниже:

 

X,

Х2

Хром (Xi)

570

537,5

Никель (Х2)

537.5

•I

Чтобы закончить анализ геохимических данных, приведенных в табл. 3.3, остается вычислить дополнительно три величины. Это оценки ковариаций для хрома и ванадия (COV13), никеля и ва­ надия (СОУгз) и дисперсию ванадия (s^). Следуя процедурам,!

использованным при построении табл. 3.4, вычислите величину (COVis).

Т а б л и ц а 3.4

Вычисление оценки ковариаций между хромом (X]) и никелем (Х2)

А1

Х 1

х ,х 2

Х2

л 2

 

42 025

205

26 650

130

16 900

65 025

255

42 075

165

27 225

38 025

195

19 500

100

10000

48 400

220

29 700

135

18 225

55225

235

34 075

145

21025

EX j = 248 700

SXi = 1110

2XiX2 — 152 000

ЯХ2 = 675

EXj = 93 375

SP12 = 152 000 - Ш Ё> i 675>. =, 2150

О

COVi2 = — — 537,5

Вычисление оценок ковариаций можно легко запрограммиро­ вать по общей схеме, указанной в программе 3.2 (VAR). Однако сначала нам надо прочитать два множества наблюдений, вычис­ лить две промежуточные суммы, две суммы квадратов и сме­ шанных произведений. Программа 3.3, BICOV, предназначена для вычисления оценки ковариации по двум рядам наблюдений переменных, каждый из которых содержит п значений. Исполь­ зуя эту программу, вычислите остальные оценки ковариаций (COV13 и СОУгз); по ней можно оценить также дисперсии со­ держаний, включая последнюю дисперсию (sij). Эти величины

заполнят таблицу порядка 3X 3 оценок ковариаций геохимиче-

C PROGRAM 3-3

С

СPROGRAM ТО COMPUTE—

СA.VARIANCE OF EACH VARIABLE

СВ . MEAN OF EACH VARIABLE

СC.COVARIANCE BETWEEN VARIABLES

C

eSET SUMS TO ZERO SUMXI=0.0 SUMX2=0.0

S X I 5Q=O. O

SX2SQ=0.0

SXIX2=0.0

CREAD NUMBER OF SAMPLES TO BE USED READ (5 , IOOO) NS

C

DO 100 1 = 1 ,NS

ADD TO SUM

READ A

SAMPLE AND

 

-READ ( 5 ,1 0 0 1 )XI,X2

 

 

SUMX1=SUMXI+XI

 

 

SUMX2=SUMX2 +X2

 

 

*SXISQ=SXISQ+XI*X1

 

 

SX2SQ=SX2SQ+X2*X2

 

100

SXIX2=SXIX2+Xl*X2

 

CONTINUE

 

C

PRINT SUMS

SUMXI, SXI SO,SUMX2,SX2S0,SXIX2

C

WRITE

(6 ,2 0 0 0 ) NS,

COMPUTE

AND PRINT

MEAN, VARIANCE AND STANDARD DEVIATION

COF VARIABLE XI

AMEAN=SUMXI/FLOAT( NS) VAR=(FLOAT(NS)*SXTSQ-SUMX1*SUMXI)/FLOAT(NS*(NS-1,)

 

STDEVI=SQRT( VAR)

STDEVI

'C

WRITE(6,200I)AMEAN, VAR,

COMPUTE AND PRINT MEAN,

VARIANCE AND STANDARD DEVIATION

COF VARIABLE X2 AMEAN=SUMX2/FL0AT(NS)

•VAR=(FLOAT(NS)*SX2SQ-SUMX2*SUMX2) /FLOAT(NS*( N S - I))

STDEV2=S0RT( VAR)

WRITE (6 ,2 0 0 2 ) AMEAN, VAR, STDEV2

C"COMPUTE AND PRINT COVARIANCE BETWEEN XI AND X2 COV=(FLOAT(NS)*SXIX2-SUMXI*SUMX2)/FLOAT(NS*( N S - I))

 

WRITE

(6 ,2 0 0 3 ) COV

I 000

CALL EXIT

FORMAT

(14) '

1001

FORMAT

(2 F I 0 . 0 )

2000

FORMAT

( IH I,IIX ,2 IH NUMBER OF SAMPLES = , 1 1 0 , / / ,

12 IX,I2HSUM

OF

XI = , FI 0 . 2

, /

/ ,

, F I 0 . 2 , / / ,

2 1OX, 23HSUM

OF

SQUARES OF

XI

=

32 I X,I2HSUM

OF

X2 = , F I 0 . 2

, / / ,

, F i 0 . 2 , / / ,

410X,23HSUM

OF

SQUARES OF

X2 =

5

9X, 24HSUM OF

CROSS

PRODUCTS

= , FI 0 . 2 )

2001

FORMAT ( / , 2 OX1, 13HMEAN

OF XI

=

, F I 0 . 2 , / / ,

• I 16X, I7HVARIANCE

OF XI

=

, F ! 0 . 2 , / / ,

, FI 0 .2 )

2

6X.27HSTANDARD

DEVIATION OF

XI =

2002

FORMAT (/,20X,I3HMEAN

OF

X2

=

, F I 0 . 2 , / / ,

II6X,I7HVARIANCE

OF X2

=

, F I 0 . 2 , / / ,

. F I 0 . 2 )

2

6X, 27HSTANDARD

DEVIATION OF

X2 =

2003

FORMAT (/,2X,3lHC0VARIANCE BETWEEN

XI AND X2 = , F I 0 . 2 )

END

Программа 3.3. BICOV

Фиг. 3.9. Диаграмма рассеяния двух переменных с высоким коэффициентом ковариации.

Д и сп ерси я X i р ав н а 5,7, д и сп ерси я Х 2 р а в н а 7,1, к о эф ф и ц и ен т к овар и ац и и р авен 5,9.

ских данных. На фиг. 3.9 приведена диаграмма совместного рас­ пределения двух переменных, которые тесно связаны и имеют довольно высокое значение ковариации. Распределения двух пе­ ременных, изображенные на фиг. ЗЛО, имеют те же дисперсии, что и приведенные на фиг. 3.9, но являются независимыми одно от другого, о чем свидетельствует относительно низкое значение ковариации. Интерпретация значений оценок ковариаций должна проводиться таким же образом, как и дисперсий, но при этом следует помнить, что рассматриваемые значения не слишком со­ держательны, так как они зависят от единиц измерения.

Для оценки степени взаимной связи между переменными, не зависящей от единиц измерения, используется коэффициент кор­ реляции г, который представляет собой отношение ковариации двух переменных к произведению их стандартных отклонений:

COVjk

(3.16)

rjk SjSk

Так как коэффициент корреляции является отношением, то эта величина безразмерная. При этом ковариация может рав­ няться, но не может превышать величины произведения стан­ дартных отклонений рассматриваемых переменных. Поэтому ко-

1— I— I— I— I— I— I— I— Г

1

2

3

4

5

6

7

8

9

10

 

 

 

 

 

Xi

 

 

 

 

Фиг. ЗЛО. Диаграмма рассеяния двух переменных, имеющих низкую ковариа­ цию.

Д и сперси и X i и Х 2 т ак и е ж е, к а к на ф и г. 3.9. К оэф ф и ц и ен т ковари ац и и р авен —2,3.

эффициент корреляции принимает значения в интервале от — 1 до + 1 . Если коэффициент корреляции равен + 1 , это указывает на прямую линейную связь между двумя переменными. Если же коэффициент корреляции равен —1 , это указывает на то, что одна переменная изменяется в противоположном направлении по отношению к другой. Между двумя упомянутыми крайними случаями находится спектр менее сильных связей, включающий случай равенства коэффициента корреляции нулю, что указы­ вает на полное отсутствие любого типа линейных зависимостей.

На фиг. 3.11, а изображена ситуация, когда сильная корреля­ ция между переменными очевидна и коэффициент корреляции почти равен +1,00. Менее явная корреляция изображена на фиг. 3.11,6. В этом случае коэффициент корреляции равен только + 0,54. Положение точек на фиг. 3.11, в определено по таблице случайных чисел, и поэтому значения двух переменных совсем не имеют связи друг с другом, о чем свидетельствует коэффи­ циент корреляции, близкий к нулю. Отрицательная корреляци­ онная зависимость с коэффициентом корреляции, равным —0,90, изображена на фиг. 3 .1 1 , г, которая иллюстрирует тот случай, когда одна переменная уменьшается, в то время^как другая уве­

личивается.

Интересный предельный случай представляет

фиг. 3.11,6.

Одна переменная инвариантна, т. е. ее значения не

(а) Г- 0,98

(б) Г- 0,54

(в) Г- 0,16

(г) г - - 0,90

Al

х 2

(д) г - не определено

Фиг. 3.11. Точечные диаграммы, иллюстрирующие различные коэффициенты корреляции между двумя переменными.