Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика и анализ геологических данных

..pdf
Скачиваний:
20
Добавлен:
15.11.2022
Размер:
21.12 Mб
Скачать

текает поэтапно, то целесообразно приписать наудачу номера каждому образцу на каждом шаге. Тогда различные источники ошибок перемешиваются или совмещаются для всех повторных проб, а не концентрируются в нескольких из них.

Проверку гипотезы эквивалентности пяти образцов можно провести с помощью процедуры, называемой однофакторным дисперсионным анализом, при котором проверяемая гипотеза и альтернатива имеют следующий вид:

Но •(И= Р2 = Рз = ЙЧ= ^5»

H j: по крайней мере одно среднее значение отлично от остальных.

Для проверки этой гипотезы требуется выполнение некоторых условий, а именно:

а) каждое множество повторных проб рассматривается как случайная выборка из соответствующей совокупности;

б)

каждая исходная совокупность характеризуется нормаль­

ным распределением;

 

 

 

 

 

 

 

 

в)

все исходные совокупности имеют равные дисперсии.

Данные

для

рассматриваемой

нами

задачи

приведены

в табл. 3.14. В

однофакторном

дисперсионном

анализе

общая

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а 3.14

Числа

Содержание карбонатного цемента в пяти образцах песчаника.

 

в скобках обозначают порядковый номер пробы

в процессе анализа

Номер

 

 

 

Содержание карбонатного цемента, %

 

 

 

 

 

 

 

 

 

 

 

 

 

повторной

 

 

 

 

 

 

 

 

 

 

 

пробы

Образец

1

Образец 2

Образец 3

Образец 4

Образец 5

1

 

19,2

(11)

18,7

(04)

12,5

(28)

20,3

(12)

19,9

(21)

2

 

18.7

(08)

14,3

(19)

14,3

(16)

22,5

(30)

24,3

(06)

3

 

21,3

(09)

20,2

(14)

8,7

(20)

17,6

(24)

17,6

(18)

4

 

16,5

(17)

17,6

(07)

11,4

(29)

18,4

(03)

20,2

(22)

5

 

17,3

(26)

19,3

(05)

9,5

(27)

15,9

(13)

18,4

(12)

6

 

22,4

(15)

16,1

(25)

16,5

(01)

19,0

(02)

19,1

(10)

дисперсия разбивается на две составляющие: дисперсию внутри каждого множества повторных проб (внутривыборочную дис­ персию) и дисперсию между сравниваемыми образцами (межвыборочнукэ дисперсию). В математической статистике разрабо­ тана формализованная процедура дисперсионного анализа, кото­ рая приведена в таблице ANOVA (Analyses Of Variance). Последняя содержит перечень источников изменчивости, столбец

Величина, характеризующая второй источник изменчивости, имеет вид

 

 

 

п

\2

 

s s w= 2

2 x u -

2

i=i

/

(3.29)

j=i

i=i

j=*

 

 

 

Заметим, что первый член в правой части здесь такой же, как

и первый член формулы

(3.27) для S S T, а последний член совпа­

дает с первым членом формулы

(3.28)

для S S A. Поэтому SSw

можно вычислить по формуле

 

 

 

 

 

SSW= SST- S S A.

 

(3.30)

Число степеней свободы по всем данным равно N — 1. Число

степеней свободы для величины S S A равно

ш — 1, так

как мы

оцениваем ее по средним значениям каждого образца. Разность между этими числами степеней свободы равна числу степеней свободы для величины SSw.

С целью иллюстрации этого метода дисперсионного анализа произведем вычисления по данным табл. 3.15. Используя фор­ мулу (3.27) для S S T, получим S S T=383,79.

Далее мы можем подсчитать величину S S A по средним зна­ чениям для пяти образцов. Используя формулу (3.28), просум­ мируем сначала все пять столбцов, возведем в квадрат получен­ ные суммы, разделим результат на 6 и вычтем поправочный член. Это даст нам межвыборочную сумму квадратов SSA =237,42.

Наконец, вычитая S S A из S S T, получаем внутривыборочную сумму квадратов S S w = 146,37.

Общее число степеней свободы равно N — 1, или 29. Так как мы оцениваем межвыборочную изменчивость по пяти измере­ ниям (т. е. по средним значениям пяти столбцов), то число сте­ пеней свободы для SS A равно ш — 1, т. е. 4. Разность чисел сте­ пеней свободы должна соответствовать остатку сумм квадратов или «мере» ошибки. Эта разность чисел степеней свободы равна N — гп, или 25. Теперь вычисленные исправленные суммы квадра­ тов S S T, S S A и SS-W нужно разделить на соответствующие им числа степеней свободы. В результате мы получаем оценки дис­ персий (или средние квадраты, что является просто другим на­ званием тех же величин).

Оценка общей дисперсии равна SST

N — 1

^ ^ - = 1 3 ,2 3 .

 

 

 

Оценка межвыборочной дисперсии равна

MSA

SS,

 

237.42

59,35.

m —1

4

 

 

Оценка внутривыборочной дисперсии равна

MSW

S S w

146.37

5,85.

N — m

25

 

 

Сущность проведенного дисперсионного анализа лучше пояс­ нить, рассмотрев тот предельный случай, когда все повторные пробы идентичны друг другу. Тогда средние значения столбцов будут такими же, как средние по всем столбцам, и оценка дис­ персии, вычисленная по всем наблюдениям, будет совпадать с оценкой, вычисленной только на основании данных одного столбца. Иными словами, мера ошибки обратится в нуль. В этом случае нет дисперсии, возникающей из-за различий между по­ вторными пробами. Такой неправдоподобный результат должен навести на мысль, что первоначальные образцы на самом деле различны и что каждое множество повторных проб было извле­ чено из различных совокупностей, имеющих нулевые дисперсии.

Рассмотренный нами пример является менее экстремальным. Вычисляя значение F -критерия, мы получаем следующее крити­ ческое значение. Выбрав критическую область, соответствующую заданному уровню значимости и заданному числу степеней сво­ боды, мы можем теперь принять или отвергнуть проверяемую гипотезу

F =

10,14.

Процедуру однофакторного дисперсионного анализа легко за­ программировать на ФОРТРАНе. Первый шаг — это суммирова­ ние наблюдаемых значений и их квадратов, затем вычисление оценок с помощью некоторых комбинаций упомянутых сумм. Программа 3.5 ONEOVA предназначена для вычисления F -кри­ терия для m образцов, каждый из которых содержит п повтор­ ных проб. Отметим тесную аналогию между частями программы ONEOVA и программы 3.2 для вычисления оценки дисперсии.

Однофакторный дисперсионный анализ применяется в тех случаях, когда мы хотим проверить гипотезу о том, что некото­ рый набор совокупностей, представленных выборками, состоит из идентичных объектов. Однако для его проведения требуется, чтобы мы могли случайно выбрать повторные пробы внутри вы­ борок и провести их анализ в случайной последовательности. В некоторых ситуациях это может оказаться сильным ограниче­ нием и может привести к неполноценному анализу, при котором теряется слишком много информации об изменчивости. Напри­ мер, предположим, что некоторая измерительная процедура при­ водит к завышению дисперсии. Используя однофакторную мо­ дель, мы не можем оценить величину возникающей по этой при­ чине изменчивости, так как она входит в сумму квадратов вме-

СPROGRAM 3-5

СPROGRAM FOR ONE WAY ANALYSIS OF VARIANCE

C

C

DIMENSION PISSA ( 10 0 ) , X(100)

READ NUMBER OF SAMPLES AND NUMBER OF REPLICATIONS

 

READ (5 ,1 0 0 0 ) NS,NR

CSET SUMS TO ZERO P ISST =0 .0

P2SST=0.0

SSA=0.0

DO I 00 J= l,N S

 

PI5SA(J ) = 0 . 0

100 CONTINUE

C

DO 101 1 = 1 ,NR

READ A SAMPLE AND ADD TO SUMS

 

READ (5 ,1 0 0 1 ) ( X ( J ) ,J « I .N S )

 

DO 102 J= 1 ,N S

 

P ISST = P 1 SST + X (J)*X (J)

 

P2 SST=P2 SST+X( J )

102

P 1 S S A (J)= P IS S A (J)+ X (J)

CONTINUE

101

CONTINUE

C

CALCULATE SST

 

SST=PISST-P2 SST*P2 SST/FLOAT( NS*NR)

 

NRS1=NS*NR-F

CCALCULATE SSA DO 103 J= I,N S

SSA=SS A +P 1SSA(J )* P 1SS A( J )/FLOAT(NR)

103CONTINUE

SSA=SSA-P2SST*P2SST/FL0AT(NR*NS>

NS1=NS-1

CCALCULATE SSW SSN=SST-SSA NNS=NR*NS-NS

CCALCULATE MEAN SQUARES AMSA=SSA/FLOAT( NS I )

AMSW=SSW/FLOAT( NNS)

CCALCULATE F-RATIO F=AMSA/AMSW

C

PRINT

RESULTS

 

 

 

 

 

WRITE

(6 ,2 0 0 0 )

SSA ,N S!, AMSA,F

 

 

 

WRITE

(6 ,2 0 0 1 )

 

 

 

WRITE

(6 ,2 0 0 2 )

SSW,NNS,AMSW

 

 

 

WRITE

(6 ,2 0 0 3 )

SST,NRS1

 

 

1000

CALL EXIT

 

 

 

 

 

FORMAT

(214)

 

 

 

 

 

!0 0 l

FORMAT

(5 F I0 .0 )

 

OF,I4X,25HSUM OF DEGREES OF

2000

FORMAT (IOHISOURSE

 

1IOH VARIATION,I4X,37HSQUARES

FREEDOM

SQUARES

2001

2 1X ,60(1H -))

AMONG

SAMPLES,7X,FI 0 . 2 , 1 1 0 ,F I 0 .2 ,/ ,

FORMAT

(I4H

2002

I 5 I X ,F I 0 .4 )

WITHIN

REPLICATIONS

, F I 0 . 2 ,n 0 ,F I 0 . 2 >

FORMAT

(2IH

2003

FORMAT <I6H0T0TAL

VARIATION*5X,FI0 . 2 , 1 10)

 

 

END

 

 

 

 

 

 

MEAN,/,

F -T E ST ,/,

Программа 3.5. ONEOVA

сте с изменчивостью, возникающей от других причин. Однако более кропотливый статистический анализ может дать нам воз­ можность выделить эту изменчивость и оценить ее.

Двухфакторный дисперсионный анализ. Известен ряд более сложных критериев, подробно описанных в руководствах по дис­ персионному анализу и планированию эксперимента. Прекрас­ ные описания некоторых схем, весьма полезных при геологиче­ ских исследованиях, содержатся в книгах Гриффитса [6] и Крамбейна и Грейбилла [13]. Здесь мы ограничимся рассмотрением лишь одного дополнительного примера и соответствующей стати­ стической процедуры. Ордовикские песчаники Сент-Питер пред­ ставлены очень чистыми ортокварцитами, которые распростра­ нены в верховьях реки Миссисипи. Так как зерна этих пород хорошо окатаны и отсортированы, то они необыкновенно одно­ родны по своему строению. В связи с этим нефтяные месторо­ ждения, приуроченные к песчаникам, при добыче нефти путем откачки ведут себя так, как можно в точности предсказать с по­ мощью теоретических моделей их поведения, хотя последние построены на основе идеализации условий. Отклонения поведе­ ния модели от действительности могут указать на ошибочность допущений в структуре модели.

Небольшой нефтяной район в южном Иллинойсе представ­ ляется идеально приспособленным для исследования совпадения в поведении модели и реального нефтяного месторождения. Так как этот район арендовался только одной компанией, тщательно хранившей документацию, то данные о добыче нефти из этого месторождения оказались доступными для исследования. Од­ нако, прежде чем выполнить исчерпывающий анализ поведения месторождения, целесообразно проверить на примере вышеупо­ мянутого песчаника предположение об однородности его свойств.

Из множества скважин, пробуренных в процессе разработки, десять были выбраны случайным образом для проведения ана­ лиза. В каждой пробе наудачу был высечек 1 куб. дюйм породы таким образом, чтобы вертикальная ориентация пробы сохра­ нялась. С помощью соответствующего прибора были сделаны два измерения скорости движения флюида сквозь высеченные кубы: в вертикальном направлении по отношению к слоистости и в горизонтальном, параллельно слоистости. Используя эти из­ мерения, вычислили проницаемость образца в единицах миллидарси.

Двадцать вычисленных значений проницаемости приведены в табл. 3.15. По этим двадцати значениям мы хотим получить ответ на вопрос: имеются ли значимые различия в проницаемо­ сти, зависящие от положения образца в изучаемом районе (т. е. от расположения скважин) или от выбранных направлений из­ мерения?

Т а б л и ц а 3.15

Проницаемость в различных направлениях в случайно выбранных образцах песчаников Сент-Питер, Иллинойс

Проницаемость в различных направлениях (в миллидарси)

Вертикальная

Горизонтальная

Вертикальная

Горизонтальная

1037

1124

928

943

963

960

1108

1165

842

921

821

803

1121

1202

797

792

1043

1028

949

1004

Эту задачу можно решить с помощью двухфакторного дис­ персионного анализа. Рассмотрим два главных источника измен­ чивости: один, возникающий как следствие различий между про­ бами, и другой, возникающий из-за различий направлений при измерениях проницаемости. Третий источник изменчивости — ос­ таток, или дисперсия ошибки, соответствующая дисперсии внутри повторных проб в однофакторном анализе. В этом примере мы проверим две гипотезы:

Н о " Рскв. 1 = Р'скв.

2 =

= Рскв. 10

Н о • Р'верт == Ргориз

 

 

Соответствующие альтернативные

гипотезы заключаются

в том, что по меньшей мере одна скважина имеет неравное ос­ тальным среднее и что вертикальные и горизонтальные прони­ цаемости неодинаковы. Эта проблема очень напоминает уже рас­ смотренную задачу изучения содержаний карбонатов с помощью однофакторного дисперсионного анализа, но с одним исключе­ нием: вместо того чтобы произвести измерения в образцах на основании случайного выбора, мы провели измерения разного типа. Последние можно назвать эффектами: этот термин озна­ чает, что числа, порожденные одним эффектом, могут фундамен­ тально отличаться от чисел, порожденных другим, даже в слу­ чае, если используются одни и те же пробы. Так как измерения не вполне рандомизированы, а вместо этого разделены в соот­ ветствии с воздействием на них различных эффектов, то данные можно проанализировать с целью выявления различий между эффектами, так же как и различий между образцами. Таким об­ разом, изменчивость, возникающая из-за различий в эффектах, не должна совпадать с изменчивостью, возникшей по другим причинам, и может быть отделена на основании статистической процедуры.

9 Заказ К8 455

Для обоснованного применения двухфакторного анализа не­ обходимо выполнение следующих четырех основных положений:

а) каждая комбинация эффекта и объекта является случай­ ной выборкой, взятой из' различных совокупностей;

б) каждая исходная совокупность нормальна; в) все изучаемые совокупности имеют одну и ту же дис­

персию; г) нет никакого взаимодействия между различными эффек­

тами и различными образцами.

Последнее допущение является утверждением того, что ча­ стная комбинация эффекта и образца не приводит к большей дисперсии, чем эффекты и образцы в других комбинациях. Ёсли бы мы выполнили однофакторный анализ, используя повторные наблюдения (т. е. выполнили бы более одного измерения про­ ницаемости для каждой комбинации факторов направление— образец), то могли бы обнаружить взаимодействие, однако в этой простой схеме мы предполагаем, что взаимодействие отсутствует. Если все же взаимодействия имеются, то их наличие обесцени­ вает результаты испытания проб. Ошибочное предположение о независимости параметров между собой при наличии такой за ­ висимости довело не одного исследователя до беды. Хорошее введение в теорию эффектов взаимодействия содержится в гл. 6 книги Хикса [9].

Ниже приводится схема двухфакторного дисперсионного ана­ лиза без повторений в ячейках. Величина S S T вычисляется по формуле (3.27); SSA вычисляется по формуле (3.28). Величина SSB является суммой квадратов по эффектам:

 

 

ш

\ 2

ш

n

\ 2

 

 

 

J =*

 

2

2

х«

 

s s B=

2

 

i=ll=»

 

(3.31)

 

 

 

N

 

 

i=i

 

 

 

 

 

Характеристика ошибки S S e находится по формуле

 

 

SSe = SST- ( S S A+ S S B).

 

(3.32)

Источник изменчивости

 

Сумма

Число степеней

 

Средний

Значения

квадратов

свободы

 

квадрат

F-критерия

Между выборками

 

ssA

m —• 1

 

 

M SA

M SA/M Se*

Между эффектами

 

ssB

n — 1

 

 

M SB

M SB/M Se6

Ошибка

 

ssc

(m — 1) ( „

I)

 

M Se

 

Общая изменчивость

 

ssT

N — 1

 

 

 

 

аКритерий значимости различия между выборками,

бКритерий значимости различия между эффектами.

Так как величина S S B является разностью двух средних зна­ чений по образцам в пределах каждого эффекта, то из этих ра­

венств вытекает, что

S S B является

мерой изменчивости эффек­

тов. Сумма квадратов

S S e является

остатком от общего вклада

при вычитании вкладов, зависящих от этих источников измен­ чивости. Обозначения в этом случае такие же, как и в однофак­ торном дисперсионном анализе, только теперь п является чи­ слом эффектов, а не числом повторных проб.

Выбрав некоторый уровень значимости для обоих гипотез, мы можем использовать эту статистическую процедуру для исследо­ вания данных табл. 3.15 по проницаемости. Вопросы, на которые дает ответ этот критерий, следующие:

а. Имеются ли значимые различия в проницаемости в преде­ лах нефтеносного района?

б. Имеются ли значимые различия в проницаемости по вер­ тикали и горизонтали?

Мы можем изменить программу 3.5 так, чтобы она позволяла находить дополнительные члены MSB и новый член MSC, а затем переходила бы к нахождению двух значений F(TWOVA, про­ грамма 3.6). Обращение к фиг. 3.24 помогает понять, какие из­ менения должны быть внесены в программу.

Образцы

4

**■

 

 

 

I

"

 

 

 

I

 

 

 

Выборочные х,

 

 

• ..

 

 

Х4

средние

1

 

 

 

 

Образцы

з

 

 

 

2

 

1

2‘

 

 

-х2.

 

 

"х3.

#

з-

 

 

 

 

 

 

-X*

 

Х.1

Х 2

Х.з

Х.4

Б

Фиг- 3.24. Схемы суммирования в дисперсионном анализе.

А — однофакторный дисперсионный анализ; суммирование для нахождения выборочного среднего производится сверху вниз по столбцам; Б — двухфакторный дисперсионный ана­ лиз; суммирование для нахождения выборочных средних производится как по строкам,

так и по столбцам.

о о о о

PROGRAM 3 - 6

PROGRAM FOR TWO WAY A NALYSIS OF VARIANCE

C

D IM E N S IO N P IS S A C I 0 0 ) , X ( 1 0 0 )

READ

NUMBER OF

SAMPLES AND NUMBER OF TREATMENTS

 

READ

( 5 , 1 0 0 0 )

N S ,N T

CSET SUMS TO ZERO P 1 S S T = 0 . 0

P 2 S S T - 0 . 0

 

S S A = 0 • 0

 

 

S S B = 0 . 0

J = l , N S

 

DO I 0 0

I 00

P I S S A C J ) = 0 . 0

CONTINUE

C

DO 101

1 = 1 , NT

READ A SAMPLE AND ADD TO SUMS

 

READ ( 5 , 1 0 0 1 ) ( X ( J ) , J = | , N S )

 

T S S B = 0 . 0

 

DO 102

J = I , N S

 

P I S S T = P I S S T + X ( J ) * X ( J )

 

P 2 S S T = P 2 S S T + X (J )

 

P I S S A ( J ) =P I SSA ( J ) +X ( J )

102

T S S B = T S S B + X (J )

CONTINUE

l 01

S S B = S S B + T S S B *T S S B /F L O A T (N S )

CONTINUE

CCALCULATE SST

S S T = P IS S T - P 2 S S T *P 2 S S T /F L O A T ( N S *N T ) NTS I= N S * N T - 1

C

CALCULATE SSA

 

DO 103 J = I , N S

103

S S A = S S A + P IS S A (J ) * P I S S A ( J ) / F L O A T ( N T )

CONTINUE

 

S S A « S S A - P 2 S S T * P 2 S S T /F L 0 A T ( N T * N S )

C

N S I = N S - I

CALCULATE SSB

 

S S B - S S B - P 2 S S T * P 2 S S T /F L O A T (N S * N T )

 

NT I - N T - 1

C

CALCULATE SSE

 

S S E - S S T - (S S A + S S B )

 

N T I S I - C N S - I ) * ( N T - I )

CCALCULATE MEAN SQUARES A M S A -S S A /F L O A T ( NS I )

A M S B -S S B /F L O A T ( NT I )

A M S E - S S E /F L O A T C N T IS I)

CCALCULATE F - T E S T S F I-A M S A /A M S E

F2-AMSB/A MSE

C

P R IN T

RESULTS

 

 

 

 

 

 

WRITE

( 6 , 2 0 0 0 )

SSA,NS I , A M S A ,F I

 

 

 

 

WRITE

( 6 , 2 0 0 1 )

 

 

 

 

WRITE

( 6 , 2 0 0 2 )

SSB, NT I , AMSB, F2

 

 

 

 

WRITE

( 6 , 2 0 0 3 ) S S E , N T I S I , A M S E

 

 

 

 

WRITE

( 6 , 2 0 0 4 )

S S T ,N T S !

 

 

 

 

CALL E X I T

 

 

 

 

 

 

1 0 0 0 FORMAT

(2 1 4 0

 

 

 

 

 

1001

FORMAT

( 5 F I 0 . 0 )

 

O F , I 4 X , 25HSUM OF DEGREES OF

M E A N , / ,

2 0 0 0 FORMAT

( I ОН I SOURCE

 

11 OH V A R IA T IO N ,I3 X ,3 8 H S Q U A R E S

FREEDOM

SQUARES

F - T E S T S , / ,

 

2 I X , 6 0 ( I H - ) )

AMONG

S A M P L E S ,7 X , F 1 0 . 2 , 1 8 , F I 0 . 2 , / ,

 

2 0 0 1 FORMAT

( I 4 H

 

 

I 5 I X , F I 0 . 4 )

 

 

S A M P L E S ,7 X ,F I 0 . 2 , 1 8 , 2 X , F I 0 . 3 , / , 51 X , F I 0 ' ,4 )

2 0 0 2 FORMAT

( I4 H

AMONG

2 0 0 3 FORMAT

(6 H

E R R O R , I 5 X , F I 0 . 2 , 1 8 , 2 X , F I 0 . 3 )

 

 

2 0 0 4 FORMAT

( I6 H 0 T 0 T A L

V A R I A T I O N , 5 X , F I 0 . 2 , 1 8 )

 

 

 

END

 

 

 

 

 

 

 

Программа 3.6. TWOVA