Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика и анализ геологических данных

..pdf
Скачиваний:
20
Добавлен:
15.11.2022
Размер:
21.12 Mб
Скачать

множеством возможных исходов, область существования которых конечна и в действительности может быть ограниченной, и тем не менее в пределах допустимых значений возможный исход ис­ пытания не может быть точно предсказан. Таким событиям соот­ ветствуют непрерывные случайные величины.

Для иллюстрации непрерывных случайных величин рассмот­ рим задачу определения показателя проницаемости образцов из керна скважины. Проницаемость определяется временем, тре­ буемым для проникновения заданного количества флюида при

стандартных

условиях

через образец

породы.

Допустим, что

в

результате

одного

определения

получена

проницаемость

108

мД. Является ли

это число «истинной»

проницаемостью

пробы? Другое определение на этом же образце может дать про­ ницаемость, равную 93 мД и третье— 112 мД. На проницае­ мость, записываемую приборами в ходе любого эксперимента, влияет ряд условий, которые внутри прибора неизбежно изменя­ ются от одного определения к другому в результате капризов потока и его турбулентности и не зависят от действий опера­ тора. Ни одно из полученных значений нельзя взять в качестве абсолютной меры истинной проницаемости. В итоге различные источники флуктуации порождают непрерывную случайную ве­ личину, которую мы подвергаем опробованию, делая повторные измерения.

Изменчивость, обусловленная неточностью инструментов, бо­ лее очевидна, когда делаются повторные измерения на единич­ ном объекте, т. е. испытания повторяются без изменений. Такую изменчивость называют ошибками эксперимента. Кроме этого, изменчивость может проявляться в последовательности измере­ ний или результатов экспериментов, проводимых на ряде изу­ чаемых объектов. Обычно именно эта изменчивость и представ­ ляет научный интерес. Довольно часто оба эти типа изменчиво­ сти так перепутаны или совмещены, что экспериментатор не может определить, какая часть изменчивости возникает в силу различий между условиями испытаний, а какая является след­ ствием ошибок измерения.

Предположим, что у нас не образец породы, а значительной длины керн, взятый из скважины, проходящей через слой пес­ чаника. Мы хотим определить проницаемость песчаника, но не можем ввести керн длиной в 20 футов в наш аппарат для изме­ рения проницаемости. Вместо этого мы вырежем из керна не­ сколько малых частей (интервалов) и определим проницаемость каждого из них. Наблюдаемая изменчивость явится следствием как различий между испытуемыми частями керна, так и условий эксперимента. Разработка методов оценки величины отдельных источников изменчивости является одной из важнейших задач статистики.

Выборка — это подмножество элементов, выбранных из некото­ рой совокупности.

Примером конечной совокупности могут служить все нефтя­ ные скважины, пробуренные в Канзасе в 1963 г., а набор всевоз­ можных шлифов песчаника Тэнслип — примером бесконечной геологической совокупности. Заметим, что в последнем примере совокупность включает в себя не только ограниченное число ис­ пытаний, которые были сделаны, но также и все возможные ре­ зультаты испытаний. Испытания, которые были действительно осуществлены, можно рассматривать как выборку из совокуп­ ности всех потенциально возможных испытаний.

Если наблюдения с заданными свойствами систематически исключаются из выборки, то такую выборку называют смещен­ ной. Предположим, например, что нае интересует пористость данного слоя песчаника. Если из выборки исключить все рыхлые и раздробленные породы, так как их пористость трудно изме­ рить, то результат изменится. Вероятно, полученный интервал

значений пористости будет усечен

справа, что даст смеще­

ние выборки в сторону более низких

значений, и потому мы по­

лучим ошибочно заниженную оценку

изменчивости пористости

в слое.

 

Обычно выборки извлекаются из совокупности наудачу. Это значит, что все элементы совокупности имеют равные возможно­ сти быть включенными в выборку. Случайная выборка будет несмещенной, и по мере возрастания ее объема она будет точнее описывать рассматриваемую совокупность. К сожалению, полу­ чение истинно случайной выборки практически невыполнимо, так как при опробовании геологических объектов, не все их части доступны. Пробы из глубинных объектов не имеют такой же воз­ можности попасть в выборку, как пробы из поверхностных обна­ жений. Задача опробования в подобных условиях весьма сложна. В конце этой главы рассматриваются эффекты, возни­ кающие от различия выборочных схем, и проведено сравнение последних. Однако при решении многих геологических задач анализируются данные, собранные без предварительного выбо­ рочного плана. Ярким тому примером является интерпретация погребенных структур по данным скважин.

Статистики

Распределения имеют ряд характеристик, например, такие, как средняя точка, меры разброса и меры симметрии. Эти ха­ рактеристики называются параметрами, если они описывают со­ вокупности, и статистиками, если они относятся к выборкам. Статистики можно использовать для оценки параметров исход­

Среднее арифметическое, вычисленное по данным выборки, имеет два в высшей степени желательных свойства, которые де­ лают его наиболее полезным для оценки среднего или централь­ ного значения распределения, чем любая из двух других выбо­ рочных характеристик: медиана или мода. Во-первых, среднее арифметическое является несмещенной оценкой истинного сред­ него значения совокупности. Необходимо отметить, что стати­ стика является несмещенной оценкой соответствующего пара­ метра, если ее среднее значение, взятое по большому набору вы­ борок, равно этому параметру. Во-вторых, можно показать, что для симметричных распределений, подобных нормальному, сред­ нее арифметическое характеризуется тенденцией лучшего при­ ближения к среднему зцачению совокупности, чем любая другая несмещенная оценка (такая, как медиана), построенная по той же выборке. Это равносильно тому, что выборочные средние имеют меньшую дисперсию, чем выборочные медианы, и, следо­ вательно, являются более эффективными.

Теперь мы можем использовать материал гл. 2 для решения практической задачи и в качестве упражнения напишем простую программу вычисления среднего арифметического для набора данных. Программа 3.1, которую мы будем называть XMEAN,

С

PROGRAM

3-1

с

 

 

С

PROGRAM

TO COMPUTE THE MEAN OF 'N ' SAMPLES

C

 

 

CSET SUM TO ZERO SUMX=0.0

C

READ NUMBER OF SAMPLES TO BE USED

 

READ

(5 ,1 0 0 0 )

NS

 

 

 

DO 100

1 = 1,NS

 

 

 

C

READ A SAMPLE AND ADD TO SUM

 

READ

(5 ,1 0 0 1 )

X

 

 

100

SUMX=SUMX+X

 

 

 

CONTINUE

 

 

 

 

C

COMPUTE THE MEAN

 

 

C

AMEAN=SUMX/FLOAT( NS)

 

 

PRINT

RESULTS

 

 

 

 

WRITE (.6,2000) NS,SUMX,AMEAN

I 000

CALL

EXIT

 

 

 

 

FORMAT

(14)

 

 

 

 

1001

FORMAT

(FI 0 . 1 )

 

 

 

2000

FORMAT

( 2 IHINUMBER OF

SAMPLES = , 1 1 0 , / / ,

 

I2IH

 

SUM

OF

SAMPLES

=

, FI 0 . 1 , / / ,

 

2 2 IH

MEAN

OF

SAMPLES

«

,F 1 0 . 3 )

 

END

 

 

 

 

 

 

Программа 3.1. XMEAN

предназначена для обработки n отдельных наблюдений, где п читается прежде чтения данных. Мы будем использовать эту программу для анализа результатов наблюдений, собранных при исследованиях, которые будут описаны.

В практике геохимического анализа принято проводить серию определений на одном образце. В табл. 3.1 указано пять значе-

нии содержания

хрома, получен­

 

 

Т а б л и ц а 3.1

ных в

результате

спектрографи­

 

Содержание хрома в сланцах

ческого

анализа

образца глини­

 

 

Канзаса

 

стого

 

сланца

пенсильванского

 

 

 

 

возраста из юго-восточного Кан­

 

Н ом ер

С одерж ание, млн-1

заса. Найдите среднее арифмети­

 

 

 

 

ческое по этим данным.

рас­

 

1

V

205

Другая

характеристика

 

пределения— мера

разброса от­

 

2

 

255

дельных

значений

относительно

 

3

 

195

среднего,

или дисперсия.

Изве­

 

4

 

220

стны различные меры этогр свой­

 

5

 

235

ства, но только две из них широ-

j

 

 

 

 

ко используются. Одна из них —

 

 

 

 

уже упомянутая дисперсия, а дру­

 

Сумма

1 1 1 0

 

гая — квадратный

корень

из

 

Среднее

1110/5 = 222

дисперсии, называемый стандарт­

 

 

 

 

ным

отклонением.

Дисперсию

 

 

 

 

можно рассматривать как среднее значение квадратов отклоне­ ний всех возможных значений случайной величины от истинного среднего совокупности, которая определяется по формуле

2 (Х ,- {х )2

 

т2= . 1= 1________

(3.4)

Этим равенством определяется истинная дисперсия совокупно­ сти о2. Выборочная дисперсия определяется символом s2. Если наблюдения Xi, ..., Хп — случайная выборка из совокупности с нормальным распределением, то s2 является эффективной оцен­ кой для а2.

Причина использования среднего значения квадратов откло­ нений может оказаться не совсем очевидной. Может показаться, что целесообразнее охарактеризовать изменчивость просто как среднее значение отклонений от среднего, но простая проверка показывает, что такая величина всегда равна нулю, т. е.

^

( Х . - . Х ) = 0

(3.5)

i^ i

п

 

Конечно, можно оценить абсолютное отклонение от среднего, или так называемое среднее отклонение (MD):

2 | Х , - Х |

MD =

(3.6)

Вертикальные черточки обозначают абсолютное значение (т. е. значение, взятое без знака) заключенной в них величины. Од­ нако можно доказать, что эта статистика менее эффективна, чем выборочная дисперсия. Хотя это интуитивно и не понятно, необхо­ димо подчеркнуть, что дисперсия имеет свойства, которые делают ее намного более полезной, чем другие меры изменчивости.

Так как дисперсия является средним значением квадратов отклонений от среднего, то ее размерность характеризуется квад­ ратами единиц, которыми измерялись исходные наблюдения. Порода, например, может содержать кристаллы полевого шпата, большие оси которых имеют среднюю длину 13,2 мм и дисперсию 2,0 мм2. К счастью, многие не считают площадь мерой дисперсии длин! В большинстве примеров, где мы имеем дело с диспер­ сией, она используется в стандартизированном безразмерном виде, т. е. в виде, не зависящем от выбранных единиц измере­ ния. Этот вопрос будет еще подробно рассмотрен в данной главе.

Чтобы получить статистику, которая характеризует дисперсию, или разброс данных относительно среднего значения, и обладает той же размерностью, что и исходные данные, можно воспользо­ ваться стандартным отклонением. Оно определяется как квад­ ратный корень из дисперсии и обозначается символом^ а, являю­ щимся параметром совокупности; соответствующая выборочная статистика обозначается через s.

Малое значение стандартного отклонения указывает, что на­ блюдения хорошо группируются около центрального значения. Наоборот, большое стандартное отклонение показывает, что на­ блюдения широко рассеяны относительно среднего значения и имеют слабую тенденцию к централизации. Это проиллюстриро­ вано на фиг. 3.6, где изображены две симметричные кривые рас-

500 г

0

10.

20

30

40

50

60

70

 

 

 

Насыщение, %

 

 

 

Фиг. 3.6. Частотное распределение процентного содержания насыщения нефтью в нефтяном поле Оклахомы (А) и Техаса (В).

Фиг. 3.7. Площади стандартного

нормального распределения, заключенные

в пределах интервалов,

кратных стандартному отклонению.

пределения, имеющие различные стандартные отклонения. Кри­ вая А характеризует насыщение нефтью (в процентах) образцов керна из продуктивной зоны северо-восточной Оклахомы. Кри­ вая В представляет те же величины для нефтеносной области за­ падного Техаса. Среднее насыщение нефтью в этих двух регио­ нах различно, но наибольшее различие между кривыми заклю­ чается в том, что для Техаса характерна значительно более высокая изменчивость насыщения.

Весьма полезное свойство нормального распределения со­ стоит в том, что площадь под кривой в пределах некоторого за­ данного интервала может быть точно вычислена. Например, бо­ лее 2/ 3 наблюдений (68,27%) попадают в интервал с центром в среднем значении и длиной, равной двум стандартным откло­ нениям. Примерно 95% всех наблюдений заключается в интер­ вале от —2 до + 2 стандартных отклонений и более 99% содер­ жится в интервале от —3 до + 3 стандартных отклонений. Это показано на фиг. 3.7.

Распределение, указывающее степень насыщения нефтью по­ род северо-восточной Оклахомы (фиг. 3.6, кривая А), имеет сред­ нее значение 20,1% и стандартное отклонение 4,3%. Если пред­ положить, что распределение нормально, то следует ожидать, что около 2/з исследуемых образцов будет иметь насыщение нефтью от 16 до 24%. Изучение исходных данных показало, что

1145 проб характеризуются насыщением,

которое находится

в указанных пределах, что составляет около

6 8 % всех данных.

Только 101 образец, т. е. около 6 %, имеет насыщение вне интер­ вала 2а (12—29%).

Те, кто не имел дела со статистическим анализом, обычно с трудом развивают интуитивное восприятие численного значе­ ния дисперсии или стандартного отклонения. Является ли дис­ персия 10 большой или малой? Что значит стандартное откло­ нение 23? Оказывается, для интерпретации как дисперсии, так

б З а к а з № 455

и стандартного отклонения не требуется приписывать каждому из них численного значения, а требуется сравнивать одну диспер­ сию с другой. Выборка, имеющая наибольшую дисперсию или стандартное отклонение, характеризуется большим разбросом наблюдаемых значений при условии, что все измерения сделаны в одних и тех же единицах.

Равенство (3.4), хотя и определяет дисперсию, обычно не ис­ пользуется для вычислений, так как содержит п операций вычи­ тания, п — умножения и п —-сложения. Вместо этой формулы для вычисления оценки дисперсии используется другая формула, которая имеет следующий вид:

 

 

2 х ? - п Х 2

или

s2

- n-- l •

(З-7)

 

 

 

 

 

„2__

п 2

хг -

 

2

х,

1 = 1

 

\ 1= 1

(3.8)

 

 

п ( п -

1)

 

 

 

С помощью настольной вычислительной машины 2]X i и ^ Х 2

можно подсчитать одновременно, что позволяет уменьшить число требуемых операций на число п. На вычислительной машине формула (3.8) может быть использована для одновременного на­ хождения среднего и дисперсии, что позволяет избежать необхо­ димости дважды использовать одни и те же данные.

Для вычисления оценок дисперсии и стандартных отклонений введем некоторые промежуточные величины, которые часто бу­ дут использоваться во многих процедурах, излагаемых в после­ дующих главах. Нецентрированная сумма квадратов — это про­ сто £ Х 2; центрированная сумма квадратов (SS) определяется

по формуле

s s = 2 ( х , - х )2

(3.9)

1 = 1

или, что алгебраически эквивалентно,

(ЗЛО)

Оценку дисперсии вычисляют путем деления этой величины на п — 1 , т. е.

 

2 х ? -

2 х,

п

/

п

\ 2

S S

п 2

xi -

2 х>

i=i

L V1= 1

1 = 1

\ 1

= 1

п — 1

 

п — 1

 

п ( п — 1)

 

(ЗЛ1 )