Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика и анализ геологических данных

..pdf
Скачиваний:
20
Добавлен:
15.11.2022
Размер:
21.12 Mб
Скачать

путей, по которому приходится идти многим геологам. Эта книга может помочь организовать процесс самообучения, а именно дает возможность сделать первые шаги к познанию описанных в ней алгоритмов. Читателю придется освоить внешне менее эффектные темы, составляющие фундамент, на котором по­ строены, например, основы теории поверхностей тренда и фак­ торного анализа.

Эта книга предназначена также для студентов, которые изу­ чают статистику и программирование. Такие курсы все чаще становятся обязательными в американских и европейских уни­ верситетах. К несчастью, они обычно читаются лицами, мало знакомыми с геологией и с проблемами наук о Земле. Связь этих предметов с основной тематикой обучения студентов оста­ ется неясной. Это чувство осложняется отсутствием математи­ ческих приложений во многих геологических курсах. В то время как студенты нуждаются в специалисте, его учителя зачастую являются людьми, получившими образование до бурного разви­ тия количественных методов и, следовательно, не подготовлен­ ными в этом направлении. В настоящей книге читатель найдет не только довольно общий курс вычислительных методов, но также многочисленные примеры их применения в геологии. Ко­ нечно, мы надеемся, что как студенты, так и преподаватели най­ дут в этой книге что-либо интересное и она будет способствовать распространению тех основ знаний, которые мы называем гео­ математикой.

Об этой книге

Читатель вправе знать с самого начала, куда и по какому пути ведет его автор, а также что от него требуется, так как автор делает определенные предположения о подготовке, инте­ ресах и возможностях своей аудитории. Эта книга посвящена количественным методам анализа геологических данных, т. е. разделу наук о Земле, который в настоящее время называется геоматематикой. Ориентация книги — методологическая, т. е. «как надо делать». Теории уделяется мало внимания по несколь­ ким причинам. Дело в том, что многие геологи стремятся быть прагматиками и поэтому интересуются результатами больше, чем теорией, а большинство полезных процедур все еще не имеет соответствующего теоретического обоснования. Те методы, которые теоретически достаточно разработаны, часто основаны на столь сильных статистических ограничениях, что обычно не выполнимы при исследовании геологических данных. Хотя в книге и обсуждаются элементарные аспекты теории вероят­ ностей и описывается большинство статистических критериев,

все же подробное изложение геостатистической теории предоста­ вляется другим авторам.

В связи с тем что самые сложные аналитические процедуры можно представить как последовательность относительно про­ стых математических действий, уделим особое внимание опера­ циям. Эти операции зачастую выражаются в терминах матрич­ ной алгебры, что в свою очередь приведет к рассмотрению этого предмета. Большинство методов геоматематического ана­ лиза требует привлечения вычислительных машин потому, что количество вычислений становится очень большим, или же по­ тому, что типичные задачи обработки данных требуют действий с большими числовыми массивами. Поэтому мы кратко рассмот­ рим вычислительные машины и языки программирования. Не­ обходимо отметить, что вычислительные машины хорошо при­ способлены к действиям с матрицами, поэтому используемая нами техника матричной алгебры может оперировать с мощ­ ным алгебраическим аппаратом, оставляя нам возможность об­ ращения к эксперименту и рассмотрения приложений.

В последующих главах изложены основы программирования, элементарная статистика и матричная алгебра. Далее рассмот­ рены вопросы анализа различных типов геологических данных, которые произвольно разделены на три категории: данные, со­ бираемые вдоль линии пересечения некоторой территории, дан­ ные, собираемые на картируемой площади, и многомерные дан­ ные, для которых местоположение наблюдений не рассматри­ вается. Первая категория охватывает все классы задач, для которых данные собираются непрерывно по времени или по ли­ нии. К ней относятся задачи анализа временных рядов, страти­ графических разрезов и интерпретации графиков. Вторая кате­ гория охватывает задачи, учитывающие географические коор­ динаты наблюдений: картирование, анализ поверхностей тренда, крайгинг и т. д. Наконец, последняя, третья категория имеет дело с анализом групп (кластер-анализом), классификацией и исследованием внутренних связей внутри наборов данных, в кото­ рых положение пробы на карте или профиле не рассматривается. Задачи изучения палеонтологических, геохимических данных ча­ сто относятся к этой категории.

Материал в книге изложен по принципу от простого к слож­ ному, причем каждая последующая тема строится на основе предыдущих. Так, например, вопросы множественной регрессии, излагаемые в гл. 7, основаны на результатах, полученных в гл. 6 применительно к тренд-анализу, которым в свою очередь пред­ шествует описание нелинейной регрессии в гл. 5. Основная ис­ пользуемая при этом математическая процедура описана при изложении методов решения систем уравнений в гл: 4, а стати­ стические основы регрессионного анализа впервые рассматрива­

лись в гл. 3. Другие методы изложены по аналогичной схеме. Первая тема, рассмотренная в этой книге,— элементарное введение в программирование на цифровых вычислительных машинах, а последняя — факторный анализ. Эти темы разделены пропастью, преодоление которой требует нескольких лет изуче­ ния соответствующих курсов. Ясно, что в одной книге мы не можем осуществить переход от первой темы к последней, не опуская при этом значительного материала. В связи с этим мы пожертвовали основами статистической теории, деталями ма­ тематических операций, сохраняя только те, которые совершенно необходимы, и всеми усовершенствованиями и уточнениями, ко­ торыми обычно сопровождаются основные статистические проце­ дуры. Сохранены фундаментальные алгоритмы, входящие в каж­ дый вид анализа, рассмотрение соотношений между различными количественными методами и простые примеры их применения

в решении задач.

Каждый рассматриваемый в книге метод сопровождается вы­ числительными программами, в которых совершенно отсутствуют усовершенствования, чем они отличаются от исследовательских программ, публикуемых многими организациями. Так как они просты, в них можно проследить последовательность операций и разделить их на составные части, что настоятельно рекомен­ дуется в качестве упражнения. Эти программы достаточны для решения задач настоящей книги и могут быть использованы в исследовательской работе при обработке небольших массивов экспериментальных данных. Преимущество этих программ в простоте. Они не позволяют делать выбор, скорее они решают одну задачу и однозначно выдают результат.

Мы считаем, что методы количественного анализа в геоло­ гии могут быть весьма полезными в исследовательской работе: они дают не столько доказательства или подтверждения геоло­ гических гипотез, выработанных интуицией, сколько критическое исследование явления и проникновение в его сущность. Сбор данных соответствующего качества и в достаточном количестве для целей численного анализа приводит к более полноценному изучению объекта, чем другие способы исследования. Несом­ ненно, что палеонтолог, тщательно измеряющий сотни образцов некоторого организма, может лучше оценить границы естествен­ ного изменения измеряемых характеристик, чем человек, который просто исследует их. Точность и объективность, требуемая коли­ чественной методологией, может отчасти компенсировать интуи­ цию и опыт, которые вырабатываются годами работы. В то же время дисциплина, необходимая для выполнения количественных исследований, ускоряет творческий рост и зрелость ученого.

Измерения и анализ данных могут привести к выводам, ко­ торые не вполне понятны или очевидны при использовании

тугих методов исследования. Многомерные методы, например, озволяют объединять объекты в группы, которые находятся в со- 1асии с принятыми классификациями, однако они могут укалть на неожиданные соотношения между переменными. Эти ^отношения требуют объяснения. Иногда требуемое объяснение е может быть найдено, а в других случаях, наоборот, могут г озникать новые теории, которыми иначе пренебрегли бы.

Возможно, что наибольший эффект от количественных мето­ дов заключается не в их способности показать, что верно, а ско­ рее в том, чтобы показать, что неверно. Эти методы, могут казать на недостаточность данных, обилие допущений, 'малое количество информации, на которой базируется большинство гео­ логических исследований. При внимательном и беспристрастном нализе многие геологические выводы превращаются в набор догадок и предположений, основанных на очень незначительном количестве данных, большая часть которых имеет противоречиую и незаконченную форму. Если бы геология была экспери­ ментальной наукой, подобно химии и физике, где наблюдения можно проверить на опыте, то упомянутые противоречия можно было бы устранить. Однако мы имеем дело с описательной нау­ кой, и точное применение количественных методов часто напоми­ нает нам о несовершенстве наблюдателей, каковыми мы явля­ емся. В самом деле, склонность к научному скептицизму — одна из опасностей, которая часто подстерегает геоматематиков. Им часто свойственна подозрительная и противоборствующая пози­ ция по отношению к установившимся в геологии традициям. Однако надо признать, что такой цинизм зачастую имеет оправ­

дание. Геологи обучаются

наблюдению образов и структур

в природе. Геоматематические

методы обеспечивают объектив­

ность, необходимую для того, чтобы избежать существования тех образов, создание которых оправдано только соображениями общего порядка.

Геостатистика

Все методы количественного геологического анализа, рас­ сматриваемые в этой книге, можно отнести к разряду статисти­ ческих, иногда «квазистатистических» или «протостатистических», процедур. Большинство из них недостаточно развито, чтобы использоваться при строгой проверке статистических ги­ потез, и ни один из этих методов нельзя считать адекватно от­ вечающим общей теории геологических совокупностей. Однако, подобно статистическим критериям, методы математической гео­ логии основаны на предпосылке, что информацию о явлении можно получить в.результате исследования малой выборки, ото­

бранной из значительно большего множества потенциально воз­ можных наблюдений изучаемого явления.

Рассмотрим задачу картирования глубинных структур при поисках месторождений нефти. Изучаемые при этом данные отби­ раются из скважин, разбросанных на некоторой площади и про­ низывающих последовательность стратиграфических горизонтов. Единичное наблюдение представляет собой абсолютную отметку кровли горизонта, замеренную в одной из скважин. Если бы мы могли пробурить неограниченное число скважин, то это поз­ волило бы получить бесконечное множество замеров абсолют­ ной отметки кровли данного горизонта. Однако в действитель­ ности мы ограничены уже пробуренными скважинами и, воз­ можно, если это будет оправданно, пробурим небольшое число дополнительных скважин. По этим данным мы должны наилуч­ шим образом описать конфигурацию кровли горизонта между скважинами. Эта задача аналогична статистическому анализу, но в отличие от статистики мы не можем составить выборочный план или контролировать способ, которым имеющиеся данные были получены. Однако мы можем использовать методы коли­ чественного картирования, которые тесно примыкают к стати­ стическим процедурам, даже в том случае, если формальные статистические требования не все выполнены.

В противоположность этому можно рассмотреть также горно­ проходческие работы и процесс эксплуатации месторождения. В течение многих лет горные инженеры и геологи разрабаты­ вали детальные схемы опробования и бурения и проводили ста­ тистический анализ своих наблюдений. В последнее время коли­ чество публикаций по теории опробования катастрофически ра­ стет. Их авторы, создавая теоретическую базу для применения формальных статистических критериев, предлагают для описания изменчивости содержаний руды ряд сложных статистических распределений. Там, где геологи контролируют отбор проб, они могут быстро выбирать удобную систему отработки. Их успех

в разработках месторождений свидетельствует о силе этих ме­ тодов.

К сожалению, большинство геологов вынуждены брать свои, пробы только там, где это возможно. Данные по нефтяным сква­ жинам слишком дороги для того, чтобы отбросить их только по­ тому, что они не укладываются в схему опробования. Палеон­ тологи вынуждены довольствоваться ископаемыми остатками ор­ ганизмов, взятыми из обнажения, которые, будучи погребенными, никогда бы не были доступны исследованию. Пробы могут быть также отобраны из апикальных частей интрузивов, обнаженных в стенах ущелий. Пробы из корневых частей тех же тел безна­ дежно глубоко скрыты в земной коре. Редко встречается случай, когда в одном месте собрано | n inmrn" ||Г1ПГП -пянщлх,

2 З а к а з № 455

Чаще бывает так, что их недостаточно. Наши наблюдения, свя­ занные с исследованием Земли, слишком дороги для того, чтобы ими можно было пренебречь. Мы должны выяснить, какие све­ дения мы можем из них извлечь, изучить тенденцию и недостатки этих сведений.

Многие опубликованные работы посвящены вопросам плани­ рования статистического эксперимента. Среди них наиболее ин­ тересной является геологическая часть книги Гриффитса, в кото­ рой рассматривается вопрос о влиянии выборки на результаты использования статистических критериев. Хотя примеры Гриф­ фитса взяты из осадочной петрологии, те же методы применимы в равной мере и к другим проблемам в науках о Земле. Книга дает строгую формальную интерпретацию геологических явлений, основанную на использовании статистических методов. Ее можно рекомендовать тем, кто при проведении геологического экспери­ мента может осуществить строгий контроль над процессом взя­ тия проб. Так как эти вопросы вместе с вычислительной про­ граммой подробно освещены в книге Гриффитса [4], а также в руководстве Гриффитса и Ондрика [5], мы не будем касаться планирования экспериментов в этой книге. Вместо этого мы оста­ новимся на более сложных ситуациях, когда схема взятия проб (либо случайно, либо по неведению) находится вне нашего конт­ роля. Однако замечено, что неконтролируемый эксперимент (т. е. такой эксперимент, при котором исследователь не может влиять на места взятия проб) обычно выводит нас за рамки классической статистики. Это область «квазистатистики» или «протостатистики», где допущения формальной статистики не могут быть использованы безоговорочно. В этой области не су­ ществует вполне разработанных критериев проверки гипотез и лучшее, на что мы можем надеяться,— это использование извест­ ных процедур во вспомогательных целях, причем в конечном счете выбор решения предоставляется исследователю.

Системы измерений

Количественные методы в геологии требуют более глубоких знаний, чем те поверхностные сведения, которые необходимы при использовании перфокарт. Так как выводы, полученные с по­ мощью количественных методов, основаны хотя бы частично на величинах, полученных в результате измерений, геолог должен иметь представление о природе систем чисел, в которых произ­ водятся измерения. Но ученый, исследующий Землю, должен не только понимать геологический смысл записываемых перемен­ ных, но также чувствовать математический смысл используемых шкал измерений. Эта тема более сложная, чем может показаться

на первый взгляд. Ее подробное изложение и библиография при­ ведены в книге, изданной Черчменом и Рэтушем [1], и, с геоло­ гической точки зрения, в статье Гриффитса [3].

Измерение — это приписываемое наблюдению число, которое отражает величину или значение некоторой характеристики. Способ, которым приписываются численные значения, определяет шкалу измерений, последняя в свою очередь определяет тип ана­ лиза, который может быть осуществлен с этими данными. Суще­ ствует четыре шкалы измерений, причем каждая последующая более точна, чем предыдущая, и более информативна. Первые две — это номинальная и порядковая шкалы, в которых измере­ ния попросту классифицируются в две взаимно исключающие одна другую категории. Две последние шкалы — интервальная и шкала отношений — являются как раз тем, что мы обычно счи­ таем «измерениями», так как они заключают в себе измерения величин признака.

Номинальная шкала измерений основана на классификации наблюдений во взаимно исключающие одна другую категории одинакового типа. Эти категории могут быть обозначены цве­ тами, как, например, красный, зеленый, голубой, или символами «А», «В», «С», или числами. Однако числа могут использоваться просто как идентификаторы, т. е. может не существовать соот­ ношения «2 вдвое больше 1» или «5 больше 4». Классификация ископаемых остатков по типам является примером номинальных измерений. Отнесение одних ископаемых остатков к брахиоподам, а других — к криноидеям ничего не говорит об относитель­ ном значении или величине тех и других.

Можно сосчитать число наблюдений каждого типа в номи­ нальной системе и затем использовать для их обработки какиелибо непараметрические критерии. Классический пример данных этого типа, который мы будем часто рассматривать ниже,— по­ явление герба или решки при бросании монеты. Примером гео­ логического эквивалента этих данных может служить появление зерен полевого шпата или кварца вдоль пересечения шлифа. Кварц и полевой шпат образуют две взаимно исключающие одна другую категории, которые нельзя никаким образом осмысленно ранжировать.

Иногда ранжировку наблюдений можно провести иерархи­ ческим способом. Шкала твердости Мооса — четкий пример по­ рядковой шкалы. Хотя твердость минералов в шкале, имеющей десять делений (от 0 до 10), и увеличивается с повышением ранга, разности между соседними уровнями различны. Различие между абсолютной твердостью алмаза (ранг 10) и корунда (ранг 9) больше, чем различие между всеми остальными ран­ гами (от 0 до 9). Аналогично метаморфические породы можно ранжировать по степени метаморфизма, которая отражает

интенсивность метаморфического изменения. Однако переходы между разными уровнями не отражают единой закономерности изменения температуры и давления.

Как и для данных номинальной шкалы, количественный ана­ лиз порядковых измерений ограничен главным образом подсче­ том числа наблюдений в различных состояниях. Однако мы можем также рассмотреть способ, которым упорядочены различ­ ные порядковые классы, следующие один за другим. Это дела­ ется, например, при определении того, имеют ли состояния, появ­ ляющиеся необычное число раз, тенденцию следовать за наи­ более или наименее частыми состояниями порядковой шкалы.

Интервальная шкала — шкала, где длина последовательных интервалов постоянна. Наиболее распространенный пример — температурная шкала. Увеличение’ температуры от 10 до 20°С точно такое же, как увеличение между ПО и 120°С. Однако ин­ тервальная шкала не имеет естественного нуля, или точки, где величина является несуществующей. Таким образом, отрицатель­ ные температуры — это просто температуры ниже условного нуля. Начальная точка отсчета для стоградусной шкалы была выбрана произвольно, как точка замерзания воды. В абсолют­ ной шкале Кельвина точка 0 К обозначает температуру, при ко­ торой останавливается молекулярное движение. Никакая темпе­ ратура не может быть ниже этой. Таким образом, шкала Кель­ вина является не интервальной шкалой, а шкалой отношений.

Шкала отношений имеет не только одинаковые приращения между отдельными градациями, но и истинную нулевую точку. Измерения длины относятся к этому типу. Длина в две единицы вдвое превосходит длину в одну единицу. Не существует объек­ тов нулевой длины. Общепринято, что отрицательных длин не существует.

Шкала отношений является наивысшей формой измерений. С ее помощью можно осуществить все типы математических и статистических операций. Хотя интервальная шкала теоретически менее информативна, чем шкала отношений, для многих целей обе могут быть использованы с одинаковым успехом. Большин­ ство геологических измерений осуществляется на шкале отноше­ ний, потому что они состоят из измерений длины, объема, массы и т. д. В следующих главах мы прежде всего будем касаться анализа интервальных и относительных данных. Между ними не будет делаться никакого различия; более того, их можно сов­ местно использовать при решении одной и той же задачи. Такого рода пример встречается в анализе поверхностей тренда, где функция может быть измерена на шкале отношений, тогда как географические координаты, являющиеся аргументами,— на ин­ тервальной шкале, так как начало координатной сетки можно выбрать произвольно.

Ложная уверенность

По-видимому, эту главу можно было бы закончить следую­ щим предупреждением. Применяя математические методы, мо­ жно запутаться в тех из них, которые имеют некую претензию на точность, в некотором приближении выражают существующие соотношения и основаны, как это принято считать, на непогреши­ мых процедурах. Заметим, что вычислительные машины можно использовать как очень эффективное средство запугивания. Так, представление численных массивов с точностью до восьми деся­ тичных знаков обычно подавляет умы многих людей и утверж­ дает их природный скептицизм. Геологический доклад, исполь­ зующий математические термины и переполненный численными данными, обычно отпугивает всех, кроме немногих критиков, и даже те, кто понимает его и может дать объяснения, делают это на непрофессиональном уровне. Итак, и доклад, и критика про­ ходят сквозь умы предполагаемой аудитории. Однако наиболь­ шая опасность для исследователя находится в нем самом. Если ему приходится иметь дело со своей собственной вычислитель­ ной машиной, он может перестать критически анализировать свои данные и методы их интерпретации. Загипнотизированный числами, не видя ничего за пределами вычислительной лабора­ тории, он может прийти к самым нелепым заключениям. Необ­ ходимо всегда иметь в виду изречение, обычно имеющееся на

стенах каждого вычислительного центра: «что посеешь, то и пожнешь».

Глава начиналась с одной цитаты, закончим ее другой. Сле­

дующие слова были оставлены на моем столе неизвестным кри­ тиком:

«Что может быть ограниченнее, чем ввод неверных данных в ЭВМ и

наивная надежда получить уточненное наполеоновское решение?»

 

 

 

 

 

 

 

Майор Александр П. де Северски

СПИСОК ЛИТЕРАТУРЫ

 

 

 

 

 

 

 

1

?oh*nCw

а 7 -

Р-

eds., Measurement, definitions and

theories,

о

p i

Wn ey,& Sons> Inc.,

New York, 274,

1959.

 

 

 

 

ries*A

lie

1^_6^1953^anS*°n

s *a*ist'cs’

<I°ur-

Royal

Statistical

Soc., se-

^

 

 

asP?cts °I

measurements in the

geosciences,

Pennsyl-

4

Griffith! r6

^ n'V ^ " letr-a

Industr‘es,

29,

No. 4,

p. 1, 4, 5, 8, I960.

 

4

Inc. New York’ бО ^Т эб^

method ln

ana|ysis

of sediments, McGraw-Hill,

5

Geological

<'>^ rlck £-• Jf-> Sampling a geological population, Kansas

 

Survey Computer Contribution, 30, p 53, 1968.

 

Глава 2 ВЫЧИСЛИТЕЛЬНЫЕ МАШИНЫ И ПРОГРАММИРОВАНИЕ

Вычислительные машины

Вычислительные машины — это устройства, которые прини­ мают информацию, производят с ней операции в соответствии с заложенными инструкциями и выдают результаты этих дейст­ вий. В современных вычислительных машинах совокупность инструкций может быть изменена либо с помощью внешнего вме­ шательства, либо с некоторыми ограничениями самой вычисли­ тельной машиной. Необходимо отметить, что электронные вычис­ лительные машины обладают большими возможностями само­ контроля. То, что вычислительная машина является электронной, ничего не добавляет к определению, так как практически на­ значение всех вычислительных машин одно и то же. Так были созданы гидравлические аналоговые и малые механические вы­ числительные машины, а также вычислительные машины непре­ рывного действия, разработанные во время второй мировой войны для решения больших систем уравнений. Вычислительные бюро с настольными вычислительными машинами создавались по следующему принципу: каждый клерк выполнял одну и ту же простую операцию, а результаты передавались от одного вы­ числителя к другому на листках бумаги. После проведения всех необходимых вычислений задача считалась решенной.

Современные вычислительные машины бывают аналоговые и цифровые, но существует и смешанный тип. Аналоговые вычис­ лительные машины работают на основе непрерывно изменяю­ щихся электрических сигналов. Они предназначены для модели­ рования или построения некоторого процесса, протекающего во времени. Вводимый в аналоговое устройство сигнал с помощью множества электрических и электронных схем можно изменить практически любым способом, получая на выходе функциональ­ ное преобразование первоначального сигнала.

Аналоговые устройства не содержат логических схем, как цифровые вычислительные машины. Скорее они составлены из модулей, каждый из которых выполняет свою специфическую