Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Истомин А.В. Анализ_данных.doc
Скачиваний:
2
Добавлен:
08.12.2018
Размер:
307.71 Кб
Скачать

7. Заполнение пропусков в таблицах

Среди существующих алгоритмов решения этой задачи можно (с известной долей условности) выделить два больших класса:

1) разработанных в рамках анализа данных и относящихся к той его части, в которой не используются предположения о существовании и виде функций распределения;

2) основанных на применении аппарата «классических» теории вероятностей и математической статистики.

В первом классе в случае одиночного пропуска эта задача может решаться, например, сведением к решению задач (а-в) (Машинные методы …, 1976). К какой именно задаче целесообразно сводить, определяется типом шкалы измерения признака. Так, если признак бинарный, то заполнение одиночного пропуска может быть сведено к решению задачи распознавания с двумя классами обучения; если ранговый или количественный – к решению задачи упорядочения. Если признак номинальный и число принимаемых им значений «не слишком велико» – к решению задачи распознавания с числом классов, большим двух. При этом учитывается вся информация, содержащаяся в таблице. Точно такая же ситуация имеет место, когда все пропуски сосредоточены в одном столбце.

В случае нескольких пропусков, расположенных в различных столбцах, свести к решению типовых задач (а-в) без удаления из таблицы объектов или признаков с пропусками невозможно. Поэтому для такого случая разработаны специальные алгоритмы заполнения нескольких пропусков с учётом всей информации, содержащейся в таблице. Причём эти алгоритмы не используют предположений о существовании и виде функций распределения. По крайней мере у некоторых из них не просматривается очевидной связи с методами, предназначенными для решения типовых задач (а-в) (см., например, (Методы анализа данных…, 1985) и др.)).

Ко второму классу относятся алгоритмы, целиком основанные на применении «классического» аппарата теории вероятностей и математической статистики. С одной стороны, предлагаются, например, откровенно примитивные приёмы типа заполнения пропусков средним значением признака на анализируемой выборке (такой приём реализован, в частности, в программном продукте Statistica for Windows). С другой стороны, в теории вероятности и математической статистике есть направление, в рамках которого разработаны методы и алгоритмы, основанные на предположениях о существовании и конкретном виде многомерных вероятностных распределений значений признаков на исследуемом множестве объектов (Литтл, Рубин, 1990). Приведём в упрощённом виде типичную для этого направления постановку. На бесконечной генеральной совокупности S признаки X1, X2 имеют двухмерное нормальное распределение. Дана выборка S1,…,Sm из этой совокупности. Для некоторых пар X1(Si),X2(Si), где 1≤i≤ m, не известны значения X1(Si) либо X2(Si) (т.е. у одних пар известны оба значения, у других известно только значение X1, у третьих – только значение X2). Требуется заполнить эти пропуски.

8. Моз (машинное обнаружение закономерностей)

Машинное обнаружение закономерностей активно применяется в ситуациях, когда отсутствие информации непосредственно об объекте моделирования восполняется за счёт учёта косвенных данных. Получение косвенной информации нередко сводится к МОЗ, которое заключается в обнаружении связей между параметрами «хорошо» изученных (или «хорошо видимых» сейсморазведкой) объектов и моделируемого объекта.

Различного рода зависимости между геологическими, геофизическими, геохимическими и т.п. параметрами, выявленные при изучении смежных территорий либо в пределах полигона моделирования, являются эффективным инструментом контроля процесса моделирования, верификации баз данных и результирующей модели. Они же являются важнейшим источником косвенной информации и в этом качестве незаменимы при картировании «плохо видимых» сейсморазведкой и, соответственно, трудно определяемых горизонтов. Это же относится и к слабо изученным сейсморазведкой и бурением горизонтам.

Так, например, при моделировании региональных, зональных или локальных нефтегазоперспективных объектов в нефтегазоносном бассейне чаще всего ищутся и используются на практике стохастические зависимости вида Y=f(X), где Y – картируемый параметр, значения которого известны по редкой сети наблюдений, X – вектор параметров, значения которых известны по более плотной сети наблюдений. Пример такой зависимости:

v(x,y) @ lz(x,y) + ax+by+c,

где x,yкоординаты, z(x,y) – график «хорошо» видимой в сейсмическом разрезе геологической поверхности, v(x,y)график слабо видимой и трудно выделяемой поверхности, l>0 – так называемый коэффициент выполаживания, a,b,c - коэффициенты при x,y и свободный член. Эта зависимость вытекает из анализа структурных взаимоотношений, проведённого Гольдиным (1971). В дальнейшем будем называть её моделью Гольдина. Использована А.М. Волковым и др. (1981, 1988 и др.) для учёта косвенной информации. В следующем выпуске она и способы её применения будут подробно описаны.

МОЗ активно используется при моделировании отметок и толщин флюидоупоров и проницаемых комплексов природных резервуаров УВ, прогнозе их пористости и проницаемости и других параметров. Примеров МОЗ при моделировании геологических объектов в нефтегазоносных бассейнах можно было бы привести довольно много. Причём МОЗ может оказаться полезным при любом уровне изученности регионального, зонального или локального объекта

Для МОЗ, в частности, используется множественный линейный регрессионный анализ, а верификация регрессионных моделей производится, например, через вычисление рангового коэффициента корреляции Спирмена между фактическими и расчётными значениями моделируемого параметра. Эта проверка заключается в установлении достоверности связи между фактическими и расчётными значениями. Могут применяться и другие, в том числе непараметрические, методы, алгоритмы и показатели прикладной статистики, например, нелинейный регрессионный анализ (нелинейное оценивание), представленный в программном продукте Statistica for Windows. Кроме того, не лишней, как и всегда, является геологическая интерпретация выявленных зависимостей.

Что касается программного обеспечения, то для МОЗ с успехом применяются программные продукты, созданные для статистической обработки данных. Отметим, в частности, упоминавшийся уже продукт Statistica for Windows.

Отметим также и стохастические константы – частный случай решающих правил распознавания. Пример их использования для южных и центральных районов Западно-Сибирской НГП: если толщина юры («хорошо» измеримый параметр) не меньше некоторой величины d (метров), то тогурская свита («плохо» наблюдаемое тело в нижне-среднеюрских отложениях) присутствует в разрезе юры (Конторович В.А., 1992, 1995). Наличие таких констант обычно выявляется при анализе информации из региональных баз стратиграфических разбивок. Типичная ситуация – нет «общей» константы d для всего Западно-Сибирского нефтегазоносного бассейна, однако, на уровне отдельных крупных регионов типа южных и центральных областей Западной Сибири, подобные константы во многих случаях прослеживаются.