- •Введение
- •2. Типовые задачи анализа данных
- •3. Элементы прикладной статистики в анализе данных
- •4. Распознавание образов
- •4.1 Основные подзадачи
- •4.2. Сведение задачи уточнения границы геологического тела к решению задачи распознавания образов
- •4.3. Примеры алгоритмов распознавания
- •4.3.1. Байесовские решающие правила
- •4.3.2. Комбинаторно-логические методы в распознавании
- •4.3.1. Линейные методы
- •5. Упорядочение
- •6. Кластер-анализ
- •6.1. Иерархические алгоритмы
- •6.1.1. Агломеративные алгоритмы
- •6.1.2. Дивизимные алгоритмы
- •6.2. Алгоритмы, порождающие разбиения
- •7. Заполнение пропусков в таблицах
- •8. Моз (машинное обнаружение закономерностей)
- •9. Нахождение покрытий и градиентный алгоритм приближённого решения этой задачи
- •10. Учебно-методические рекомендации, контрольные вопросы, комментарии
- •Раздел 2
- •Раздел 3
- •Раздел 4
- •Раздел 5
- •Раздел 6
- •Раздел 7
- •Раздел 8
- •Раздел 9
7. Заполнение пропусков в таблицах
Среди существующих алгоритмов решения этой задачи можно (с известной долей условности) выделить два больших класса:
1) разработанных в рамках анализа данных и относящихся к той его части, в которой не используются предположения о существовании и виде функций распределения;
2) основанных на применении аппарата «классических» теории вероятностей и математической статистики.
В первом классе в случае одиночного пропуска эта задача может решаться, например, сведением к решению задач (а-в) (Машинные методы …, 1976). К какой именно задаче целесообразно сводить, определяется типом шкалы измерения признака. Так, если признак бинарный, то заполнение одиночного пропуска может быть сведено к решению задачи распознавания с двумя классами обучения; если ранговый или количественный – к решению задачи упорядочения. Если признак номинальный и число принимаемых им значений «не слишком велико» – к решению задачи распознавания с числом классов, большим двух. При этом учитывается вся информация, содержащаяся в таблице. Точно такая же ситуация имеет место, когда все пропуски сосредоточены в одном столбце.
В случае нескольких пропусков, расположенных в различных столбцах, свести к решению типовых задач (а-в) без удаления из таблицы объектов или признаков с пропусками невозможно. Поэтому для такого случая разработаны специальные алгоритмы заполнения нескольких пропусков с учётом всей информации, содержащейся в таблице. Причём эти алгоритмы не используют предположений о существовании и виде функций распределения. По крайней мере у некоторых из них не просматривается очевидной связи с методами, предназначенными для решения типовых задач (а-в) (см., например, (Методы анализа данных…, 1985) и др.)).
Ко второму классу относятся алгоритмы, целиком основанные на применении «классического» аппарата теории вероятностей и математической статистики. С одной стороны, предлагаются, например, откровенно примитивные приёмы типа заполнения пропусков средним значением признака на анализируемой выборке (такой приём реализован, в частности, в программном продукте Statistica for Windows). С другой стороны, в теории вероятности и математической статистике есть направление, в рамках которого разработаны методы и алгоритмы, основанные на предположениях о существовании и конкретном виде многомерных вероятностных распределений значений признаков на исследуемом множестве объектов (Литтл, Рубин, 1990). Приведём в упрощённом виде типичную для этого направления постановку. На бесконечной генеральной совокупности S признаки X1, X2 имеют двухмерное нормальное распределение. Дана выборка S1,…,Sm из этой совокупности. Для некоторых пар X1(Si),X2(Si), где 1≤i≤ m, не известны значения X1(Si) либо X2(Si) (т.е. у одних пар известны оба значения, у других известно только значение X1, у третьих – только значение X2). Требуется заполнить эти пропуски.
8. Моз (машинное обнаружение закономерностей)
Машинное обнаружение закономерностей активно применяется в ситуациях, когда отсутствие информации непосредственно об объекте моделирования восполняется за счёт учёта косвенных данных. Получение косвенной информации нередко сводится к МОЗ, которое заключается в обнаружении связей между параметрами «хорошо» изученных (или «хорошо видимых» сейсморазведкой) объектов и моделируемого объекта.
Различного рода зависимости между геологическими, геофизическими, геохимическими и т.п. параметрами, выявленные при изучении смежных территорий либо в пределах полигона моделирования, являются эффективным инструментом контроля процесса моделирования, верификации баз данных и результирующей модели. Они же являются важнейшим источником косвенной информации и в этом качестве незаменимы при картировании «плохо видимых» сейсморазведкой и, соответственно, трудно определяемых горизонтов. Это же относится и к слабо изученным сейсморазведкой и бурением горизонтам.
Так, например, при моделировании региональных, зональных или локальных нефтегазоперспективных объектов в нефтегазоносном бассейне чаще всего ищутся и используются на практике стохастические зависимости вида Y=f(X), где Y – картируемый параметр, значения которого известны по редкой сети наблюдений, X – вектор параметров, значения которых известны по более плотной сети наблюдений. Пример такой зависимости:
v(x,y) @ lz(x,y) + ax+by+c,
где x,y – координаты, z(x,y) – график «хорошо» видимой в сейсмическом разрезе геологической поверхности, v(x,y) – график слабо видимой и трудно выделяемой поверхности, l>0 – так называемый коэффициент выполаживания, a,b,c - коэффициенты при x,y и свободный член. Эта зависимость вытекает из анализа структурных взаимоотношений, проведённого Гольдиным (1971). В дальнейшем будем называть её моделью Гольдина. Использована А.М. Волковым и др. (1981, 1988 и др.) для учёта косвенной информации. В следующем выпуске она и способы её применения будут подробно описаны.
МОЗ активно используется при моделировании отметок и толщин флюидоупоров и проницаемых комплексов природных резервуаров УВ, прогнозе их пористости и проницаемости и других параметров. Примеров МОЗ при моделировании геологических объектов в нефтегазоносных бассейнах можно было бы привести довольно много. Причём МОЗ может оказаться полезным при любом уровне изученности регионального, зонального или локального объекта
Для МОЗ, в частности, используется множественный линейный регрессионный анализ, а верификация регрессионных моделей производится, например, через вычисление рангового коэффициента корреляции Спирмена между фактическими и расчётными значениями моделируемого параметра. Эта проверка заключается в установлении достоверности связи между фактическими и расчётными значениями. Могут применяться и другие, в том числе непараметрические, методы, алгоритмы и показатели прикладной статистики, например, нелинейный регрессионный анализ (нелинейное оценивание), представленный в программном продукте Statistica for Windows. Кроме того, не лишней, как и всегда, является геологическая интерпретация выявленных зависимостей.
Что касается программного обеспечения, то для МОЗ с успехом применяются программные продукты, созданные для статистической обработки данных. Отметим, в частности, упоминавшийся уже продукт Statistica for Windows.
Отметим также и стохастические константы – частный случай решающих правил распознавания. Пример их использования для южных и центральных районов Западно-Сибирской НГП: если толщина юры («хорошо» измеримый параметр) не меньше некоторой величины d (метров), то тогурская свита («плохо» наблюдаемое тело в нижне-среднеюрских отложениях) присутствует в разрезе юры (Конторович В.А., 1992, 1995). Наличие таких констант обычно выявляется при анализе информации из региональных баз стратиграфических разбивок. Типичная ситуация – нет «общей» константы d для всего Западно-Сибирского нефтегазоносного бассейна, однако, на уровне отдельных крупных регионов типа южных и центральных областей Западной Сибири, подобные константы во многих случаях прослеживаются.