7. Заполнение пропусков в таблицах

Среди существующих алгоритмов решения этой задачи можно (с известной долей условности) выделить два больших класса:

1) разработанных в рамках анализа данных и относящихся к той его части, в которой не используются предположения о существовании и виде функций распределения;

2) основанных на применении аппарата «классических» теории вероятностей и математической статистики.

В первом классе в случае одиночного пропуска эта задача может решаться, например, сведением к решению задач (а-в) (Машинные методы …, 1976). К какой именно задаче целесообразно сводить, определяется типом шкалы измерения признака. Так, если признак бинарный, то заполнение одиночного пропуска может быть сведено к решению задачи распознавания с двумя классами обучения; если ранговый или количественный – к решению задачи упорядочения. Если признак номинальный и число принимаемых им значений «не слишком велико» – к решению задачи распознавания с числом классов, большим двух. При этом учитывается вся информация, содержащаяся в таблице. Точно такая же ситуация имеет место, когда все пропуски сосредоточены в одном столбце.

В случае нескольких пропусков, расположенных в различных столбцах, свести к решению типовых задач (а-в) без удаления из таблицы объектов или признаков с пропусками невозможно. Поэтому для такого случая разработаны специальные алгоритмы заполнения нескольких пропусков с учётом всей информации, содержащейся в таблице. Причём эти алгоритмы не используют предположений о существовании и виде функций распределения. По крайней мере у некоторых из них не просматривается очевидной связи с методами, предназначенными для решения типовых задач (а-в) (см., например, (Методы анализа данных…, 1985) и др.)).

Ко второму классу относятся алгоритмы, целиком основанные на применении «классического» аппарата теории вероятностей и математической статистики. С одной стороны, предлагаются, например, откровенно примитивные приёмы типа заполнения пропусков средним значением признака на анализируемой выборке (такой приём реализован, в частности, в программном продукте Statistica for Windows). С другой стороны, в теории вероятности и математической статистике есть направление, в рамках которого разработаны методы и алгоритмы, основанные на предположениях о существовании и конкретном виде многомерных вероятностных распределений значений признаков на исследуемом множестве объектов (Литтл, Рубин, 1990). Приведём в упрощённом виде типичную для этого направления постановку. На бесконечной генеральной совокупности S признаки X₁, X₂ имеют двухмерное нормальное распределение. Дана выборка S₁,…,S_m из этой совокупности. Для некоторых пар X₁(S_i),X₂(S_i), где 1≤i≤ m, не известны значения X₁(S_i) либо X₂(S_i) (т.е. у одних пар известны оба значения, у других известно только значение X₁, у третьих – только значение X₂). Требуется заполнить эти пропуски.

8. Моз (машинное обнаружение закономерностей)

Машинное обнаружение закономерностей активно применяется в ситуациях, когда отсутствие информации непосредственно об объекте моделирования восполняется за счёт учёта косвенных данных. Получение косвенной информации нередко сводится к МОЗ, которое заключается в обнаружении связей между параметрами «хорошо» изученных (или «хорошо видимых» сейсморазведкой) объектов и моделируемого объекта.

Различного рода зависимости между геологическими, геофизическими, геохимическими и т.п. параметрами, выявленные при изучении смежных территорий либо в пределах полигона моделирования, являются эффективным инструментом контроля процесса моделирования, верификации баз данных и результирующей модели. Они же являются важнейшим источником косвенной информации и в этом качестве незаменимы при картировании «плохо видимых» сейсморазведкой и, соответственно, трудно определяемых горизонтов. Это же относится и к слабо изученным сейсморазведкой и бурением горизонтам.

Так, например, при моделировании региональных, зональных или локальных нефтегазоперспективных объектов в нефтегазоносном бассейне чаще всего ищутся и используются на практике стохастические зависимости вида Y=f(X), где Y – картируемый параметр, значения которого известны по редкой сети наблюдений, X – вектор параметров, значения которых известны по более плотной сети наблюдений. Пример такой зависимости:

v(x,y) @ lz(x,y) + ax+by+c,

где x,y – координаты, z(x,y) – график «хорошо» видимой в сейсмическом разрезе геологической поверхности, v(x,y) – график слабо видимой и трудно выделяемой поверхности, l>0 – так называемый коэффициент выполаживания, a,b,c - коэффициенты при x,y и свободный член. Эта зависимость вытекает из анализа структурных взаимоотношений, проведённого Гольдиным (1971). В дальнейшем будем называть её моделью Гольдина. Использована А.М. Волковым и др. (1981, 1988 и др.) для учёта косвенной информации. В следующем выпуске она и способы её применения будут подробно описаны.

МОЗ активно используется при моделировании отметок и толщин флюидоупоров и проницаемых комплексов природных резервуаров УВ, прогнозе их пористости и проницаемости и других параметров. Примеров МОЗ при моделировании геологических объектов в нефтегазоносных бассейнах можно было бы привести довольно много. Причём МОЗ может оказаться полезным при любом уровне изученности регионального, зонального или локального объекта

Для МОЗ, в частности, используется множественный линейный регрессионный анализ, а верификация регрессионных моделей производится, например, через вычисление рангового коэффициента корреляции Спирмена между фактическими и расчётными значениями моделируемого параметра. Эта проверка заключается в установлении достоверности связи между фактическими и расчётными значениями. Могут применяться и другие, в том числе непараметрические, методы, алгоритмы и показатели прикладной статистики, например, нелинейный регрессионный анализ (нелинейное оценивание), представленный в программном продукте Statistica for Windows. Кроме того, не лишней, как и всегда, является геологическая интерпретация выявленных зависимостей.

Что касается программного обеспечения, то для МОЗ с успехом применяются программные продукты, созданные для статистической обработки данных. Отметим, в частности, упоминавшийся уже продукт Statistica for Windows.

Отметим также и стохастические константы – частный случай решающих правил распознавания. Пример их использования для южных и центральных районов Западно-Сибирской НГП: если толщина юры («хорошо» измеримый параметр) не меньше некоторой величины d (метров), то тогурская свита («плохо» наблюдаемое тело в нижне-среднеюрских отложениях) присутствует в разрезе юры (Конторович В.А., 1992, 1995). Наличие таких констант обычно выявляется при анализе информации из региональных баз стратиграфических разбивок. Типичная ситуация – нет «общей» константы d для всего Западно-Сибирского нефтегазоносного бассейна, однако, на уровне отдельных крупных регионов типа южных и центральных областей Западной Сибири, подобные константы во многих случаях прослеживаются.

<<< < Предыдущая 1 2 3 4 5 6 78 / 128 9 10 11 12 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
23.09.201975 Кб1иогп 1-8.docx
#
18.11.201979.19 Кб3ИОГП 2 семинар.docx
#
28.03.201649.89 Кб12ионизирующее излучение.docx
#
06.06.201568.87 Кб17ИП 31. Трансактный анализ Э.Берна.docx
#
14.12.2018293.89 Кб1Истина и ТЭ.doc
#
08.12.2018307.71 Кб3Истомин А.В. Анализ_данных.doc
#
15.08.2019475.14 Кб3историки стационар.doc
#
01.08.2019688.44 Кб19История зарубежной журналистики.rtf
#
23.09.2019180.74 Кб6История культуры 1-5.doc
#
08.05.2019533.5 Кб17История мировых религий.doc
#
17.11.201930.75 Кб3к теме 5 (формат 2).doc