- •Вопросы для гос. Экзамена 2011 интеллектуальные информационные системы Яйлеткан а.А.
- •Теоретические основы обработки и интерпретации геолого-геофизических данных Туренко с.К.
- •ТиПиС Теория информационных процессов и систем. Пономарева н.П.
- •Проектирование ис. Пономарева н.П.
- •Информационные сети Аксарин м.Ю.
- •Ip-адресация, классы сетей, маска сети, технологии cidr, vlsm.
- •Информационная безопасность и защита информации Каранкевич а.А.
- •Корпоративные информационные системы Морозов м.В.
Теоретические основы обработки и интерпретации геолого-геофизических данных Туренко с.К.
Типы шкал измерений геолого-геофизических данных (определения, примеры).
В зависимости от свойств f выделяются следующие типы
f - однозначная функция (шкала наименований);
f - монотонная функция (шкала порядка);
f - линейная функция :
у = ах + b(a>0, b>0) (шкала интервалов);
у =ах (шкала отношений);
у =ax+ b (шкала разностей);
y=x (абсолютная шкала).
Шала наименований(номинальная, классификационная) - устанавливает отношение эквивалентности между объектами, которым приписываются имена
В шкале порядкаобъектам приписываются номера, характеризующие их упорядоченность по определенному свойству
В шкале интервалов,разностей, отношений и абсолютную называет еще числовыми шкалами, так как измеряемые свойства характеризуйся числами. Однако в полном смысле числовыми, над результатами измерения в которых допустимы любые арифметические действия, являются лишь шкалы отношений и абсолютная.
В шкале разностейзначение у не изменяется при любом числе
сдвигов на величину y=x + b = x+2b=..... Постоянная b -
период.
В шкале отношений измерения имеют абсолютный нуль (b = 0) и произвольную единицу измерений.
Свойствам, измеряемым в шкале отношений, приписывают полноправные числа, над которыми можно выполнять любые арифметические действия.
Абсолютная шкала имеет абсолютный нуль (b =0) и абсолютную единицу (а =1). Измерения в ней безразмерные. Такой шкалой является числовая ось. она используется при счёте реально существующих предметов (явлений), например, количество людей в группе.
Допустимые операции над данными в различных шкалах измерений.
Типы шкал |
Операции сравнения | ||||
=, != |
<, > |
Y0-Yi /Y0-Yj |
Yi-Yj |
Yi/Yj | |
Наименований Порядка Интервалов Разностей Отношений Абсолютная |
+ |
- |
- |
- |
- |
+ |
+ |
- |
- |
- | |
+ |
+ |
+ |
- |
- | |
+ |
+ |
+ |
+ |
- | |
+ |
+ |
+ |
- |
+ | |
+ |
+ |
+ |
+ |
+ | |
|
|
|
|
|
Определение шкал в терминах допустимых эмпирических операций.
Шкала наименований. Допустимы некоторые статистические операции: число индивидов в классе и частоты, мода, корреляция качественных данных.
Шкала порядка, дополнительно к отмеченным - медиана, центили и коэффициент ранговой корреляции.
Шкала интервалов. Дополнительно к отмеченным выше - математическое ожидание, дисперсия, коэффициент асимметрии и смешанные моменты, корреляция количественных переменных.
Шкала отношений. Допустимы любые статистические и арифметические операции для данных с фиксированной единицей намерений.
Шкала разностей. При условии договоренности о начале отсчета шкалы допустимы любые арифметические и статистические операции. В противном случае - те же, что и для шкалы интервалов.
Абсолютная икала. Важная особенность этой шкалы - безразмерность её единицы. Допустим любые арифметические и статистические операции.
Типовые задачи оценки погрешности измерений и примеры способов оценки погрешности измерений.
Измерения:
- прямые (1)
- косвенные y=f(x) (H=Vt0/2)
а) для прямых - установление способа оценки ошибок измерений - дельта;
б) для косвенных:
б1) оценка ошибки у, если известна ошибка х (прямая задача);
б2) определение необходимой точности измерения х для достижения заданной точности у (обратная задача);
б3) выяснение условий измерений или вычислений, при которых погрешность будет минимальна.
Методические ошибкипорождаются различными аппроксимациями, округлениями, отбрасыванием членов высших разрядов в разложениях, с учётом различных факторов.
Ошибки моделиобусловлены тем, что объект и различные физические связи присутствуют ь виде некоторых абстрактных понятий, отражающих объект, но не совпадающих с ним (см. п. 1.2).
Ошибки классификации возникают, когда ест возможность отнесения измерения параметров постороннего объекта к изучаемому.
Указанные ошибки в свою очередь по характеру делятся на:
систематические -отражают сущ. Связи появляются каждый Раз при создании опр. Условий
случайные –отражают менее сущ. Связи их не возможно воспроизвести создав те или иные условия наблюдений
(2)
(3)
абсолютная
относительная
- среднеквадратичная погрешность.
Для независимых погрешностей и аргументов.y=f(x1,x2, … ,xn)x1 ,x2 ,…xn ,
При систематической погрешности:
Доверительный интервал:P()=Ф(zв)-Ф(zн)zв=;zн=
нижняя
верхняя
Вероятность для
3*- 0.9973
2*- 0.9945
- 0.6826(для нормального распределения)
Неравенство Чебышева: P()
Классификация и общая характеристика формальных способов комплексной интерпретации геолого-геофизических данных.
Если при интерпретации данных (ИД) оказывается, что Di данные, получаемые одним геофизическим методом, то будем говорить,об интерпретации геофизических данных. Если Di данные комплекса геофизических методов, то об интерпретации комплексных геофизических данных.
Будем выделять три типа исследуемых параметров объекта: геометрические, физические и геологические. Одновременно в dk могут присутствовать данные всех типов.
Если Dk относятся к геологическому объекту или в Dk входят
Все геологические параметры, то будем говорить о геологической интерпретации геофизических данных (ГИГД). В противном случае - о физической интерпретаций геофизических данных. Если при ГИГД оказывается, что Di - данные комплекса геофизических методов, то речь идет о геологической интерпретации комплексных геофизических данных (ГИКГД).
В зависимости от того, к какой категории относятся Dk, выделяют типы интерпретации: качественную, количественную, смешанную.
Под качественными Dk обычно понимается: факт наличия объекта, качественные характеристики объекта, качественные (логические) отношения исследуемого объекта, рассматриваемого как элемент системы (корреляция пластов, районирование и т.д.).
Примерами количественных характеристик объекта являются: координатная привязка и геометрическая характеристика объекта, количественная характеристика условия залегания (угол наклона, ориентация, ...).
При решении реальных геологических задач зачастую приходится определять совокупность разнородных данных - как качественных, так и количественных. В этом случае будем говорить о смешанной интерпретации.
Важно отметить, что при рассмотрении вопросов ГИНГД используется два подхода;
- узкий, когда ГИКГД понимается как некоторая процедура, связанная только с операциями над уже полученными данными .
-широкий.когда ГИКГД рассматривается как некоторая процедура, связанная с операциями по получению и использованию эмпирических данных .
Придерживаясь широкого подхода к ГИКГД основное внимание в разделе уделим средствам преобразования данных.
Основные типы задач комплексной интерпретации будем выделять по типу цели исследования объекта:
а) выделение объекта
б) оценка параметров объекта:
б1) разделение объектов на классы (оценка параметров объекта в шкале наименований);
б2) упорядочение объектов по перспективности (оценка вшкале порядка);
б3) оценивание параметров объектов (оценка в шкале отношений) .
Таким образом, тип задачи определяется типом шкалы измерения целевого свойства (DK).
Постановка и общая схема решения задач распознавания образов.
Классы распределения задачи по эталонному материалу.
Задача распознавания на 1 образ.
Задача распознавания на Nобразов.
Задача распознавания на автораспределение.
Предполагается, что дано множество объектов A={at}, i=1,M (например, множество структур, подготовленных сейсморазведкой к глубокому бурению). Эти объекты могут быть разбиты на t-классов (образов)-{Ak }, k=l.t (например,t-2-структуры-нефгеносные, пустые). На каждом объекте измерены свойства F={f1,f2,... ,fП} (геофизические поля и их признаки). Среди М объектов на M1 объектах известна также и принадлежность объектов к классам (определён признак Р). Совокупность этих объектов будем называть эталонным материалом А3={ aj}, l=1, Ml. Совокупность объектов, для которых не известна принадлежность к образу и её нужно определить, называют материалом распознавания Aп={aj},j=1,M2.
Множество объектов, входящих в эталонный материал, в свою очередь разбивается на два подмножества: Aэ=
, где аэо={аl1}l1=1,M11 - материал обучения, Aээ={al2}, (l2=1,М12 - материал экзамена. Материал обучения предназначен для выбора алгоритма распознавания, а материал экзамена - для оценки его эффективности.
Под задачей распознавания понимается задача отыскания некоторого алгоритма AR eAR
позволяющего каждому объекту aj е Ап
поставить в соответствие образ, к которому принадлежит объект. Причём результаты этого действия можно оценивать с помощью некоторого критерия К.
Таким образом, основными элементами постановки задачи распознавания являются:
Aэ=Aэо+Aээ:F={f1,f2…fn},P,
где AR множество алгоритмов распознавания;
R - критерий эффективности распознавания. Решение задачи(распознавания заключается в выборе алгоритма
распознавания AR eAR на основе Аэ и разнесении на его основе объектов aj е Ап на классы
1. Постановка задачи распознавания.
1.1. Выбор объекта распознавания. Например при разбраковке структур, подготовленных к бурению по степени перспективности на нефть и газ, в качестве объекта распознавания можно ваять структуру, подготовленную к бурению, а южно - точку (узел сети) , в которой измерены геофизические поля.
1.2. Формирование образов в А (например, структуры: высокоперспективные (на нефть), среднеперепективные, низкоперспективные, неперспективные, или - перспективные, неперспективные).
1.3. Выбор эталонного материала Аэ для решения задачи распознавания на Ап (т.е. отвечающего исследуемому множеству
Ап).
1.4. Разбиение эталонного материала Аэ на материал обучения Аэо и материал экзамена Аээ (индивидуальны* или бюрократический подход)
1.5. Описание объектов aj е Ап - задание множества свойств
F-{fj}-, f=l.n .описывающих объекты.
Сюда входят вопросы описания геофизических полей и описания объектов распознавания, опираясь на описание геофизических полей
1.6, Задание класса алгоритмов распознавания - AR отвечающего исходным данным (A:F,P) и другим условиям решения задачи.
1.7. Задание критерия эффективности распознавания - К
2. Решение задачи распознавания.
2.1. Теоретическое решение (обучение).
Заключается в выборе на эталонном материале параметров решающего правила - AR (иди выборе AR на AR), удовлетворяющего некоторому, критерию К. Представления о параметрах решающего дравида конкретизируются в зависимости от вида или класса решающих правил.
2.2, Практическое решение. Использование выбранного алгоритма - AR на материале распознавания - Ап {в прогнозной области).
3. Выработка рекомендаций по использованию результатов распознавания
Из лекций:
постановка задачи (выделение объекта, выделение эталонного материала, разделение эталонного материала на обучение и экзамен, выбор метода распознавания)
решение задачи (практическое, теоретическое)
Примеры детерминированных и статистических алгоритмов распознавания образов на два и более образа.
Статистические алгоритмы: метод Максимального правдоподобия
Разделение объектов распознавания на два класса. В теории проверки статистических гипотез такая задача приводит к сравнению двух гипотез: Н1 – о наличии объектов первого класса, Н2 – о наличии объектов второго класса, путем нахождения коэффициентов правдоподобия
, гдеF– вектор косвенных признаков. Для независимых один от другого признаковf1 коэффициент правдоподобия равен отношению произведений условных вероятностей, вычисляемых для каждогоi-ого признака и по каждомуk-ому классу отдельно:
Если коэффициент больше единицы, объект принадлежит к первому классу, если меньше – ко второму.
Для вычисления условных вероятностей необходимо множество значений признаков разбить на градации таким образом, чтобы в каждую градацию попало хотя бы несколько объектов.
Применяется для разбиения только на два образа, не учитываются весовые коэффициенты признаков.
Метод Байеса
, здесь- апостериорная вероятность того, что объект, на котором измерен вектор значений, относится к k-ому классу,- априорная вероятность появления обхектов k-ого класса,- условная вероятность того, что на объектах k-ого класса может быть замерен вектор.
Процесс распознавания заключается в последовательном вычислении апостериорной вероятность принадлежности i-ого объекта к k-ому классу и отнесении объекма к тому классу, для которого эта вероятность максимальна (принцип максимума апостериорной вероятность). Правило Байеса минимизирует средний риск.
Детерминированные методы распознавания образов.
По ближайшему одному:
- вычисляются меры сходства по косвенному признаку распознаваемого объекта со всеми объектами обучения
- на множестве вычисленных мер сходства ищется максимальная
- проверяется номер образа, к которому относится объект, наиболее схожий с распознаваемым объектом
- распознаваемый объект относится к тому же образу, что и объект, наиболее схожий с распознаваемым объектом
По среднему в образах:
- вычисляются меры сходства по косвенному признаку распознаваемого объекта со всеми объектами обучения
- вычисляется средняя мера сходства распознаваемого объекта с объектами первого и второго образов
- какая из вычисленных мер сходства больше, к такому образу и принадлежит объект
По общему среднему:
- вычисляются меры сходства по косвенному признаку распознаваемого объекта со всеми объектами обучения
- вычисляется средняя мера сходства распознаваемого объекта со всеми объектами обучения
- сравнивается значение мер сходства с объектами
- первого образа со средним значением меры сходства, подсчитывается число ситуаций n1, когда значение меры сходства превышает среднее
- второго образа со средним значением меры сходства, подсчитывается n2
- подсчитываются отношения: N1=n1/L1;N2=n2/L2, гдеL1,L2 – число объектов первого и второго образа соответственно.
- какое из полученных отношений больше, к такому классу и относится распознаваемый объект.
Типовые задачи корреляционно-регрессионного анализа и методы их решения.
Предмет корреляционно-регрессионного анализа – изучение связей между величинами (признаками или свойствами), качественная оценка их тесноты и моделирование их математическими функциями. При этом исследуемые свойства рассматриваются как случайные величины.
Задачи:
оценка по выборочным данным величины коэффициента парной корреляции, множественной корреляции, канонической корреляции
проверка значимости выборочных коэффициентов корреляции
оценка степени близости выявленной связи к линейной.
Суть регрессионного метода состоит в построении регрессионной зависимости между искомым параметра – Yи некоторыми другими параметрамиX={xi}
Задачи регрессионного анализа:
установление формы зависимость yотx
определение вида уравнения регрессии
прогнозирование значений результирующей переменной Y, носящей название отклика по неизвестным значениям переменныхx1,x2…xn, которые иногда называются регрессорами.
Для решения задач корреляции наиболее широко применяется метод наименьших квадратов МНК.
Суть его заключается в поиске коэффициентов aиbв уравнении видаy=ax+b.
После чего оценивается качество построенной модели. Одними из основных характеристик такой оценки являются остаточная дисперсия и коэффициент корреляции:
Общая схема решения задач комплексной интерпретации геолого-геофизических данных методом подбора.
Метод подбора – косвенный метод интерпретации. В этом методе подбирается распределение источников, которое дает в результате решения прямых задач для используемых методов поля наилучшим образом приближающие измеренные поля. В основе подхода лежит решение двух вопросов:
- решение прямой задачи (в рамках отдельных методов)
- перебор вариантов
В настоящее время используются два подхода к решению прямой задачи: палеточный и на основе ЭВМ. Альбомы палеток содержат некоторое количество решений прямых задач для определенных типов полей (гравитационное, магнитное, электрическое), типов моделей источника. Использование ЭВМ позволяет получать более точное решение, рассматривать большее количество вариантов, однако проблемы перебора не решает.
Проблема перебора вариантов в методах подбора реализуется двумя путями:
- специалистом
- на основе оптимизационных математических методов, как детерминированного, так и случайного типов.
-задаем начальную модель объекта,
-задаем формулу,
-рассматриваем теоретическое поле,
-сравниваем эти два значения (наблюденное и теоретическое), задав меру, (визуальный или математический способ),
-принимаем решение. Если E>E0, то 1.