Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
БД_1 / Лекции / Лекция 15 Достоверность.doc
Скачиваний:
40
Добавлен:
11.06.2015
Размер:
326.14 Кб
Скачать

61

XV. Достоверность и качество данных

Проблема качества данных

Метрики оценки качества БД

Источники ошибок

Методы контроля данных

Оформление результатов контроля данных

Организация работ по повышению качества данных.

Проблема качества данных

Надежная БД должна обеспечивать высокую вероятность работоспособности, быстрое реагирование на потерю или искажение данных, восстановление их достоверности и работоспособности БД. Для любого потребителя информации существует допустимое время отсутствия данных, при котором их значения, изменяясь по инерции, достигают предельного отклонения от того, которое должно было быть рассчитано. Это допустимое отклонение результатов после перерыва функционирования БД зависит, в основном, от динамических характеристик источников и потребителей информации. Необходимо эффективно использовать средства СУБД, которые позволяют восстановить случайно или преднамеренно удаленные записи (сведения о клиентах, продукции и т.п.).

Качество данных второй по важности после безопасности вопрос для компаний, использующих БД. Несмотря на то, что этой проблеме начали уделять большое внимание еще 20 с лишним лет назад [1, 2], она до сих пор не решена, а даже еще больше усугубилась [3,4,6-8,10-12]. Большинство организаций еще только предполагают внедрять какие-либо сложные процедуры оценки качества данных. Если мы хотим, чтобы информация помогала строить конструктивные отношения с партнерами и принимать обоснованные решения, необходимо следить за качеством и повышать достоверность данных. От 15 до 40% бюджета организации расходуется неэффективно из-за низкого качества данных, рис.1. Настала пора решать эту проблему.

Рисунок 1 - Экономика качества данных [4]

Устаревание данных неизбежно. Имена, адреса, номера телефонов, занимаемые должности — все это меняется. Каждый год 20% населения меняет адрес. Ежегодно около четверти записей в базе данных контактов устаревает. Программным способом можно обнаружить лишь 80% несоответствий. А остальные 20% должны проверяться вручную. В результате возникают проблемы. Например, одна компания посылала клиенту коробку товара каждый день в течение месяца, в то время как тот заказал и оплатил лишь одну коробку.

Типичные признаки «грязных данных» — дублирующиеся записи, неправильная информация, неверно скомпонованные поля и несоответствие почтовым требованиям. Ухудшение качества данных - устаревшая или неверная информация о клиентах, которые меняют адреса, переходят на другую работу и т. д., приводят к потере прибыли. Американский институт хранилищ данных (The Data Warehouse Institute) подсчитал, что низкое качество данных обходится американскому бизнесу примерно в 600 млрд. долларов ежегодно. Неструктурированные данные приводят к неправильному выставлению счетов, неудовлетворенности клиентов, невозможности принимать правильные бизнес-решения. Компаниям необходима точная информация о своих клиентах: где они делают покупки, что покупают, чем занимаются, как легче всего с ними связаться и т.д. Качественная информация о клиентах позволяет, опираясь на данные, строить прогнозные модели своих маркетинговых кампаний. Бизнес тратит ежегодно миллиарды долларов на очистку данных.

Многие компании сталкиваются с ситуацией, когда у них есть масса разрозненной информации и большое количество приложений, которые с ней работают. Проблемой является огромное количество структур хранения данных, плохая нормализация некоторых БД, большой объем неструктурированных данных, масса копий данных, различных версий документов, недостаточно подробное описание структур данных, использование нестандартизованных классификаторов.

Точность представления атрибутов может сильно отличаться от приложения к приложению. При интеграции происходит объединение данных из разных источников, степень надежности которых различна. Во многих случаях просто сложно понять даже то, какая именно информация хранится в организации, т.к. нет метаданных. Следовательно, необходимы методы для оценки достоверности полученной таким образом информации. Нужны также средства для анализа происхождения данных.

Важным представляется вопрос о полноте национальных массивов, получаемых посредством обмена через Мировые центры данных. Определение "качество данных" необходимо использовать не только как характеристику достоверности координат измерения, собственно измеренного значения параметра, но и как их пригодность для решения для тех или иных задач. Чем более тонкая проводится обработка, тем более точная и полная нужна информация. Например, исследование изменений климата невозможно без длиннопериодных временных рядов. Чем длиннее временной ряд, тем на больший срок и с большей заблаговременностью можно сделать прогноз. Чем меньше систематических ошибок значениях временного ряда, тем точнее будет прогноз. Например, ранее при измерении уровня моря не учитывались естественные колебания земли.

Несмотря на то, что приведение массивов данных в порядок всегда будет долгом производителей данных, многие центры установили свои собственные стандарты и там, где они считают необходимым, делают пометки об ошибках и несоответствиях. Большинство центров данных стараются оставлять массивы данных как можно ближе к оригинальному состоянию. Однако чтобы получить более ценные массивы, необходимо ввести определенные поправки или смещения в значениях параметров для некоторых атрибутов.

Проблемы сравнимости и надежности данных имеют весьма существенное значение также для измерений температуры воды ртутными и электрическими термометрами, неконтактными методами со спутников (данные дистанционного зондирования) при разном наклоне сканирующего луча и времени сканирования; солености, определяемой аргентометрированием и измерением электропроводности; измерений течений механическими вертушками и по напряжению электрического поля в движущейся токопроводящей жидкости и др.

Существует два аспекта качества данных. Первый - это точность, достигаемая производителями данных в зависимости от используемых методов измерений, приборов и второй - это требования, предъявляемые последующим пользователем. Введение в эксплуатацию автоматических и автоматизированных систем занесения данных на носитель измеряемых значений параметров непосредственно через сигнал датчиков существенно снижает случайные ошибки, но не уничтожает их совсем, так как часть призначных характеристик заносится вручную. Так как, например, на судне до сих пор не интегрированы в одну систему приборы для определения местоположения судна, глубины места, (эхолот), скорости судна и гидрометеорологических параметров.

Как от наблюдателя, так и от потребителя данных требуется разумный подход к калибровке инструментов. Данные являются настолько хорошими, насколько хороши датчики и обрабатывающее оборудование, и без адекватного знания рабочих характеристик датчика может в результате пострадать качество данных. Оценка и стандартизация алгоритмов контроля качества данных должна производиться не только по измеряемым параметрам, но и методам их измерений.

Многочисленные переменные измеряются широким диапазоном серийных и специально сконструированных приборов, каждый из которых характеризуется своими проблемами и качеством в отношении чувствительных элементов, точности, разрешения, скорости реакции, частоты измерений, объема данных, телеметрии данных, предварительной обработки данных и т.д. Что касается международных программ, большая часть данных по определенной территории собирается не только различными странами, но и различными приборами и методами. Подготовка информационной продукции хорошего качества на основе данных, полученных из разных источников, требует четких сведений о них. Иначе возможно искажение основного массива данных, а значит и ошибки в последующей информационной продукции. Поэтому когда данные отправляются в национальный или международный центр, необходимо чтобы производитель снабжал их полной документацией, касающейся используемого прибора, его калибровки и установки; для химических измерений - используемого аналитического метода; для спутниковых данных - протяженности наземной калибровки, а также степени и характера обработки данных. Данные подвержены временной изменчивости, поэтому данные должны оцениваться как с точки зрения качества, так и репрезентативности пробоотбора.

Очевидно, что использование национальных данных из различных стран в виде их простой суммы может привести к неверным выводам и результатам, а вслед за этим и неверному прогнозу. Отсюда вытекает необходимость международной интеркалибрации приборов и стандартизации алгоритмов и приемов, применяемых для контроля качества данных.

Еще одна проблема - это дублирование данных. Данные предварительно обрабатываются различными способами и доходят до центров различными путями. В результате этого появляется многократное дублирование.

Недостатки БД обусловлены тем, что разработчики программных продуктов, подходят к разработке БД поверхностно, в отрыве от насущных и весьма разнообразных информационных потребностей пользователей. Это объясняется тем, что разработкой БД занимаются, в основном, программисты, имеющие поверхностные знания по специфике информационного обеспечения. Работе по контролю БД в общем проекте создания БД уделяется очень мало внимания.

Убытки из-за некачественных данных уменьшаются по мере повышения уровня автоматизации методов контроля данных (уменьшение вероятности ошибки).

Метрики оценки качества данных

От современных БД требуется высокая достоверность данных, наличие возможности оценки их качества, надежность работы БД – вероятность отказов при обслуживании пользователей. Качество данных можно определить как совокупность свойств, обуславливающих возможность ее использования для удовлетворения определенных в соответствии с ее назначением потребностей. Принципы и методы оценки качества данных даны в стандартах ISO 19113:2002 (ГОСТ Р ИСО 19113-2003), ISO 19114:2003.

Набор характеристик и атрибутов стандарта ISO 9126 «Качество программных средств» [9] в той или иной мере может использоваться для повышения качества данных. Характеристики качества информации делятся на функциональные и конструктивные, рис.2.

Важнейшими характеристиками качества являются требования к функциональной пригодности процессов формирования и изменения информационного наполнения БД, а также доступа к данным посредством представления результатов пользователям.

Функциональные характеристики качества БД представляет собой систему измерения и оценки соответствия требованиям к БД реальных значений атрибутов качества. Мерой качества функциональной пригодности может стать степень покрытия целей, назначения и функций баз данных, доступной пользовательской информацией. Функциональные характеристики, определяются функциональными, структурными и эксплуатационными требованиями и отражают следующие показатели.

Объем — число, характеризующее количество данных, доступных для хранения и обработки, может быть оценен в физических и логических единицах. Объем получаемой информации от одного источника оценивается посрочно, ежедневно, еженедельно, ежедекадно, ежемесячно, ежеквартально, за год. Физический объем данных – количество данных в байтах. Логический объем данных – количество единиц обработки данных – станций, квадратов, сроков и др.;

Полнота БД — относительное число записей описаний объектов или документов, доступных для хранения и обработки, по сравнению с полным числом реальных объектов во внешней среде (от возможного или необходимого), или % занесения данных по отношению к исходному (как правило, бумажному) носителю. Полнота позволяет ответить на вопрос, все ли данные присутствуют в БД. Следует различать количественную и семантическую полноту данных. Обычно под полнотой понимают именно количественную полноту данных - соотношение между числом объектов предметной области, описания которых присутствуют в БД и реальным количеством объектов данной предметной области. Оценку семантической полноты принято сводить к оценке наличия пропусков данных, т.к. практически всегда априори известен объем данных, который должен в них присутствовать. Полнота может оцениваться в отношении заполненных полей (атрибутов) описания к общему числу атрибутов. Отказы в обслуживании, обусловленные количественной неполнотой БД, будут возникать даже при безотказной работе техники и программного обеспечения.

Рисунок 2 - Характеристики качества информации

Идентичность – относительно число описаний объектов, не содержащих дефекты или ошибки, к общему числу документов об объектах в базе данных.

Актуальность – относительное число устаревших данных об объектах в ресурсах к общему числу накопленных и обрабатываемых данных (данные отредактированы и пополнены в соответствии с регламентом).

Согласованность - является ли представление данных однородным (типы, форматы, ключи, коды, значения хранятся в нужном формате), нет ли дубликатов, данных с пересекающимися или конфликтующими определениями.

В зависимости от области применения, приоритет при оценке качества БД может отдаваться различным конструктивным характеристикам: надежности и защищенности применения, удобству использования малоквалифицированными пользователями, эффективности использования ресурсов. К числу конструктивных характеристик качества информации относят следующие показатели.

Востребованность данных пользователями - оценивается по числу обращений пользователей.

Динамичность — относительное число изменяемых описаний объектов к общему числу записей в базе данных за некоторый интервал времени, определяемый периодичностью издания версий базы.

Достоверность - это степень соответствия данных об объектах в БД реальным значениям свойств объектов в данный момент времени, определяющиеся изменениями самих объектов, некорректностями записей об их состоянии или некорректностями расчетов их характеристик. Определяется из отношения числа допущенных ошибок к числу зарегистрированных символов. Определяется как вероятность ошибки. Реально достижимая вероятность ошибок без применения специальных средств контроля данных 10 -4 – 10 -5. .

Доступность (или готовность) данных — свойство данных быть в состоянии полностью выполнять требуемую функцию в данный момент времени и при заданных условиях ее использования; возможность поиска данных и получения их в приемлемой форме. Доступность может оцениваться относительным временем, в течение которого БД находится в работоспособном состоянии, в пропорции к общему времени ее применения. Обобщение характеристик отказов и восстановления производится через коэффициент готовности, отражающий вероятность работать с нормальными данными в произвольный момент времени. Нижние границы шкал атрибутов надежности могут быть отражены значениям, при которых резко уменьшается функциональная пригодность БД, а использование конкретной БД становится неудобным и опасным.

Оперативность — степень соответствия динамики изменения данных состояниям реальных объектов, относительное число изменяемых описаний объектов к общему числу записей в БД за некоторый интервал времени, определяемый периодичностью издания версий БД.

Пригодность восприятия данных в программе доступа к данным (процент пригодности ресурсов).

Ретроспектива – интервал времени от даты выпуска и / или записи в базу данных самого раннего документа до настоящего времени.

Своевременностью ввода в БД (актуально ли хранимое значение) - возможность в любой момент иметь данные на последний срок наблюдений или готовность БД к доступу в любое время – 24/7/365, оценивается по времени простоя.

Сертифицированность методов сбора и обработки - совокупность действий и процедур с целью подтверждения того, что данные соответствует принятым в системе ведомственным, национальным и международным стандартам в тематической части ресурса, включает сертификацию методов подготовки ресурсов, должна обеспечить и сертификацию качества использованных в данных.

Сопровождаемость информации отражается удобством и эффективностью исправления, усовершенствования или адаптации структуры и содержания описаний данных в зависимости от изменений во внешней среде применения, а также в требованиях и функциональных спецификациях заказчика. Качество сопровождаемости БД можно оценивать потребностью данных для ее обеспечения и для реализации. Возможные затраты на развитие и совершенствование качества БД зависят не только от внутренних свойств данных, но также от запросов и потребностей пользователей и от готовности заказчика и разработчика удовлетворить эти потребности.

Точность - соответствие реальности (совпадение хранимых и фактических значений) - данные удовлетворяют цели исследований или их можно применить для поддержки решений.

Устойчивость к дефектам и ошибкам — свойство данных автоматически поддерживать заданный уровень качества в случаях проявления дефектов и ошибок или нарушения установленного интерфейса с внешней средой. Высокая устойчивость достигается использованием репрезентативных методов измерений и приборов.

Ценность – количество информации в сообщении с учетом содержания сведений и на основе вероятностей наступления отражаемых им событий и ситуаций, определяется эффективностью использования собранных данных, получением прибыли. Ценность информации определяется актуальностью информации для конкретного объекта; надежностью (оправдываемостью для прогнозов и достоверностью для измеренных и обобщенных данных); заблаговременностью ее получения; правильным выбором критических значений параметров для нормального функционирования различных объектов (необходимостью и достаточностью информации для принятия решений); степенью восприятия информации пользователем, которая зависит от формы представления, времени, которым располагает пользователь от момента получения до момента принятия решения, полезностью информации; количеством предоставляемой пользователю информации, релевантностью, своевременностью получения пользователем данных. Характеристиками ценности информации являются качество, количество, релевантность, надежность, своевременность. Ценность информации, как мера эффективности ее использования, например, при несвоевременном поступлении ценность информации падает. Если прогноз погоды поздно дошел до пользователя, то и выгода от него будет меньше. Ценность информации определяется следующими объективными факторами:

  • актуальностью информации для конкретного объекта;

  • качеством данных – надежностью (оправдываемость для прогнозов и достоверностью для климатических и исходных данных);

  • заблаговременностью ее получения;

  • необходимостью и достаточностью информации для принятия решений;

  • правильным выбором критических значений параметров для нормального функционирования различных объектов;

  • степенью восприятия информации пользователем, которая зависит от формы представления, времени, которым располагает пользователь от момента получения до момента, принятия решения.

Полезность информации можно исследовать с различных точек зрения. Например подойти к этой проблеме число экономически – сопоставить затраты на получение информации с ее полезным эффектом. Можно рассчитать потенциальные убытки и прибыль для различных явлений и объектов экономики в разные сезоны.

Требование оперативности и своевременности доведения данных до пользователя очень важно для многих пользователей. Несвоевременность поступления данных вызывает запаздывание в принятии решений.

Требование оперативности и своевременности доведения данных до пользователя очень важно для многих пользователей. Несвоевременность поступления данных вызывает запаздывание в принятии решений. При несвоевременном поступлении ценность информации падает. Если прогноз погоды поздно дошел до пользователя, то и выгода от него будет меньше.

Полнота и точность выдачи (релевантность), время поиска информации, которые определяются информационно-поисковым языком, способом организации массивов и стратегией поиска. Основными причинами, которые не позволяют осуществить поиск со 100 % полнотой и точностью, является неоднозначность интерпретации смыслового содержания документов при их индексировании и формулировке запросов.

Коэффициент полноты вычисляется по формуле:

а

Кп = ---- 100, (1.1)

а+с

Под коэффициентом точности понимается степень удовлетворения полученной информации сформулированным информационным потребностям и он равен:

а

Кт = ---- 100, (1.2)

а+в

где а – число релевантных документов при выдаче, с – число релевантных документов в базе данных и не выданных при поиске, в - число не релевантных документов, выданных системой.

Полезность информации можно исследовать с различных точек зрения. Например подойти к этой проблеме число экономически – сопоставить затраты на получение информации с ее полезным эффектом. Можно рассчитать потенциальные убытки и прибыль для различных явлений и объектов экономики в разные сезоны.

Соседние файлы в папке Лекции