Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции / Лекция 15 Достоверность.doc
Скачиваний:
37
Добавлен:
11.06.2015
Размер:
326.14 Кб
Скачать

В стандартном процессе обработки данных имеется ряд источников ошибок:

  • ошибки в первичных данных (ошибки измерений, сбои информационно – измерительных систем) - намеренный ввод неправильных сведений в оперативном режиме, сокращение текста при вводе данных операторами, ошибки в данных, полученных путем обмена, ввод ошибочных данных клиентами, использование различных форматов данных в разных системах;

  • ошибки, возникающие в процессе эксплуатации технологий обработки данных;

  • ошибки, связанные со сбоями вычислительной техники, программных средств.

Ошибки вычислительной техники на несколько порядков менее вероятны, чем ошибки при занесении данных на носитель. Ошибки в первичных данных возникают из-за несовершенства измерительных систем, средств регистрации и передачи информации. В результате могут появиться значения параметров, выходящие за физически допустимые пределы, ошибки в кодировании значений ключевых характеристик, появление двух одинаковых экземпляров свойств объекта и др.

Можно выделить четыре категории ошибок (http://www.dwinfocenter.org/errors.html): неполные данные, неправильные данные, непонятные данные, непоследовательные данные.

Неполные данные – т.е. в них имеются отсутствующие записи. Чаще всего возникает по причине сбоев в системах сбора данных. Сюда же относятся отсутствующие поля – задача сбора данных решалась частным образом – хотелось как можно быстрее создать БД, при этом не думали о будущем. Записи или поля которые при проектировании не предусматривались, то есть это был небрежный проект, без предварительного исследования источников данных и информационных потребностей пользователей.

Неправильные данные - то есть данные, имеющие ошибки, связаны с:

  • неправильным применением кодов - это обычно происходит, когда используются старые протоколы обработки данных, исторические данные;

  • неправильными расчетами, агрегацией - эта ситуация возникает при загрузке уже ранее вычисленных данных (необходимо иметь исходные данные для проверки результатов расчетов);

  • ошибочным вводом информации в источнике данных – это связано с плохими формами ввода (последовательность записи года, месяца, дня в дате, плохое качество бумажного источника, др.), здесь необходимы более жесткие системы контроля ввода данных.

Непонятные данные связаны с:

  • неправильным парсингом кодов – это плохо составленный алгоритм конвертирования кодов или плохое соответствие двух классификаторов;

  • хранением значений атрибутов в разных полях - это ситуация, где источник передает данные по различным каналам связи, на различных носителях и форматах;

  • дупликацией данных - возникает в пределах одной системы, а особенно при объединении разных источников информации;

  • непродуманным использованием схем форматирования, чтобы уменьшить использование памяти, например, можно хранить число в виде 4 байт, а можно сохранить в виде двух байт, но при этом это число не может превышать значение 32000, другой пример, хранение цифровых данных сначала в символьном виде, а затем в виде числа – при преобразовании могут исчезнуть значащие нули;

  • применением неизвестных кодов – при анализе БД, можно найти неизвестные значения кодов – это или ошибка при вводе данных или ошибка в алгоритме конвертирования – включен не тот код;

  • ошибками несовместимости – эта категория охватывает наиболее широкий диапазон проблем, это связано с единицами измерения, ошибками в представлении даты и времени, непоследовательном использовании различных кодов, др.;

  • различными кодами с одним тем же значением атрибута – используются два разных классификатора для одного объекта;

  • непоследовательными именами и адресами - это случай различных кодов с одним и тем же значением, например, при изменении названия организации можно вести новый код, а можно создать таблицу «Жизненный цикл изменения кодов».

Непоследовательные данные связаны с:

  • непоследовательными правилами получения вычисленных характеристик – это когда значения поля вычисляются неодинаково по разным формулам, в зависимости от района, метода;

  • непоследовательной агрегацией данных - это случай использования различных правил при вычислении одних и тех же статистических характеристик в различных ситуациях, например, в области исследования климата принят одинаковый период обобщения данных (30 лет, каждые 5 лет производится пересчет);

  • использованием неодинаковых атомарных единиц представления данных – это бывает при использовании разных моделей данных;

  • разными единицами оценки объемов данных в логических единицах - это случай разного использования единиц хранения атомарной информации;

  • непоследовательным использованием атрибута – например, можно в поле адрес хранить всю информацию о клиенте, а можно отдельно улицу, дом, почтовый индекс, город, регион, страна, второй случай более правильный;

  • непоследовательной датой - это случай непоследовательного использования атрибута, когда сливаются данные из двух систем, в которых различная политика использования дат (дата ввода измерения, дата ввода в систему, дата передачи);

  • непоследовательным использованием пространства памяти, пустых значений и так далее, например, чтобы отмечать отсутствующие измерения, забракованные или вычисленные значения, необходимо иметь признак качества для каждого такого значения атрибута;

  • отсутствием ссылочной целостности - может привести к ошибкам в значениях одних и тех же атрибутов в разных таблицах;

  • не синхронизированной агрегацией - некоторая суммарная информация может быть получена независимо в различных таблицах, например, среднемесячное значение можно получить путем агрегации срочных значений, а можно на основе среднесуточных значений;

  • сложностью ведения хранилища данных - увеличивается геометрически со временем – уходят специалисты, которые знали данные, алгоритмы и проблемы БД.

БД представляют сложные человеко-машинные системы, реальная достоверность сбора первичной информации в которых определяется как надежность работы технических систем, так и ошибками, вносимыми операторами. Основными причинами искажений в процессе создания БД являются:

  • отсутствие или неточность инструкции и стандартов работы;

  • несовершенство или отсутствие макетов таблиц – документов, нечеткость заполнения первичных документов, смятие или загрязненность первичных (машинных) документов;

  • сложность применяемых классификаторов и форм занесения данных, несоответствие макета первичного документа форме ввода данных на компьютере;

  • недостаточная квалификация оператора, недобросовестное отношение к работе – небрежность, невнимательность, халатность;

  • неточность в документации;

  • плохая организация хранения и учета носителей информации;

  • преднамеренное искажение информации в корыстных целях;

  • недостаточная сознательность, безразличие и безответственность в работе;

  • организационные недостатки в работе оператора – отсутствие постоянного закрепленного рабочего места, совместительство, нарушения или отсутствие графика работы, отвлечение на другие работы;

  • обезличка в работе и отсутствие контроля;

  • отсутствие морального и материального стимулирования хорошей работы;

  • низкая трудовая дисциплина;

  • неритмичность в работе (много потерь времени на этап врабатываемости);

  • завышенный темп работы, усталость, возбужденное или угнетенное состояние оператора;

  • недостатки в организации рабочего места (плохое освещение, шум), неудобная конструкция рабочего места, плохая регулировка и настройка (где лежит документ и клавиатура);

  • недостаточная автоматизация ввода данных;

  • сбои измерительной системы (неправильная работа датчика – погрешность измерения, приближенная запись) и ЭВМ при вводе данных (залипание клавиш; некачественность, физический износ и старение технического носителя; нарушение работоспособности из-за климатических и механических воздействий, флуктуации напряжения питающей сети);

  • сбои аппаратуры при обработке данных (ошибочное вычисление значения);

  • искажения в процессе передачи данных по каналам связи (наводки и помехи атмосферного и производственного характера, шум и частотные искажения в каналах связи);

  • ошибки в алгоритмах и программах;

  • форматные ошибки (изменение формата атрибута, количества байт, добавление или пропуск символа, появление запрещенных символов в атрибуте, сдвиг атрибутов, нарушающих шаблон сообщения, пропуск или появление дополнительных служебных символов, изменение количества реквизитов).

Средняя вероятность ошибки при вводе информации с клавиатуры находится в диапазоне (0.5-1.5) 10 -3 ошибок / символ.

Методы контроля данных

Процесс управления качеством данных можно разделить на следующие этапы:

– определение качества исходных данных;

– определение правил обеспечения качества этих данных;

– разработка процессов очистки данных;

– внедрение этих процессов;

– контроль данных.

Для этапа исследования можно использовать средства профилирования – они осуществляют быстрый анализ данных во всех исходных системах, выдавая заключение и предлагая инструкции по построению обработки данных. Определение и построение правил обеспечения качества данных крайне важно для стандартизации, сравнения и консолидации данных.

Проверка качества данных становится отдельным этапом работ при загрузке БД. Обеспечение качества данных – нетривиальная задача. Основными методами контроля являются:

  • самоконтроль;

  • дублирование операций (или части операций) при вводе информации (двойной ввод);

  • применение помехоустойчивых кодов, базирующихся на использовании признаков делимости чисел (четность, нечетность) запрещении использования некоторых символов, введение избыточной информации в передаваемые данные;

  • осуществление программно-логического контроля (совместимость, непротиворечивость, нахождение в некотором заданном интервале значений, дополнение атрибутов до заданного формата поля, контроль существования значения атрибута, сравнение из различных источников).

Для сведения к минимуму потерь от случайных искажений требуется создавать или использовать уже готовые программы:

  • ведения системного журнала СУБД, подробно фиксирующего каждую операцию над БД (описание транзакции, адреса компьютера, пользователя, время, тип и адрес изменения данных, значение данных до и после выполнения транзакции);

  • контроля достоверности, использующие соответствующие методы контроля данных;

  • отката, создания контрольных точек и повторного исполнения транзакции, вызвавшей искажение БД.

Учитывая характер наиболее массовых ошибок, целесообразно предусматривать три категории алгоритмов качества данных на каждом этапе преобразования информации:

  • контроль соблюдения форматов записи данных на носитель (синтаксический контроль);

  • контроль числовых значений параметров и ключевых характеристик измерений при вводе данных (семантический контроль);

  • контроль выходной информации из БД (прагматический контроль).

Синтаксический – это по существу контроль достоверности данных, не затрагивающий содержательного смыслового аспекта информации. Предметом этого контроля являются контроль форматов представления данных, шаблонов и масок ввода данных, наличия атрибутов (их номенклатуры), порядка следования, наличие служебных признаков в структуре сообщения, упорядоченности данных, появления запрещенных символов, комбинаций, полноты поступления первичной информации и сопровождающих ее метаданных.

Семантический контроль оценивает смысловое содержание информации, его логичность, непротиворечивость, диапазон возможных значений параметров (предельные значения, область значений), динамику их изменения, возможных отклонений. Примером семантического контроля могут служить переписные листы населения, где двухлетний мальчик показан женатым, а девятилетний ребенок — грамотным.

Прагматический контроль определяет потребительскую ценность (полезность) информации для пользователя, своевременность и актуальность данных, их полноту и доступность. Реализуется экспертной и социологической оценкой данных.

При создании БД очень часто используют средства очистки. К сожалению, такой подход, позволяет удалить только ошибочные данные. Средства очистки данных выполняют базовые функции контроля данных:

  • проверка значений атрибутов БД на пределы допустимого диапазона;

  • проверка орфографии;

  • проверка стандартных сокращений;

  • поиск неверных кодов.

По назначению контроль различается на профилактический, рабочий и генезисный. Профилактический – тестовый контроль надо проводить как можно чаще, включать во все этапы переработки. Рабочий контроль - диагностический (проверка работоспособности системы) устанавливает места и причины неисправности. Генезисный контроль проводится для выяснения технического состояния системы в прошлые моменты времени с целью определения причин сбоев и отказов системы, имевших место в прошлом, сбор статистических данных об ошибках, их характере – типах ошибок, величине, последствиях этих ошибок для пользователя.

По способу реализации контроль может быть организационный, программный, аппаратный и комбинированный.

Организационный контроль представляет собой комплекс мероприятий, предназначенный для выявления ошибок на всех этапах переработки данных с участием человека. Методами организационного контроля являются разработка нормативных документов, обучение, выборочная проверка, контроль комплектности документов, сроков и условий передачи документов, условий и длительности хранения технических носителей данных, кондиционности бланков (носителей) и качества их заполнения и визуальный осмотр. Необходимо обеспечить правильный подбор и обучение персонала, на который будут возложены проведение наблюдения, систематический контроль за ходом наблюдений, широкая разъяснительная работа. Следует предусмотреть соответствующие меры во избежание сознательного искажения фактов, приписок и т.д., что является не только нарушением государственной дисциплины, но и прямым преступлением, наносящим вред интересам дела.

Программный контроль основан на программировании логических методов проверки достоверности данных. Примерами логического контроля являются:

  • наличие связей между отдельными измеряемыми показателями, например, влажность, измеренная и вычисленная по значениям сухого и смоченного термометра;

  • сравнение с измеренными параметрами на соседнем приборе, станции;

  • экстраполяция значений во времени, статистический прогноз;

  • интерполяция данных между двумя измеренными значениями во времени или пространстве;

  • счетный контроль заключается в проверке точности арифметических расчетов, применявшихся при составлении отчетности или путем сравнения полученных данных с другими источниками по этому же вопросу.

Аппаратный контроль – контроль значений параметров на этапе измерений, включается в платы, служащие для преобразования данных из физических значений в натуральные (сопротивление в температуру, электропроводность в соленость воды, и т.д.).

По степени выявления и корректировки ошибок контроль делится на:

  • обнаруживающий, фиксирующий только сам факт наличия или отсутствия ошибки;

  • локализующий, позволяющий определить и место ошибки, например, искаженный символ, атрибут, др.;

  • исправляющий, выполняющий функции обнаружения, локализации и исправления ошибки.

Примерами исправляющих методов являются:

  • анализ текста свободного формата для выявления в данных имен и адресов позволяет идентифицировать компонент имени, должности, организации и адреса даже в случае непоследовательно введенных данных (стандартизация слов, связанных с описанием организации, позволяет программе полностью проверить данные об организации, включая сокращения, и стандартизировать описание организации в едином согласованном формате);

  • стандартизация представления значений некоторых полей - данные имен и адресов могут вводиться в различных форматах, многие из которых вполне грамматически корректны. Например, "Улица", "Ул." и "Ул" обозначают одно и то же очевидное понятие в составе адреса, существуют и другие стандарты для этих и других подобных случаев, программы стандартизации трансформируют такие поля в согласованный набор обозначений;

  • проверка допустимости - средства распознавания допустимых международных и национальных адресов, проверяют допустимость адресных данных.

Оформление результатов контроля данных

Данные наблюдения считаются принятыми, если они прошли контроль и, если потребовалось, в них внесены исправления. Основными показателями качества контроля данных являются:

  • экономические – материальные, трудовые и временные затраты на контроль;

  • технико–эксплуатационные – алгоритмическая сложность контроля, вид и величина получаемой избыточности, точность и надежность контроля, универсальность - возможность использовать на различных этапах технологического процесса переработки данных, при решении различных задач, обработки различных видов данных;

  • системные – удобство работы, наглядность и форма представления результатов, требования к квалификации и количеству операторов, конфигурация компьютера, необходимое программное обеспечение.

С целью унификации и стандартизации методов контроля данных для международного обмена данными разрабатываются Руководства по алгоритмам и процедурам контроля данных, представляемых в систему международного обмена данными. В них рассматриваются алгоритмы и процедуры "базового" или общего контроля, которые в максимальной степени беспристрастны и опираются на общеизвестные физические законы и не допускающие множества толкований логических категорий.

Как бы тщательно ни был составлен инструментарий наблюдения, проведен инструктаж исполнителей, материалы измерения всегда нуждаются в контроле. Прежде всего, проверяется полнота охвата наблюдениями. С этой целью производится сверка данных по спискам, пересчитываются заполненные документы. Одновременно на этой стадии проверяется полнота заполнения форм отчетности, анкет и т.д.

Содержанием контроля данных является выполнение комплекса проверок, позволяющих убедиться в общей пригодности данных для решения различных научных и производственных задач.

Проблема контроля данных очень сложная и требует отдельного рассмотрения в зависимости от специфики конкретного вида данных. Контроль данных на технических носителях состоит из трех этапов:

  • контроль сопроводительных документов и форматов записи (тестирование носителя данных, получение контрольных распечаток);

  • проверка соответствия полноты и содержания массивов программе наблюдений;

  • контроль значений физических параметров и характеристик пространственно-временного размещения наблюдений (проверка упорядоченности данных, полноты наблюдений, реальности данных, соблюдения физических законов, проверка на статистические критерии, закономерностей изменения данных в пространстве и во времени).

Подготовка данных к обмену представляет собой передачу сведений о контроле и калибровке измерительных приборов, о массиве данных, об оценке его качества. Выполнение всех этих этапов контроля позволяет повысить качество обмениваемых комплектов данных.

Данные, представляемые в обмен, должны быть снабжены сопроводительной документацией, содержащей описание структуры данных, сведения об источниках данных. Ключевые характеристики в БД должны содержать сведения о пространственно – временных координатах каждого измерения, типе платформ, размерностях параметров, используемых методах измерений, типах приборов, а сами результаты измерений и определений должны быть исправлены инструментальными поправками. Значения параметров должны быть приведены с точностью, соответствующей паспортным характеристикам измерительных систем и возможностям аналитических методов определений.

Каждому измеренному, определенному или вычисленному параметру после контроля должен быть присвоен признак качества, не менее трех градаций – значение достоверно, сомнительно и забраковано. Для данных о природной среде используются следующие градации:

0 – величина не вызывают сомнений;

1 – величина восстановлена;

2 – величина сомнительна;

3 – величина забракована;

4 - наблюдения не проводились;

5 – явление отсутствует;

6 – величина сомнительна по применяемым алгоритмам контроля;

7-8 –резерв;

9 – контроль качества не проводился.

На основе анализа статистики этих признаков качества делается вывод о качестве всего массива данных. Для обозначения качества БД рекомендуется использовать следующие коды:

0 все данные не вызывают сомнений;

  1. небольшая часть данных сомнительна (0-10%), но может быть использована;

  2. существенная часть данных сомнительна (10-50%), но может быть использована;

  3. более половины данных сомнительны (50-80%), но могут быть использованы;

  4. почти все данные сомнительны (80-100%), но могут быть использованы;

  5. небольшая часть данных сомнительна (0-10%), но не может быть использована;

  6. существенная часть данных сомнительна (10-50%), но не может быть использована;

  7. более половины данных сомнительны (50-80%), но не могут быть использованы;

  8. резерв;

  9. информация о качестве массива данных отсутствует.

Организация работ по повышению качества данных

Соседние файлы в папке Лекции