- •37.Контроль очистки данных
- •38.Концептуальные и эмпирические основания оценки информационных источников
- •39.Критерии оценки достоверности информации
- •40.Критерии оценки информационных источников
- •41.Критерии оценки качества информационных систем
- •42.Методы интеграции данных
- •43.Методы формализации и обработки экспертной информации
37.Контроль очистки данных
Очистка данных занимается выявлением и удалением ошибок и несоответствий в данных с целью улучшения качества данных. Проблемы с качеством встречаются в отдельных наборах данных - таких, как файлы и базы данных, - например, как результат ошибок при вводе, утери информации и других загрязнений данных. Когда интеграции подлежит множество источников данных, например - в Хранилищах, интегрированных системах баз данных или глобальных информационных Интернет-системах, - необходимость в очистке данных существенно возрастает.
В целом, очистка данных включает несколько этапов:
Анализ данных: для выявления подлежащих удалению видов ошибок и несоответствий, необходим подробный анализ данных. (Наряду с ручной проверкой данных или их шаблонов, следует использовать аналитические программы).
Определение порядка и правил преобразования данных: в зависимости от числа источников данных, степени их неоднородности и загрязненности данных, они могут требовать достаточно обширного преобразования и очистки.
Подтверждение: Правильность и эффективность процесса и определений преобразования должны тестироваться и оцениваться.
Преобразования: выполнение преобразований либо в процессе ETL для загрузки и обновления Хранилища данных, либо при ответе на запросы по множеству источников.
Противоток очищенных данных: после того, как ошибки (отдельного источника) удалены, очищенные данные должны заместить загрязненные данные в исходных источниках, чтобы улучшенные данные попали и в унаследованные приложения и в дальнейшем при извлечении не требовали дополнительной очистки.
38.Концептуальные и эмпирические основания оценки информационных источников
Качество принятия информационных решений в значительной мере зависит от свойств информационных ресурсов, используемых при решении конкретных задач. В настоящее время нет как единого подхода к набору параметров для оценки информационных ресурсов, так и способов количественной или качественной характеристики этих параметров.
В настоящее время широко для оценки информационных ресурсов используются следующие основные параметры:
Содержание. Для определения соответствия содержания информационных ресурсов решаемым проблемам используются различные классификационные шкалы и шкалы наименований: классификаторы, классификации, разнообразные виды языков дескрипторного типа, указатели различных типов (именные, предметные, географические, номенклатурные и т.п.).
Охват. Охват определяет, ограничивает и описывает содержание, уточняет или лимитирует его. Обычно характеризуют объемом, полнотой и достаточностью информационных ресурсов.
Время. Фиксирует момент или период, представленный данными (календарный, налоговый, финансовый год, конец соответствующего года и т.п.); задает точку отсчета ввода конкретных информационных ресурсов в обращение (в коммуникационные каналы); является характеристикой, определяющей связь между информацией об объекте и его реальным состоянием на текущий момент времени.
Источник. Идентифицирует происхождение информации.
Качество. Определяет совокупность свойств (достоверность, своевременность, новизна, ценность, полезность, доступность), отражающих степень пригодности конкретной информации об объектах и их взаимосвязях для достижения целей.
Соответствие потребностям.
Способ фиксации. (Документы, память людей, промышленные образцы).
Язык, на котором представлена информация.
Стоимость. Цена на информацию выступает как денежное выражение стоимости. Основой цены на информационные услуги выступает рыночная стоимость, складывающаяся с учетом признанных затрат труда на их подготовку и потребительских свойств услуг, их полезности.
