Очистка данных (data cleaning).
Очистка
(Data
Cleaning)
– это процесс модификации данных по
ходу заполнения хранилища с целью
повышения качества данных.
Необходимость
этого процесса обусловлена не только
проблемой гетерогенности БД - здесь на
передний план выходит проблема
несогласованности данных.
-
Зачастую
на один и тот же поставленный вопрос
различные системы дают различные
ответы.
-
В
разных БД одинаковые
факты могут моделироваться по-разному,
при этом одни и те же сущности могут
описываться разными наборами атрибутов,
а одинаковые атрибуты могут иметь
различные типы, длину или единицы
измерения.
-
Данные
нельзя преобразовать уже после
непосредственного помещения их в
хранилище, поскольку потеряна связь с
оперативными источниками.
Для
получения интегрированного
согласованного непротиворечивого
хранилища данных,
собранных
из разнородных источников на этапе
преобразования данных необходимо
провести следующие процессы:
-
1)
Согласование общих имен и идентификаторов.
Идентификация объекта предметной
области для различных источников.
-
2)
Приведение данных к единым классификаторам.
В описании встречаются кодированные
данные, то есть данные, вынесенные в
классификаторы (справочники). Разработчики
БД придумывают свои собственные
классификаторы, поэтому вместе с данными
необходимо выгружать из БД и соответствующие
справочники.
-
3)
Согласование определений, унификация
типов данных и приведение данных к
единому формату.
В разнородных БД разные по смыслу поля
могут иметь одинаковые названия.
Одинаковые по смыслу поля могут
называться по-разному, иметь разные
типы и размеры.
-
4)
Восстановление пропущенных данных.
Данные, загружаемые из БД, могут быть
неполными. Инструменты преобразования
данных предоставляют возможность
установления значений по умолчанию
для недостающих данных.
-
5)
Верификация данных.
Обнаружение
и исправление ошибок в данных.