Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Раздаточный материал по информатике / 09a- Проектирование хранилищ данных (технология ETL).doc
Скачиваний:
67
Добавлен:
23.05.2015
Размер:
632.83 Кб
Скачать

Очистка данных (data cleaning).

Очистка (Data Cleaning) – это процесс модификации данных по ходу заполнения хранилища с целью повышения качества данных.

Необходимость этого процесса обусловлена не только проблемой гетерогенности БД - здесь на передний план выходит проблема несогласованности данных.

  • Зачастую на один и тот же поставленный вопрос различные системы дают различные ответы.

  • В разных БД одинаковые факты могут моделироваться по-разному, при этом одни и те же сущности могут описываться разными наборами атрибутов, а одинаковые атрибуты могут иметь различные типы, длину или единицы измерения.

  • Данные нельзя преобразовать уже после непосредственного помещения их в хранилище, поскольку потеряна связь с оперативными источниками.

Для получения интегрированного согласованного непротиворечивого хранилища данных, собранных из разнородных источников на этапе преобразования данных необходимо провести следующие процессы:

  • 1) Согласование общих имен и идентификаторов. Идентификация объекта предметной области для различных источников.

  • 2) Приведение данных к единым классификаторам. В описании встречаются кодированные данные, то есть данные, вынесенные в классификаторы (справочники). Разработчики БД придумывают свои собственные классификаторы, поэтому вместе с данными необходимо выгружать из БД и соответствующие справочники.

  • 3) Согласование определений, унификация типов данных и приведение данных к единому формату. В разнородных БД разные по смыслу поля могут иметь одинаковые названия. Одинаковые по смыслу поля могут называться по-разному, иметь разные типы и размеры.

  • 4) Восстановление пропущенных данных. Данные, загружаемые из БД, могут быть неполными. Инструменты преобразования данных предоставляют возможность установления значений по умолчанию для недостающих данных.

  • 5) Верификация данных. Обнаружение и исправление ошибок в данных.