Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
STBDiIS шпоры1.doc
Скачиваний:
16
Добавлен:
26.09.2019
Размер:
275.46 Кб
Скачать

8.Определение качества данных.Уровневая методика оценки качества.

Качество данных (или качество информации) можно определять по-разному. В данном случае мы будем определять это понятие как информацию, полностью соответствующую требованиям потребителя. Более детально это понятие можно определить как процесс компоновки информации (включающей имена, адреса реальной и электронной почты, телефонные номера, коды комплектующих, SSN и SKU, в логически согласованном порядке), очистки и усовершенствования данных, а также объединения соответствующих записей с целью устранения дублирования элементов.

1.Уровень атрибута:1атрибут должен содержать информацию.2.информация должна соответствовать формату.

2.Уровень записи(строки):1.корректность данных в одной записи.

3.Уровень таблицы:1.оценка наличия дублей, т.е уникальность.2.наличие противоречия(одной записи относительно другой)

4.Уровень базы данных(схем):1корректность взаимных ссылок,целостности,непротиворечивость.

9.Пути повышения качества данных. Приемы контроля вводимых данных.

Значение качества данных для CRM, ERP, BI/Хранилищ данных и промежуточных приложений

Качество данных (или качество информации) можно определять по-разному. В данном случае мы будем определять это понятие как информацию, полностью соответствующую требованиям потребителя. Более детально это понятие можно определить как процесс компоновки информации (включающей имена, адреса реальной и электронной почты, телефонные номера, коды комплектующих, SSN и SKU, в логически согласованном порядке), очистки и усовершенствования данных, а также объединения соответствующих записей с целью устранения дублирования элементов.

Необходимо тщательно рассмотреть унаследованные системы предприятия и качество данных, содержащихся в каждой из них. Одна система может содержать более надежные данные, чем другая. Некоторые могут хранить данные в желаемом формате, а статистика может поступать извне. Целью проектов CRM, ERP, BI/Хранилищ данных и промежуточного программного обеспечения является сбор данных из различных систем для использования в различных подразделениях предприятия для различных целей, и в итоге повышение эффективности работы компании. Точность данных исключительно важна для анализа, прогнозирования и построения отношений с клиентами. Даже если каждая из систем, поставляющих данные для нового проекта, содержит лишь небольшой процент "плохих" данных, при их объединении, этот процент растет по экспоненциальному закону.

10.Пути повышения качества данных. Основные проблемы качества данных. Этапы повышения качества данных.

11.Повышение качества данных: предварительная замена, классификация, структуризация.

Классификация- резидент, нерезидент.

Структуризация-это разделение по полям

12.Повышение качества данных: верификация, нормализация.

Нормализация- приведение написания и описания объектов к каноническому виду.

Верификация (от лат. verus — истинный, facere — делать) — проверка, проверяемость, способ подтверждения каких-либо теоретических положений, алгоритмов, программ и процедур путем их сопоставления с опытными (эталонными или эмпирическими) данными, алгоритмами и программами.

или

Верификация (от лат. verus — истинный, facere — делать) — это подтверждение соответствия конечного продукта предопределённым эталонным требованиям.

13.Повышение качества данных: консолидация, идентификация.

Консолидация данных.-восполнение информации об объекте за счет других источников. При использовании этого метода данные собираются из нескольких первичных систем и интегрируются в одно постоянное место хранения. Такое место хранения может быть использовано для подготовки отчетности и проведения анализа, как в случае Хранилища данных, или как источник данных для других приложений, как в случае операционного склада данных.

При использовании этого метода обычно существует некоторая задержка между моментом обновления информации в первичных системах и временем, когда данные изменения появляются в конечном месте хранения. В зависимости от потребностей бизнеса такое отставание может оставлять несколько секунд, часов или много дней. Термин "режим, приближенный к реальному времени" часто используется для описания конечных данных, обновление которых отстает от источника на несколько секунд, минут или часов. Данные, не отстающие от источника, считаются данными в режиме реального времени, но это трудно достижимо при использовании метода консолидации данных.

Консолидация данных - это основной подход, который используется приложениями Хранилищ данных для построения и поддержки оперативных складов данных и корпоративных Хранилищ. Консолидация данных также может найти применение для создания зависимой витрины данных, но в этом случае в процессе консолидации используется только один источник данных (например, корпоративное Хранилище).

Идентификация- выявление похожих и их превращение в одну

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]