Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
STBDiIS шпоры1.doc
Скачиваний:
7
Добавлен:
26.09.2019
Размер:
275.46 Кб
Скачать

Реализация хранилищ и витрин данных

Варианты реализации хранилищ данных

  • Виртуальное хранилище данных

  • Витрины данных

  • Глобальное хранилище данных

  • Многоуровневая архитектура хранилища данных

5.Основные категории данных в хранилище.

Хранилище данных (англ. Data Warehouse) — очень большая предметно-ориентированная информационная корпоративная база данных, специально разработанная и предназначенная для подготовки отчётов, анализа бизнес-процессов с целью поддержки принятия решений в организации. Строится на базе клиент-серверной архитектуры, реляционной СУБД и утилит поддержки принятия решений. Данные, поступающие в хранилище данных, становятся доступны только для чтения. Данные из промышленной OLTP-системы копируются в хранилище данных таким образом, чтобы построение отчётов и OLAP-анализ не использовал ресурсы промышленной системы и не нарушал её стабильность. Данные загружаются в хранилище с определённой периодичностью, поэтому актуальность данных несколько отстает от OLTP-системы.

Смотри архитектуру данных на рисунке.

  1. Понятие и суть etl-процесса, основные преобразования данных.

ETL (от англ. Extract, Transform, Load — извлечение, преобразование, загрузка) — один из базовых процессов управления хранилищами данных, а также наименование класса утилит автоматизации этого процесса. ETL в узком смысле относится к технологиям консолидации данных, однако, современные решения, представленные на рынке, поддерживают помимо консолидации и реализацию федерализации данных, а также обмена данными. ETL включает в себя:

  • извлечение данных из внешних источников;

  • их преобразование в соответствии с требованиями бизнес-модели;

  • загрузку преобразованных данных в целевую систему (например, хранилище данных).

Преобразование.1.преобразование структуры данных(Oracle Warehouse Builder).2Формат полей.

Operation

id

number

pk

data

Date(dd.mm.yyyy

sum

number

id

date

sum

1

03.05.09

56734

2

07июля

5678

3

10.17.2009

8754.00

4

08/11/09

578р.54 к

3.Очистка.- характеристика хранимой в ОС информации, которая показывает, насколько структура наполнения и содержания данных обеспечивают их максимально эффективное использование.

  1. Определение качества данных. Методика оценки качества, основанная на 4-х основных показателях.

Качество данных (или качество информации) можно определять по-разному. В данном случае мы будем определять это понятие как информацию, полностью соответствующую требованиям потребителя. Более детально это понятие можно определить как процесс компоновки информации (включающей имена, адреса реальной и электронной почты, телефонные номера, коды комплектующих, SSN и SKU, в логически согласованном порядке), очистки и усовершенствования данных, а также объединения соответствующих записей с целью устранения дублирования элементов.

Оценка.1-ый подход. Полнота Р- наличие в данных значимой информации.

таблица

поля

Кол-во записей

Кол-во значимости поля

n=кол-во таблиц, вовлеченных в оценку полноты, mi=кол-во полей в каждой таблице,Ni=кол-во записей в таблице, Kij=кол-во записей, содержащих значимую информацию для конкретного поля,

Cij=коэффициент значимости.

2.Достоверность Д.

n=кол-во показателей(критериев),Ki=кол-во записей, попавших под конкретный критерий, Ci=коэффициент значимости конкретного критерия.

3.Соответствие эталонному формату(S). Для каждого поля можно установить определенный формат, и определить, насколько поля соответствуют формату.

Si=каждая запись, Ki=кол-во записей,Ci=значение эталона, коэффициент значимости,S=итоговый показатель эталона.

4.Уникальность У.1 объект реального мира должен соответствовать 1 записи. N- кол-во записей в массиве,R- кол-во объектов реального мира, информация о которых хранится,M- дубли, т.е то от чего нужно избавиться, N=R+M…, Rk- корректный, Rm- дубли, Mk- действительно дубли, Mm-погрешность(дубли), но они на самом деле эталон, или привязан не к тому эталону.

Уникальность должна зависеть от Rm и Mm, но как правило, она зависит и от Rk и Mk,

У=(Mk-Mm)/(Mk+Rm)

Качество данных Q=(k1P+k2Д+k3S+k4У)/4, k1…..k4-корректирующие показатели.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]