Реализация хранилищ и витрин данных

Варианты реализации хранилищ данных

Виртуальное хранилище данных
Витрины данных
Глобальное хранилище данных
Многоуровневая архитектура хранилища данных

5.Основные категории данных в хранилище.

Хранилище данных (англ. Data Warehouse) — очень большая предметно-ориентированная информационная корпоративная база данных, специально разработанная и предназначенная для подготовки отчётов, анализа бизнес-процессов с целью поддержки принятия решений в организации. Строится на базе клиент-серверной архитектуры, реляционной СУБД и утилит поддержки принятия решений. Данные, поступающие в хранилище данных, становятся доступны только для чтения. Данные из промышленной OLTP-системы копируются в хранилище данных таким образом, чтобы построение отчётов и OLAP-анализ не использовал ресурсы промышленной системы и не нарушал её стабильность. Данные загружаются в хранилище с определённой периодичностью, поэтому актуальность данных несколько отстает от OLTP-системы.

Смотри архитектуру данных на рисунке.

Понятие и суть etl-процесса, основные преобразования данных.

ETL (от англ. Extract, Transform, Load — извлечение, преобразование, загрузка) — один из базовых процессов управления хранилищами данных, а также наименование класса утилит автоматизации этого процесса. ETL в узком смысле относится к технологиям консолидации данных, однако, современные решения, представленные на рынке, поддерживают помимо консолидации и реализацию федерализации данных, а также обмена данными. ETL включает в себя:

извлечение данных из внешних источников;
их преобразование в соответствии с требованиями бизнес-модели;
загрузку преобразованных данных в целевую систему (например, хранилище данных).

Преобразование.1.преобразование структуры данных(Oracle Warehouse Builder).2Формат полей.

Operation

id	number	pk
data	Date(dd.mm.yyyy
sum	number

id	date	sum
1	03.05.09	56734
2	07июля	5678
3	10.17.2009	8754.00
4	08/11/09	578р.54 к

3.Очистка.- характеристика хранимой в ОС информации, которая показывает, насколько структура наполнения и содержания данных обеспечивают их максимально эффективное использование.

Определение качества данных. Методика оценки качества, основанная на 4-х основных показателях.

Качество данных (или качество информации) можно определять по-разному. В данном случае мы будем определять это понятие как информацию, полностью соответствующую требованиям потребителя. Более детально это понятие можно определить как процесс компоновки информации (включающей имена, адреса реальной и электронной почты, телефонные номера, коды комплектующих, SSN и SKU, в логически согласованном порядке), очистки и усовершенствования данных, а также объединения соответствующих записей с целью устранения дублирования элементов.

Оценка.1-ый подход. Полнота Р- наличие в данных значимой информации.

таблица

поля

Кол-во записей

Кол-во значимости поля

n=кол-во таблиц, вовлеченных в оценку полноты, m_i=кол-во полей в каждой таблице,N_i=кол-во записей в таблице, K_ij=кол-во записей, содержащих значимую информацию для конкретного поля,

C_ij=коэффициент значимости.

2.Достоверность Д.

n=кол-во показателей(критериев),K_i=кол-во записей, попавших под конкретный критерий, C_i=коэффициент значимости конкретного критерия.

3.Соответствие эталонному формату(S). Для каждого поля можно установить определенный формат, и определить, насколько поля соответствуют формату.

S_i=каждая запись, K_i=кол-во записей,C_i=значение эталона, коэффициент значимости,S=итоговый показатель эталона.

4.Уникальность У.1 объект реального мира должен соответствовать 1 записи. N- кол-во записей в массиве,R- кол-во объектов реального мира, информация о которых хранится,M- дубли, т.е то от чего нужно избавиться, N=R+M…, R_k- корректный, R_m- дубли, M_k- действительно дубли, M_m-погрешность(дубли), но они на самом деле эталон, или привязан не к тому эталону.

Уникальность должна зависеть от R_m и M_m, но как правило, она зависит и от R_k и M_k,

У=(M_k-M_m)/(M_k+R_m)

Качество данных Q=(k₁P+k₂Д+k₃S+k₄У)/4, k_1….._k₄-корректирующие показатели.

<<< < Предыдущая 12 / 162 3 4 5 6 7 8 9 10 11 12 13 14 15 16 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
05.06.2015696.53 Кб28Speak ehglish with us.pdf
#
05.06.20152.13 Mб104SpecFunc.pdf
#
05.06.2015605.52 Кб31Spisok_opredeleny_k_ekzamenu_2014.pdf
#
04.08.201990.05 Кб0SPORY.docx
#
04.06.20153.1 Mб18Statistics.doc
#
26.09.2019275.46 Кб7STBDiIS шпоры1.doc
#
12.11.2019370.61 Кб5Studentam.Integrals.docx
#
25.09.201973.73 Кб1SUPPLEMENTARY ответы.doc
#
05.06.2015734.37 Кб90svetozarov[1].pdf
#
05.06.201536.54 Mб5057Sze_Physics of Semiconductor Devices_2007.pdf
#
15.08.2019317.44 Кб1task_spu.DOC

Реализация хранилищ и витрин данных

Понятие и суть etl-процесса, основные преобразования данных.

Определение качества данных. Методика оценки качества, основанная на 4-х основных показателях.