Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекция 2

.pdf
Скачиваний:
22
Добавлен:
25.02.2015
Размер:
340.83 Кб
Скачать

Лекция №2. Идеология хранилищ данных. Основные понятия

Проблема построения хранения данных – интеграция данных из разнородных источников:

1.Проблема форматов;

2.Потеря данных;

3.Данные располагаются на разных программных платформах, на разных источниках данных. Может быть ситуация когда не будет механизма для преобразования;

4.Проблема доступности;

5.Проблема эффективности хранения: данные накапливаются и никуда не исчезают,

только 25% данных в мире структурированы, 35% данных - коммерческие, каждый год объем данных хранящихся в мире увеличивается на 50%. Для хранения данных нужно обеспечит структура данных;

6.Проблема обработки больших объемов данных;

7.Проблема построения метаданных, метаданные – механизм описания хранящихся данных, также необходимо описывать структуру хранения;

8.Проблема обработки метаданных (визуализации);

9.Проблема построения информационной безопасности: хранилища данных нужно защищать сильнее, чем оперативный источники, чем просто источники информации, при этом каждый раз необходимо разрабатывать собственную систему безопасности;

10.Проблема построения инфраструктуры.

Витрины данных – упрошенный вариант хранилища, основная цель создания которого – сократить затраты на проектирование и облегчить представление данных для пользователя.

Модель самостоятельной витрины данных

OLTP

ОИ

 

ВД

OLTP

ОИ

 

 

ВД

OLTP

ОИ

 

Преимущество: более простая структуризация. Недостаток: дублирование данных.

Модель витрин с промежуточным хранилищем данных

OLTP

ОИ

 

 

 

ВД

OLTP

ОИ

ХД

 

 

 

 

 

ВД

OLTP

ОИ

 

Такая модель удобна, когда в витрине данных хранится уже агрегированная заранее информация.

Потоки данных

1.Детальные данные – данные, полученные из оперативных источников, и соответствуют событиям. Бывают таблица измерения: товар, продавец; и таблица фактов: количество проданного товара, цена, поставки;

2.Агрегированные данные – данные прошли агрегацию. Такие данные можно хранить, чтобы не тратить время на дополнительные подсчеты;

3.Метаданные описывают:

объект предметной области, в которой хранится информация;

категорию пользователей, которые работают с хранилищем данных (не секретаря информация),

места и способы хранения, действия, которые были выполнены над данными,

время действий, причину действий.

4.Архив – крайне редко используемые данные;

5.Входной поток – поток, на котором данные очищаются и обогащаются;

6.Поток обобщения;

7.Выходной поток – данные выбранные по запросу;

8.Обратный поток – поток, необходимый для работоспособности системы.

Таблица фактов в детальных данных содержит информацию и сведения об объектах и событиях, которые в дальнейшем будут анализироваться. Таблиц фактов в системе может быть несколько. Таблица фактов содержит следующую информацию:

1.Факты о транзакциях (transaction facts) – информация, основанная на отдельно взятом событии (например, кому звонил, в какое время, как долго). Информация содержит в себе отдельное событие, с точки зрения системы хранения, никак связаное с другими;

2.Snapshot facts – факты, основанные на состоянии объекта в определенный момент времени (например, состояние счета на конец банковского дня);

3.Line-item facts – факт, основанный на документе (например, кто, сколько передал кому по накладной). Такие факты необходимые для ведения отчетности;

4.Event or state facts – факты о событии или состоянии, фиксируют понятия события или его отсутствие без детализации (например, факт продажи или факт открытия двери).

Для таблиц фактов характерно, что они содержат как можно более подробную информацию.

Ключи таблицы фактов

Первичные ключи таблицы фактов представляют собой составной ключ, состоящий из первичных таблиц измерений. Например, ключами фактов транзакции будут, например, кто продал, когда продал и т.д.

Ключи таблицы фактов делают, как правило, целочисленными для уменьшения объема хранения. Также допускается ключи в виде дата-время.

В таблице фактов допускаются не ключевые атрибуты, на основании них в дальнейшем может формироваться измерение куба, то есть происходит группировка или агрегация.

В таблице фактов могут отсутствовать сведения, очевидные для группировки.

Таблица измерений содержит описание фактов. Если таблица фактов растет очень быстро, то таблица измерений растет крайне медленно. Таблица измерений всегда будет хранить информацию, даже архивную(!).

Программно-аппаратная архитектура передачи данных

Отчет

Анализ

DM

Хранилище данных

WEB, клиент-сервер (интерфейс)

Система управления (СУБД)

Дисковое

пространство

Система извлечения, преобразования и загрузки данных

База данных оперативного источника

Отчеты – программный продукт, который предоставляет клиенту отчеты

Анализ – предоставляет анализ

DM – сбор данных

Соседние файлы в предмете Хранилища данных