Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Data Vault 3.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
165.33 Кб
Скачать

Data Vault. Серия 3: Даты окончания действия и основы соединений - new

Submitted by admin on Tue, 10/13/2009 - 17:04

Author(s): 

Линстедт, Дэн (Linstedt, Dan)

Translated by: 

Бралгин Игорь

Original source: 

Первоисточник статьи на английском языке доступен на www.tdan.com

Аннотация

Назначение этого документа – представить и обсудить заявленную на патент технологию под названием Data Vault™ (прим. переводчика: статья была написана в 2001 году, в предоставлении патента было отказано в январе 2005; сейчас архитектура Data Vault – общедоступна – FREE and PUBLIC DOMAIN). Data Vault™ – новый этап эволюции моделирования данных для хранилищ данных масштаба предприятия. Это - третья статья в ряду публикаций о Data Vault. Эта статья исследует пример Data Vault, приведенный во 2-ой статье Серии, расширяет понятие «даты окончания действия» и содержит некоторое введение в методы соединения (join techniques). Это обсуждение охватывает также способности архитектуры Data Vault к обработке данных в режиме близком к реальному времени (на уровне 1 - 20 секунд). Следующая статья в серии будет сосредоточена на таблицах Связи с дополнительными методами соединения. Завершающая статья обсудит такие темы, как: вставка, обновление, удаление, управление фактами, агрегаты, режим близкий к реальному времени и пакеты (batch). В этой статье мы начинаем рассматривать некоторые аспекты, связанные с запросами данных и с логикой управления данными в Data Vault. Рекомендуется, чтобы Вы были знакомы с концепцией Data Vault, и прочитали предыдущие две на http://www.tdan.com (или у нас на сайте).

1.0 Введение

Назначение этого документа – представить и обсудить заявленную на патент технологию под названием Data Vault™ (прим. переводчика: статья была написана в 2001 году, в предоставлении патента было отказано в январе 2005; сейчас архитектура Data Vault – общедоступна – FREE and PUBLIC DOMAIN). Data Vault™ – новый этап эволюции моделирования данных для хранилищ данных масштаба предприятия. Целевая аудитория этой статьи: проектировщики данных, желающие построить модель Data Vault, или специалисты в области хранилищ данных и BI, интересующиеся запросами к Data Vault. Здесь представлены на первый взгляд не связанные темы: даты загрузки (load date), даты окончания действия (end-date), и введение в операции соединения (join operations). Соединения (Join) данных могут быть проблемой при применении Data Vault, но сделанные должным образом могут быть очень эффективными. Следующая статья серии охватит соединения более подробно: таблицы Связи (Link), Спутники (Satellites) таблиц Связи и дополнительные методы запросов. В этой же статье рассмотрим следующие темы:

  • Стили моделирования дат окончания (End-Date Styles).

  • Введение в операции соединения (проходит нитью через весь документ)

  • Резюме и выводы.

Прочитав это документ, Вы можете узнать:

  • Как моделировать конечные даты в зависимости от различных требований.

  • Как моделировать при требованиях практически нулевого времени задержки.

  • Обработка различных запросов к структурам Спутников и Хабов.

  • Как подготовить запросы к структурам Data Vault (возможности соединения).

Наибольшие задачи моделирования хранилищ составляют: архитектура для больших объемов (терабайты); создание стандартов загрузки и восстановления; установление синхронизации содержания; запросы информации, зависимой от даты/времени; а также настройка модели, позволяющей загрузку в реальном времени. Архитектору данных или проектировщику остается искать способы встроить эти функциональности в модель. Архитектура Data Vault обеспечивает структурные компоненты, которые соответствуют вышеперечисленным аспектам. Хотя каждый из этих аспектов и описан в высокоуровневой дескриптивной форме в этом документе – в центре внимания все же остаются даты окончания и введение в методы соединений.

Даты окончания могут обрабатываться несколькими способами (с точки зрения Data Vault)

  1. 1. Таблицы Point-In-Time (system of record / snapshot / picture tables).

  2. 2. Поля с датами окончания, помещенные в Спутники.

  3. 3. Комбинация двух вышеупомянутых методов.

Пожалуйста, имейте в виду, что загрузка в режиме реального времени – функция архитектуры и техники моделирования. Это не функция наличия или отсутствия PIT таблицы (point-in-time). Другими словами, для загрузки в режиме близком к реальному времени модели Data Vault достаточно Хабов, Связей и Спутников. PIT таблица – специализированная производная Спутника.

2.0 Стили моделирования дат окончания действия

Первый стиль – поместить поле, содержащее значение даты загрузки или даты наблюдения/измерения (observation date), в Спутник, и предположить, что информация действительна, пока не появится новая строка. Таким образом, промежуток времени между датами загрузки – по существу и есть период действия информации. Второй стиль – поместить поле, содержащее значение даты начала наблюдения/загрузки (start date), и поле, содержащее значение даты окончания (end date), в каждую строку Спутника. Третий метод должен быть использован, когда доступно достаточно дискового объема – чаще всего используется в режиме загрузки близкой к реальному времени, но так же может быть очень эффективной техникой для пакетной загрузки. Каждый метод работоспособен, ниже мы обсудим «за и против» для каждого.

Синхронизация временных отметок (date-time stamp) и систем, управляющих этими временными отметками, помогает решить проблемы географически разделенного хранилища Data Vaults. Во всяком случае, упрощает эти проблемы. Временная отметка также магически работает в другом случае – она предоставляет собой основу для того, что называют двойным датированием. Мы взяли GAAP (generally accepted accounting principles – общепринятые принципы бухгалтерского учета) – принципы, определяющие двойной ввод для главной бухгалтерской книги (general ledger), и повторно применили для логики дат в хранилище. Это также помогает нам с бухгалтерским представлением детальной информации – только с точки зрения времени. Помните, Data Vault ориентировано для массовой вставки (основанной только на изменениях/дельтах). Data Vault не приспособлено для обновлений или удалений (мы обсудим это в других статьях этой серии).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]