Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Data Vault 5.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
149.29 Кб
Скачать

Data Vault. Серия 5: Методика загрузки

Submitted by admin on Wed, 11/11/2009 - 18:01

Author(s): 

Линстедт, Дэн (Linstedt, Dan)

Translated by: 

Бралгин Игорь

Original source: 

Первоисточник статьи на английском языке доступен на www.tdan.com

1.0 Введение

Назначение этого документа – представить и обсудить процессы загрузки Data Vault™. Это заявленный на патент подход к моделированию корпоративных хранилищ данных (прим. переводчика: статья была написана в 2001 году, в предоставлении патента было отказано в январе 2005; сейчас архитектура Data Vault – общедоступна – FREE and PUBLIC DOMAIN), это – эволюционный подход к решению проблем, связанных с частыми и огромными по объему загрузками хранилищ данных. Этот документ, предназначен для аудитории, состоящей из заинтересованных в реализации архитектуры и процессов, загружающих данные в соответствующие сущности. Мы также обсуждаем шаблоны с точки зрения 5-го уровня SEI/CMM – повторяемость, надежность и измеримость результатов. В этой статье рассмотрены следующие темы:

  • Загрузка сущностей Хабов (Hub)

  • Загрузка сущностей Связей (Link)

  • Загрузка сущностей Спутников (Satellites)

  • Выводы и заключение

Прочитав это документ, Вы можете узнать:

  • Как разработать единообразные и повторяемые процессы ETL.

  • Лучшие методы (Best Practices) для информации различных типов сущностей

  • Обзор парадигмы загрузки для Data Vault

Этот документ рассматривает эти процессы с точки зрения повторяемости и последовательности подхода проектирования. Здесь представлены только концепции загрузки данных, не включающие ни одного фактического фрагмента кода, необходимого для достижения этих результатов. В зависимости от выбранного механизма загрузки код или дизайн могут несколько отличаться. Эта статья предлагает лучшие методы в стратегической и тактической (загрузка в режиме близком к реальному времени) перспективе.

Проектируя Data Vault, я рассмотрел лучшие методы для построения масштабируемых и повторяемых хранилищ – включая обработку загрузки и обработку запросов. Чтобы удовлетворить этим потребностям, я спроектировал методологию реализации, известную как Матричная Методология (The Matrix Methodology™).

2.0 Обзор Матричной Методологии (Matrix Methodology)

Матричная Методология (Matrix Methodology, ТММ) определяет повторяемую и согласованную архитектуру для загрузки, обработки и извлечения данных из корпоративного хранилища данных. «Сердцем» методологии является выбор Data Vault в качестве архитектуры хранилища данных предприятия. Так что остается лишь поинтересоваться, что именно представляет собой методология ТММ? Что она делает? Почему ТММ так же важна, как и Data Vault? Мы коротко исследуем эти вопросы – для начала нижеследующее изображение показывает, из чего состоит Матричная Методология:

Рисунок 1-1 Матричная Методология (The Matrix Methodology) На рисунке изображены компоненты ТММ. EAI указывает на тактическое процессы загрузка непосредственно в Data Vault (EDW). TMM определяет слои обработки и лучшие методы со многими шаблонами и проектами, которые легко сопровождаются. Эти шаблоны доступны для продажи.

Почему это называется «Матричной методологией»?

Это – матрица решений. Деление этой матрицы компонентами вертикально и горизонтально в соответствии масштабу (scope) резко уменьшает риск неудачи, способствует повторному использованию и быстро поставляет результаты. Data Vault – это только один компонент, который, случается, становится главным компонентом и сердцем архитектуры. Горизонтальная линия, проходящая через компоненты, обеспечивает нам реализацию «снизу вверх» – осуществление только того, что согласовано с конечным пользователем для текущего релиза.

Автоматическая обработка помещает данные прямо в руки пользователя; а также возвращает ответственность за качество информации назад в руки пользователя. Мы используем технику, названную Витриной Ошибок (Error Mart) для поставки данных, которые не соответствуют требованиям. Но достаточно про TMM – не стесняйтесь, пишите мне по электронной почте, если у вас возникнут вопросы, касающиеся методологии. Дело здесь заключается в следующей диаграмме: фазы загрузки Data Vault.

Рисунок 1-2 Параллельные процессы загрузки в Data Vault Диаграмма показывает последовательность загрузки в Data Vault. Мы обсудим шаблоны для каждого конкретного этапа загрузки Data Vault. Мы не предоставим шаблоны ни для загрузки буферной области (staging area), ни витрин данных.

Что делает загрузку Data Vault особенной?

Data Vault основано на последовательной вставке данных. Информация в Data Vault должна оставаться последовательной – данные только вставляются, не удаляется и не обновляется (кроме случаев, связанных с проблемами подачи данных). Другими словами, если набор данных не был откачен, или не было обнаружено, что набор данных ошибочен, то он не будет ни удален, ни обновлен. Следующие понятия учитываются, когда создаются шаблоны для загрузки:

  • Требования к объемам (Volume Requirements)

  • Требования к задержке (Latency Requirements)

  • Повторяемость, воспроизводимость (Repeatability)

  • Последовательность – Единообразие для исторической, текущей и начальной загрузки.

  • Надежность (Reliability).

  • Возможность перезапуска (Restartability) – не более чем простая «кнопка» повторного запуска, для восстановления загрузки с места, где она была прервана.

Как уже отмечалось, Data Vault является архитектурой моделирования для корпоративных хранилищ данных, и поэтому становится для предприятия системой документально зарегистрированных данных. Система документально зарегистрированных данных должна быть надежной и согласованной во всех аспектах и методах.

Имея с одной стороны источники, производящие огромные объемы данных и потребность соблюдать законы и соглашения с другой – в таких условиях важно создать надежные механизмы загрузки. Наши механизмы загрузки должны быть надежными настолько насколько это возможно. Конечно, есть и другие важные моменты, такие как отслеживание дат загрузки и записей источников, которые в настоящем документе не рассматриваются. Типичные лучшие практики определяют эти пункты, касающиеся выгрузки информации (загрузки в промежуточную/буферную область).

Итак, давайте рассмотрим фактические процессы загрузки.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]