
Существует несколько ключевых задач, на которые необходимо обратить особое внимание при создании ХД. От качества проработки этих задач, от правильности выбранных путей их решения, в конечном счете, зависит жизнеспособность и успешность всего проекта:
-
(1) Проектирование хранилища
Наиболее популярные решения компаний IBM, Oracle, MS, существует также ряд продуктов Open Source.
-
(2) Выбор, настройка и/или создание программного обеспечения -инструментов конечного пользователя.
К их числу могут быть отнесены семь (7) групп инструментов:
-
(3) Интеграция данных в хранилище - механизмы пополнения хранилища новыми данными из внешних источников;
Наиболее трудоемкой из них является - интеграция данных и механизмы пополнения хранилища новыми данными из внешних источников, которая рассматривается в данном разделе.
9.4. Создание хранилищ данных - технологии интеграции данных
ЦЕЛЬ и ОСНОВА
Технология интеграции данных является ключевым фактором для объединения данных и создания информационной инфраструктуры, удовлетворяющей стратегическим задачам Business Intelligence (BI). Такая информационная инфраструктура включает Хранилища данных, витрины данных и операционные склады данных
-
Надежные данные - это основа принятия взвешенных решений. А интеграция данных - это ключ к контролю информации, поскольку пользователи инструментов Business Intelligence должны быть уверены, что их решения основываются на надежных данных. Самые лучшие инструменты BI оказываются малоэффективными, если они используются для анализа неполных и неточных данных.
ХАРАКТЕРИСТИКИ ИНТЕГРАЦИИ ДАННЫХ
Целью интеграции данных является получение единой и цельной картины корпоративных бизнес-данных. Интеграция данных может быть описана с помощью модели, которая включает приложения, продукты, технологии и методы:
-
ПРИЛОЖЕНИЯ - это решения, созданные поставщиками в соответствии с требованиями клиентов, которые используют одни или более продуктов интеграции данных;
-
ПРОДУКТЫ - это готовые коммерческие решения, поддерживающие одну или более технологий интеграции данных;
-
ТЕХНОЛОГИИ реализуют одни или более методов интеграции данных;
-
МЕТОДЫ - это подходы к интеграции данных, независимые от технологий
Обзор технологий интеграции
Существует три основных метода интеграции данных: консолидация, федерализация и распространение:
-
1) EAI (enterprise application integration) – интеграция корпоративных приложений (по данным)
-
2) EII (enterprise information integration) - это технология для интеграции в режиме реального времени несопоставимых типов данных из многочисленных источников как внутри, так и за пределами корпорации
-
3) ETL (extract, transform, load) – пакетная интеграция данных используется для создания ХД
На рисунке показано положение технологий по отношению к двум спектрам задач.
-
Для интеграции данных в режиме реального времени лучше подходит технология EII.
-
Для пакетной интеграции данных – технология ETL.
-
Для интеграции приложений в режиме реального времени или пакетном режиме наиболее подходящим инструментом является технология EAI.
Федерализация данных (eii)
обеспечивает единую виртуальную картину из первичных источников данных.
-
По определению, процесс федерализации данных всегда заключается в извлечении данных из первичных систем на основании внешних требований. Все необходимые преобразования данных осуществляются при их извлечении из первичных файлов.
EII (enterprise information integration) - это технология для интеграции в режиме реального времени несопоставимых типов данных из многочисленных источников как внутри, так и за пределами организации. Инструменты EII обеспечивают универсальный уровень доступа к данным.
-
Технология EII необходима в тех случаях, когда нужно создать общий шлюз с единым языком и точкой доступа к несогласованным источникам данных.
-
Такие инструменты предоставляют приложениям и конечным пользователям возможности более гибкого, а также незапланированного доступа к данным, при этом, не требуя постоянного использования данных или долговременных целей для получения этого доступа.
-
Помимо традиционных реляционных баз данных, инструменты EII могут работать с XML- и LDAP-файлами, плоскими файлами и другими не реляционными данными. Эти инструменты также способны представлять реляционные данные в формате XML или формате web-сервисов.
ВЫВОД
Федерализацию данных можно использовать в тех случаях, когда стоимость консолидации данных перевешивает бизнес-преимущества, которые она предоставляет. Оперативная обработка запросов и подготовка отчетов могла бы служить примером подобной ситуации.
Приложения распространения данных (EAI)
осуществляют копирование данных из одного места в другое.
-
Эти приложения обычно работают в оперативном режиме и производят перемещение данных к местам назначения, т.е. зависят от определенных событий. Обновления в первичной системе могут передаваться в конечную систему синхронно или асинхронно.
EAI (enterprise application integration) - это технология, обеспечивающая централизацию и оптимизацию интеграции корпоративных приложений.
-
1) Технология EAI наиболее функциональна тогда, когда необходимо связать приложения в реальном времени для автоматизации бизнес-процессов.
-
2) Второй случай применения EAI - это ситуация, когда необходимо, чтобы изменения, внесенные в одно приложение (обычно небольшой набор записей), были отражены во всех других. Эта технология очень хорошо справляется с задачей фиксации изменений и их переноса в соответствующие приложения или системы.
ВЫВОД
Большим преимуществом такого метода распространения данных является то, что он может быть использован для перемещения данных в режиме реального времени или близком к нему.
Метод распространения данных может также использоваться для уравновешивания рабочей нагрузки, создания резервных копий и восстановления данных, в том числе в случае чрезвычайных ситуаций.
Консолидация данных (ETL).
Данные собираются из нескольких систем и интегрируются в одно место хранения.
-
Преимуществом консолидации данных является то, что этот подход позволяет осуществлять трансформацию значительных объемов данных (реструктуризацию, согласование, очистку и/или агрегирование) в процессе их передачи от первичных систем к конечным местам хранения. Некоторые сложности, связанные с данным подходом, - это значительные вычислительные ресурсы, которые требуются для поддержки процесса консолидации данных, а также существенные ресурсы памяти, необходимые для поддержки конечного места хранения.
Для среды Хранилищ данных одной из самых распространенных технологий поддержки консолидации является технология ETL (извлечения, преобразования и загрузки - extract, transform, and load)..
Технология ETL (extract, transform and load)
ETL (extract, transform and load) - это технология, которая преобразует данные (обычно с помощью их пакетной обработки) из операционной среды, включающей гетерогенные технологии, в интегрированные, согласующиеся между собой данные, пригодные для использования в процессе поддержки принятия решений.
-
1) Технология ETL оказывается наиболее полезной в случаях, когда необходимо создать хранилище, содержащее хорошо документированные и надежные данные для исторического анализа, например, для анализа временных рядов или многомерных запросов.
-
2) Эта технология также используется для интеграции ключевых систем независимых данных.
-
3) Технология ETL незаменима для таких задач, как удаление дублирующихся данных, осуществление процессов проверки качества данных и т.п.
-
4) Эти инструменты также используются для создания отдельных витрин данных, обслуживающих конкретный отдел или бизнес-процесс или предназначенных для каких-либо долгосрочных целей. Такие процессы включают создание точных технических метаданных, поддерживающих общую целостность среды business intelligence (BI).
Процесс извлечения данных из операционных систем и преобразования их в формат хранилища является весьма трудоемким, утомительным и отнимает много времени.
-
Данный этап жизненного цикла хранилища является наиболее сложным и продолжительным.
-
Конечной целью данного этапа является не просто наполнение базы хранилища, а наполнение ее качественными данными, в полном смысле отвечающими потребностям поддержки принятия решений.
-
Понятие качества данных включает их целостность, точность, полноту и согласованность.
Технология ETL включает три взаимосвязанные задачи:
-
1) сбор данных (Data Extraction),
-
2) преобразование, консолидация и очистка данных (Data Transformation, Data Consolidation, Data Cleaning)
-
3) загрузка данных (Data Loading).