Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Раздаточный материал по информатике / 09a- Проектирование хранилищ данных (технология ETL).doc
Скачиваний:
67
Добавлен:
23.05.2015
Размер:
632.83 Кб
Скачать

8

Существует несколько ключевых задач, на которые необходимо обратить особое внимание при создании ХД. От качества проработки этих задач, от правильности выбранных путей их решения, в конечном счете, зависит жиз­неспособность и успешность всего проекта:

  • (1) Проектирование хранилища

Наиболее популярные решения компаний IBM, Oracle, MS, существует также ряд продуктов Open Source.

  • (2) Выбор, настройка и/или создание программного обеспе­чения -инструментов конечного пользователя.

К их числу могут быть отнесены семь (7) групп инструментов:

  • (3) Интеграция данных в хранилище - механизмы пополнения хранилища новыми дан­ными из внешних источников;

Наиболее трудоемкой из них является - интеграция данных и механизмы пополнения хранилища новыми дан­ными из внешних источников, которая рассматривается в данном разделе.

9.4. Создание хранилищ данных - технологии интеграции данных

ЦЕЛЬ и ОСНОВА

Технология интеграции данных является ключевым фактором для объединения данных и создания информационной инфраструктуры, удовлетворяющей стратегическим задачам Business Intelligence (BI). Такая информационная инфраструктура включает Хранилища данных, витрины данных и операционные склады данных

  • Надежные данные - это основа принятия взвешенных решений. А интеграция данных - это ключ к контролю информации, поскольку пользователи инструментов Business Intelligence должны быть уверены, что их решения основываются на надежных данных. Самые лучшие инструменты BI оказываются малоэффективными, если они используются для анализа неполных и неточных данных.

ХАРАКТЕРИСТИКИ ИНТЕГРАЦИИ ДАННЫХ

Целью интеграции данных является получение единой и цельной картины корпоративных бизнес-данных. Интеграция данных может быть описана с помощью модели, которая включает приложения, продукты, технологии и методы:

  • ПРИЛОЖЕНИЯ - это решения, созданные поставщиками в соответствии с требованиями клиентов, которые используют одни или более продуктов интеграции данных;

  • ПРОДУКТЫ - это готовые коммерческие решения, поддерживающие одну или более технологий интеграции данных;

  • ТЕХНОЛОГИИ реализуют одни или более методов интеграции данных;

  • МЕТОДЫ - это подходы к интеграции данных, независимые от технологий

Обзор технологий интеграции

Существует три основных метода интеграции данных: консолидация, федерализация и распространение:

  • 1) EAI (enterprise application integration) – интеграция корпоративных приложений (по данным)

  • 2) EII (enterprise information integration) - это технология для интеграции в режиме реального времени несопоставимых типов данных из многочисленных источников как внутри, так и за пределами корпорации

  • 3) ETL (extract, transform, load) пакетная интеграция данных используется для создания ХД

На рисунке показано положение технологий по отношению к двум спектрам задач.

  • Для интеграции данных в режиме реального времени лучше подходит технология EII.

  • Для пакетной интеграции данных – технология ETL.

  • Для интеграции приложений в режиме реального времени или пакетном режиме наиболее подходящим инструментом является технология EAI.

Федерализация данных (eii)

обеспечивает единую виртуальную картину из первичных источников данных.

  • По определению, процесс федерализации данных всегда заключается в извлечении данных из первичных систем на основании внешних требований. Все необходимые преобразования данных осуществляются при их извлечении из первичных файлов.

EII (enterprise information integration) - это технология для интеграции в режиме реального времени несопоставимых типов данных из многочисленных источников как внутри, так и за пределами организации. Инструменты EII обеспечивают универсальный уровень доступа к данным.

  • Технология EII необходима в тех случаях, когда нужно создать общий шлюз с единым языком и точкой доступа к несогласованным источникам данных.

  • Такие инструменты предоставляют приложениям и конечным пользователям возможности более гибкого, а также незапланированного доступа к данным, при этом, не требуя постоянного использования данных или долговременных целей для получения этого доступа.

  • Помимо традиционных реляционных баз данных, инструменты EII могут работать с XML- и LDAP-файлами, плоскими файлами и другими не реляционными данными. Эти инструменты также способны представлять реляционные данные в формате XML или формате web-сервисов.

ВЫВОД

Федерализацию данных можно использовать в тех случаях, когда стоимость консолидации данных перевешивает бизнес-преимущества, которые она предоставляет. Оперативная обработка запросов и подготовка отчетов могла бы служить примером подобной ситуации.

Приложения распространения данных (EAI)

осуществляют копирование данных из одного места в другое.

  • Эти приложения обычно работают в оперативном режиме и производят перемещение данных к местам назначения, т.е. зависят от определенных событий. Обновления в первичной системе могут передаваться в конечную систему синхронно или асинхронно.

EAI (enterprise application integration) - это технология, обеспечивающая централизацию и оптимизацию интеграции корпоративных приложений.

  • 1) Технология EAI наиболее функциональна тогда, когда необходимо связать приложения в реальном времени для автоматизации бизнес-процессов.

  • 2) Второй случай применения EAI - это ситуация, когда необходимо, чтобы изменения, внесенные в одно приложение (обычно небольшой набор записей), были отражены во всех других. Эта технология очень хорошо справляется с задачей фиксации изменений и их переноса в соответствующие приложения или системы.

ВЫВОД

Большим преимуществом такого метода распространения данных является то, что он может быть использован для перемещения данных в режиме реального времени или близком к нему.

Метод распространения данных может также использоваться для уравновешивания рабочей нагрузки, создания резервных копий и восстановления данных, в том числе в случае чрезвычайных ситуаций.

Консолидация данных (ETL).

Данные собираются из нескольких систем и интегрируются в одно место хранения.

  • Преимуществом консолидации данных является то, что этот подход позволяет осуществлять трансформацию значительных объемов данных (реструктуризацию, согласование, очистку и/или агрегирование) в процессе их передачи от первичных систем к конечным местам хранения. Некоторые сложности, связанные с данным подходом, - это значительные вычислительные ресурсы, которые требуются для поддержки процесса консолидации данных, а также существенные ресурсы памяти, необходимые для поддержки конечного места хранения.

Для среды Хранилищ данных одной из самых распространенных технологий поддержки консолидации является технология ETL (извлечения, преобразования и загрузки - extract, transform, and load)..

Технология ETL (extract, transform and load)

ETL (extract, transform and load) - это технология, которая преобразует данные (обычно с помощью их пакетной обработки) из операционной среды, включающей гетерогенные технологии, в интегрированные, согласующиеся между собой данные, пригодные для использования в процессе поддержки принятия решений.

  • 1) Технология ETL оказывается наиболее полезной в случаях, когда необходимо создать хранилище, содержащее хорошо документированные и надежные данные для исторического анализа, например, для анализа временных рядов или многомерных запросов.

  • 2) Эта технология также используется для интеграции ключевых систем независимых данных.

  • 3) Технология ETL незаменима для таких задач, как удаление дублирующихся данных, осуществление процессов проверки качества данных и т.п.

  • 4) Эти инструменты также используются для создания отдельных витрин данных, обслуживающих конкретный отдел или бизнес-процесс или предназначенных для каких-либо долгосрочных целей. Такие процессы включают создание точных технических метаданных, поддерживающих общую целостность среды business intelligence (BI).

Процесс извлечения данных из операционных систем и преобразования их в формат хранилища является весьма трудоемким, утомительным и отнимает много времени.

  • Данный этап жизненного цикла хранилища является наиболее сложным и продолжительным.

  • Конечной целью данного этапа является не просто наполнение базы хранилища, а наполнение ее качественными данными, в полном смысле отвечающими потребностям поддержки принятия решений.

  • Понятие качества данных включает их целостность, точность, полноту и согласованность.

Технология ETL включает три взаимосвязанные задачи:

  • 1) сбор данных (Data Extraction),

  • 2) преобразование, консолидация и очистка данных (Data Transformation, Data Consolidation, Data Cleaning)

  • 3) загрузка данных (Data Loading).