Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
83
Добавлен:
23.05.2015
Размер:
164.86 Кб
Скачать

9.2. Типовая схема функционирования хранилища данных

Хранилище данных функционирует по следующему сценарию.

  • 1) По заданному регламенту в него соби­раются данные из различных источников - баз данных систем оперативной обработки.

  • 2) В хранилище поддерживается хроно­логия: наравне с текущими данными хранятся исторические данные с указанием времени, к которому они относятся.

  • 3) В результате необходимые доступные данные об объекте управления соби­раются в одном месте, А) приводятся к единому формату, Б) согла­совываются (семантика) и В) агрегируются до минимально требуемого уровня обобщения.

Облегченным вариантом корпоративного хранилища дан­ных могут быть витрины данных (Data Mart):

  • тематиче­ские ХД, содержащие информацию, относящуюся к отдельным аспектам деятельности организации.

Концепция витрин дан­ных была предложена Forrester Research в 1991 году. При этом главная идея заключалась в том, что витрины данных содержат тематические подмножества заранее агрегированных данных, по размерам гораздо меньшие, чем общекорпоративное хранилище данных, и, следовательно, требующие менее произ­водительной техники для поддержания.

В 1994 году М. Demarest предложил объединить две концепции и исполь­зовать хранилище данных в качестве единого интегрирован­ного источника для многочисленных витрин данных.

Типовая архитектура хранилища данных (09p1- типовая схема ХД). Основные компоненты:

  • 1) Источники данных (data sources), т.е. места, из ко­торых пополняется хранилище. Они могут быть как

      • внутрен­ними источниками (БД приложений или унаследованных систем),

      • внешними источниками, полученными у других организаций и из Internet.

  • 2) Извлечение, очистка и загрузка (ETL - EXTRACT, TRANSFOR­MATION AND LOADING) - набор средств загрузки данных, как правило, в сочетании с дополнительной обработкой:

      • проверкой данных на чисто­ту, консолидацией, форматированием, фильтрацией и пр.

  • 3) Буферный накопитель (staging area). Это временное место хранения данных, которые уже извлечены, но еще не помещены в хранилище.

  • 4) Интегрированное хранилище (integrated warehouse) представляет собой ядро всей системы – это один или несколь­ко серверов, реализующих выбранную структуру хранили­ща.

На сегодняшний день существует два основных подхода к архитектуре Хранилищ данных (Дополнительно: два основных подхода к архитектуре ХД):

    • Корпоративная информационная фабрика (Corporate Information Factory, CIF) Б. Инмона

    • Хранилище данных с архитектурой шины (Data Warehouse Bus, BUS) Ральфа Кимболла (Ralph Kimball).

  • 5) Инструменты доступа к данным (data access tools) - обеспечивают непосредственное общение пользователя с данными хранилища, направленное на поддержку принятия решений.

ТРЕХ БАЗО­ВЫХ СФЕРЫ – ТРИ МЕТОДА ОБРАБОТКИ ДАННЫХ

      • Сфера детализированных данных (Relation Space). Под­держка принятия решений здесь достигается за счет по­иска наиболее полной информации об интересующих ин­формационных объектах, а также выявления связей между ними.

      • Сфера агрегированных показателей (Aggregation Space). Целью данной сферы является комплексный взгляд на со­бранную информацию, ее обобщение и агрегация, гипер-кубическое представление и многомерный анализ. Все это является задачами систем оперативной аналитиче­ской обработки данных (OLAP).

      • Сфера закономерностей (Influence Space). Главными за­дачами здесь являются поиск функциональных и логиче­ских закономерностей в накопленной информации, по­строение моделей и правил, которые объясняют найден­ные аномалии и/или (с определенной вероятностью) про­гнозируют развитие некоторых процессов. Интеллекту­альная обработка производится методами прогнозной аналитики (интеллектуаль­ного анализа данных, ИАД, Data Mining).

Хранилища данных, несмотря на всю внешнюю новизну, не являются принципиально новым подходом к организации и обработке данных. Можно увидеть, что данный подход берет свою основу от первых шагов внедрения ИТ в деятельности предприятий.