- •Тема 9. Хранилища данных
- •9.1. Общие сведения
- •9.2. Типовая схема функционирования хранилища данных
- •9.3. Стадии совершенствования хранилища данных
- •Интерактивная отчетность и анализ
- •Интеграционная машина
- •Единое управление ис и оценочные панели деятельности
- •Перспектива
- •(1) Интерактивные экстрасети
- •(2) Web-сервисы – Корпоративный портал
- •(3) "Двигатели" принятия решений
9.2. Типовая схема функционирования хранилища данных
Хранилище данных функционирует по следующему сценарию.
1) По заданному регламенту в него собираются данные из различных источников - баз данных систем оперативной обработки.
2) В хранилище поддерживается хронология: наравне с текущими данными хранятся исторические данные с указанием времени, к которому они относятся.
3) В результате необходимые доступные данные об объекте управления собираются в одном месте, А) приводятся к единому формату, Б) согласовываются (семантика) и В) агрегируются до минимально требуемого уровня обобщения.
Облегченным вариантом корпоративного хранилища данных могут быть витрины данных (Data Mart):
тематические ХД, содержащие информацию, относящуюся к отдельным аспектам деятельности организации.
Концепция витрин данных была предложена Forrester Research в 1991 году. При этом главная идея заключалась в том, что витрины данных содержат тематические подмножества заранее агрегированных данных, по размерам гораздо меньшие, чем общекорпоративное хранилище данных, и, следовательно, требующие менее производительной техники для поддержания.
В 1994 году М. Demarest предложил объединить две концепции и использовать хранилище данных в качестве единого интегрированного источника для многочисленных витрин данных.
Типовая архитектура хранилища данных (09p1- типовая схема ХД). Основные компоненты:
1) Источники данных (data sources), т.е. места, из которых пополняется хранилище. Они могут быть как
внутренними источниками (БД приложений или унаследованных систем),
внешними источниками, полученными у других организаций и из Internet.
2) Извлечение, очистка и загрузка (ETL - EXTRACT, TRANSFORMATION AND LOADING) - набор средств загрузки данных, как правило, в сочетании с дополнительной обработкой:
проверкой данных на чистоту, консолидацией, форматированием, фильтрацией и пр.
3) Буферный накопитель (staging area). Это временное место хранения данных, которые уже извлечены, но еще не помещены в хранилище.
4) Интегрированное хранилище (integrated warehouse) представляет собой ядро всей системы – это один или несколько серверов, реализующих выбранную структуру хранилища.
На сегодняшний день существует два основных подхода к архитектуре Хранилищ данных (Дополнительно: два основных подхода к архитектуре ХД):
Корпоративная информационная фабрика (Corporate Information Factory, CIF) Б. Инмона
Хранилище данных с архитектурой шины (Data Warehouse Bus, BUS) Ральфа Кимболла (Ralph Kimball).
5) Инструменты доступа к данным (data access tools) - обеспечивают непосредственное общение пользователя с данными хранилища, направленное на поддержку принятия решений.
ТРЕХ БАЗОВЫХ СФЕРЫ – ТРИ МЕТОДА ОБРАБОТКИ ДАННЫХ
Сфера детализированных данных (Relation Space). Поддержка принятия решений здесь достигается за счет поиска наиболее полной информации об интересующих информационных объектах, а также выявления связей между ними.
Сфера агрегированных показателей (Aggregation Space). Целью данной сферы является комплексный взгляд на собранную информацию, ее обобщение и агрегация, гипер-кубическое представление и многомерный анализ. Все это является задачами систем оперативной аналитической обработки данных (OLAP).
Сфера закономерностей (Influence Space). Главными задачами здесь являются поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или (с определенной вероятностью) прогнозируют развитие некоторых процессов. Интеллектуальная обработка производится методами прогнозной аналитики (интеллектуального анализа данных, ИАД, Data Mining).
Хранилища данных, несмотря на всю внешнюю новизну, не являются принципиально новым подходом к организации и обработке данных. Можно увидеть, что данный подход берет свою основу от первых шагов внедрения ИТ в деятельности предприятий.
