Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
consp1.doc
Скачиваний:
61
Добавлен:
14.05.2015
Размер:
914.94 Кб
Скачать

Корпоративное хранилище данных

Хранилища данных – это относительно новое направление развития технологии БД (термин Data Warehouse – DW был введен Б. Инмоном в 1990 году). Оно характеризуется как специальным образом администрируемая база данных, содержимое которой имеет ряд свойств, отличающих эту систему от обычных информационных систем. Хранилище данных организуется для целей поддержки управления, охватывая все основные стороны деятельности организации, и предоставляя всем подразделениям организации непротиворечивую и согласованную информацию, которая основывается на данных оперативного учета, данных для поддержки принятия решений и внешних данных.

В основе концепции хранилища данных лежат две основные идеи38:

  1. Интеграция разъединенных детализированных данных (детализированных в том смысле, что они описывают некоторые конкретные факты, свойства, события и т.д.) в едином хранилище. В процессе интеграции должно выполняться согласование рассогласованных детализированных данных и, возможно, их агрегация. Данные могут поступать из исторических архивов корпорации, оперативных баз данных, внешних источников.

  2. Разделение наборов данных и приложений, используемых для оперативной обработки и применяемых для решения задач анализа.

Общая структурная схема хранилища данных приведена на рис. 36

Рис. 36

Специфическими свойствами DWявляются:

  • предметная ориентация;

  • интегрированность данных;

  • инвариантность во времени;

  • неразрушаемость – стабильность информации;

  • минимизация избыточности информации.

Предметная ориентация. В отличие от традиционных ИС, где данные подобраны в соответствии с конкретными приложениями, информация в DW ориентирована на задачи поддержки принятия решений. Для системы поддержки принятия решений требуются "исторические" данные за определённые интервалы времени. Хорошо спроектированные структуры данных DW отражают развитие всех направлений деятельности организации во времени.

Интегрированность данных. Данные в информационное хранилище поступают из различных источников, где они могут иметь разные имена, атрибуты, единицы измерения и способы кодировки. После загрузки в DW данные очищаются от индивидуальных признаков, т. е. как бы приводятся к общему знаменателю. С этого момента они представляются пользователю в виде единого информационного пространства.

Инвариантность во времени. В обычных ИС истинность данных гарантирована только в момент чтения, поскольку уже в следующее мгновение они могут измениться в результате очередной транзакции. Важным отличием DW является то, что данные в них сохраняют свою истинность в любой момент процесса чтения. Временная инвариантность данных в DW достигается за счет введения полей с атрибутом "время" (день, неделя, месяц) в ключи таблиц. В результате записи в таблицах DW никогда не изменяются, представляя собой снимки данных, сделанные в определенные отрезки времени.

Неразрушаемость – стабильность информации. В обычных ИС записи могут регулярно добавляться, удаляться и редактироваться. В DW-системах, как следует из требования временной инвариантности, однажды загруженные данные теоретически никогда не меняются. По отношению к ним возможны только две операции: начальная загрузка и чтение (доступ).

Минимизация избыточности информации. Поскольку информация в DW загружается из оперативных БД, возникает вопрос, не ведет ли это к чрезмерной избыточности данных? На самом деле избыточность минимальна, что объясняется следующими причинами: при загрузке информации из БД в DW данные фильтруются. Многие из них вообще не попадают в DW, поскольку лишены смысла с точки зрения использования в системах поддержки принятия решений; в DW хранится некая итоговая информация, которая в оперативных БД вообще отсутствует; во время загрузки в DW записи сортируются, очищаются от ненужной информации и приводят к единому формату.

В самом простом варианте для DW используется та модель данных, которая лежит в основе транзакционной системы, а это, как правило, реляционная модель. При этом самой сложной задачей становится выполнение нерегламентированных, заранее не предусмотренных запросов (их называют ad-hoc запросами).

Некоторое время назад для DW было предложено использовать схемы данных, получившие названия "звезда" и "снежинка". Суть технологии проектирования этих схем заключается в выделении из общего объема информации собственно анализируемых данных (или фактов) и вспомогательных данных (называемых измерениями). Это, однако, приводит к дублированию данных в хранилище, снижению гибкости структуры и увеличению времени загрузки, что является платой за эффективный и удобный доступ к данным, необходимый в системах поддержки принятия решений (СППР).

Принципиальное отличие СППР на основе DW от интегрированной системы управления предприятием состоит в обязательном наличии в СППР метаданных. В общем случае, метаданные помещаются в централизованно управляемый репозитарий, в который включается информация о структуре данных хранилища, структурах данных, импортируемых из различных источников, о самих источниках, методах загрузки и агрегирования данных, сведения о средствах доступа, а также бизнес-правилах оценки и представления информации. Там же содержится информация о структуре бизнес-понятий. Некоторые бизнес-понятия (соответствующие измерениям в DW) образуют иерархии.

Репозитарий метаданных СППР на основе DW предназначен не только для профессионалов, но и для пользователей, которым он служит в качестве поддержки при формировании запросов. Более того, развитая система управления метаданными должна обеспечивать возможность управления бизнес-понятиями со стороны пользователей, которые могут изменять содержание метаданных и образовывать новые понятия по мере развития деятельности организации. Тем самым репозитарий превращается из факультативного инструмента в обязательный компонент СППР и DW. Опыт реализации систем управления метаданными показывает, что основная трудность состоит в определении содержания конкретных метаданных и методики работы с ними, в практическом внедрении репозитария.

Идея Витрины Данных (Data Mart) возникла, когда стало очевидно, что разработка корпоративного хранилища - долгий и дорогостоящий процесс. Это обусловлено как организационными, так и техническими причинами: информационная структура реальной компании очень сложна; технология принятия решений ориентирована на существующие технические возможности; требуются значительные инвестиции до того, как проект начнёт окупаться; требуется значительная модификация существующей технической базы; освоение новых технологий и программных продуктов специалистами компании может потребовать много времени и т.д.

Под витриной данных понимается специализированное хранилище, обслуживающее одно из направлений деятельности организации, например учет запасов или маркетинг. Важно, что происходящие здесь бизнес-процессы, во-первых, относительно изучены и, во-вторых, не столь сложны, как процессы в масштабах всей организации. Первые же попытки внедрения витрин данных оказались настолько успешными, что вокруг новой технологии начался настоящий бум. Предлагалось вообще отказаться от реализации корпоративного хранилища и заменить его совокупностью витрин данных. Однако вскоре выяснилось, что с ростом числа витрин растёт сложность их взаимодействия, поскольку сделать витрины полностью независимыми не удается. Сейчас принята точка зрения, в соответствии с которой разработка корпоративного хранилища должна идти параллельно с разработкой и внедрением витрин данных.

Фактическим стандартом структуры данных при разработке витрины является "звезда", основанная на единственной таблице фактов. При построении схемы взаимодействия корпоративного хранилища и витрин данных в рамках создания СППР рекомендуется определить некоторую специальную структуру для хранения исторических данных и дополнительно развернуть ряд витрин, заполняемых данными из этой структуры. Тем самым удается разделить два процесса: накопление исторических данных и их анализ.

Как следует из вышесказанного, хранилище данных не является просто средством для накопления и хранения информации. По существу, это БД для информационно-аналитической системы, используемой в интересах поддержки принятия решений. В ответ на растущие требования к средствам анализа и отчетности разработчики стали включать в архитектуру своих продуктов мощные системы "интеллектуальных знаний о бизнесе" (Business Intelligence - BI) - средства широкого назначения, которые используют технологии хранилищ данных, утилиты извлечения данных, формирования запросов и построения отчетности и онлайновой обработки данных.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]