Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
АД.docx
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
326.31 Кб
Скачать

Сппр на основе трёхуровневого хранилища данных

Рисунок 4. Трёхуровневое хранилище данных

Хранилище данных представляет собой единый централизованный источник корпоративной информации. Витрины данных представляют подмножества данных из хранилища, организованные для решения задач отдельных подразделений компании. Конечные пользователи имеют возможность доступа к детальным данным хранилища, в случае если данных в витрине недостаточно, а также для получения более полной картины состояния бизнеса.

Преимущества:

Создание и наполнение витрин данных упрощено, поскольку наполнение происходит из единого стандартизованного надежного источника очищенных нормализованных данных

Витрины данных синхронизированы и совместимы с корпоративным представлением. Имеется корпоративная модель данных. Существует возможность сравнительно лёгкого расширения хранилища и добавления новых витрин данных

Гарантированная производительность

Недостатки:

Существует избыточность данных, ведущая к росту требований на хранение данных

Требуется согласованность с принятой архитектурой многих областей с потенциально различными требованиями (например, скорость внедрения иногда конкурирует с требованиями следовать архитектурному подходу)

Мы рассмотрели основные варианты архитектур систем поддержки принятия решений. Выбор конкретного варианта зависит от условий, в которые поставлена проектная группа. Нужен ли быстрый возврат от инвестиций, или можно потратить больше времени и построить надежную инфраструктуру? Является ли проектная группа профессиональной или состоит из новичков? Существует ли формализованная методология или механизмы работы еще не отлажены? Ответы на эти и ряд других вопросов могут повлиять на ваш выбор. Подробное описание преимуществ и недостатков каждого варианта архитектуры можно найти в литературе

3. Концепция Хранилищ Данных

Сегодня СОД (системы обработки данных), реализованные на самой различной основе, исправно работают и при этом исправно порождают и пополняют многочисленные многотомные электронные архивы. Основное назначение таких систем - оперативная обработка, и они не могут себе позволить роскошь хранить данные более чем за несколько месяцев. После того как данные устаревают, они выгружаются и вычищаются из операционной БД. А поскольку обычно в любой организации функционирует несколько различных, несвязанных или слабо связанных СОД, выгруженные из них данные, как правило, имеют различную структуру, формат, стандарты представления дат и денежных величин. Для обозначения одних и тех же объектов используются различные кодировки. Обычно в них в явном виде отсутствуют реквизиты, идентифицирующие временной срез, которому они соответствуют, и источники их получения.

В результате огромные архивные массивы, накопленные за годы эксплуатации СОД и содержащие самую разнообразную жизненно важную для организации информацию, остаются невостребованными. Без предварительной доработки и согласования, архивные данные бесполезны и не могут быть непосредственно использованы в задачах анализа.

Но данные, порожденные в результате функционирования корпоративных СОД, - это только часть информации, необходимой для принятия корректного бизнес-решения. Организация живет и функционирует в реальном мире. Включение в аналитическую систему данных из различных электронных статистических сборников (как общедоступных, так и коммерческих), прогнозов развития регионов и областей экономики, законодательной базы позволяет по-новому взглянуть на многие закономерности, выявленные в процессе анализа внутренних данных. И, как показывает практика, любое решение, принятое исключительно на основе внутренних данных, скорее всего, окажется не вполне корректным.

Автором концепции Хранилищ Данных (Data Warehouse) является Б. Инмон, который определил Хранилища Данных [1] как: "предметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления", призванные выступать в роли "единого и единственного источника истины", обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений.

В основе концепции Хранилищ Данных лежат две основополагающие идеи.

Интеграция ранее разъединенных детализированных данных в едином Хранилище Данных, их согласование и, возможно, агрегация:

исторических архивов;

данных из традиционных СОД;

данных из внешних источников.

Разделение наборов данных, используемых для операционной обработки, и наборов данных, применяемых для решения задач анализа.

Наиболее распространенной на сегодня ошибкой является попытка найти в концепции Хранилищ Данных некий законченный рецепт реализации информационной аналитической системы. Тем более, это не некий готовый программный продукт или некое готовое универсальное решение. В этом смысле интересна и показательна оценка Butler Group Co. [2] структуры затрат на реализацию систем Хранилищ Данных, по которой до 50% от стоимости системы составляет стоимость консалтинга и лишь оставшиеся 50% - это стоимость аппаратных, сетевых и программных компонентов. С этой оценкой можно спорить, но она весьма показательна.

Цель концепции Хранилищ Данных - прояснить отличия в характеристиках данных в операционных и аналитических системах (таблица 1), выяснить требования к данным, помещаемым в целевую БД Хранилища Данных (таблица 2), определить общие принципы и этапы ее построения, основные источники данных, дать рекомендации по решению потенциальных проблем, возникающих при их выгрузке, очистке, согласовании, транспортировке и загрузке в целевую БД.

Характеристика

Операционные

Аналитические

Частота обновления

Высокая частота, маленькими порциями

Малая частота, большими порциями

Источники данных

В основном, внутренние

В основном, внешние

Объемы хранимых данных

Сотни мегабайт, гигабайты

Гигабайты и терабайты

Возраст данных

Текущие (за период от нескольких месяцев до одного года)

Текущие и исторические (за период в несколько лет, десятки лет)

Назначение

Фиксация, оперативный поиск и преобразование данных

Хранение детализированных и агрегированных исторических данных, аналитическая обработка, прогнозирование и моделирование

Таблица 1.  Сравнение характеристик данных в информационных системах, ориентированных на операционную и аналитическую обработку данных.

Предметная ориентированность

Все данные о некотором предмете (бизнес-объекте) собираются (обычно из множества различных источников), очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес-анализе форме.

Интегрированность

Все данные о разных бизнес-объектах взаимно согласованы и хранятся в едином общекорпоративном Хранилище.

Неизменчивость

Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное Хранилище, остаются неизменными и используются исключительно в режиме чтения.

Поддержка хронологии

Данные хронологически структурированы и отражают историю, за достаточный для выполнения задач бизнес-анализа и прогнозирования период времени.

Таблица 2.  Основные требования к данным в Хранилище Данных.

Предметом концепции Хранилищ Данных служат сами данные. После того как традиционная СОД реализована и начинает функционировать, она становится ровно таким же самостоятельным объектом реального мира, как и любой производственный процесс. А данные, которые являются одним из конечных продуктов такого производства, обладают ровно теми же свойствами и характеристиками, что и любой промышленный продукт: сроком годности, местом складирования (хранения), совместимостью с данными из других производств (СОД), рыночной стоимостью, транспортабельностью, комплектностью, ремонтопригодностью и т. д.

Именно с этой точки зрения и рассматриваются данные в Хранилищах Данных. То есть целью здесь являются не способы описания и отображения объектов предметной области, а собственно данные, как самостоятельный объект предметной области, порожденной в результате функционирования ранее созданных информационных систем.

Для правильного понимания данной концепции необходимо уяснение следующих принципиальных моментов.

Концепция Хранилищ Данных - это не концепция анализа данных, скорее, это концепция подготовки данных для анализа.

Концепция Хранилищ Данных не предопределяет архитектуру целевой аналитической системы. Она говорит о том, какие процессы должны выполняться в системе, но не о том, где конкретно и как эти процессы должны выполняться.

Концепция Хранилищ Данных предполагает не просто единый логический взгляд на данные организации (как иногда это трактуется), а реализацию единого интегрированного источника данных.

Последний пункт достаточно принципиален, поэтому рассмотрим его более детально. Сегодня достаточно популярны решения, предполагающие интеграцию различных СОД на основе единого справочника метаданных (поддерживающего единый логический взгляд на данные организации), но не единого интегрированного источника данных. При этом по каждому новому запросу предполагается динамическая выгрузка данных из различных операционных источников (СОД), их динамическое согласование, агрегация и транспортировка к пользователю.

Очевидно, что для определенных классов приложений это решение вполне корректно. Но следует заранее понимать все накладываемые им ограничения.

Кроме единого справочника метаданных, средств выгрузки, агрегации и согласования данных, концепция Хранилищ Данных подразумевает: интегрированность, неизменчивость, поддержку хронологии и согласованность данных. И если два первых свойства (интегрированность и неизменчивость) влияют на режимы анализа данных (как будет показано ниже, без интегрированной базы данных, в которой используются специализированные методы хранения и доступа, по крайней мере, сегодня трудно говорить о реализации интерактивного динамического анализа), то последние два (поддержка хронологии и согласованность) существенно сужают список решаемых аналитических задач.

Без поддержки хронологии (наличия исторических данных) нельзя говорить о решении задач прогнозирования и анализа тенденций. Но наиболее критичными и болезненными оказываются вопросы, связанные с согласованием данных.

Основным требованием аналитика является даже не столько оперативность, сколько достоверность ответа. Но достоверность, в конечном счете, и определяется согласованностью. Пока не проведена работа по взаимному согласованию значений данных из различных источников, сложно говорить об их достоверности.

Практически в любой организации вопрос о согласованности данных в различных информационных системах стоит чрезвычайно остро. И, нередко, менеджер сталкивается с ситуацией, когда на один и тот же вопрос, различные системы могут дать и обычно дают различный ответ. Это может быть связано как с несинхронностью моментов модификации данных, отличиями в трактовке одних и тех же событий, понятий и данных, изменением семантики данных в процессе развития предметной области, элементарными ошибками при вводе и обработке, частичной утратой отдельных фрагментов архивов и т. д. Очевидно, что учесть и заранее определить алгоритмы разрешения всех возможных коллизий мало реально. Тем более, это нереально сделать в оперативном режиме, динамически, непосредственно в процессе формирования ответа на запрос.