Выбор решения.
На рынке управленческих систем представлено несколько открытых решений основанных на хранилищах данных для финансовых организаций. Примерами функционально-ориентированного хранилища является OFSA FinancialDataManager или EPF; центрального – IBM BDW и Teradata LDM. Можно увидеть варианты, когда хранилище моделируется в нормализованном виде, но состав и структура ограничиваются необходимым набором исходных данных конкретных бизнес-приложений. Примером таких моделей являются компоненты решений от компании SAS.
На практике часто можно обнаружить определенное комбинирование подходов, при проектировании различных элементов решения.
Функционально-ориентированное хранилище может приобретаться, как составляющая аналитического решения или управленческой системы, и предназначено для поддержки определенного спектра бизнес-задач. Приобретая центральное хранилище, получаем проработанную с точки зрения бизнеса отраслевую модель данных и шаблоны типовых витрин на базе данной модели по ключевым направлениям банковского бизнеса (финансы, риски, CRM и прочее), но без прикладной функциональности.
Если масштабы и приоритеты финансовой организации позволяют, функционально-ориентированное хранилище данных может быть внедрено в составе и как основа для решения наиболее востребованных бизнес-задач, и затем использоваться в качестве источника для некоторых вновь создаваемых витрин. Однако на определённом этапе развития бизнеса оно не сможет выполнять эти функции в достаточной степени и потребует значительной доработки или замены. Много зависит от детальных особенностей того или иного решения (архитектуры, модели данных и т.д.).
В любом случае выбор должен осуществляться с учётом экономических соображений на основе глубокого анализа состояния и потребностей каждой финансовой организации индивидуально с привлечением экспертов по хранилищам данных и ключевым областям работы самой организации.
Витрина данных
Витрина данных (англ. Data Mart; другие варианты перевода: хранилище данных специализированное, киоск данных, рынок данных) — срез хранилища данных, представляющий собой массив тематической, узконаправленной информации, ориентированный, например, на пользователей одной рабочей группы или департамента.
Концепция витрин данных
Концепция витрин данных была предложена Forrester Research ещё в 1991 году. По мысли авторов, витрины данных — множество тематических БД, содержащих информацию, относящуюся к отдельным аспектам деятельности организации.
Концепция имеет ряд несомненных достоинств:
Аналитики видят и работают только с теми данными, которые им реально нужны.
Целевая БД максимально приближена к конечному пользователю.
Витрины Данных обычно содержат тематические подмножества заранее агрегированных данных, их проще проектировать и настраивать.
Для реализации витрин данных не требуется высокомощная вычислительная техника.
Но концепция витрин данных имеет и очень серьёзные пробелы. По существу, здесь предполагается реализация территориально распределённой информационной системы с мало контролируемой избыточностью, но не предлагается способов, как обеспечить целостность и непротиворечивость хранимых в ней данных.
Идея соединить две концепции — хранилищ данных и витрин данных, по видимому, принадлежит М. Демаресту (M. Demarest), который в 1994 году предложил объединить две концепции и использовать хранилище данных в качестве единого интегрированного источника данных для витрин данных.
И сегодня именно такое многоуровневое решение:
первый уровень — общекорпоративный БД на основе реляционной СУБД с нормализованной или слабо денормализованной схемой (детализированные данные);
второй уровень — БД уровня подразделения (или конечного пользователя), реализуемые на основе многомерной СУБД (агрегированные данные);
третий уровень — рабочие места конечных пользователей, на которых непосредственно установлен аналитический инструментарий;
постепенно становится стандартом де-факто, позволяя наиболее полно реализовать и использовать достоинства каждого из подходов:
компактное хранение детализированных данных и поддержка очень больших БД, обеспечиваемые реляционными СУБД;
простота настройки и хорошие времена отклика, при работе с агрегированными данными, обеспечиваемые многомерными СУБД.
Реляционная форма представления данных, используемая в центральной общекорпоративной БД, обеспечивает наиболее компактный способ хранения данных. Современные реляционные СУБД уже умеют работать с БД имеющими размер порядка нескольких терабайт. Хотя такая центральная система обычно не сможет обеспечить оперативного режима обработки аналитических запросов, при использовании новых способов индексации и хранения данных, а также частичной денормализации таблиц, время обработки заранее регламентированных запросов (а в качестве таких, можно рассматривать и регламентированные процедуры выгрузки данных в многомерные БД) оказывается вполне приемлемым.
В свою очередь, использование многомерных СУБД в узлах нижнего уровня обеспечивает минимальные времена обработки и ответа на нерегламентированные запросы пользователя. Кроме того, в некоторых многомерных СУБД имеется возможность хранить данные как на постоянной основе (непосредственно в многомерной БД), так и динамически (на время сеанса) загрузить данные из реляционных БД (на основе регламентированных запросов).
Таким образом, имеется возможность хранить на постоянной основе только те данные, которые наиболее часто запрашиваются в данном узле. Для всех остальных хранятся только описания их структуры и программы их выгрузки из центральной БД. И хотя, при первичном обращении к таким виртуальным данным, время отклика может оказаться достаточно продолжительным, такое решение обеспечивает высокую гибкость и требует более дешевых аппаратных средств
OLAP
OLAP (англ. online analytical processing, аналитическая обработка в реальном времени) — технология обработки информации, включающая составление и динамическую публикацию отчётов и документов. Используется аналитиками для быстрой обработки сложных запросов к базе данных. Служит для подготовки бизнес-отчётов по продажам, маркетингу, в целях управления, т. н. data mining — добыча данных (способ анализа информации в базе данных с целью отыскания аномалий и трендов без выяснения смыслового значения записей).
Основоположник термина OLAP, Эдгар Кодд, предложил в 1993 году «12 законов аналитической обработки в реальном времени».