
- •Тема 9. Хранилища данных
- •9.1. Общие сведения
- •9.2. Типовая схема функционирования хранилища данных
- •9.3. Стадии совершенствования хранилища данных
- •Интерактивная отчетность и анализ
- •Интеграционная машина
- •Единое управление ис и оценочные панели деятельности
- •Перспектива
- •(1) Интерактивные экстрасети
- •(2) Web-сервисы – Корпоративный портал
- •(3) "Двигатели" принятия решений
ЛЕКЦИЯ 11
Тема 9. Хранилища данных
В данном разделе рассматриваются ХРАНИЛИЩА ДАННЫХ (свойства, типовая схема, этапы становления, интеграция, качество данных, ITL, метаданные). Безусловно в последнее десятилетие (2003…2012) – это одно из ключевых направлений развития и использования информационных систем. Это связано, прежде всего, с ростом объема разнородных данных, и широким применением приложений бизнес-аналитики (BI) .
Ральф Кимбалл:
«На протяжении многолетней истории ИТ специалисты были заняты одной стороной проблемы – они учились накапливать данные. Теперь же, когда эта задача, так или иначе, решена, выяснилось, что надо понять, как представлять данные пользователям» (CW № 20 29-05-2007)
Если свести ХД только к сбору и агрегированию данных, когда усилия проектировщиков будут сведены только к технической стороне, а пользователь будет забыт. Цель, ради которой создавалось ХД, не будет достигнута.
Поэтому так критичны такие факторы, как качество данных, их актуальность, доверие к данным со стороны потребителей и их удовлетворенность данными.
9.1. Общие сведения
Билл Инмон (2006 год) – «Стоимость отчета, генерируемого из «сырых» данных составляет от 25 тысяч до 1 миллиона долларов и на его выпуск уходит от двух месяцев до года (минимально для среднего предприятия численностью несколько сот человек, максимально для крупной корпорации, имеющей десятки…сотни тысяч сотрудников). Если на предприятии уже есть хранилище, то на решение той же задачи нужно от получаса до 2 недель, а затраты не превышают 10 тысяч долларов… (2008г.) Средние затраты на построение хранилища составляют от 100 тыс. до 1 миллиона долларов. Если предприятию необходимо регулярно выпускать отчеты …». Важной характеристикой является не только стоимость, но и скорость получения отчета.
Термин data warehouse чаще всего переводится на русский язык как "хранилище данных" или "информационное хранилище".
Второй перевод противоречит самой идее концепции (концентрация корпоративных данных для обеспечения возможности их анализа с целью извлечения полезной информации), за что и критикуется многими авторами.
Хранилища данных - это сравнительно новое технологическое решение, которое стало использоваться только в середине 1990-х годов. После того как Билл Инмон (Bill Inmon), получивший всеобщее признание как "отец концепции Хранилища данных", опубликовал свою первую книгу по этой теме. W.H. Inmon, Building the Data Warehouse, QED/Wiley, 1991.
ПРИЧИНЫ: Отдельные элементы этой концепции и их техническое воплощение существовали раньше (по сути, с 1970-х годов), но только к середине 1990-х годов:
1) В полной мере осознана необходимость интеграции и надлежащего управления корпоративной информацией.
2) Появились технические возможности для создания подобных систем.
Хранилище данных – аппаратно-программный комплекс, обеспечивающий интеграцию, актуализацию и согласование оперативных данных из разнородных источников для формирования единого непротиворечивого взгляда на объект управления в целом
Целью построения корпоративного хранилища данных является
1) интеграция, актуализация и согласование оперативных данных из разнородных источников:
Для этого разработана специальная технология ETL (Extract, Transform and Load). В целом это достаточно сложная и нетривиальная задача (подробнее в разделе 9.4)
2) для формирования единого непротиворечивого взгляда на объект в целом.
Фактически это означает, что в основе концепции хранилищ данных лежит признание необходимости разделения:
Наборов данных, используемых для оперативной обработки. Это традиционные многочисленные БД, существующие на предприятии
Наборов данных, применяемых в стратегических СППР – хранилище данных.
2 ключевые проблемы:
(1) объемы информации превосходят все, что когда-либо доводилось видеть в мире обработки транзакций (десятки и сотни терабайт)
(2) нет единого мнения – оправданно ли создание ХД с экономической точки зрения
W. Inman, автор концепции, определяет хранилища данных как:
Хранилище данных – это предметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные с целью поддержки управления, призванные выступать в роли "единого и единственного источника истины", обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и поддержки принятия решений.
Основные свойства хранилищ данных
(1) предметно-ориентированные:
Все собранные данные, относящиеся к объекту исследования, равноправны в хранилище независимо от их происхождения. Это кардинально отличается от БД – где данные подобраны в соответствии с требованиями приложений.
(2) интегрированные:
подразумевает согласование, унификацию и стандартизацию данных, т.е. приведение их к общему знаменателю. Форматы, семантика, агрегация.
(3) неизменчивые:
однажды загруженные данные никогда не изменяются.
(4) поддерживающие хронологию:
данные хронологически структурированы и отражают историю.
В БД архивация не актуальных данных. Теперь фактически неограниченное число состояний объекта в процессе существования. Ретроспективный анализ.
событийная история – данные;
набор изменений сущности – объектов.
Альтернативным способом формирования единого взгляда на корпоративные данные является создание виртуального источника, опирающегося на распределенные базы данных различных СОД.
При этом каждый запрос к такому источнику динамически транслируется в запросы к исходным базам данных, а полученные результаты на лету согласовываются, связываются, агрегируются и возвращаются к пользователю.
НЕДОСТАТКИ
Время обработки запросов к распределенному хранилищу значительно превышает соответствующие показатели для централизованного хранилища.
Интегрированный взгляд на распределенное корпоративное хранилище возможен только при выполнении требования постоянной связи всех источников данных в сети.
Любая временная недоступность хотя бы одного из источников может либо сделать работу невозможной, либо привести к ошибочным результатам.
Выполнение сложных аналитических запросов к таблицам СОД потребляет большой объем ресурсов сервера БД и приводит к снижению быстродействия СОД, что недопустимо (время выполнения операций СОД часто весьма критично).
Различные СОД могут поддерживать разные форматы и кодировки данных. В таком случае цель (формирование единого непротиворечивого взгляда на объект управления) может не быть достигнута.
Часто на один и тот же вопрос может быть получено несколько вариантов ответа, что может быть связано:
Несинхронностью моментов обновления данных,
Отличиями в трактовке отдельных событий, понятий и данных и т.д.
Главным же недостатком следует признать практическую невозможность обзора длительных исторических последовательностей:
Основное назначение СОД – это оперативная обработка данных. По мере устаревания данные выгружаются в архив и удаляются из оперативной БД.
Что касается аналитической обработки, то для нее как раз наиболее интересен взгляд на объект управления в исторической ретроспективе.