Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
sokr_Tema5.doc
Скачиваний:
29
Добавлен:
15.04.2019
Размер:
6.61 Mб
Скачать

Хранилища данных

На момент начала XXI века реляционные базы данных являются наиболее успешно используемыми. Практически все информационные системы, которые используются в жизнедеятельности человека, ориентированы именно на технологии реляционных баз данных. Тем не менее, стоит заметить, что научно-технический прогресс не стоит на месте, а движется вперед.

Это движение обусловлено, в первую очередь, необходимостью обрабатывать значительно большие объемы информации, чем те, что были в конце XX века. Также основными причинами необходимости дальнейшего развития технологии баз данных являются:

  • повышенное внимание к разработкам корпоративных систем, которые хранят и обрабатывают информацию не из одной, а из нескольких предметных областей, учитывая при этом, связи между предметными областями;

  • необходимость получения аналитической информации на основании реляционных баз данных и других источников информации, имеющих разные форматы данных, такие как: XML-файлы, текстовые документы, электронные таблицы и т.д.;

  • необходимость увеличить скорость обработки больших объемов информации, измеряемых несколькими миллиардами записей.

В конечном итоге рассмотрение этих причин привело к возникновению банков данных, баз знаний, хранилищ данных и технологий OLAP, OLTP и многих других. Все это позволяет построить такие информационные системы, которые могут решать достаточно сложные задачи практически в любой деятельности человека.

Под банками данных понимают совокупность взаимосвязанных баз данных, необходимых для решения распределенных задач из различных предметных областей. В банке данных хранится достаточно универсальная, необходимая для решения разнообразных прикладных задач, информация об определенной предметной области в специальном представлении, чаще всего предполагающем хранение и обработку с помощью компьютеров. [8]

При этом сами данные образуют базу данных, а банк, наряду с базой, содержит программные средства обработки данных и реализации запросов, т.е. систему управления базами данных (СУБД), а также словарь метаданных, словарь данных о самих данных, где протоколируются все изменения данных и перемещения их на диске.

К настоящему времени сложились три основных типа банков информации: документов, данных и знаний.

Говоря о банках данных, нельзя не сказать о технологии хранения данных, как «хранилище данных». Эта технология была разработана с целью обеспечить хранение информации из различных источников и различных предметных областей человеческой деятельности. Также она предназначена для обеспечения быстрой обработки больших объемов информации с предоставлением отчетов для последующего аналитического анализа.

Под хранилищем данных понимают предметно-ориентированное, интегрированное, постоянное, изменяемое во времени хранилище данных для поддержки управленческих решений. [3] Комплексная структура современных баз данных представлена на рис. 65.

Рис.65. Комплексная структура современных баз данных

Одним из основных компонентов хранилища данных является куб данных, который призван совместить в едином месте коррелирующиеся данные и представить их в форме многомерного пространства.

Схематично куб данных можно представить следующим образом (см. рис. 66 на примере 3-х элементов данных):

Рис. 66. Иллюстрация куба данных - успеваемость студентов

В данной иллюстрации представлена предметная область «Успеваемость студентов», которая учитывает три базовых показателя (измерения): дисциплина, студент, контрольное мероприятие и результирующий показатель - оценка. Результирующий показатель является тем набором данных, который анализируется.

Точка пересечения всех трех измерений дает результат. Оценка по компьютерной подготовке студента Иванова выделена красным фоном. Все зависит от точности формулировки запроса и использования различных измерений, что и описывается понятиями витрина данных и срез данных.

В результате рассмотрения примера выделились некоторые новые понятия:

  • Куб данных – многомерное представление коррелирующейся информации;

  • Измерение – фактор многомерного представления информации, по которому выполняется выборка и срез данных.

Но для выполнения последующего анализа информации в кубах данных необходимо ввести дополнительные понятия:

  • Срез данных – многомерная выборка информации из куба данных по выделенным измерениям;

  • Витрина данных (Data marts) – многомерное преставление среза данных для последующего аналитического анализа информации.

На практике использование технологии хранилищ данных обусловлено необходимостью решение следующих основных задач:

  • хранение больших объемов взаимосвязанных данных из разных предметных областей;

  • исследование динамики и взаимосвязей данных;

  • получение обобщенных оценок по факторам и показателям.

С целью облегчения обработки информации в хранилищах данных были разработаны дополнительные технологии:

  • OLTP (online transaction processing) – оперативная обработка транзакций (транзакция в информатике - совокупность операций над данными, которая, с точки зрения обработки данных, либо выполняется полностью, либо совсем не выполняется, например, обработка заказа клиента);

  • OLAP (online analytical processing: оперативная аналитическая обработка) – интерактивный процесс создания, обслуживания и анализа данных и выдачи отчетов.

Эти технологии применяются в современных информационных системах, когда необходимо выполнить задачи аналитической обработки информации.

OLTP – технология используется для транзакционной обработки информации и включает в себя методы, связанные с оперативной обработкой, а именно: сортировку, поиск информации, выборку данных, оперативное изменение данных и т.д.

OLAP-технология, в первую очередь, призвана решать аналитические задачи, связанные с обобщением информации в информационные блоки, и формировать некоторые количественные показатели на основании базовых статистических функций (сумма, среднее, количество и т.д.).

Одной из особенностей OLAP-технологии является необходимость в некотором обобщении данных, обычно выполняемое сразу по нескольким различным критериям группирования. Это обобщение информации приводит к появлению двух технологий хранения данных: перекрестные таблицы и кубы данных, о которых уже шла речь несколько раньше.

Перекрестной таблицей называется реляционное представление данных, при котором используется два измерения, соответствующие факторам группировки, и первая колонка таблицы соответствует одному из измерений, а остальные колонки являются другим измерением (см. рис. 67).

Рис. 67. Иллюстрация перекрестной таблицы

Использование технологии перекрестных таблиц привело к возникновению направления реляционной OLAP (ROLAP).

Но наиболее перспективным направлением является MOLAP (многомерная OLAP). Эта технология требует формирования многомерных кубов данных и вся аналитическая обработка осуществляется на основании срезов и витрин данных.

Многомерное хранилище может быть организовано в виде одной из следующих структур:

  • Физической структуры, называемой MOLAP (Multidimensional OLAP), в которую с определенной периодичностью загружаются данные из файлов – источников, принадлежащих базам оперативных данных (например, один раз в день). Типичным инструментальным средством, поддерживающим MOLAP, является Oracle Express (Oracle), Power Play (Cognos Corp), Data Direct (INTERSOLV);

  • Виртуальной структуры, называемой ROLAP(Relational OLAP), которая динамически используется при запросах, вызывающих физическое манипулирование с файлами – источниками из реляционных баз оперативных данных (формирование ответа на запрос к информационному хранилищу «на лету»). ROLAP – система рассматривается просто как надстройка над реляционными базами данных, обеспечивающая удобный интерфейс пользователя. Типичными инструментальными средствами, поддерживающими ROLAP, являются Meta Cube (Informix), Business-Objects (BusinessObjects) и другие.

  • Гибридной структуры, называемой HOLAP (Hibrid OLAP), которая используется при построении многоуровневых информационных хранилищ, применяемых на разных уровнях управления большими корпорациями. Типичным инструментальным средством, поддерживающим HOLAP, является SAS System (SAS Institute)[5].

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]