Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Михайлов БД шпоры.doc
Скачиваний:
58
Добавлен:
08.03.2015
Размер:
360.45 Кб
Скачать

17. Хранилища данных и olap-технология.

Представляет собой способ получения и анализа данных.

  1. Его суть заключается в том, что информация представляется в виде не плоских таблиц, как в реляционной М, а в виде многомерного куба с возможностью произвольного манипулирования ею. Каждая грань «куба» соответствует какому-либо атрибуту сущности. В этом случае , выполняя преобразования над этим кубом (повороты, группировки и т.д.), можно выполнять все возможные запросы, но в случае обработки многих атрибутов куб быстро увеличивается в размерах, и отображать его на экране монитора становится не совсем удобно. Для того, чтобы получить хороший результат, необходимо, чтобы на экран выводился не весь куб, а только нужная его часть. Для этого нужно:

  1. Иметь возможность выбирать только интересующие пользователя измерения;

  2. Иметь возможность отсекать ненужные значения.

  1. Работа с OLAP-системой должна быть простой и очевидной для пользователя. С учетом этого требования OLAP имеет свои недостатки:

  1. OLAP рассчитана на анализ процессов (действий): поступление, отгрузка, оплата товара. Но если требуется анализировать состояние объекта, то желательно выбрать другую технологию обработки.

  2. OLAP – это инструмент получения информации, поэтому пользователь должен четко представлять информацию, о чем он хочет получить из БД. В случае нечетко сформулированных запросов OLAPработать не будет, т.к. в ее основе лежат SQL-запросы.

  3. OLAP предназначена для работы с большими массивами данных, поэтому она может загрузить сразу все ресурсы. Поэтому при использовании OLAP целесообразно большой банк данных разбивать на отдельные хранилища данных и использовать OLAP для анализа какого-либо из них.

В настоящее время применяется 4 подхода к использованию OLAP при анализе данных.

  1. M- OLAP (Multidimensional) – реализация механизма при помощи многомерной БД на стороне сервера.

  2. R- OLAP (Relational) – построение кубов на основе SQL-запросов к реляционной СУБД. Общая схема работы настольной OLAP-системы состоит из следующих этапов:

  1. Получение данных в виде плоской таблицы или результата выполнения SQL-запроса.

  2. Кэширование данных к преобразованию их к многомерному кубу.

  3. Отображение построенного куба при помощи кросс-таблицы или диаграммы (к одному кубу при этом может быть подключено произвольное количество отображений).

В кросс-таблице можно выделить следующие элементы:

  1. Заголовки столбцов;

  2. Заголовки строк;

  3. Матрица фактов.

Матрица фактов содержит ключевые факты, по которым делаются запросы.

Множественные таблицы с измерениями (данными) присоединяются к таблице фактов (так, что получается схема звезды или снежинки.

Множественные таблицы показывают, как могут анализироваться агрегированные реляционные данные. Количество возможных агрегирований (уровней иерархии) определяется количеством способов, которыми первоначальные данные могут быть иерархически отображены.

При заполнении таблицы фактов поступают следующим образом:

  1. На основании даны об измерениях определяют координаты добавляемого элемента в матрице;

  2. Определяют координаты столбцов и строк, содержащих итоги, на которые влияет добавляемый элемент;

  3. Добавляют элемент в матрицу и соответствующие столбцы и строки итогов.

Матрица фактов получается разреженной (не все ее ячейки оказываются заполненными), поэтому для работы с ней применяются специальные механизмы (алгоритмы).

  1. H-OLAP (Hibrit) – гибридный. Он использует реляционные таблицы для хранения базовых данных и многомерные таблицы для хранения агрегатов.

  2. RR-OLAP (Real Time - OLAP) – OLAP реального времени.

Если в R- OLAP для хранения агрегатов создаются дополнительные реляционные таблицы, то в RR- OLAP этого не происходит, а агрегаты рассчитываются непосредственно в момент запроса. При этом многомерный запрос к OLAP-системе автоматически преобразовывается в SQL-запросы к реляционным данным.

Каждый тип OLAP имеет определенные преимущества:

  • M- OLAPлучше всего подходит для небольших наборов данных, он быстро рассчитывает агрегаты, но при этом генерируются большие объемы данных.

  • R- OLAP использует наименьшие возможные пространства, но при этом скорость обработки данных снижается.

  • H- OLAP достаточно хорошо масштабируется и при этом быстро обрабатывается.

  • RR- OLAP позволяет проводить многомерную обработку данных, называемую OLTP-обработкой в реальном времени .

Общими преимуществами OLAP-технологии являются:

  1. Обеспечивается при разработке OLAP-средств интуитивно понятный пользовательский интерфейс для просмотра данных.

  2. Гарантируется высокая производительность выполнения запросов (она оценивается как 1/10 запроса) за счет интеллектуальной навигации по сводным таблицам и разделам.

  3. Реализация многомерных структур со связями типа «родитель-потомок» проста и интуитивно понятна.

Хранилища данных

При работе с данными принято различать БД и банки (хранилища) данных.

Системы, построенные на основе БД, принято называть системами образования тран-ий. Они ориентированы на поддержание докооборота и обеспечение бесперебойной работы организации.

Хранилища данных ориентированы на поддержку принятия решений, т.е. совершенно другой задачи.

Помимо задач, для которых они предназначены, они отличаются методами ввода данных. В системы обработки тран-ий данные вводятся часто, но небольшими порциями. В хранилища данных – редко, но помногу.

Общая схема хранилищ данных заключается в следующем: каждое подразделение или отдельное предприятие (в зависимости от уровня системы) ежедневно высылает в центральное звено отчет по заранее утвержденной форме. Эти данные преобразуются с помощью специальной программы «перекодировщик» к единому виду и заносятся в хранилища данных. Необходимость перекодировщика связана с тем, что:

  1. В каждом подразделении может быть установлена своя система обработки тран-ий, которые по-разному могут хранить информацию.

  2. В разных подразделениях одни и те же данные могут учитываться в разных единицах измерений.

  3. Всегда, когда ведется работа с данными, необходимо учитывать человеческий фактор (проверка наличия ошибок).

В результате применения перекодировщика информация приводится к единому виду.

Т.к. хранилища данных рпедназначены для хранения больших массивов данных, то для хранения и обработки применяется исключительно OLAP-технология.

Применение хранилищ данных и OLAP-технологии позволило достичь следующих целей:

  1. Все пользователи информацию получают из единого места в одинаковом виде. При этом решается проблема несоответствия терминологии.

  2. Информация и отчеты поступают оперативно.

  3. Всегда можно поднять данные за любой промежуток времени.

  4. Интуитивно понятный интерфейс обеспечивает удобство работы с данными.

62