Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика / Информатика / Максимова ФМ 2-6 Билеты 11-13.docx
Скачиваний:
80
Добавлен:
13.03.2015
Размер:
146.95 Кб
Скачать

13. Технологии аналитической обработки данных. Olap – технологии. Примеры систем бизнес-анализа.

Современный уровень развития аппаратных и программных средств с некоторых пор сделал возможным повсеместное ведение баз данных оперативной информации на разных уровнях управления. В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры, органы государственной власти и управления накопили большие объемы данных. Они хранят в себе большие потенциальные возможности по извлечению полезной аналитической информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые решения.

В последние годы в мире оформился ряд новых концепций хранения и анализа корпоративных данных:

1) Хранилища данных, или Склады данных (Data Warehouse)


2) Оперативная аналитическая обработка (On-Line Analytical Processing, OLAP)


3) Интеллектуальный анализ данных - ИАД (Data Mining)

Системы аналитической обработки данных OLAP—это системы поддержки принятия решений, ориентированные на выполнение более сложных запросов, требующих статистической обработки исторических данных, накопленных за определенный промежуток времени. Они служат для подготовки бизнес-отчетов по продажам, маркетингу в целях управления, так называемого Data Mining — добычи данных, т.е. способа анализа информации в базе данных для отыскания аномалий и трендов без выяснения смыслового значения записей.

Аналитические системы, построенные на базе OLAP, включают в себя средства обработки информации на основе методов искусственного интеллекта и средства графического представления данных. Эти системы определяются большим объемом исторических данных, позволяя выделить из них содержательную информацию, т.е. получить знания из данных.

Оперативность обработки достигается за счет применения мощной многопроцессорной техники, сложных методов анализа, специализированных хранилищ данных.

Реляционные базы данных хранят сущности в отдельных таблицах, которые обычно хорошо нормализованы. Эта структура удобна для операционных баз данных (системы OLTP), но сложные многотабличные запросы в ней выполняются относительно медленно. Более хорошей моделью для запросов, а не для изменения, является пространственная база данных.

Система OLAP делает мгновенный снимок реляционной базы данных и структурирует ее в пространственную модель для запросов. Заявленное время обработки запросов в OLAP составляет около 0,1% аналогичных запросов в реляционную базу данных.

Структура OLAP, созданная из рабочих данных, называется OLAP-кубом. Куб создается из соединения таблиц с применением схемы «звезда». В центре «звезды» находится таблица фактов, содержащая ключевые факты, по которым делаются запросы. Множественные таблицы с измерениями присоединены к таблице фактов. Эти таблицы показывают, как могут анализироваться агрегированные реляционные данные. Количество возможных агрегирований определяется числом способов, которыми первоначальные данные могут быть иерархически отображены.

Приведенные классы систем (OLAP и OLTP) основаны на использовании СУБД, но типы запросов сильно отличаются. Механизм OLAP является на сегодня одним из популярных методов анализа данных. Есть два основных подхода к решению этой задачи. Первый из них называется Multidimensional OLAP (MOLAP) — реализация механизма при помощи многомерной базы данных на стороне сервера, а второй Relational OLAP (ROLAP) — построение кубов «на лету» на основе SQL запросов к реляционной СУБД. Каждый из этих подходов имеет свои достоинства и недостатки. Общую схему работы настольной OLAP системы можно представить рис.

Алгоритм работы следующий:

1) получение данных в виде плоской таблицы или результата выполнения SQL-запроса;

2) кэширование данных и преобразование их к многомерному кубу;

3) отображение построенного куба при помощи кросс-таблицы или диаграммы и т.п.

В общем случае к одному кубу может быть подключено произвольное количество отображений. Отображения, используемые в OLAP-системах, чаще всего бывают двух видов: кросс-таблицы и диаграммы.

Схема звезды. Ее идея заключается в том, что имеются таблицы для каждого измерения, а все факты помещаются в одну таблицу, индексируемую множественным ключом, составленным из ключей отдельных измерений. Каждый луч схемы звезды задает, в терминологии Кодда, направление консолидации данных по соответствующему измерению.

В сложных задачах с многоуровневыми измерениями имеет смысл обратиться к расширениям схемы звезды - схеме созвездия (fact constellation schema) и схеме снежинки (snowflake schema). В этих случаях отдельные таблицы фактов создаются для возможных сочетаний уровней обобщения различных измерений. Это позволяет добиться лучшей производительности, но часто приводит к избыточности данных и к значительным усложнениям в структуре базы данных, в которой оказывается огромное количество таблиц фактов.

схема созвездия

схема звезды