
- •Тема 10. Методы обработки и анализа данных для поддержки принятия решений
- •10.1. Оперативная аналитическая обработка данных (olap)
- •1. Molap (Multidimensional olap) работают только с собственными многомерными бд.
- •2. Relational olap (rolap) преобразуют данные, хранимые в классической реляционной базе, в многомерную форму.
ЛЕКЦИЯ 12
Тема 10. Методы обработки и анализа данных для поддержки принятия решений
Поддержка принятия управленческих решений на основе накопленных в ХРАНИЛИЩЕ данных может выполняться в трех базовых сферах:
-
Сфера детализированных данных (Relation Space). Поиск информации об интересующих объектах, а также выявления связей между ними. Традиционные системы поиска и формирования отчетов – поиск и отыскание фактов, которые произошли в прошлом и были зафиксированы.
-
Сфера агрегированных показателей (Aggregation Space). Комплексный взгляд на собранную информацию, ее обобщение и агрегация, гипер-кубическое представление и многомерный анализ. Системы оперативной аналитической обработки данных (OLAP).
-
Сфера закономерностей (Influence Space). Поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или (с определенной вероятностью) прогнозируют развитие некоторых процессов. Методы интеллектуального анализа данных (ИАД, Data Mining). Это мульти дисциплинарная область, возникшая и развивающаяся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных.
10.1. Оперативная аналитическая обработка данных (olap)
Определение
On-Line Analytical Processing (OLAP) — это технология комплексного многомерного анализа данных в реальном времени.
Ее суть состоит (основные элементы, пример – сводная таблица Excel):
-
1) В предоставлении пользователю многомерной таблицы,
-
2) автоматически агрегирующей (сумма, среднее, математическое ожидание, дисперсия и т.д.) данные в различных разрезах
-
3) и позволяющей интерактивно управлять вычислениями, мерами и формой отчета.
Концепция OLAP была описана в 1993 году Эдгаром Коддом, известным исследователем баз данных и автором реляционной модели данных.
-
E.F. Codd, S.B. Codd, and C.T.Salley, Providing OLAP (on-line analytical processing) to user-analysts: An IT mandate. Technical report, 1993.
Первоначально OLAP использовался как профессиональный термин, обозначающий принципиальное отличие от OLTP (On-Line Transaction Processing, Оперативная обработка транзакций). Буква T была заменена на A, что подчеркивало аналитические возможности OLAP в отличие от транзакционных характеристик технологии реляционных баз данных.
В более широком смысле слова (OLAP) – это не отдельный программный продукт и даже не конкретная технология. Если постараться охватить OLAP во всех его проявлениях, то это совокупность концепций, принципов и требований, лежащих в основе программных продуктов, облегчающих аналитикам доступ к данным.
Цель – преодолеть главный недостаток реляционной модели - невозможность объединять, просматривать и анализировать, данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом.
БАЗОВЫЙ ЭЛЕМЕНТ технологии – многомерный (не реляционный) набор данных (гиперкуб или метакуб), включающий следующие компоненты:
-
1) оси-измерения (Dimensions) куба содержат параметры, основные атрибуты анализируемого бизнес-процесса;
Сведения о предметах, сотрудниках, продукции и т.д., разбитые по одноименным категориям
-
2) ячейки- меры (Measures) содержат, зависящие от них агрегатные данные;
Факты - все числовые величины, характеризующие взаимодействие между элементами отдельных измерений,
-
3) вдоль каждой оси - данные организованы в виде иерархии, представляющей различные уровни их детализации
Продажи – предприятие, филиалы, отдельные дилеры и т.д.
Благодаря такой модели данных пользователи могут формулировать сложные запросы, генерировать отчеты, получать подмножества данных.
Данные с течением времени не изменяются, а накапливаются, что позволяет проводить анализ изменения любых бизнес-параметров во времени.
ЗАМЕЧАНИЕ:
Физически такие данные могут и в реляционных таблицах и в объектно-ориентированных структурах, но в данном случае речь идет о логической организации данных, а не о физической реализации их хранения.
ОСНОВНАЯ ФУНКЦИЯ OLAP - управление измерениями, которые применяются для моделирования основных характеристик бизнеса.
-
1) Управлять этими измерениями несложно, во-первых, потому что манипулирование выполняется с помощью графического интерфейса.
-
2) Во-вторых, внесенные изменения переносятся на все задействованные данные, хранящиеся в базе данных OLAP.
-
3) Наконец, с помощью OLAP можно легко создавать и рассматривать "альтернативные отношения".
ПОЛЬЗОВАТЕЛИ. Сфера применения OLAP-анализа обычно ограничивается менеджерским составом предприятий разных размеров, которому приходится часто заниматься тактическими и стратегическими задачами
-
анализ ключевых показателей деятельности и сценариев развития,
-
маркетинговым и финансово-экономическим анализом товаров или услуг,
-
прогнозирование работы предприятия или его подразделений.
Для этого пользователь OLAP-систем получает в руки мощный и очень гибкий инструмент создания различных отчетов по выбираемым им же разрезам и направлениям.
-
Вместо простых функций создания таблиц, графиков и диаграмм,
-
OLAP-системы дают возможность получить 1) обобщенные данные по выбранным критериям, 2) моментально углубится в детали выбранных направлений, 3) отфильтровать, сортировать или отбросить ненужные цифры или показатели.
Требования к средствам OLAP
В 1995 на основе требований, изложенных Коддом, сформулирован тест FASMI (Fast Analysis of Shared Multidimensional Information), включающий следующие требования к приложениям для многомерного анализа:
-
Fast (Быстрый) - анализ должен производиться одинаково быстро по всем аспектам информации. Приемлемое время отклика - 5 с или менее.
-
Analysis (Анализ) – допускается любой числовой и статистический анализ, предопределенный разработчиком приложения или произвольно определяемый пользователем.
-
Shared (Разделяемость) - множество пользователей должно иметь доступ к данным с авторизацией доступа к конфиденциальной информации.
-
Multidimensional (Многомерный) - это основная, наиболее существенная характеристика OLAP.
-
Information (Информация) - приложение должно иметь возможность обращаться к нужной информации, независимо от ее объема и места хранения.
Э. Ф. Кодд определил 12 правил, которым должен удовлетворять продукт класса OLAP.
-
В отличие от FASMI эти правил следует рассматривать как рекомендательные, а продукты оценивать по степени приближения к соответствию всем требованиям.
1 |
Многомерное представление данных |
Средства должны поддерживать многомерный на концептуальном уровне взгляд на данные. |
2 |
Прозрачность |
Пользователь не должен знать о том, 1) какие конкретные средства используются для хранения и обработки данных, 2) как данные организованы и 3) откуда они берутся. |
3 |
Доступность |
Средства должны 1) сами выбирать и связываться с наилучшим для формирования ответа на данный запрос источником данных. Средства должны обеспечивать 2) автоматическое отображение их собственной логической схемы в различные гетерогенные источники данных. |
4 |
Согласованная производительность |
Производительность практически не должна зависеть от количества Измерений в запросе. |
5 |
Поддержка архитектуры клиент-сервер |
Средства должны работать в архитектуре клиент-сервер. |
6 |
Равноправность всех измерений |
Ни одно из измерений не должно быть базовым, все они должны быть равноправными (симметричными). |
7 |
Динамическая обработка разреженных матриц |
Неопределенные значения должны храниться и обрабатываться наиболее эффективным способом. |
8 |
Поддержка многопользовательского режима |
Средства должны обеспечивать возможность работать более чем одному пользователю. |
9 |
Поддержка операций на основе различных измерений |
Все многомерные операции (например, Агрегация) должны единообразно и согласованно применяться к любому числу любых измерений. |
10 |
Простота манипулирования данными |
Средства должны иметь максимально удобный, естественный и комфортный пользовательский интерфейс. |
11 |
Развитые средства представления данных |
Средства должны поддерживать различные способы визуализации (представления) данных. |
12 |
Неограниченное число измерений и уровней агрегации данных |
Не должно быть ограничений на число поддерживаемых Измерений. |
Классификация продуктов OLAP
Обеспечивая многомерное концептуальное представление со стороны пользовательского интерфейса к исходной базе данных, все продукты OLAP делятся на три класса по типу исходной БД.