Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Раздаточный материал по информатике / 10 - Обработка и анализ данных (1-OLAP).doc
Скачиваний:
86
Добавлен:
23.05.2015
Размер:
863.23 Кб
Скачать

10

ЛЕКЦИЯ 12

Тема 10. Методы обработки и анализа данных для поддержки принятия решений

Поддержка принятия управленческих решений на основе накопленных в ХРАНИЛИЩЕ данных может выполняться в трех базо­вых сферах:

      • Сфера детализированных данных (Relation Space). По­иск информации об интересующих объектах, а также выявления связей между ними. Традиционные системы поиска и формирования отчетов – поиск и отыскание фактов, которые произошли в прошлом и были зафиксированы.

      • Сфера агрегированных показателей (Aggregation Space). Комплексный взгляд на со­бранную информацию, ее обобщение и агрегация, гипер-кубическое представление и многомерный анализ. Системы оперативной аналитиче­ской обработки данных (OLAP).

      • Сфера закономерностей (Influence Space). Поиск функциональных и логиче­ских закономерностей в накопленной информации, по­строение моделей и правил, которые объясняют найден­ные аномалии и/или (с определенной вероятностью) про­гнозируют развитие некоторых процессов. Методы интеллектуаль­ного анализа данных (ИАД, Data Mining). Это мульти дисциплинарная область, возникшая и развивающаяся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных.

10.1. Оперативная аналитическая обработка данных (olap)

Определение

On-Line Analytical Processing (OLAP) — это технология комплексного многомерного анализа данных в реальном времени.

Ее суть состоит (основные элементы, пример – сводная таблица Excel):

  • 1) В предоставлении пользователю многомерной таблицы,

  • 2) автоматически агрегирующей (сумма, среднее, математическое ожидание, дисперсия и т.д.) данные в различных разрезах

  • 3) и позволяющей интерактивно управлять вычислениями, мерами и формой отчета.

Концепция OLAP была описана в 1993 году Эдгаром Коддом, известным исследователем баз данных и автором реляционной модели данных.

  • E.F. Codd, S.B. Codd, and C.T.Salley, Providing OLAP (on-line analytical processing) to user-analysts: An IT mandate. Technical report, 1993.

Первоначально OLAP использовался как профессиональный термин, обозначающий принципиальное отличие от OLTP (On-Line Transaction Processing, Оперативная обработка транзакций). Буква T была заменена на A, что подчеркивало аналитические возможности OLAP в отличие от транзакционных характеристик технологии реляционных баз данных.

В более широком смысле слова (OLAP) это не отдельный программный продукт и даже не конкретная технология. Если постараться охватить OLAP во всех его проявлениях, то это совокупность концепций, принципов и требований, лежащих в основе программных продуктов, облегчающих аналитикам доступ к данным.

Цель – преодолеть главный недостаток реляционной модели - невозможность объединять, просматривать и анализировать, данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом.

БАЗОВЫЙ ЭЛЕМЕНТ технологии – многомерный (не реляционный) набор данных (гиперкуб или метакуб), включающий следующие компоненты:

  • 1) оси-измерения (Dimensions) куба содержат параметры, основные атрибуты анализируемого бизнес-процесса;

Сведения о предметах, сотрудниках, продукции и т.д., разбитые по одноименным категориям

  • 2) ячейки- меры (Measures) содержат, зависящие от них агрегатные данные;

Факты - все числовые величины, характеризующие взаимодействие между элементами отдельных измерений,

  • 3) вдоль каждой оси - данные организованы в виде иерархии, представляющей различные уровни их детализации

Продажи – предприятие, филиалы, отдельные дилеры и т.д.

Благодаря такой модели данных пользователи могут формулировать сложные запросы, генерировать отчеты, получать подмножества данных.

Данные с течением времени не изменяются, а накапливаются, что позволяет проводить анализ изменения любых бизнес-параметров во времени.

ЗАМЕЧАНИЕ:

Физически такие данные могут и в реляционных таблицах и в объектно-ориентированных структурах, но в данном случае речь идет о логической организации данных, а не о физической реализации их хранения.

ОСНОВНАЯ ФУНКЦИЯ OLAP - управление измерениями, которые применяются для моделирования основных характеристик бизнеса.

    • 1) Управлять этими измерениями несложно, во-первых, потому что манипулирование выполняется с помощью графического интерфейса.

    • 2) Во-вторых, внесенные изменения переносятся на все задействованные данные, хранящиеся в базе данных OLAP.

    • 3) Наконец, с помощью OLAP можно легко создавать и рассматривать "альтернативные отношения".

ПОЛЬЗОВАТЕЛИ. Сфера применения OLAP-анализа обычно ограничивается менеджерским составом предприятий разных размеров, которому приходится часто заниматься тактическими и стратегическими задачами

    • анализ ключевых показателей деятельности и сценариев развития,

    • маркетинговым и финансово-экономическим анализом товаров или услуг,

    • прогнозирование работы предприятия или его подразделений.

Для этого пользователь OLAP-систем получает в руки мощный и очень гибкий инструмент создания различных отчетов по выбираемым им же разрезам и направлениям.

    • Вместо простых функций создания таблиц, графиков и диаграмм,

    • OLAP-системы дают возможность получить 1) обобщенные данные по выбранным критериям, 2) моментально углубится в детали выбранных направлений, 3) отфильтровать, сортировать или отбросить ненужные цифры или показатели.

Требования к средствам OLAP

В 1995 на основе требований, изложенных Коддом, сформулирован тест FASMI (Fast Analysis of Shared Multidimensional Information), включающий следующие требования к приложениям для многомерного анализа:

  • Fast (Быстрый) - анализ должен производиться одинаково быстро по всем аспектам информации. Приемлемое время отклика - 5 с или менее.

  • Analysis (Анализ) – допускается любой числовой и статистический анализ, предопределенный разработчиком приложения или произвольно определяемый пользователем.

  • Shared (Разделяемость) - множество пользователей должно иметь доступ к данным с авторизацией доступа к конфиденциальной информации.

  • Multidimensional (Многомерный) - это основная, наиболее существенная характеристика OLAP.

  • Information (Информация) - приложение должно иметь возможность обращаться к нужной информации, независимо от ее объема и места хранения.

Э. Ф. Кодд определил 12 правил, которым должен удовле­творять продукт класса OLAP.

  • В отличие от FASMI эти правил следует рассматривать как рекомендательные, а продукты оценивать по степени при­ближения к соответствию всем требованиям.

1

Многомерное представление данных

Средства должны поддерживать многомерный на концептуальном уровне взгляд на данные.

2

Прозрачность

Пользователь не должен знать о том, 1) какие конкретные средства используются для хранения и обработки данных, 2) как данные организованы и 3) откуда они берутся.

3

Доступность

Средства должны 1) сами выбирать и связываться с наилучшим для формирования ответа на данный запрос источником данных. Средства должны обеспечивать 2) автоматическое отображение их собственной логической схемы в различные гетерогенные источники данных.

4

Согласованная производительность

Производительность практически не должна зависеть от количества Измерений в запросе.

5

Поддержка архитектуры клиент-сервер

Средства должны работать в архитектуре клиент-сервер.

6

Равноправность всех измерений

Ни одно из измерений не должно быть базовым, все они должны быть равноправными (симметричными).

7

Динамическая обработка разреженных матриц

Неопределенные значения должны храниться и обрабатываться наиболее эффективным способом.

8

Поддержка многопользовательского режима

Средства должны обеспечивать возможность работать более чем одному пользователю.

9

Поддержка операций на основе различных измерений

Все многомерные операции (например, Агрегация) должны единообразно и согласованно применяться к любому числу любых измерений.

10

Простота манипулирования данными

Средства должны иметь максимально удобный, естественный и комфортный пользовательский интерфейс.

11

Развитые средства представления данных

Средства должны поддерживать различные способы визуализации (представления) данных.

12

Неограниченное число измерений и уровней агрегации данных

Не должно быть ограничений на число поддерживаемых Измерений.

Классификация продуктов OLAP

Обеспечивая многомерное концептуальное представление со стороны поль­зовательского интерфейса к исходной базе данных, все про­дукты OLAP делятся на три класса по типу исходной БД.