Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Кондрашов ВСЕ.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
11.52 Mб
Скачать

2. Кубы данных – оперативная аналиическая обработка (olap)

(многомерная модель данных)‏

Понятие многомерной модели данных «Гиперкуб»

  • Гиперкуб OLAP - это структура, в которой хранятся совокупности данных, полученные из базы данных OLAP путем всех возможных сочетаний значений измерений с фактами в таблице фактов.

  • Исходя из этого, создание окончательного отчета выполняется гораздо эффективнее, поскольку не требует выполнения никакого сложного запроса.

Пример гиперкуба для бюджетного процесса

  • Факт доходы в доходную часть бюджета может определяться:

  • датой поступления платежа (время),

  • кодом дохода (классификатор доходов),

  • плательщик данного платежа

  • ПОЛУЧЕННАЯ СУММА = f(ВРЕМЯ, КОД ДОХОДА, ПЛАТЕЛЬЩИК)

Логическая модель «Многомерный гиперкуб»

  • В основе модели OLAP лежит понятие гиперкуба, или многомерного куба данных, в ячейках которого хранятся анализируемые (числовые) данные.

  • В многомерной модели измерения (dimensions) соответствуют осям куба, а анализируемые переменные(меры) (measures) или показатели – индивидуальным ячейкам куба.

  • Многомерная модель позволяет делать плоские срезы куба данных и поворачивать его нужной гранью любым удобным нам образом.

  • Используя многомерную модель, аналитик может легко получить представление данных в соответствии с собственными интересами.

Основные составляющие логической модели «Многомерный гиперкуб»

  • Данные, в гиперкубе, можно поделить на четыре категории:

  • меры,

  • измерения,

  • атрибуты,

  • иерархии.

  • Эти типы данных помогают определить логическую структуру витрины данных.

Логическая модель «Многомерный гиперкуб»

Меры (показатели)

  • Мера — это основа бизнес—аналитики. По сути дела, без мер бизнес—аналитики бы просто не было.

  • Мера (measure) — это численное значение(числовой показатель), выражающее определенный аспект деятельности организации.

  • Показатель - это величина (обычно числового типа), которая собственно и является предметом анализа.

  • Один OLAP-куб может обладать одним или несколькими показателями.

  • Информация, представляемая этим значением, используется для принятия решения или оценки эффективности работы организации.

Меры (показатели)

  • Меры также называют фактическими значениями, или просто фактами.

  • Меры — это фактические значения, используемые в базовой и возвратной информации, поэтому таблицы, содержащие данные мер, называются таблицами фактов.

  • Однако таблицы фактов могут содержать отнюдь не только фактические значения.

Ячейка

  • Ячейка (cell) - атомарная структура куба, соответствующая конкретному значению некоторого показателя.

  • Ячейки при визуализации располагаются внутри куба и здесь же принято отображать соответствующее значение показателя.

Измерения

  • Измерение (dimension) — это способ ранжирования данных, используемый для разделения агрегированных мер на составляющие их части.

  • Измерения позволяют ранжировать агрегированную меру. Ранжирование дает возможность видеть составные элементы агрегированных мер. Так, например, меру «суммы продаж» можно считать одиночной точкой информации.

  • Для того чтобы развернуть эту меру «суммы продаж» , ее нужно ранжировать, используя измерения.

  • Например общую сумму продаж можно разделить на суммы продаж за каждый год, месяцы, дни.

Измерения

  • Измерение (dimension) - это множество объектов одного или нескольких типов, организованных в виде иерархической структуры и обеспечивающих информационный контекст числового показателя.

  • Измерение принято визуализировать в виде ребра многомерного куба.

  • Объекты, совокупность которых и образует измерение, называются членами измерений (members).

  • Члены измерений визуализируют как точки или участи, откладываемые на осях гиперкуба.

  • Например, временное измерение: Дни, Месяцы, Кварталы, Годы - наиболее часто используемые в анализе, могут содержать следующие члены: 8 мая 2002 года, май 2002 года, 2-ой квартал 2002 года и 2002 год. Как уже было сказано, объекты в измерениях могут быть различного типа, например "производители" - "марки автомобиля" или "годы" - "кварталы". Эти объекты должны быть организованы в иерархическую структуру так, чтобы объекты одного типа принадлежали только одному уровню иерархии.

Роль измерений в кубе

  • Измерения играют роль индексов, используемых для идентификации значений показателей, находящихся в ячейках гиперкуба.

  • Комбинация членов различных измерений играют роль координат, которые определяют значение определенного показателя.

  • Поскольку для куба может быть определено несколько показателей, то комбинация членов всех измерения будет определять несколько ячеек со значениями каждого из показателей.

  • Поэтому для однозначной идентификации ячейки необходимо указать комбинацию членов всех измерений и показатель.

Агрегат ∑, среднее, количество и тд.

  • Агрегат (aggregate) — это значение, вычисляемое по некоторому множеству детализированных записей.

  • Агрегат зачастую представляет собой сумму множества чисел, хотя он также может вычисляться не суммированием, а выполнением каких—либо других арифметических операций или даже подсчетом числа элементов в группе.

  • Так, итоговая сумма счетов, отправленных клиенту за выбранный год, является обобщенной (агрегированной) суммой счетов этого клиента за год.

  • Средняя цена товара является агрегатом по группам товаров

Агрегат

  • Агрегатами называют агрегированные по определенным условиям исходные значения показателей.

  • Под агрегацией понимается любая процедура формирования меньшего количества значений (агрегатов) на основании большего количества исходных значений. В дальнейшем под терминами агрегирование и агрегация будем понимать не только процесс суммирования данных. Заблаговременное формирование и сохранение агрегатов с целью уменьшения времени отклика на пользовательский запрос является основным свойством систем поддержки оперативного анализа.

Атрибуты

  • В некоторых случаях может потребоваться хранение дополнительной информации об измерениях в витрине данных.

  • Такая дополнительная информация помогает более подробно описать измерения. Подобные включения дополнительной информации принято называть атрибутами измерения. Атрибут (attribute) — это дополнительный элемент информации, относящийся к измерению и не являющийся при этом уникальным идентификатором или описанием этого измерения.

Атрибуты

  • Атрибуты также служат для хранения информации, которая может применяться для ограничения или фильтрации записей, выбираемых из витрины данных в ходе анализа данных.

  • Атрибуты хранятся в дополнительных столбцах таблиц измерений

  • Например. «Покупатель» помимо номера может иметь атрибуты : Ф,И,О, телефон , которые можно использовать для отбора данных.

Иерархии в измерениях

  • Иерархии необходимы для определения порядка и возможности агрегации и детализации значений показателей

  • Иерархии применяются для организаций измерений в многоуровневые структуры.

  • Если меры определяют что хотят видеть аналитики, то измерения и иерархии определяют как они это хотят видеть.

Существуют следующие типы иерархий:

  • Сбалансированные (balanced);

  • Несбалансированные (unbalanced);

  • Неровные (balanced).

Сбалансированные иерархии

  • Это - иерархии, в которых число уровней определено её структурой и неизменно, и каждая ветвь иерархического дерева содержит объекты каждого из уровней.

  • Каждому производителю автомобилей может соответствовать несколько марок автомобилей, а каждой марке - несколько моделей автомобилей, поэтому можно говорить о трёхуровневой иерархии этих объектов. В этом случае на первом уровне иерархии располагаются производители, на втором - марки, а на третьем - модели.

  • Как видно, для формирования сбалансированной иерархии необходимо наличие связи "один-ко-многим" между объектами менее детального уровня по отношению к объектам более детального уровня. В принципе каждый уровень сбалансированной иерархии можно представить как отдельное простое измерение, но тогда эти измерения окажутся зависимыми, в значит неизбежно повышение разреженности куба.

Несбалансированные иерархии

  • Это - иерархии, в которых число уровней может быть изменено, и каждая ветвь иерархического дерева может содержать объекты, принадлежащие не всем уровням, только нескольким первым.

  • Необходимо заметить, что все объекты несбалансированной иерархии принадлежат одному типу.

Неровные иерархии

  • Это- иерархии, в которых число уровней определено её структурой и постоянно, однако в отличие от сбалансированной иерархии некоторые ветви иерархического дерева могут не содержать объекты какого-либо уровня.

  • Иерархии такого вида содержат такие члены, логические "родители" которых не находятся на непосредственно вышестоящем уровне.

  • Типичным примером является географическая иерархия, в которой есть уровни "Страны", "Штаты " и "Города", но при этом в наборе данных имеются страны, не имеющие штатов или регионов между уровнями "Страны" и "Города".

Архитектуры OLAP

Данные архитектуры различаются методами хранения кубов данных

  • многомерный OLAP-формат (Multi-dimensional OLAP - MOLAP);

  • реляционный OLAP-формат (Relational OLAP - ROLAP);

  • гибридный OLAP-формат (Hybrid OLAP - HOLAP).

Данные архитектуры различаются методами хранения кубов данных

MOLAP

  • MOLAP является многомерным форматом хранения данных, который отличается высоким быстродействием. Помимо поддержки OLAP самих кубов данных при выборе данного формата данные будут храниться в многомерных структурах на OLAP-сервере (OLAP-структуры).

  • MOLAP обеспечивает наилучшее быстродействие выполнения запросов, поскольку этот формат специально оптимизирован для многомерных запросов к данным.

Преимущества и недостатки MOLAP

  • Поскольку MOLAP требует копирования и преобразования всех данных в надлежащий формат для многомерной структуры хранилища данных, MOLAP можно применять для небольших или средних объемов данных.

  • Основное преимущество MOLAP заключается в превосходных свойствах индексации; ее недостаток — низкий коэффициент использования дискового пространства, особенно в случае разреженных данных.

Область применения MOLAP

  • объем исходных данных для анализа не слишком велик (не более нескольких гигабайт), т.е. уровень агрегации данных достаточно высок;

  • набор информационных измерений стабилен (поскольку любое изменение в их структуре почти всегда требует полной перестройки гиперкуба);

  • время ответа системы на нерегламентированные запросы является наиболее критичным параметром;

  • широкое использование сложных встроенных функций требуется для выполнения кроссмерных вычислений над ячейками гиперкуба, в том числе возможности написания пользовательских функций.

ROLAP

  • Реляционные хранилища OLAP содержат данные, передаваемые в кубы данных, вместе с агрегациями данных куба, причем данные хранятся в реляционных таблицах, размещенных в реляционном ХД.

Преимущества ROLAP

  • в большинстве случаев корпоративные хранилища данных реализуются средствами реляционных СУБД, и инструменты ROLAP позволяют производить анализ непосредственно над ними. При этом размер хранилища не является таким критичным параметром, как в MOLAP;

  • при переменной размерности задачи, когда изменения в структуру измерений приходится вносить достаточно часто, ROLAP-системы с динамическим представлением размерности являются оптимальным решением, так как в них такие модификации не требуют физической реорганизации БД;

  • реляционные СУБД обеспечивают значительно более высокий уровень защиты данных и хорошие возможности разграничения прав доступа.

Недостатки ROLAP

  • Главный недостаток ROLAP по сравнению с MOLAP — меньшая производительность.

  • Для обеспечения производительности, сравнимой с многомерными базами данных, необходимо использовать звездообразные схемы. В этом случае производительность реляционных систем может быть приближена к производительности систем на основе MOLAP.

HOLAP

  • Гибридная архитектура, которая объединяет технологии ROLAP и MOLAP. В отличие от MOLAP, которая работает лучше, когда данные более плотные, серверы ROLAP лучше в тех случаях, когда данные довольно разрежены.

  • Серверы HOLAP применяют подход ROLAP для разреженных областей многомерного пространства и подход MOLAP — для плотных областей.

  • Серверы HOLAP разделяют запрос на несколько подзапросов, направляют их к соответствующим фрагментам данных, комбинируют результаты, а затем предоставляют результат пользователю.

  • При использовании данного формата OLAP-данные, передаваемые в куб данных, хранятся в реляционных базах данных подобно ROLAP. А агрегации данных (данные куба) записываются и представляются в многомерном формате.

Преимущества и недостатки HOLAP

  • Преимуществом данной системы является обеспечение возможности связи с огромными наборами данных в реляционных таблицах и прирост производительности за счет использования многомерных хранилищ.

  • Недостаток состоит том, что количество проводимых преобразований между ROLAP и MOLAP системами может существенно влиять на общую эффективность.

Сравнительные характеристики

Достоинства OLAP:

  • простота использования и восприятия выходных таблиц;

  • полнота аналитических данных;

  • полная и легкая настройка отчета без программиста;

  • возможность детализировать отчет в процессе анализа данных (от итогов к деталям);

  • формирование отчетов в 10 раз быстрее;

  • непротиворечивость данных в отчетах;

  • консолидация информации из разных баз данных;

  • повышенная защита данных;

  • эквивалентность одного OLAP-отчета целому набору простых отчетов.

Недостатки OLAP:

  • не ориентирован на получение форм отчетности с произвольным дизайном;

  • некоторые пользователи визуально плохо воспринимают выходные таблицы;

  • ограниченные возможности создания оперативных отчетов;

  • основная проблема: необходимость разработки хранилищ данных.

Программные средства ХД

  • В настоящее время на рынке представлено большое количество OLAP-систем, производимых разными фирмами:

  • Oracle Express 6.3,

  • SQL Server 2005(и выше)Microsoft Analysis Services ,

  • Cognos PowerPlay 6.6,

  • Cristal Analysis Holos 8.5,

  • Speedware Media,

  • Applix iTM1 7,

  • Hyperion Essbase 6.1 и т.д.

SQL 2005 -Интегрированная платформа управления данными

  • SQL Server 2005 представляет собой высокопроизводительную масштабируемую многофункциональную платформу, которая построена вокруг ядра, обеспечивающего работу реляционной базы данных, и включает большое количество сервисов.

  • В целом система тесно интегрирована со всем комплексом ПО Microsoft, а сама СУБД и ряд ее сервисов, в свою очередь, являются ключевыми компонентами, обеспечивающими работу многих продуктов Microsoft.

SQL 2005 и выше- компоненты

  • реляционная база данных (Relation Database) - безопасное, надежное, масштабируемое высокодоступное ядро с улучшенной производительностью, позволяющее работать как со структурированными, так и с неструктурированными (XML) данными, а также обеспечивающее поддержку .NET CLR (создание хранимых процедур, функций и триггеров на управляемом коде) и ADO;

  • сервисы репликаций (Replication Services) - репликация данных для распределенных и мобильных приложений обработки информации, высокая доступность систем, масштабируемый параллелизм со вторичными хранилищами для отчетных решений предприятия и интеграция с разнородными системами, включая существующие базы данных Oracle;

SQL 2005 - компоненты

  • сервисы нотификаций (Notification Services) - развитые возможности уведомлений для разработки и внедрения масштабируемых приложений, способных доставлять своевременные персонализированные обновления информации множеству соединенных и мобильных устройств;

  • сервисы интеграции (Integration Services) - возможности извлечения, преобразования и загрузки информации для хранилищ данных и интеграции данных в масштабе предприятия;

  • аналитические сервисы (Analysis Services) - аналитическая обработка в реальном времени (OLAP) для быстрого и сложного анализа больших и смешанных наборов данных, при которой используется многомерное хранение кубов, и решение задач Data Mining (извлечение знаний);

SQL 2005 - компоненты

  • сервисы отчетов (Reporting Services) - исчерпывающее решение для управления как традиционными бумажными, так и интерактивными отчетами, основанными на Web-технологиях, а также для их создания и доставки;

  • инструменты управления - SQL Server включает средства управления для настройки баз данных и развитого управления ими, обеспечивает тесную интеграцию с такими инструментами, как Microsoft Operations Manager (MOM) и Microsoft Systems Management Server (SMS). Стандартные протоколы доступа к данным существенно уменьшают время, необходимое для интеграции SQL Server с существующими системами. В дополнение встроена поддержка Web-служб для обеспечения взаимодействия с другими приложениями и платформами;

SQL 2005 - компоненты

  • инструменты разработки - SQL Server предлагает интегрированные инструменты разработки для ядра базы данных, извлечения, трансформации и загрузки данных, извлечения информации, OLAP и отчетности, которые тесно интегрированы с Microsoft Visual Studio для предоставления сквозных возможностей разработки приложений.

  • Каждая главная подсистема SQL Server поставляется со своей собственной объектной моделью и набором API для расширения системы данных в любом направлении.

Средства бизнес-аналитики

  • В комплекс средств интеллектуальной обработки данных SQL Server 2005 : Integration Services, Analysis Services OLAP, Analysis Services Data Mining и Reporting Services

  • Кроме того, в SQL Server 2005 добавлены два новых средства разработки и управления: SQL Server Management Studio и SQL Server Business Intelligence Development Studio, простроенных на базе интегрированной среды Visual Studio 2005 IDE.

  • Пакету BI Development Studio отводится основная роль в создании BI-решений, он полностью реализует функциональность возможности администрирования реляционных и многомерных баз данных, добавляя к ней возможности загрузки и преобразования информации, управления отчетами и извлечения знаний.

  • В его среде можно создавать и другие проекты Visual Studio (с использованием Visual C#, Visual Basic NET и т. д.), что позволит разработчикам создавать действительно сквозные приложения.

Основные элементы архитектуры SQL Server 2005

Аналитические сервисы

  • SQL Server 2005 Analysis Services (AS 2005) состоит из двух основных дополняющих друг друга функциональных частей - On-Line Analytical Processing (OLAP) и Data Mining.

SQL 2005 – механизм Data Source View (DSV) и технологи Unified Dimensional Model (UDM)

  • До SQL 2005 работа с кубами базировалась исключительно на применении реляционных звездообразных схем в качестве источника данных. AS 2005 с помощью нового механизма Data Source View (DSV) может представлять структуру кубов в виде атрибутивных схем. Это повышает гибкость обработки данных, в том числе дает возможность отслеживать обратные связи между кубами и рабочими базами данных. В то же время DSV позволяет работать со структурами кубов без их непосредственного соединения с источниками данных.

  • OLAP 2005 использует новую технологию Unified Dimensional Model (UDM) для создания виртуальных ХД , которая представляет собой комбинированный механизм доступа к реляционным БД и многомерным OLAP-кубам.

SQL 2005 -Интегрированная платформа управления данными

  • Microsoft SQL Server 2005 - это полноценная платформа интеллектуальной обработки данных, которая предоставляет инфраструктурные и серверные компоненты для создания:

  • больших, сложных хранилищ данных, к которым легко выполнять запросы, и недорогих с точки зрения поддержки;

  • небольших систем отчетности и анализа, простых в создании, которыми легко управлять на небольших предприятиях или в отделах больших предприятий;

  • систем с небольшой задержкой обновления данных, которые доставляют аналитические данные оперативным пользователям;

  • систем аналитики замкнутого цикла и систем добычи данных;

  • встроенных систем, которые расширяют использование интеллектуальной обработки данных.

  • Все входящие в состав SQL Server инструменты - реляционная СУБД, Integration Services, Analysis Services, OLAP, Data Mining и Reporting Services - значительно улучшены. Такие новые инструменты, как Business Intelligence Development Studio и SQL Server Management Studio, расширяют платформу интеллектуальной обработки данных Microsoft.

Microsoft SQL Server 2005 - Сервисы интеграции

  • Integration Services хотя и являются преемником DTS (Data Transformation Services) в SQL Server 2000, все же вполне могут считаться нововведением в SQL Server 2005. Integration Services были полностью переработаны по сравнению с DTS, чтобы стать реальной ETL-платформой предприятия (Extract, Transformation, and Loading - извлечение, преобразование и загрузка данных).

Microsoft SQL Server 2005 - Сервисы интеграции

  • Архитектура Integration Services совмещает в себе как ориентированный на операции механизм потока задач (task-flow), так и масштабируемый и производительный механизм потока данных (data-flow). Такое сочетание потоков задач и потоков данных позволяет эффективно использовать Integration Services в проектах с традиционными системами ETL и в проектах по созданию хранилищ данных, а также в более сложных проектах, например по внедрению центров данных.

  • Ядром Integration Services является конвейер преобразования данных, использующий буферную архитектуру, которая обеспечивает высокую производительность при манипуляции наборами данных путем загрузки их в память. Такой подход позволяет все шаги преобразования данных в ETL-системах производить как одну операцию, т. е. без промежуточных результатов. В этом состоит существенное отличие Integration Services от традиционных средств ETL, которые очень часто создают промежуточные результаты почти на каждом шагу процесса заполнения хранилища или интеграции данных.

Microsoft SQL Server 2005 - Сервисы интеграции

  • В Integration Services все типы данных (структурированные, неструктурированные, XML и т. д.) приводятся к табличному (т. е. состоящему из столбцов и строк) виду непосредственно путем загрузки в буферы. При этом операции, применимые к табличному представлению информации, могут быть задействованы на любом шаге конвейера обработки данных.

  • В целом такая архитектура позволяет использовать Integration Services во многих проектах по интеграции данных, начиная от традиционных ETL-систем для хранилищ данных и заканчивая нетрадиционными технологиями интеграции информации, и при этом обеспечивать возможность работы не только с большими наборами данных, но и со сложными их потоками. Службы интеграции могут извлекать (а также выгружать) данные из различных источников, включая OLE DB, управляемые источники (ADO.NET), ODBC, плоские файлы, Excel и XML, с помощью специального набора компонентов, которые называются адаптерами (adapters).

Microsoft SQL Server 2005 - Сервисы интеграции

  • Помимо этих основных преобразований для хранилищ данных имеется поддержка таких расширенных хранилищ, как Slowly Changing Dimensions (SCD - редко обновляемые размерности). Мастер SCD поможет пользователям определить, какие измерения являются редко обновляемыми, и на основе этой информации создаст полностью готовый к использованию поток данных с несколькими преобразованиями, реализующими загрузку медленно изменяющихся измерений.

  • Одной из ключевых особенностей Integration Services является их способность интегрировать не только данные, но и методы обработки этих данных. Такой подход позволяет включить в него средства очистки информации, основанные на методах нечеткой логики (fuzzy logic). В сочетании с технологией Data Mining в процессе передачи информации можно обнаружить аномальные данные, а также автоматически исправить их и заменить на лучшие значения.

Возможности SQL Server 2005 Business Intelligence Development Studio

SQL Server Management Studio

  • SQL Server Management Studio — утилита из Microsoft SQL Server 2005 и более поздних версий для конфигурирования, управления и администрирования всех компонентов Microsoft SQL Server. Утилита включает скриптовый редактор и графическую программу, которая работает с объектами и настройками сервера.

  • Главным инструментом SQL Server Management Studio является Object Explorer, который позволяет пользователю просматривать, извлекать, и полностью управлять объектами сервера.

Проектирование ХД

  • Проектирование ХД состоит из нескольких этапов:

  • Определение информационной структуры предприятия

  • Выявление требований бизнес-аналитиков

  • Проектирование и реализация схемы витрины данных

  • Создание проекта интеграции витрины данных с существующими источниками информации

  • Проектирование и развертывание многомерного куба для аналитической системы

  • Разработка проекта анализа данных DataMining

Два способа создания витрины данных

  • Для создания витрины данных в РБД SQL сервер существуют два подхода: проектирование «снизу вверх» - создание структуры таблиц «Снежинка» или «Звезда» и «сверху вниз» - создание реляционной схемы на основе структуры куба данных.

  • Для проектирования «Снизу вверх» может использоваться инструмент SQL Server Management Studio.

  • Для проектирования «Сверху вниз» применяется мастер Business Intelligence Development Studio.

Создание витрины данных «снизу вверх» Инструмент «SQL Server Management Studio.»

  • Цель проекта: разработать витрину данных для бизнес аналитиков компании MAXMIN

Создание реляционной витрины данных в SQL Server 2005

Создание витрины данных «снизу вверх» Инструмент «SQL Server Management Studio.»

  • Цель проекта: разработать витрину данных для бизнес аналитиков компании MAXMIN

Создание витрины данных «снизу вверх» Инструмент «SQL Server Management Studio.»

  • Цель проекта: разработать витрину данных для бизнес аналитиков компании MAXMIN

Создание витрины данных «сверху вниз» Инструмент «Business Intelligence Development Studio.»

  • Задачи

  • Создание AS-куба с использованием мастера кубов Business Intelligence Development Studio.

  • Создание в Business Intelligence Development Studio реляционной витрины данных по определению куба.