- •Понятие хранилища данных
- •Основные составляющие Хранилища данных: Предметная ориентированность
- •Интегрированность (целостность и внутренняя взаимосвязь)
- •Временная привязка
- •Неразрушаемая совокупность данных.
- •Расхождения в требованиях между бд и хд
- •Почему нельзя использовать традиционные бд в процессе принятия решений?
- •Особенности хранилищ данных:
- •Понятие о кубах
- •Вид трехмерного куба
- •Основные понятия многомерной модели данных
- •Виртуальное хранилище данных
- •Концепция Corporate Information Factory, (сокр. Сif) Билла Инмона
- •Концепция Data Warehouse Bus
- •Гибридное хранилище данных
- •Многомерный olap-формат (Multi-dimensional olap - molap)
- •Преимущества и недостатки molap
- •Область применения molap
- •Реляционный olap-формат (Relational olap - rolap)
- •Преимущества rolap :
- •Недостатки rolap
- •Гибридный olap-формат (Hybrid olap - holap)
- •Преимущества и недостатки holap
- •Сравнительные характеристики
- •Основные характеристики olap включают:
- •Управление размерностью
- •Достоинства olap:
- •Недостатки olap:
- •Общий вид mdx-запроса
- •Инструкция select
- •Предложение from
- •Предложение where
- •Предложение with
- •Именованные наборы
- •Вычисляемые члены
- •Примеры запросов
- •Проектирование схемы "звезда"
- •Основные составляющие структуры схемы "звезда"
- •Отличие схем «звезда» и "снежинка"
Почему нельзя использовать традиционные бд в процессе принятия решений?
Если БД невелика, узкоспециализироана и имеется квалифицированный программист, способный писать нестандартные запросы, собирающие данные в массив и анализирующие эти данные, то вместо ХД можно использовать обычную БД. Хранилище же предназначено не для программиста – им должен суметь воспользоваться аналитик, руководитель, человек, не владеющий навыками написания сложных запросов.
Недостатки использования БД в поддержке принятия решений:
недостоверность данных;
низкая производительность при нестандартных запросах;
невозможность преобразования разнородных данных, так как они часто не имеют меток времени;
Проблемы при подготовке отчетов возникают из-за того, что:
трудно понять, где находятся данные, необходимые для анализа и принятия решения;
большинство БД ориентировано только на стандартные запросы;
требуется привлекать программистов для выполнения нестандартных запросов.
Особенности хранилищ данных:
Хранилища данных содержат информацию, собранную из нескольких оперативных баз данных.
Хранилища, как правило, на порядок больше оперативных баз, зачастую имея объем от сотен гигабайт до нескольких терабайт.
Как правило, хранилище данных поддерживается независимо от оперативных баз данных организации, поскольку требования к функциональности и производительности аналитических приложений отличаются от требований к транзакционным системам.
Хранилища данных создаются специально для приложений поддержки принятия решений и предоставляют накопленные за определенное время, сводные и консолидированные данные, которые более приемлемы для анализа, чем детальные индивидуальные записи.
Рабочая нагрузка состоит из нестандартных, сложных запросов, которые обращаются к миллионам записей и выполняют огромное количество операций сканирования, соединения и агрегирования. Время ответа на запрос в данном случае важнее, чем пропускная способность.
2. Основные понятия многомерной модели данных
Понятие о кубах
OLAP (англ. online analytical processing, аналитическая обработка в реальном времени) — технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу.
OLAP-структура, созданная из рабочих данных, называется OLAP-куб. Куб создаётся из соединения таблиц с применением схемы звезды или схемы снежинки. В центре схемы звезды находится таблица фактов, которая содержит ключевые факты, по которым делаются запросы. Множественные таблицы с измерениями присоединены к таблице фактов. Эти таблицы показывают, как могут анализироваться агрегированные реляционные данные. Количество возможных агрегирований определяется количеством способов, которыми первоначальные данные могут быть иерархически отображены.
Куб потенциально содержит всю информацию, которая может потребоваться для ответов на любые запросы. Исходя из этого, создание отчета выполняется гораздо эффективнее, поскольку не требует выполнения сложного запроса.
