
- •Понятие хранилища данных
- •Основные составляющие Хранилища данных: Предметная ориентированность
- •Интегрированность (целостность и внутренняя взаимосвязь)
- •Временная привязка
- •Неразрушаемая совокупность данных.
- •Расхождения в требованиях между бд и хд
- •Почему нельзя использовать традиционные бд в процессе принятия решений?
- •Особенности хранилищ данных:
- •Понятие о кубах
- •Вид трехмерного куба
- •Основные понятия многомерной модели данных
- •Виртуальное хранилище данных
- •Концепция Corporate Information Factory, (сокр. Сif) Билла Инмона
- •Концепция Data Warehouse Bus
- •Гибридное хранилище данных
- •Многомерный olap-формат (Multi-dimensional olap - molap)
- •Преимущества и недостатки molap
- •Область применения molap
- •Реляционный olap-формат (Relational olap - rolap)
- •Преимущества rolap :
- •Недостатки rolap
- •Гибридный olap-формат (Hybrid olap - holap)
- •Преимущества и недостатки holap
- •Сравнительные характеристики
- •Основные характеристики olap включают:
- •Управление размерностью
- •Достоинства olap:
- •Недостатки olap:
- •Общий вид mdx-запроса
- •Инструкция select
- •Предложение from
- •Предложение where
- •Предложение with
- •Именованные наборы
- •Вычисляемые члены
- •Примеры запросов
- •Проектирование схемы "звезда"
- •Основные составляющие структуры схемы "звезда"
- •Отличие схем «звезда» и "снежинка"
Вид трехмерного куба
В самом простейшем трехмерном виде куб можно нарисовать так:
На пересечении измерений получается ячейка с определенным значением показателя – факта. В данном случае имеется фирма, которая занимается продажей автомобилей нескольких марок, менеджеры по продажам и временная ось. На пересечениях находятся объемы продаж каждой марки каждым менеджером за период.
Основные понятия многомерной модели данных
Показатель - это величина (обычно числового типа), которая собственно и является предметом анализа, т.е. фактом. Один OLAP-куб может обладать одним или несколькими показателями.
Многомерный куб с несколькими таблицами фактов
Типы показателей:
Аддитивные показатели агрегируются со всеми измерениями, включенными в группы показателей.
Полуаддитивные показатели агрегируются относительно некоторых (не всех) измерений.
Неаддитивные показатели не агрегируются по размерностям, но могут быть посчитаны для любой ячейки куба.
Измерение (dimension) - это множество объектов одного или нескольких типов, организованных в виде иерархической структуры и обеспечивающих информационный контекст числового показателя.
В примере это менеджер, марка и время.
Объекты, совокупность которых и образует измерение, называются членами измерений (members). Эти объекты должны быть организованы в иерархическую структуру так, чтобы объекты одного типа принадлежали только одному уровню иерархии.
Члены измерений визуализируют как точки или участи, откладываемые на осях гиперкуба. Например, временное измерение: Дни, Месяцы, Кварталы, Годы - наиболее часто используемые в анализе, могут содержать следующие члены: 8 мая 2002 года, май 2002 года, 2-ой квартал 2002 года и 2002 год.
Иерархии в измерениях необходимы для возможности агрегации и детализации значений показателей. Существуют следующие типы иерархий:
сбалансированные (balanced) - иерархии, в которых число уровней определено её структурой и неизменно, и каждая ветвь иерархического дерева содержит объекты каждого из уровней.;
несбалансированные (unbalanced) - иерархии, в которых число уровней может быть изменено, и каждая ветвь иерархического дерева может содержать объекты, принадлежащие не всем уровням, только нескольким первым. Необходимо заметить, что все объекты несбалансированной иерархии принадлежат одному типу;
неровные (balanced) - иерархии, в которых число уровней определено её структурой и постоянно, однако в отличие от сбалансированной иерархии некоторые ветви иерархического дерева могут не содержать объекты какого-либо уровня.
Ячейка (cell) - атомарная структура куба, соответствующая конкретному набору значений всех измерений и содержащая значение показателя (факта).
Агрегатами называют агрегированные по определенным условиям исходные значения показателей. То есть если есть некие иерархические измерения, то мы предполагаем, что по всей иерархии будут рассчитаны и внесены в хранилище значения показателей – например, сводные данные за неделю, месяц, квартал, год, пятилетку.
3. Варианты реализации хранилищ данных. Их достоинства и недостатки.
Виртуальное хранилище данных
Концепция CIF
Концепция Data Warehouse Bus
Гибридная многоуровневая архитектура хранилища данных
Первые три – двухуровневые, четвертый – трехуровневый.