
- •Понятие хранилища данных
- •Основные составляющие Хранилища данных: Предметная ориентированность
- •Интегрированность (целостность и внутренняя взаимосвязь)
- •Временная привязка
- •Неразрушаемая совокупность данных.
- •Расхождения в требованиях между бд и хд
- •Почему нельзя использовать традиционные бд в процессе принятия решений?
- •Особенности хранилищ данных:
- •Понятие о кубах
- •Вид трехмерного куба
- •Основные понятия многомерной модели данных
- •Виртуальное хранилище данных
- •Концепция Corporate Information Factory, (сокр. Сif) Билла Инмона
- •Концепция Data Warehouse Bus
- •Гибридное хранилище данных
- •Многомерный olap-формат (Multi-dimensional olap - molap)
- •Преимущества и недостатки molap
- •Область применения molap
- •Реляционный olap-формат (Relational olap - rolap)
- •Преимущества rolap :
- •Недостатки rolap
- •Гибридный olap-формат (Hybrid olap - holap)
- •Преимущества и недостатки holap
- •Сравнительные характеристики
- •Основные характеристики olap включают:
- •Управление размерностью
- •Достоинства olap:
- •Недостатки olap:
- •Общий вид mdx-запроса
- •Инструкция select
- •Предложение from
- •Предложение where
- •Предложение with
- •Именованные наборы
- •Вычисляемые члены
- •Примеры запросов
- •Проектирование схемы "звезда"
- •Основные составляющие структуры схемы "звезда"
- •Отличие схем «звезда» и "снежинка"
1. Понятие хранилищ данных. Отличие хранилищ от традиционных баз данных. Особенности хранилищ данных.
Понятие хранилища данных
Хранилище данных (англ. Data Warehouse) - предметно-ориентированный, интегрированный, зависимый от времени набор данных, предназначенный для поддержки принятия решений различными группами пользователей.
Так как хранилище носит предметно-ориентированный характер, его организация нацелена на содержательный анализ информации, а не на автоматизацию бизнес-процессов. Это свойство определяет архитектуру построения хранилища и принципы проектирования модели данных, отличные от тех, что применяются в оперативных системах.
ХД строится на базе клиент-серверной архитектуры, реляционной СУБД и утилит поддержки принятия решений.
К хранилищу присоединяются сторонние программные продукты, которые делают модели, основанные на интеллектуальном, а не статистическом анализе данных и получают скрытые закономерности. Но включают они генетические алгоритмы, нейронные сети, нелинейная динамика, кластеризация, гибридные системы – достаточно большое количество технологий для построения моделей в хранилище. Это необходимо тогда, когда когда количество данных таково, что прямой поиск и статистические методы анализа результата не дают.
Основные составляющие Хранилища данных: Предметная ориентированность
Локальные базы данных содержат мегабайты информации, абсолютно не нужной для анализа (адреса, почтовые индексы, идентификаторы записей и др.). Подобная информация не заносится в хранилище, что ограничивает спектр рассматриваемых данных при принятии решения до минимума.
Для принятия решений требуется некоторая строго определенная совокупность данных, которая и вытаскивается из БД в ХД, второстепенные ненужные атрибуты отсеиваются.
Интегрированность (целостность и внутренняя взаимосвязь)
Несмотря на то что данные погружаются из различных источников, но они объединены едиными законами именования, способами измерения атрибутов и др. Это имеет большое значение для корпоративных организаций, в которых одновременно могут эксплуатироваться различные по своей архитектуре вычислительные системы, представляющие одинаковые данные по-разному. Например, могут использоваться несколько различных форматов представления дат или один и тот же показатель может называться по-разному. В процессе погружения подобные несоответствия устраняются автоматически. Это самая трудоемкая часть создания ХД.
Временная привязка
Оперативные системы охватывают небольшой интервал времени, что достигается за счет периодического архивирования данных. ХД, напротив, содержит данные, накопленные за большой интервал времени (от пяти—семи до десятков лет).
Неразрушаемая совокупность данных.
Модификация данных не производится, поскольку может привести к нарушению их целостности.
Расхождения в требованиях между бд и хд
Традиционные данные, хранимые в БД |
Данные для принятия решений |
Детализированы |
Обобщены и очищены |
Точны в момент доступа |
Представляют значение на указанное время |
Могут корректироваться |
Не корректируются, если попали в хранилище |
Требования к способам дальнейшей обработки выясняются заранее |
Требования к способам дальнейшей обработки не имеют первостепенного значения |
Чувствительны к производительности БД, поэтому к ним предъявляются жесткие требования |
Мягкие требования к производительности БД |
Обрабатывается один элемент данных за один запрос |
Обрабатывается множество элементов данных за один запрос |
Ориентированы на приложения |
Ориентированы на анализ |
Высокая степень доступности |
Относительная доступность |
Контролируется целостность всех данных |
Контролируется целостность подмножества данных |
Данные не избыточны |
Данные избыточны |
Массивы данных маленькие и используются редко |
Массивы используются широко и могут быть многомерными |
Поддерживают ежедневные операции |
Поддерживают периодический анализ |