Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
sql.doc
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
653.31 Кб
Скачать

Хранилище данных.

Сбор данных — это не сама цель и накопленные инф массивы могут быть полезны, т. к. из низ можно почерпныть намного более глубокие сведения как о функционировании организации, так и о сфере её деятельности. В информационных массивах можно попытаться выявить скрутые закономерности. И вывести из них правила, которые подчиняються предметной области информационной системы.

Осознание пользы накапливаемой информации и возможности использовать её для решения аналитических задач привело к появлению нового класса вычислительных систем — систем поддержки принятия решений, ориентированных на аналитическую обработку данных.

К числу задач, которые решают такие системы относяться: оценка альтернатив решения, прогнозирование, клстеризация, выявление ассоциация и т д.

Запросы в СППР в большинстве случаев более сложные чем в системах OLTP.

Пример:

Найти среднее значение промежутка времени между выставлением счёта и оплатой его клиентом в текущем прошедшем году отдельно для разных групп клиентов.

Зачастую аналитический запрос невозможно сформулировать в терминах языка SQL, поэтому в OLAP системах применяются специализированные языки ориентированные на аналитическую обработку данных.

ORACLE Express4GL

MSSQL MDX

Данные в OLAP системах организованны отличным от принятого в OLTP образом это связано со следующими факторами

  1. Чем выше степень нормализации, тем больше приходиться использовать соединений таблиц и тем медленнее выполняется анализ. В аналитических системах данные практически не обновляются, поэтому проблема нормализации в них не актуальна.

  2. Многие задачи в частности анализ тенденций и прогнозирование требуют хронологической упорядочности данных. Это не требует существования порядка записи в таблицах.

  3. При решение аналитических задач чаще требуються не детальные данные, а агрегированные. Т. е. Излишне иметь информацию о каждой покупке. А требуеться иметь данные о значение прогнозируемой величины.

Принципы лежащие в основе СППР не позволяют эфективно обрабатывать транзакции, поэтому данные применяемые для анализа стали выделять в отдельные базы данных, которые называютсья хранилищами данных.

Концепция хранилищ данных — это подготовка данных для последующего анализа, при этом предпологаеться:

  1. Интеграция и согласование данных из различных источников.

  2. Разделение наборов данных используемых в обработке транзакций и СППР.

Ещё одним отличием СППР от систем операционной обработки является, то что критерий поиска и форма выдаваемого отчёта не фиксируеться при разработке таких систем, а пользователи оперируют заранее не регламентируемыми запросами.

Использование концепции хранилища данных в СППР приследует следующие цели:

  1. Своевременное обеспечение аналитиков информацией для выработки решений.

  2. Создание единной модели данных организации.

  3. Создание интегрированного источника данных, предоставляющего удобный доступ к разнородной информации и гарантирующего получения одинаковых ответов на одинаковые запросы из различных аналитических подсистем.

Определение Инмана:

Хранение данных — это предметно ориентированный, интерегрированный, неизменяемый и поддерживающий хронологию и набор данных предназначеный для обеспечения принятия управленческих решений.

Структура хранилища должна отражать представление аналитиков об информации с которой ему приходиться работать.

Информация загружаеться в хранилище из приложений созданых разными разработчиками. Необходимо объединить наддые, привести их к единному синтаксическому или семантическому виду, устранить возможные дубликаты. Выполнить проверку целостности непротиворечивости данных выполнить расчёт агрегатов.

Поддержка хронологии. Для выполнения большинства аналитических запросов необходим анализ тенденций развития явлений или характера изменения значений переменных во времени.

Если выполнить кластеризацию данных по времени, то скорость выполнения аналитических запросов можно повысить.

Свойство OLTP СППР

1)Назначение

данных

2)Уровень 2)Детализир. 2)Агрегир.

агрегации

данных

3)Период 3)От неск. мес. 3)От неск. лет до десятков

хранения дан. до года

4)Частота

обновления

для хранения как базовых данных, так и агрегатов.

ROLAP эмулирует куб посредством реляционной модели. Он работает напрямую с реляционным хранилищем. Факты и измерения хранятся в реляционных таблицах.

Для хранения агрегатов создаются дополнительные реляционные таблицы.

Гибридная структура – HOLAP использует реляционные таблицы для хранения базовых данных и многомерные структуры для агрегатов. Особым случаем ROLAP является R-ROLAP (реального времени). Его отличие от ROLAP состоит в том, что для хранения агрегатов не создаются доп. реляц. таблицы, а агрегаты рассчитываются в момент выполнения запросов. При этом многомерный запрос к OLAP системе автоматически преобразуется в SQL-запрос к реляционным данным.

Каждый тип хранения имеет свои преимущества, так MOLAP лучше всего подходит для небольших наборов данных, т.к. он быстро рассчитывает агрегаты, но генерирует огромные объемы данных. Кроме того, при его использовании сложно модифицировать структуру данных. Например, при добавлении нового измерения приходится полностью перестраивать куб.

ROLAP является наиболее масштабируемым решением, использующим наименьшее пространство, при этом скорость обработки значительно снижается.

Измерения играют роль индексов…

*есть дом.задание(!!!)

При выполнении операции сечения формируется подмножество гиперкуба, в котором значение одного или более измерений фиксировано. Например, если зафиксировать значение измерения – время равным «январь 1999», то мы получим двумерную таблицу с информацией о значении всех параметров субъектов федерации в январе 1999 года.

Операция вращения изменяет порядок представления измерений.

Для выполнения операции свертки и детализации должна существовать иерархия значений измерений, т.е. некоторая подчиненность одних значений другим.

Например, 12 месяцев образуют год, а субъекты РФ образуют региональные округа.

Чтобы перейти от значений параметров для января 1999 к значениям за весь 1999 год нужно выполнить операцию свертки.

Операция детализации – операция обратная операции свертки.

Реляционная модель хранилища.

При использовании реляционной модели чаще всего реализуются схемы «звезда» или «снежинка». Схема звезда использует 2 типа таблиц: таблица фактов (фактологическая) и несколько справочных талбиц (таблицы измерений). Запись фактологической таблицы соответствует ячейке гиперкуба. В справочной таблице перечислены возможные значения одного из значений гипекуба.

Пример (схема звезда):

Спарв. время

PeriodID

Описание

Год

Квартал

Месяц

День

Справ.парам

ParametrID

Название

ЕдинИзв

Тип парам

????

Справ. регионов

RegionID

Название субъекта РФ

Подчиненность

Описание

….

Факт. табл

ParametrID

RegionID

PeriodID

Value

Если БД включает большое число измерений, то можно использовать схему снежинка, в к-й атрибуты справочных таблиц могут быть детализированы в дополнительных справочных таблицах.

ParametrTypeId

Discription

DataSourceID

DiscriptionWhenAddInformfromthisSource

ParamentrID

RegionID

PeriondID

Value

ParametrId

Name

ParametrTypeId

DataSourceID

RegionID

NameSubject

References

PeriodID

Year

QuaterID

MonthID

QuaterID

Name

...

MonthID

Name

Если база данных всключет большое число измерений можно использовать схему снежинка в которой атрибуты справочных таблиц могут быть детализированны в дополнительных справочных таблицах

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]