Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курсовая_ИТМ_Карпузова_12_мая_14.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.53 Mб
Скачать

Архитектура хранилища данных Deductor

Хранилище данных (ХД) – это предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей принятия решений.

Хранилище данных Deductor Warehouse – это специально организованная база данных, ориентированная на решение задач анализа данных и поддержки принятия решений, обеспечивающая максимально быстрый и удобный доступ к информации.

Deductor Warehouse соответствует модели ROLAP (схема «снежинка») и может быть развернуто на одной из следующих СУБД:

  • Firebird 1.5 и выше;

  • MS SQL Server 2000 и выше;

  • Oracle начиная с версии 9i.

Локально (база данных Firebird) с использованием библиотеки fbclient.dll поставляется вместе с Deductor.

Выбор той или иной СУБД часто зависит от многих критериев: стоимость, производительность, сложность администрирования и др.

Следует отметить, что возможность работы с хранилищами данных на СУБД MS SQL Server и Oracle предоставляется только в Deductor Enterprise.

Назначение хранилища данных – своевременно обеспечить аналитика всей информацией, необходимой для проведения анализа, построения моделей и принятия решений.

Цель хранилища данных – подготовка данных для анализа и их консолидация.

Хранилище данных включает в себя потоки данных, поступающие из различных источников, и специальный семантический слой, содержащий так называемые метаданные (данные о данных). Семантический слой и сами данные хранятся в одной СУБД.

Запрос к хранилищу данных осуществляется непосредственно через семантический слой.

Объектами хранилища данных являются: измерение, атрибут, факт, ссылка на измерение, процесс, атрибут процесса.

Все данные в хранилище располагаются в структурах типа «снежинка», где в центре находятся таблицы фактов, а «лучами» являются измерения, причем каждое измерение может ссылаться на другое измерение (рис. 4).

Рис. 4. Структура хранилища данных

Измерение (реквизит-признак) – это последовательность значений одного из анализируемых параметров. Например, для параметра «время» это последовательность календарных дней, для параметра «регион» – список городов. Каждое значение измерения может быть представлено координатой в многомерном пространстве процесса, например, товар, клиент, дата.

Атрибут (реквизит-признак) – это свойство измерения (т.е. точки в пространстве). Атрибут как бы скрыт внутри другого измерения и помогает пользователю полнее описать исследуемое измерение. Например, для измерения Товар атрибутами могут выступать Цвет, Вес, Габариты.

Факт (реквизит-основание) – значение, соответствующее измерению. Факты – это данные, отражающие сущность события. Как правило, фактами являются численные значения, например, сумма и количество отгруженного товара, скидка.

Ссылка на измерение – это установленная связь между двумя и более измерениями. Дело в том, что некоторые бизнес - понятия (соответствующие измерениям в хранилище данных) могут образовывать иерархии, например, Товары могут включать Продукты питания и Лекарственные препараты, которые, в свою очередь, подразделяются на группы продуктов и лекарств и т. д. В этом случае первое измерение содержит ссылку на второе, второе – на третье и т.д.

Процесс – совокупность измерений, фактов и атрибутов. По сути, процесс и есть «снежинка». Процесс описывает определенное действие, например, продажи товара, отгрузки, поступления денежных средств и прочее.

Атрибут процесса – свойство процесса. Атрибут процесса в отличие от измерения не определяет координату в многомерном пространстве. Это справочное значение, относящееся к процессу, например, № накладной, Валюта документа и так далее. Значение атрибута процесса в отличие от измерения может быть не всегда определено.

При проектировании хранилища данных следует определить, какие реквизиты будут атрибутом процесса, а какие - измерением. В этих случаях руководствуются общими рекомендациями:

  • совокупность измерений процесса должна однозначно определять единственную запись в таблице процесса («точку» в многомерном пространстве);

  • если существуют иерархии, то выбор должен быть в пользу измерения;

  • если по объекту хранилища данных предполагается в будущем делать частые «срезы», то снова лучше отдать предпочтение измерению;

  • наличие возможных пропусков (необязательное поле) говорит о том, что объект лучше сделать атрибутом процесса.

В Deductor Warehouse может одновременно храниться множество процессов, имеющих общие измерения, например, измерение Товар, фигурирующее в процессах Поступления и Отгрузка.

Все загружаемые в хранилище данные обязательно должны быть определены как измерение, атрибут либо факт.

Принадлежность данных к типу (измерение, ссылка на измерение, атрибут или факт) содержится в семантическом слое хранилища.

Следует знать, что:

  • таблицы измерений содержат только справочную информацию (коды, наименования и т.п.) и ссылки на другие измерения при необходимости;

  • таблица процесса содержит только факты и коды измерений (без их атрибутов).