Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СППР_Часть1.doc
Скачиваний:
128
Добавлен:
11.11.2019
Размер:
2.14 Mб
Скачать

1 Лабораторная работа № 1 Тема: Создание хранилища данных. Olap – технология анализа данных.

1.1 Аналитическая платформа Deductor

Платформа Deductor является основой для создания прикладных аналитических решений. Реализованные в ней технологии позволяют пройти все этапы построения аналитической системы от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов, используя одну систему. Deductor - полноценная аналитическая платформа, поддерживающая технологии: Data Warehouse, ETL, OLAP, Knowledge Discovery in Databases и Data Mining.

Deductor Studio – аналитическое ядро платформы Deductor. Deductor Studio содержит полный набор механизмов импорта, обработки, визуализации и экспорта данных для быстрого и эффективного анализа информации. Вся работа по анализу данных в Deductor Studio базируется на выполнении следующих действий:

  • Импорт данных

  • Обработка данных

  • Визуализация

  • Экспорт данных.

Deductor Warehouse – многомерное кросс-платформенное хранилище данных, аккумулирующее всю необходимую для анализа предметной области информацию. Использование единого хранилища позволяет обеспечить удобный доступ, высокую скорость обработки, непротиворечивость информации, централизованное хранение и автоматическую поддержку всего процесса анализа данных.

1.2 Хранилища данных – подготовка данных для анализа

Хранилище данных (Data Warehouse) — очень большая предметно-ориентированная информационная корпоративная база данных, специально разработанная и предназначенная для подготовки отчётов, анализа бизнес-процессов с целью поддержки принятия решений в организации. Данные, поступающие в хранилище данных, становятся доступны только для чтения. Данные из промышленной OLTP-системы копируются в хранилище данных таким образом, чтобы построение отчётов и OLAP-анализ не использовал ресурсы промышленной системы и не нарушал её стабильность. Данные загружаются в хранилище с определённой периодичностью, поэтому актуальность данных несколько отстает от OLTP-системы.

Принципы организации хранилища:

  1. Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.

  2. Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.

  3. Некорректируемость. Данные в хранилище данных не создаются: т.е. поступают из внешних источников, не корректируются и не удаляются.

  4. Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Операции с данными (ETL - процесс):

  1. Извлечение – перемещение информации от источников данных в отдельную БД, приведение их к единому формату.

  2. Преобразование – подготовка информации к хранению в оптимальной форме для реализации запроса, необходимого для принятия решений.

  3. Загрузка – помещение данных в хранилище, производится атомарно, путем добавления новых фактов или корректировкой существующих.

  4. Анализ – OLAP, Data Mining, Reporting и т. д.

  5. Представление результатов анализа.

Рисунок 1.1 – Архитектура хранилища данных

В Deductor Warehouse имеются следующие типы объектов.

Измерение – последовательность значений одного из анализируемых параметров. Например, для параметра Время это последовательность календарных дней, для параметра Регион – список городов.

Атрибут – свойство измерения. Атрибут как бы скрыт внутри другого измерения и помогает пользователю полнее описать исследуемое измерение. Атрибутами измерения Товар могут выступать Цвет, Вес, Габариты.

Факт – значение, соответствующее измерению. Факты – это данные, отражающие сущность события. Как правило, фактами являются численные значения, например, сумма и количество отгруженного товара.

Процесс – совокупность измерений, фактов и атрибутов. По сути, процесс и есть «куб», «снежинка». Процесс описывает определенное действие, например, продажи товара, отгрузки, поступления денежных средств и пр. Пример структуры «снежинка» приведен на рисунке 1.2, где в центре расположены таблицы фактов, а «лучами» являются измерения, причем измерение может ссылаться на другие измерения.

Все загружаемые в хранилище данные должны быть обязательно определены как измерение, атрибут либо факт ( рис. 1.3).

Рисунок 1.2 – Схема «снежинка» процесса отгрузки

Рисунок 1.3- Измерения и факты процесса «Отгрузка»

В Deductor Warehouse может одновременно храниться множество процессов, имеющие общие измерения, например, Товар, фигурирующий в Поступления и в Отгрузка. В Deductor Warehouse реализована полноценная ROLAP-модель (для каждого измерения и каждого процесса создается отдельная таблица).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]