Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Общий конспект по Технологии анализа и обработ...docx
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
2.66 Mб
Скачать
  1. Хранилища данных и средства их построения Data Warehousing

Понятие хранилища данных

Хранилище данных (англ. Data Warehouse) является местом складирования собираемых в системе данных и информационным источником для решения задач анализа данных и принятия решений. Как правило, объем информации в ХД является достаточно большим. Упрощенно можно сказать, что хранилище данных управляет данными, которые были собраны как из операционных систем организации (OLTP-систем — On-Line Trasactions Processing), так и из внешних источников данных, и которые длительный период времени хранятся в системе.

Одной из главных целей создания систем складирования данных является их ориентация на анализ накопленных данных, т.е. структуризация данных в ХД должна быть выполнена таким образом, чтобы данные эффективно использовались в аналитических приложениях (analytical applications).

Принцип организации ХД:

Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.

Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.

Некорректируемость. Данные в хранилище данных не создаются: т.е. поступают из внешних источников, не корректируются и не удаляются.

Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Источниками данных могут быть:

  1. Традиционные системы регистрации операций

  2. Отдельные документы

  3. Наборы данных

Операции с данными:

  1. Извлечение – перемещение информации от источников данных в отдельную БД, приведение их к единому формату.

  2. Преобразование – подготовка информации к хранению в оптимальной форме для реализации запроса, необходимого для принятия решений.

  3. Загрузка – помещение данных в хранилище, производится атомарно, путем добавления новых фактов или корректировкой существующих.

  4. Анализ – OLAP, Data Mining, сводные отчёты.

  5. Представление результатов анализа.

Построение хранилища данных

  1. Планирование

  • Оценка условий для реализации проекта (бюджет, наличие команды разработчиков, понимание концепции Хранилищ Данных)

  • Выбор четкого и ясного критерия оценки проекта

  • Определение реальных источников информации

  • Определение основных проблем, для решения которых реализуется проект очередного этапа построения Хранилища Данных.

  1. Сбор требований

  • Определение круга пользователей, связанных с решаемой на данном этапе проблемой, и их опрос

  • Детальный анализ имеющихся источников информации и способов доступа к ним.

В результате этой стадии конкретизируются структура данных в источниках, основные области применения, требования пользователей, определяется критерий завершенности проекта.

  1. Проектирование

На основании информации предыдущих стадий производится анализ и проектирование структуры проекта, включающие построение логической и физической модели данных, модели процессов первоначальной и регламентной загрузки данных, модели приложений (параметризованные запросы, регламентные отчеты, аналитические методики...).

  1. Разработка

  • Разработка процедур начальной загрузки и ее проведение

  • Разработка процедур регулярной загрузки

  • Разработка приложений.

  1. Тестирование

  • Тестирование производительности

  • Тестирование качества данных

  • Тестирование процедур и регламента ведения Хранилища Данных

  • Тестирование приложений, средств доступа к данным и интерфейса пользователей

  • Установка соответствующего оборудования и системного программного обеспечения

  • Обучение пользователей.

  1. Ввод в эксплуатацию

Перевод проекта в стадию эксплуатации (определение администраторов, регламентов) Регулярное проведение оценки результатов каждой стадии проекта с целью минимизировать последствия возникающих проблем на раннем этапе их возникновения.

  1. Оценка

Разработка хранилища данных

Выбор модели данных Хранилища

В самом простом варианте для Хранилищ Данных используется та модель данных, которая лежит в основе транзакционной системы. Если, как это часто бывает, транзакционная система функционирует на реляционной СУБД (Oracle, Informix, Sybase и т. п.), самой сложной задачей становится выполнение запросов ad-hoc, поскольку невозможно заранее оптимизировать структуру БД так, чтобы все запросы работали эффективно.

Выбор структуры хранилища данных

Несколько лет назад для Хранилищ Данных было предложено использовать схемы данных, получившие названия "звезда" и "снежинка". Суть технологии проектирования этих схем заключается в выделении из общего объема информации собственно анализируемых данных (или фактов) и вспомогательных данных (называемых измерениями). Необходимо, однако, отдавать себе отчет в том, что это приводит к дублированию данных в Хранилище, снижению гибкости структуры и увеличению времени загрузки. Все это - плата за эффективный и удобный доступ к данным, необходимый в СППР.

Витрины данных

Идея Витрины Данных (Data Mart) возникла несколько лет назад, когда стало очевидно, что разработка корпоративного хранилища - долгий и дорогостоящий процесс. Под Витриной Данных понимается специализированное Хранилище, обслуживающее одно из направлений деятельности компании, например учет запасов или маркетинг. Важно, что происходящие здесь бизнес-процессы, во-первых, относительно изучены и, во-вторых, не столь сложны, как процессы в масштабах всей компании.

OLAP технология

OLAP – это технология комплексного многомерного анализа данных, это ключевой компонент организации хранилищ данных. В 1993 г. эта технология была описана Эдгером Коддом. Для упрощения анализа была предложена и разработаны концепция хранилища данных. Предполагается что такое хранилище содержит сведения, поступающие от разных источников, а так же интегрированные данные, получаемые в результате анализа первичных данных. Естественно, для поддержки предложенной концепции потребовались специальные средства управления процессом хранения и обработки информации, к которым относятся инструментальные средства OLAP технологии.

Средства построения ХД

Средства генерации отчетов (Reporting tools): предназначены для получения данных в виде таблиц и диаграмм (иногда используются и другие формы представления данных, например, диаграммы, нанесенные на геокарты, и пр.).

Средства оперативного анализа (OLAP tools): нацелены на проверку гипотез, они позволяют найти данные, которые подтверждают или опровергают сформулированные управленческие гипотезы.

Средства поиска данных (Data Mining tools): предназначены для создания гипотез на основе существующих данных.