Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вопросы к ГОСу -общий текст.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
428.47 Кб
Скачать

126.Причины возникновения Хранилищ данных

Хранилища данных (по Биллу Инмону) – предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений. ХД являются основным инструментом работы области BI. Business Intelligence (BI) – это широкий набор технологий и приложений для сбора, хранения и анализа данных, помогающий корпоративным пользователям в принятии решений на основе этой информации . BI приложения включают в себя инструменты для решения задач отчетности, анализа данных, статистического анализа, прогнозирования, планирования, поиска скрытых закономерностей.

Вообще все хранилища данных нужны, потому что современному бизнесу требуется не только оперативное управление (которое просто поддерживает бизнес-процесс и использует OLTP). OLAP (Online Analysis Process) системы поддерживают принятие более глобальных решений, и это и есть BI.

BI используется для:

  • Понимания текущего состояния бизнеса и направлений его движения

  • Совместной работы пользователей над анализа информации

  • Сокращения времени принятия решений

BI – сейчас уже является неотъемлемой частью IT структуры компании. Бум внедрения BI пришелся как раз на время кризиса, т. к. все искали способы сократить затраты.

Почему вместо БД стали использоваться BI:

  • БД может меняться, тогда надо переделывать всю связь.

  • Реляционные БД (все нормальные формы) заточены под то, чтобы выполнить как можно большее количество небольших операций (чуть-чуть вставить в таблицу, чуть-чуть извлечь из таблицы и т. д.), а глобальные операции (типа прочитать всю таблицу, сгруппировать как-нибудь и т. д.) выполняются медленно. Причем такие запросы мешают оперативной работе.

Как эти проблемы решаются:

  • Разбивается база данных на содержащую текущую информацию и историю. Это подход Data WareHouse – хранилища данных, обычно тут не используются нормальные формы, чтобы проще было выполнять транзакции агрегации и суммирования.

  • То есть из источников данных (текущих БД) по некотоым бизнес-правилам данные переходят в хранлища данных. Но тут тоже есть проблемы, есть источников много или если данные «грязные». «грязные данные» -- это то, что связанно с ручным вводом, орфографичческие ошибки, различные названия одного и того же

  • Эта проблема решается вводом промежуточного Staging Area между источником и хранилищем, где осуществляется очистка данных.

И итог развития BI – это появление различных форм представления отчетов (отчеты в свободной форме).

Таким образом хранилища данных возникают как ответ на необходимость анализа, синхронизации, очистки и хранения больших объемов данных.

В общем средства BI – это попытка освободить аналитика от необходимости писать запросы к БД, заменив все технические подробности понятным представлением. То есть это переход от физического представления данных к семантическому (смысловому).

127.Хранилище данных. Основные понятия.

Intelligence (BI) – это широкий набор технологий и приложений для сбора, хранения и анализа данных, помогающий корпоративным пользователям в принятии решений на основе этой информации – определение из Педивикии.

Хранилища данных (по Биллу Инмону) – предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений.

ETL (Extract, Transform, Load) – это класс ПО, один из основных процессов, служит для трансфера данных из оперативных информационных систем в ХД.

MDM (Master Data Management) – управление основными данными (нормативно-справочной информации) – то есть условно-постоянным компонентом корпоративной инфомации, являющейся основой для унификации и нормализации данных.

Типовая архитектура ХД.

  • Источники данных

  • Буферная область (stage area) – первичный процесс загрузки данных из источника, без особых преобразований. Тут происходит очистка данных, сведение их в общие сущности, которые представлены в ХД.

  • КХД (Корпоративное хранилище данных) – метаданные, агрегированные данные

  • Витрины данных (Data Mart) – презентационный уровень, на нем конечный пользователь общается с ХД. Это представление данных по определенной предметной области.

КХД и витрины данных бывают объединены (это подход Кинбалла).

Витрины данных часто бывают денормализованными (с повторения и так далее). Часто они бывают представлены в многомерном виде, когда есть некая мера (например, объем выручки) и много измерений (аналитик, dimensions) – некая категория, в которой рассматривается мера (например, по магазину, по товару, по времени).

Основные понятия:

  • Меры (показатели) – measure – всегда числовое значение

  • Факт – fact

  • Измерение – dimension – может состоять из нескольких атрибутов (текстовых, числовых, каких угодно)

В ФАКТе – центральная таблица – со всеми ключами и значением меры. Таблица фактов — является основной таблицей хранилища данных. Как правило, она содержит сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться. Обычно говорят о четырех наиболее часто встречающихся типах фактов. Факты содержат набор мер (значений) по определенным измерениям. Измерения показывают детализацию или изменение того или иного факта. Измерение может быть вырожденным если оно находится в самой таблице фактов (например, часто таким измерением бывает время).

Схема многомерного представления может быть star-схемой, где в центре – ФАКТ, лучи – ИЗМЕРЕНИЯ. Если измерения сложные и состоят из нескольких таблиц, то это схема «снежинка».

OLAP (англ. online analytical processing, аналитическая обработка в реальном времени) — технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу.

Смысл куба в том, что это не просто табличка, а матрица. У нее первый столбец и первая строчка – это значения атрибутов. Посередине – цифры.

Типы:

  • Multidimensional OLAP (MOLAP) – все данные хранятся в многомерной БД

  • Relational OLAP (ROLAP) – все хранится в реляционной БД, агрегаты хранятся в служебных таблицах

  • Hybrid (HOLAP) – детальные данные хранятся в реляционнй БД, а агрегаты хранятся в многомерной БД.