Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
БИЛЕТЫ 25-26 уч.г..docx
Скачиваний:
0
Добавлен:
19.06.2026
Размер:
42.25 Mб
Скачать
  • 47. Хранилище данных. Назначение. Дополнительные возможности хд по сравнению с субд. Структура данных в хд. Место хранения данных в хд. Формирование и заполнение хранилища.

ХД– специально организованная БД, предназначенная для самостоятельной работы пользователя без применения SQL и администратора, чтобы пользователь смог на основе данных, содержащихся в хранилище, строить различные зависимости (т.е зависимости, которые он четко сформулировать пока не может, не знает что и от чего зависит)

Основная задача ХД – оперативная обработка данных (т.е. часто изменяющаяся, не имеющая четких пониманий, что ищем), тем временем как задача БД – сохранение данных.

Требования к ХД:

Упрощенная схема данных

Графический интерфейс (вместо SQL)

Данные должны соответствовать из БД

Дополнительные возможности по сравнению с СУБД:

Пользователь работает без SQL и может для себя строить различные зависимости.

ХД построено для интерпретации графических и числовых данных (OLAP-обработка)

В чем качественное отличие ХД от СУБД:

В БД если пользователь хочет получить зависимости, он должен четко сформулировать свой запрос, т.е работает со стационарными запросами (остаются неизменными для длительного использования).

@ с бухгалтером, который по формуле рассчитывает зп/ продажа товара/ поступление товара

В ХД пользователь исследует, как факты (например, продажи) зависят от разных измерений (например, региона, времени, категории товара). Он сам выбирает, какие измерения и значения учитывать, формируя сценарии анализа. Запросы при этом динамические (т.е. нет конкретной формулы), а промежуточные результаты могут использоваться сразу, не доводясь до окончательной формы.

@ анализ продаж с учётом разных факторов.

Структура:

В качестве структуры данных выбирается семантический слой или метаданные (похож на дерево или проводник)

Место хранения данных:

В БД данные содержатся в таблицах, а в ХД - весь процесс, включая все данные, хранится в многомерных кубах. Многомерность куба обеспечивается за счет того, что есть многомерные измерения и меры для фактов.

1 куб = 1 процесс = 1 пользователь ( у каждого пользователя свои кубы)

Каждый куб содержит данные об одном процессе (=действии), а 1 процесс может управляться одним пользователем. Каждый процесс (аналог функции) состоит из измерений (аргументы) и фактов (значений функций). На измерение и факт делит пользователь (хочет получить зависимость фактов от измерений)

Атрибут измерения - дополнительная характеристика измерения, которая введена для удобства отображения (таблица, график) для пользователя.

Атрибут процесса - параметр, характеризующий экземпляр процесса (нужно для того, чтобы отличить один процесс от другого)

Факт - количественные данные, подлежащие анализу.

Ссылка на измерение - связь между 2 и более измерениями.

Например, процесс - продажа товара. Атрибут процесса - накладная при получении товара. Измерение - товар. Атрибут измерения - цвет, вес, размер. Факт - объем продаж 1000 единиц.

Формирование и заполнение ХД (всё делается по заявке пользователя):

Формируется на основе БД по заявке пользователя, Администратор уточняет какие данные занести в ХД и определяет что является измерениями, что фактом (пользователь описывает, аналитик заносит)

  1. Спроектировать структуру хранилища. Необходимо создать таблицы, разделить данные на измерения, атрибуты, факты и выделить процесс.

  2. Создание хранилища. Создаем пустое хранилище и отражаем спроектированную структуру из 1 пункта в нем. Задаем имя, метку (название объекта, которое видит пользователь, работающий с хд) и тип данных. После создания структуры ХД оно представляет собой пустой файл с настроенным семантическим слоем и оно готово к загрузке данных.

  3. Проектирование процессов. Наполнение ХД первичной информацией. Импортируем данные из текстовых файлов, производим обработку (очистка/ преобразование формата), после загружаем в ХД. Первоначально импортируются измерения, соблюдая иерархию, после процесс.

  4. Импорт. Построение отчета - Способ получения данных в разрезе года/месяца

Соседние файлы в предмете Теория обработки информации