Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекц-мд-схов.doc
Скачиваний:
18
Добавлен:
20.08.2019
Размер:
72.7 Кб
Скачать

Тема Технологія сховищ даних

Лекція. Моделі даних у сховищах

План

************************************

Тепер про різні варіанти зберігання інформації. Як детальні дані, так і агрегати можуть зберігатися або в реляційних, або в багатовимірних структурах. Багатовимірне зберігання дозволяє поводитися з даними як з багатовимірним масивом, завдяки чому забезпечуються однаково швидкі обчислення сумарних показників і різні багатовимірні перетворення по будь-якому з вимірювань.

Якийсь час назад OLAP-продукти підтримували або реляційне, або багатовимірне зберігання. Сьогодні, як правило, один і той же продукт забезпечує обидва ці види зберігання, а також третій вигляд - змішаний. Застосовуються наступні терміни:

MOLAP (Multidimensional OLAP) - і детальні дані, і агрегати зберігаються в багатовимірній БД. В цьому випадку виходить найбільша надмірність, оскільки багатовимірні дані повністю містять реляційні.

ROLAP (Relational OLAP) - детальні дані залишаються там, де вони "жили" спочатку - в реляційній БД; агрегати зберігаються в тій же БД в спеціально створених службових таблицях.

HOLAP (Hybrid OLAP) - детальні дані залишаються на місці (в реляційній БД), а агрегати зберігаються в багатовимірній БД.

Кожний з цих способів має свої переваги і недоліки і повинен застосовуватися залежно від умов - об'єму даних, потужності реляційної СУБД і т.д. При зберіганні даних в багатовимірних структурах виникає потенційна проблема "розбухання" за рахунок зберігання порожніх значень. Адже якщо в багатовимірному масиві зарезервовано місце під все можливі комбінації міток вимірювань, а реально заповнена лише мала частина (наприклад, ряд продуктів продається тільки в невеликому числі регіонів), то велика частина куба порожнітиме, хоча місце буде зайнято. Сучасні OLAP-продукти уміють справлятися з цією проблемою.

Визначення основних елементів сховища даних

Основними елементами даних, які зберігаються в сховищі даних, є:

  • показники (змінні);

  • виміри та їх ієрархія;

  • факти.

Показник, або змінна, — це поле, значення якого однозначно визначаються фіксованим набором вимірів, що характеризують певний факт.

Показники, або змінні, складають, як правило, основний вміст сховища даних і можуть бути представленими:

• числовими характеристиками факту чи події, що відбувалися на об'єкті управління, для якого створюється сховище (наприклад, обсяги чи дохід від продажів);

  • формулами, що, як правило, являють собою прості функції агрегування показників (змінних) для отримання узагальнених даних (наприклад, сума, яка консолідує значення змінної за кілька календарних періодів в одне підсумкове значення).

Вимір — це множина однотипних даних, що утворюють одну з граней куба і характеризують якусь ознаку показників, котрі знаходяться в комірці багатовимірного куба.

Наприклад, день, місяць, квартал, рік — це виміри часу; район, область, країна — це географічні виміри. За виміром виконується індексація даних у багатовимірній базі даних (ББД). Виміри бувають колективними (shared dimensional) та приватні (private dimensional).

Колективні виміри — це виміри, які можуть використовуватись одночасно в декількох кубах. Колективними вимірами можуть бути якісь ознаки, які використовуються при бізнес-аналізі різних предметних областей. Приватні виміри — це виміри, які належать конкретному кубу і створюються разом з ним. Інакше кажучи, це специфічні ознаки, що характеризують лише певну конкретну предметну область.

Сукупність вимірів визначають параметри простору, в якому можна буде виконувати бізнес-аналіз.

Відношення — це зв'язки між різними вимірами моделі та між окремими значеннями всередині певного виміру.

Між окремими значення всередині певного виміру повинна бути певна ієрархія, котра, як правило, характеризує тип відношення «один до багатьох», наприклад населений пункт, район, область. Відношення можуть також визначати зв'язки між двома різними вимірами. Наприклад, вимір ТОВАР може бути зв'язаним з виміром КАТЕГОРІЯ, яка, може, в свою чергу, набувати таких значень: «Побутові товари», «Спортивні товари», «Канцелярські товари» та ін. В переважній більшості випадків ці зв'язки характеризують тип відношення «один до одного» Відношення між вимірами визначають порядок агрегування показників (змінних) багатовимірної моделі.

Основними задачами проектування сховищ даних є визначення кандидатів на змінні, факти та виміри. Для цього застосовуються кілька підходів, кожен з яких характеризується певною послідовністю ідентифікації основних елементів моделі. Згідно з послідовністю ідентифікації елементів сховища даних можна визначити такі підходи до визначення основних елементів сховища даних:

Підхід «від запиту». Передусім визначаються змінні, потім виміри, пов'язані зі змінними, а надалі формуються факти. Цей підхід називається «від запиту», оскільки він орієнтований насамперед на аналітичні запити до сховища даних. Тобто визначення елементів сховища даних виконується на основі аналізу запитів користувачів-аналітиків.

Підхід, орієнтований на бізнес. Визначаються факти, потім виміри, а на завершення змінні. Цей підхід називається орієнтованим на бізнес, оскільки спочатку аналізується предметна область,