Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОБЩИЙ_файл_ПОСОБИЕ.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
22.69 Mб
Скачать

Інструменти аналізу даних

У багатовимірних сховищах даних містяться агрегатні дані різної ступені подробності, наприклад, об'єми продажу по днях, місяцях, роках, по категоріях товарів тощо. Мета зберігання агрегатних даних – скоротити час виконання запитів, оскільки у більшості випадків для аналізу і прогнозування цікаві не детальні, а сумарні дані. Тому при створенні багатовимірного СД завжди обчислюються і зберігаються деякі агрегатні дані.

Збереження усіх агрегатних даних не завжди виправдано. При додаванні нових вимірів, об'єм даних, що становлять куб, росте експоненціально. Міра росту об'єму агрегатних даних залежить від кількості вимірів куба і членів вимірів на різних рівнях ієрархій цих вимірів. Для вирішення проблеми експоненціального росту застосовуються різні схеми, що дозволяють при обчисленні не всіх можливих агрегатних даних досягти прийнятної швидкості виконання запитів.

Як початкові, так і агрегатні дані можуть зберігатися або в реляційних, або у багатовимірних структурах. Тому найпоширені в застовуванні три способи зберігання даних :

MOLAP (Multidimensional OLAP) – початкові і агрегатні дані зберігаються у багатовимірній базі даних. Зберігання даних у багатовимірних структурах дозволяє маніпулювати даними як багатовимірним масивом, завдяки чому швидкість обчислення агрегатних значень однакова для будь-якого з вимірів. Проте в цьому випадку багатовимірна база даних виявляється надмірною, оскільки багатовимірні дані повністю містять початкові реляційні дані.

ROLAP (Relational OLAP) – початкові дані залишаються в тій самій реляційній базі даних, де вони спочатку і знаходились. Агрегатні дані поміщають в спеціально створені для їх зберігання службові таблиці в тій базі даних.

HOLAP (Hybrid OLAP) – початкові дані залишаються в тій самій реляційній базі даних, де вони спочатку знаходилися, а агрегатні дані зберігаються у багатовимірній базі даних.

Деякі OLAP-засоби підтримують зберігання даних тільки в реляційних структурах, деякі – тільки у багатовимірних. Проте більшість сучасних серверних OLAP-засобів підтримують усі три способи зберігання даних. Вибір способу зберігання залежить від об'єму і структури початкових даних, вимог до швидкості виконання запитів і частоти оновлення OLAP-кубов.

Схема інтелектуального здобуття даних із сховища для аналізу представлена на рис. 11.5.

Рис. 11.5. Архітектура інтелектуального здобуття даних із СД

Кожен тип зберігання має певні переваги. MOLAP краще всього підходить для невеликих наборів даних, він швидко розраховує агрегати і повертає відповіді, але при цьому генеруються величезні об'єми даних.

ROLAP оцінюється як більш масштабоване рішення, що використовує до того ж найменший можливий простір. При цьому швидкість обробки значно знижується.

HOLAP знаходиться посеред цих двох підходів, він досить добре масштабується і швидко обробляється. Архітектура ROLAP дозволяє проводити багатовимірний аналіз даних в режимі реального часу.

Продуктивність olap-систем

Для досягнення максимальної продуктивності OLAP -систем слід правильно вибрати режим зберігання – MOLAP, HOLAP, або ROLAP. Продуктивність при використанні MOLAP або HOLAP приблизно однакова, а застосування ROLAP у будь-якому випадку її знизить. MOLAP вимагає великих об'ємів дискового простору, чим HOLAP і ROLAP, хоча для HOLAP потрібно менше оперативної пам'яті.

Вибираючи рівень агрегації для кубів, не рекомендується виходити за інтервал від 25 % до 60 %. Рівнів агрегації вище 60 %, як правило, вимагають великих об'ємів дискового простору і у більшості випадків не призводять до істотного збільшення швидкості обробки запитів.

Для досягнення найвищої продуктивності SQL-сервер зі сховищем або вітриною даних і OLAP-сервер мають бути на різних комп'ютерах.

Якщо OLAP-куби дуже великі за розміром або часто використовуються, то їх бажано розмістити на окремих серверах, тим самим розподіливши навантаження. Для куба, що часто використовується, можна створити його копії на декількох серверах.

Оновлення інформації в кубах бажано виконувати в періоди найменшого завантаження сервера.

За умовчанням об'єм пам'яті, що використовується OLAP-сервером, дорівнює половині об'єму оперативної пам'яті сервера. Якщо сервер використовується для обробки одного з декількох кубів, то значення мінімально доступної пам'яті повинне складати 90% пам'яті сервера.

Максимальна кількість оброблюваних OLAP Service ниток (процесів) рівне 1000. Виходячи з цього, за допомогою монітора продуктивності можна визначити навантаження процесорів.

При створенні OLAP-кубу, використовується майстер аналізу, щоб проаналізувати оброблювані запити, і майстер оптимізації, щоб підвищити продуктивність.

У разі корпоративної версії SQL-сервера для підвищення продуктивності OLAP-куби можна поділити на партії (окремо керовані елементи зберігання). Кожна партія може мати свій режим зберігання даних і рівень агрегації. Використання партій дозволяє розміщувати їх на різних дисках і підвищити інтенсивність їх використання.

Щоб зменшити час обробки куба, необхідно відключити опцію оптимізації схеми, тим самим зменшивши кількість непотрібних зв'язків і значно знизити час обробки куба.