Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
DEK.doc
Скачиваний:
6
Добавлен:
10.09.2019
Размер:
1.85 Mб
Скачать

13. Сховище даних як джерело даних для сппр

Сховище даних – це різновид систем зберігання даних, орієнтований на підтримкупроцесу аналізу даних та прийняття рішення, що забезпечує цілісність, несуперечність іхронологію даних, а також високу швидкість виконання аналітичних запитів.

Інмон же визначив сховища даних як: «предметно-орієнтовані, інтегровані, незмінні,хронологічні набори даних, організовані для підтримки прийняття управлінських рішень».

Тепер спробуємо розшифрувати основні риси СД, визначені Інмоном:

1. Під предметною орієнтованістю в даному випадку мається на увазі те, що СДповинне розроблятися з урахуванням специфіки конкретної предметної області, ане аналітичних додатків, з якими його передбачається використовувати.Структура СД повинна відображати уявлення аналітика про інформацію, з якоюйому доводиться працювати.

2. Інтегрованість означає можливість завантаження інформації в СД з джерел, щопідтримують різні формати даних і створених в різних програмних середовищах:облікових системах, базах даних, електронних таблицях й інших офіснихпрограмах, що підтримують структурованість. Дуже важливо проводити перевіркуданих на цілісність і несуперечливість, забезпечити необхідний рівень їхузагальнення (агрегації). Об’єм накопичених в сховищі даних повинен бутидостатнім для ефективного вирішення аналітичних задач, тому в СД моженакопичуватися інформація за декілька років і навіть десятиліть.

3. Принцип незмінності припускає, що на відміну від звичайних системоперативної обробки даних в аналітичних системах дані після завантаження неповинні піддаватися жодним змінам за винятком додавання нових даних.

4. Підтримка хронології означає підтримку порядку слідування записів, для чого вструктуру СД вводяться ключові атрибути «Дата» і «Час». Окрім цього, якщофізично упорядкувати записи в хронологічному порядку, наприклад, в порядкузростання атрибуту «Дата», то можна зменшити час виконання аналітичнихзапитів.

Варто відмітити, що коло завдань бізнес-аналізу досить широке, а самі завдання істотновідрізняються по рівню складності. Тому, залежно від специфіки вирішуваних завдань і рівняїх складності архітектура СД і моделі даних, що використовуються для їх побудови, можутьрозрізнятися.

14. Місце деталізованих та агрегованих даних в сховищі даних

Дані в СД зберігаються як в деталізованому, так і в агрегованому вигляді. Дані вдеталізованому вигляді надходять безпосередньо з джерел даних і відповідаютьелементарним подіям, що реєструються обліковими системами. Це можуть бути обсягищоденних продаж, кількість виробленої продукції тощо. Це неподільні значення, спробадодатково деталізувати які позбавляє їх логіки.

Багато завдань аналізу (наприклад, прогнозування) вимагають використання данихпевного ступеня узагальнення. Наприклад, суми продаж, взятих по днях, можуть дати дуженерівномірний ряд даних, що ускладнить виявлення характерних періодів, закономірностейабо тенденцій. Проте, якщо узагальнити ці дані в межах тижня або місяця, узявши суму,середнє, максимальне і мінімальне значення за відповідний період, то отриманий ряд можевиявитися більш інформативним. Процес узагальнення деталізованих даних називаєтьсяагрегація, а самі узагальнені дані – агрегованими (іноді – агрегатами). Агреговані даніочевидно є числовими (фактами), вони обчислюються і містяться в СД разом здеталізованими даними.

Один і той же набір деталізованих даних може породити декілька наборів агрегованих зрізним ступенем узагальнення, що приводить до зростання об’єму СД, іноді дуже істотному.Наприклад, набір, що містить дані про продаж по днях протягом року, окрім своїх 360значень породжує 52 значення з узагальненням по тижнях і 12 – по місяцях. Якщо при цьомуобчислюються всі види агрегації – сума, середнє, максимальне і мінімальне значення завідповідний період, то кількість агрегованих значень, що зберігаються, складе вже(52+12)*4=256. Іноді це приводить до «вибухового» неконтрольованого зростання СД івикликає серйозні технічні проблеми: сховище «вибухає» через те, що безперервний потіквхідних даних автоматично агрегується відповідно до налаштувань СД. Проте це євимушеним явищем, оскільки якщо агреговані дані не містилися б у СД, а обчислювалися впроцесі виконання запитів, це привело б до збільшення часу виконання запиту у декількаразів.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]