Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОБЩИЙ_файл_ПОСОБИЕ.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
22.69 Mб
Скачать

Основні характеристики сховища даних

Предметна орієнтованість. Інформація в сховищі даних організована відповідно до основних аспектів діяльності підприємства (замовники, продажі, склад і таке інше); це відрізняє сховище даних від оперативної БД, де дані організовані відповідно до процесів (виписка рахунків, відвантаження товару тощо). Предметна організація даних в сховищі сприяє як значному спрощенню аналізу, так і підвищенню швидкості виконання аналітичних запитів. Виражається вона, зокрема, у використанні інших, ніж в оперативних системах, схемах організації даних. У разі зберігання даних в реляційній СУБД застосовується схема "зірки" (star) або "сніжинки" (snowflake). Крім того, дані можуть зберігатися в спеціальній багатовимірній СУБД в n -мерных кубах.

Інтегрованість. Початкові дані беруться з оперативних БД, перевіряються, "очищаються", приводяться до єдиного виду, в потрібній мірі агрегуються (тобто обчислюються сумарні показники) і завантажуються в СД. Такі інтегровані дані набагато простіше аналізувати.

Прив'язка до часу. Дані в сховищі завжди безпосередньо пов'язані з певним періодом часу. Дані, вибрані з оперативних БД, накопичуються в сховищі у вигляді "історичних шарів", кожен з яких відноситься до конкретного періоду часу. Це дозволяє аналізувати тенденції в розвитку бізнесу.

Незмінність. Потрапивши в певний "історичний шар" сховища, дані вже ніколи не будуть змінені. Це також відрізняє сховище від оперативної БД, в якій дані увесь час міняються, один і той же запит, виконаний двічі з інтервалом в 10 хвилин, може дати різні результати. Стабільність даних також полегшує їх аналіз.

Типова архітектура сховищ даних

Використання технології сховищ даних припускає наявність в системі наступних компонентів :

оперативних джерел даних;

засобів перенесення і трансформації даних;

метаданих – включають каталог сховища і правила перетворення даних при завантаженні їх з оперативних БД;

реляційного сховища;

OLAP сховища;

засобів доступу і аналізу даних.

Оперативні дані збираються з різних джерел. Оперативні дані, що поступили, відбираються, інтегруються і складаються в реляційні сховища. Вони вже доступні для аналізу за допомогою засобів побудови звітів. Потім дані (повністю або частково) готуються з використанням засобів перенесення і трансформації даних для OLAP аналізу, який реалізується застосуванням засобів доступу і аналізу даних. При цьому вони можуть бути завантажені в спеціальну базу даних OLAP або залишатися в реляційному сховищі.

Найважливішим елементом СД є метадані, тобто дані про структуру, розміщення, трансформацію даних, які використовуються будь-якими процесами сховища. Метадані можуть бути затребувані для різних цілей, наприклад: для того, щоб витягнути та завантажити дані; обслуговування сховища і запитів. Метадані для різних процесів можуть мати різну структуру, тобто для одного і того ж елементу даних може існувати декілька варіантів метаданих.

Концептуально модель сховища даних можна представити у вигляді схеми, показаної на рис. 11.1.

Рис.11.1 Концептуальна модель сховища даних

Дані з різних джерел поміщаються в СД, а описи цих даних в репозиторій метаданих.

Кінцевий користувач, використовуючи різні інструменти (засоби візуалізації, побудови звітів, статистичної обробки тощо) і вміст репозиторія, аналізує дані в сховищі. Результатом його діяльності є інформація у вигляді готових звітів, знайдених прихованих закономірностей, будь-яких прогнозів. Оскільки засоби роботи кінцевого користувача зі СД можуть бути найрізноманітнішими, то теоретично їх вибір не повинен впливати на його структуру і функції його підтримки в актуальному стані.

Фізична реалізація концептуальної схеми може бути різною. Нижче наводяться підходи, що часто зустрічаються.

Віртуальне сховище даних – це система, що представляє інтерфейси і методи доступу до реєструючої системи, які емулюють роботу з даними в цій системі, як зі сховищем даних. Віртуальне сховище даних можна організувати, створивши ряд представлень (view) у базі даних, або застосувавши спеціальні засоби доступу, наприклад, продукти класу Desktop OLAP, до яких відноситься, BusinessObjects, Brio Enterprise та інші.

Головними достоїнствами такого підходу є:

простота і мала вартість реалізації;

єдина платформа з джерелом інформації;

відсутність мережевих з'єднань між джерелом інформації і СД.

Віртуальне сховище даних має недоліки:

створюючи віртуальне СД, створюється не сховище, а ілюзія його існування; структура зберігання даних і само зберігання даних не зазнає змін; а також виникають проблеми продуктивності; трансформації даних; інтеграції даних з іншими джерелами; відсутності історії; чистота даних; залежність від доступності основної БД; залежність від структури основної БД.

Дворівнева архітектура сховища даних має на увазі побудову вітрин даних (data mart) без створення центрального сховища, при цьому інформація поступає з невеликої кількості оперативних систем і обмежена конкретною предметною областю. При побудові вітрин даних використовуються основні принципи побудови СД, тому їх можна вважати сховищами даних в мініатюрі.

Переваги вітрин даних :

простота і мала вартість реалізації;

висока продуктивність за рахунок фізичного розподілу оперативних і аналітичних систем, виділення завантаження і трансформації даних в окремий процес, оптимізованою під аналіз структурою зберігання даних;

підтримка історії;

можливість додавання метаданих.

Побудова повноцінного корпоративного сховища даних, зазвичай виконується в трирівневій архітектурі. На першому рівні розташовані різноманітні джерела даних – внутрішні реєструючі системи, довідкові системи, зовнішні джерела (дані інформаційних агентств, макроекономічні показники). Другий рівень містить центральне сховище даних, куди стікається інформація від усіх джерел з першого рівня, і, можливо, оперативний склад даних (ОСД). Оперативний склад не містить історичних даних і виконує дві основні функції. По-перше, він є джерелом аналітичної інформації для оперативного управління і, по-друге, тут готуються дані для наступного завантаження в центральне сховище. Під підготовкою даних розуміють їх перетворення і здійснення певних перевірок. Наявність ОСД просто потрібна при різному регламенті вступу інформації з джерел. Третім рівнем в цій архітектурі є набір предметно-орієнтованих вітрин даних, джерелом інформації для яких є центральне сховище даних. Саме з вітринами даних і працюють більшість кінцевих користувачів.