Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СХОВИЩА-нов.doc
Скачиваний:
16
Добавлен:
20.08.2019
Размер:
131.07 Кб
Скачать

Модуль 4. Технологія сховищ даних Лекція. Поняття сховищ даних та передумови їх створення

План

1. Передумови створення

2. Основні характеристики сховищ даних

3. Характеристика основних компонент сховища даних

4. Архітектура сховищ даних

5. Підходи до проектування сховищ даних

6. Визначення основних елементів сховища даних

Література

  1. Ситник Н. В. Проектування баз та сховищ даних: Навч. посібник. – К.: КНЕУ, 2004. – 348 с.

  2. Спирли Э. Корпоративные хранилища данных: Планирование, разработка, реализация: Том 1.: Пер. с англ. – М.: Изд. Дом «Вильямс», 2001. – 400 с.

  3. Федоров Ф., Елманова Н. Введение в OLAP: ч. 1: Основы OLAP// КомпьютерПресс. – 2001. - № 4.

  4. Федоров Ф., Елманова Н. Введение в OLAP: ч. 2: Хранилища данных// КомпьютерПресс. – 2001. - № 5.

  5. Федоров Ф., Елманова Н. Введение в OLAP: ч. 1: Многомерные базы данных// КомпьютерПресс. – 2001. - № 8.

1. Передумови створення

Концепція сховищ даних вперше було сформульована у 1992 р. Необхідність розробки нової концепції сховищ даних обумовлена такими факторами:

  • Системи підтримки прийняття рішень, що ґрунтуються на формуванні аналітичних запитів, почали конфліктувати з трансакційними системами оперативної обробки даних (OLTP-системами). Одночасне вирішення оперативних та аналітичних запитів на одній базі даних часто призводить до нестачі ресурсів.

  • Реалізація аналітичних звітів на основі традиційних баз даних, які містять оперативну інформацію, займає дуже багато часу. Це пов'язано з тим, що для аналітичних звітів переважно потрібні не первинні оперативні дані, а певним чином узагальнені, тобто агреговані дані. Причому витрати часу, необхідні на формування аналітичних звітів, невпинно зростають по мірі зростання обсягів оперативної інформації в базі даних. Це призводить до затримок при реалізації аналітичних запитів.

  • Дуже часто на підприємстві чи в організації функціонує кілька OLTP-систем, кожна з яких має свою окрему базу даних. У них використовуються різні структури даних, способи кодування, одиниці вимірювання. Побудова зведеного аналітичного запиту на основі кількох баз даних є дуже складною проблемою, яка спочатку потребує вирішення проблеми узгодженості даних, що зберігаються в різних базах даних.

  • Для вирішення оперативних аналітичних задач недостатньо інформації, що зберігається в базі даних. Необхідні архівні дані, що містять результати роботи за попередні календарні періоди. Крім того, дуже часто виникає потреба в зовнішніх джерелах (дані про клієнтів, конкурентів, політичні, соціологічні, демографічні та ін.).

2. Основні характеристики сховищ даних

Сховище даних (Data Warehouse) — це предметно-орієнтована, інтегрована, прив'язана до часу та незмінна сукупність даних, призначена для підтримки прийняття рішень.

Сховища даних характеризуються предметною орієнтацією, інтегрованістю, підтримкою хронології, незмінністю і мінімальною надлишковістю. Ці основні особливості сховищ даних були визначені в 1992р. їх винахідником Біллом Інмоном. Вони незалежно від реалізації властиві всім сховищам даних і полягають у такому:

Предметна орієнтація. Дані в сховищі даних організовані відповідно до основних напрямів діяльності підприємства чи фірми (замовники, продажі, склад і т. п.). Це — відмінність сховищ даних від організації оперативної БД, в якій дані організуються відповідно до процесів (відвантаження товару, виписка рахунків і т. п.). Предметна організація даних не лише спрощує проведення аналізу, але й значно прискорює виконання аналітичних розрахунків. Тобто сховища орієнтовані на бізнес-поняття, а не на бізнес-процеси.

Інтегрованість. Дані у сховище надходять з різних джерел, де вони можуть мати різні імена, формати, одиниці вимірювання і способи кодування. Перш ніж завантажити дані до сховища, вони перевіряються, певним чином відбираються, приводяться до одного єдиного способу кодування, виду та формату і в необхідній мірі агрегуються (тобто обраховуються сумарні показники). З цього моменту вони представляються користувачеві у вигляді єдиного інформаційного простору, які набагато простіше аналізувати.

Якщо, наприклад, у чотирьох різних базах даних код товару кодувався чотирма різними способами, то в сховищі даних буде використана єдина система кодування.

Підтримка хронології. Дані в сховищі даних зберігаються у вигляді «історичних пластів», кожен з яких характеризує певний календарний період. Це дозволяє проводити аналіз зміни показників у часі. В OLTP-системах істинність даних гарантована тільки в момент читання, оскільки вже в наступну мить вони можуть змінитися внаслідок чергової трансакції. Важливою відмінністю сховищ від OLTP-систем є те, що дані в них зберігають свою істинність у будь-який момент процесу читання.

В OLTP-системах інформація часто модифікується як результат виконання яких-небудь трансакцій. Часова інваріантність даних у сховищі даних досягається за рахунок введення полів, що характеризують час (день, тиждень, місяць) у ключі таблиць. У СД містяться начебто моментальні знімки даних. Кожний елемент у своєму ключі явно або непрямо зберігає часовий параметр, наприклад день, місяць або рік.

Незмінність. Дані сховища даних, що характеризують кожен «історичний пласт», не можуть змінюватись. Це теж є суттєвою відмінністю даних, що зберігаються у сховищі даних, від оперативних даних. Останні дані в базі даних постійно змінюються. З даними сховища даних можливі лише операції їх первинного завантаження, пошуку та читання.

Якщо при створенні OLTP-систем розробники повинні враховувати такі моменти, як відкати трансакцій після збою сервера, боротьба із взаємним блокуванням процесів (deadlocks), збереження цілісності даних, то для сховища даних ці проблеми не так актуальні. Перед розробниками стоять інші задачі, пов'язані, наприклад, із забезпеченням високої швидкості доступу до даних.

Мінімальна надлишковість. Незважаючи на те, що інформація до сховищ даних завантажується з БД OLTP-систем, це не призводить до надлишковості даних. Мінімум надлишковості даних забезпечується тим, що перш ніж завантажувати дані до сховищ, вони фільтруються і певним чином очищаються від тих даних, які не потрібні і не можуть бути використаними в бізнес-аналізі.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]