
- •Тема 4. Організація машинної інформаційної бази систем оброблення економічної інформації
- •4.1. Поняття машинної інформаційної бази
- •Постійно-облікові файли характеризують об'єкти і предмети праці,а також ресурси.До них належать файли,що містять дані про основні засоби,малоцінні і швидкозношувальні предмети тощо.
- •4.2. Основи організації автоматизованого банку даних
- •4.3. Реляційна модель даних
- •Дані для формування бд “Постачальники”
- •Постачальники
- •Приклад функціональної залежності
- •4.4.Елементи теорії нормалізації
- •Покупець(Код клієнта, Ім'я, Адреса) та
- •4. 5. Sql: мова структурованих запитів.
- •Оператор переіменування
- •4. 6. Огляд концепцій зберігання інформації
- •Відмінності між бд та dw.
- •Потрібно зауважити, що деякі інструменти etl об'єднують кілька кроків цього процесу, інші- здійснюють їх окремо. Сам процес etl може вимагати дуже багато часу і управління мета-даними.
- •Переваги мolap-систем:
- •Запитання для самоперевірки
4. 6. Огляд концепцій зберігання інформації
Різновидом баз даних є сховище даних (Data Waren House-DW). Появу DW обумовили такі фактори:
-
Поява систем підтримки прийняття рішень, основаних на OLAP- технології(реалізації аналітичних запитів).
-
СППР почали конфліктувати з транзакційними системами оперативної обробки даних (OLTP-системами), що призвело до нестачі ресурсів.
-
Формування аналітичних звітів на основі традиційних БД займає багато часу, що призвело до невстигання готувати менеджерами відповідних рішень на основі отриманих аналітичних звітів.
-
В організаціях часто функціонувало декілька OLTP- систем з окремими БД,що унеможливлювало побудову зведеного аналітичного запиту на основі декількох баз даних без попередньої узгодженості даних у різних базах.
Вирішення перерахованих проблем було знайдено в розробці концепції сховища даних (DW)- особливої форми організації бази даних, призначеної для зберігання в погодженому вигляді агрегованої інформації, що отримується на основі БД різних OLTP- систем та зовнішніх джерел.
DW характеризуються предметною орієнтацією, інтегрованістю, підтримкою хронології, незмінністю і мінімальною надлишковістю.
Предметна орієнтація
-
дані в DW організовані відповідно до основних напрямків діяльності підприємства чи фірми (дебіторська заборгованість, замовники, склад тощо),а не до процесів (відвантаження товару, виписання рахунків тощо) як у БД;
-
застосування DW спрямовуються даними і організуються навколо тем (клієнт, постачальник тощо), тобто сховища орієнтовані на бізнес- поняття, а не на бізнес- процеси.
Інтегрованість. Первинні дані оперативних баз даних перевіряються, певним чином добираються, приводяться до одного вигляду, необхідною мірою агрегуються і завантажуються у DW. Наприклад, оцінка змінних величин може бути лише в метрах, формат подання дат- PPMMDD, структура розшифровки для статі людини-ч/ж тощо.
Підтримка хронології (варіантність у часі):
-
В операційному середовищі
-інформація є точною на момент її введення;
-часовий горизонт або не існує, або є коротким, наприклад 60-90 днів;
-ключ може і не містити елемент часу;
-
DW нагромаджує дані у вигляді “історичних пластів”
-історичні дані, наприклад 5-10 років;
-ключ містить елемент часу.
Незмінність
-
Після вводу інформації до DW вона не підлягає оновленню (на відміну від оперативних даних БД,які можуть часто змінюватись);
-
Історична інформація в DW є незмінною. Її можна лише первинно завантажити,шукати та читати.
Мінімальна надлишковість. Зведення до мінімуму надлишковості даних забезпечується тим, що перш ніж завантажувати дані до сховищ,їх фільтрують і певним чином очищають від таких даних, які не потрібні і не можуть бути використані в OLAP-системах.
Наведемо деякі характеристики даних в DW:
-
таблиці дуже великі (деякі в терабайтах);
-
розмірні дані є незалежними у об'єктах (розмірностях);
-
основний тип доступу- це незапланований ( порівняно з обумовленим наперед у БД)-запити, звіти, оператори OLAP;
-
порівняно велика кількість таблиць для доступу (наприклад,щонайменше одна для кожної розмірності та таблиця фактичних даних);
-
доступ до даних здійснюється здебільшого у режимі “лише для читання”;
-
дані слід періодично поновлювати з численних джерел;
-
більшість зібраних даних є архівними (тобто залежать від часу).
У табл. 4.6. наведені відмінності між операційними базами даних та сховищами даних.
Таблиця 4.6