Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lektsiyi_IAD.doc
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
1.84 Mб
Скачать

2.4. Концепція сховища даних і аналіз

Концепція СД не є закінченим архітектурним вирішенням СППР і тим більше не є готовим програмним продуктом. Мета концепції СД — визначити вимоги до даних, що поміщаються в СД, загальні принципи і етапи побудови СД, основні джерела даних, дати рекомендації по вирішенню потенційних проблем, що виникають при вивантаженні, очищенні, узгодженні, транспортуванні і завантаженні даних. Необхідно розуміти, що концепція СД:

  • це не концепція аналізу даних, швидше, це концепція підготовки даних для аналізу;

  • не зумовлює архітектуру цільової аналітичної системи. Концепція СД вказує на те, які процеси повинні виконуватися в системі, але не де конкретно і як вони виконуватимуться.

Таким чином, концепція СД визначає лише найзагальніші принципи побудови аналітичної системи і в першу чергу сконцентрована на властивостях і вимогах до даних, але не на способах організації і представлення даних в цільовій БД і режимах їх використання. Концепція СД описує побудову аналітичної системи, але не визначає характер її використання. Вона не вирішує жодну з наступних проблем:

  • вибір найбільш ефективного для аналізу способу організації даних;

  • організація доступу до даних;

  • використання технології аналізу.

Проблеми використання зібраних даних вирішують підсистеми аналізу. Як наголошувалося в Розділі 1, такі підсистеми використовують наступні технології:

  • регламентовані запити;

  • оперативний аналіз даних;

  • інтелектуальний аналіз даних.

Якщо регламентовані запити успішно застосовувалися ще задовго до появи концепції СД, то оперативний і інтелектуальний аналізи останнім часом все більше пов'язують з СД.

Висновки

З матеріалу, викладеного в даному розділі, можна зробити наступні висновки.

  • Концепція СД передбачає розділення структур зберігання даних для оперативної обробки і виконання аналітичних запитів. Це дозволяє в рамках однієї СППР об'єднати дві підсистеми, що задовольняють суперечливим вимогам.

  • Відповідно до визначення Інмона, СД— це предметно-орієнтований, інтегрований, немінливий, підтримуючий хронологію набір даних, організований для цілей підтримки ухвалення рішень.

  • Розрізняють два види СД: віртуальне і фізичне. У системах, що реалізовують концепцію віртуального СД, аналітичні запити адресуються безпосередньо до ОДД, а отримані результати інтегруються в оперативній пам'яті комп'ютера. В разі фізичного СД дані переносяться з різних ОДД в єдине сховище, до якого адресуються аналітичні запити.

  • Полегшеним варіантом СД є ВД, яка містить лише тематично об'єднані дані. ВД істотно менше за об'ємом, ніж СД, і для її реалізації не вимагається великих витрат. ВД може бути реалізована або самостійно, або в комбінації з СД.

  • СД включає: метадані, детальні, агреговані і архівні дані. Що переміщаються в СД дані утворюють інформаційні потоки: вхідний, узагальнюючий, зворотний, вихідний і потік метаданих.

  • Детальні дані розділяють на два класи: виміри і факти. Вимірами називаються набори даних, необхідні для опису подій. Фактами називаються дані, що відображають суть події.

  • Агреговані дані виходять з детальних даних шляхом їх підсумовування по вимірах. Для швидкого доступу до найчастіше запрошуваних агрегованих даних вони повинні зберігатися в СД, а не обчислюватися при виконанні запитів.

  • Метадані необхідні для здобуття користувачем інформації про дані, що зберігаються в СД. Згідно з принципами Захмана, метадані повинні описувати об'єкти наочної області, представлені в СД, користувачів, що працюють з даними, місця зберігання даних, дії над даними, час обробки даних і причини модифікацій даних.

  • Найбільш потужним інформаційним потоком в СД є вхідний — потік перенесення даних з ОІД в СД. Процес перенесення, що включає етапи збору, перетворення і завантаження, називають ЕТL-процесом.

  • Найбільш важливим завданням при перенесенні даних є їх очищення. Основні проблеми очищення даних можна класифікувати по наступних рівнях: рівень елементу таблиці, рівень запису, рівень таблиці БД, рівень одиночної БД, рівень множини БД.

  • Очищення даних включає наступні етапи: виявлення проблем в даних, визначення правил очищення, тестування правил очищення, безпосереднє очищення даних. Після виправлення помилок окремих джерел очищені дані повинні замінити забруднені дані у вихідних ОДД.

  • Очищені дані зберігаються в СД і можуть використовуватися для аналізу і прийняття на їх основі рішень. За формування аналітичних запитів до даних і представлення результатів їх виконання в СППР відповідають підсистеми аналізу. Від вигляду аналізу також залежить і безпосередня реалізація структур зберігання даних в СД.

Розділ 4. Інтелектуальний аналіз даних

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]