
- •Розділ 1. Системи підтримки прийняття рішень
- •Задачі систем підтримки прийняття рішень
- •База даних - основа сппр
- •Неефективність використання oltp-систем для аналізу даних
- •Розділ 2. Сховище даних
- •2.1. Концепція сховища даних
- •2.2. Організація сд
- •2.3. Очищення даних
- •2.4. Концепція сховища даних і аналіз
- •4.1. Видобуток даних - Data Mining
- •4.2. Завдання Data Mining
- •4.2.1. Data Mining Класифікація задач
- •4.2.2. Задача класифікації і регресії
- •4.2.3. Завдання пошуку асоціативних правил
- •4.2.4. Задача кластеризації
- •4.3. Практичне застосування Data Mining
- •4.3.1. Інтернет-технології
- •4.3.2. Торгівля
- •4.3.3. Телекомунікації
- •4.3.4. Промислове виробництво
- •4.3.5. Медицина
- •4.3.6. Банківська справа
- •4.3.7. Страховий бізнес
- •4.3.8. Інші області застосування
- •4.4. Моделі Data Mining
- •4.4.1. Предбачувальні моделі
- •4.5. Методи Data Mining
- •4.5.1. Базові методи
- •4.5.3. Генетичні алгоритми
- •4.5.4. Нейронні мережі
- •4.6. Процес виявлення знань
- •4.6.1. Основні етапи аналізу
- •4.6.2. Підготовка вихідних даних
- •4.7. Засоби Data Mining
2.4. Концепція сховища даних і аналіз
Концепція СД не є закінченим архітектурним вирішенням СППР і тим більше не є готовим програмним продуктом. Мета концепції СД — визначити вимоги до даних, що поміщаються в СД, загальні принципи і етапи побудови СД, основні джерела даних, дати рекомендації по вирішенню потенційних проблем, що виникають при вивантаженні, очищенні, узгодженні, транспортуванні і завантаженні даних. Необхідно розуміти, що концепція СД:
це не концепція аналізу даних, швидше, це концепція підготовки даних для аналізу;
не зумовлює архітектуру цільової аналітичної системи. Концепція СД вказує на те, які процеси повинні виконуватися в системі, але не де конкретно і як вони виконуватимуться.
Таким чином, концепція СД визначає лише найзагальніші принципи побудови аналітичної системи і в першу чергу сконцентрована на властивостях і вимогах до даних, але не на способах організації і представлення даних в цільовій БД і режимах їх використання. Концепція СД описує побудову аналітичної системи, але не визначає характер її використання. Вона не вирішує жодну з наступних проблем:
вибір найбільш ефективного для аналізу способу організації даних;
організація доступу до даних;
використання технології аналізу.
Проблеми використання зібраних даних вирішують підсистеми аналізу. Як наголошувалося в Розділі 1, такі підсистеми використовують наступні технології:
регламентовані запити;
оперативний аналіз даних;
інтелектуальний аналіз даних.
Якщо регламентовані запити успішно застосовувалися ще задовго до появи концепції СД, то оперативний і інтелектуальний аналізи останнім часом все більше пов'язують з СД.
Висновки
З матеріалу, викладеного в даному розділі, можна зробити наступні висновки.
Концепція СД передбачає розділення структур зберігання даних для оперативної обробки і виконання аналітичних запитів. Це дозволяє в рамках однієї СППР об'єднати дві підсистеми, що задовольняють суперечливим вимогам.
Відповідно до визначення Інмона, СД— це предметно-орієнтований, інтегрований, немінливий, підтримуючий хронологію набір даних, організований для цілей підтримки ухвалення рішень.
Розрізняють два види СД: віртуальне і фізичне. У системах, що реалізовують концепцію віртуального СД, аналітичні запити адресуються безпосередньо до ОДД, а отримані результати інтегруються в оперативній пам'яті комп'ютера. В разі фізичного СД дані переносяться з різних ОДД в єдине сховище, до якого адресуються аналітичні запити.
Полегшеним варіантом СД є ВД, яка містить лише тематично об'єднані дані. ВД істотно менше за об'ємом, ніж СД, і для її реалізації не вимагається великих витрат. ВД може бути реалізована або самостійно, або в комбінації з СД.
СД включає: метадані, детальні, агреговані і архівні дані. Що переміщаються в СД дані утворюють інформаційні потоки: вхідний, узагальнюючий, зворотний, вихідний і потік метаданих.
Детальні дані розділяють на два класи: виміри і факти. Вимірами називаються набори даних, необхідні для опису подій. Фактами називаються дані, що відображають суть події.
Агреговані дані виходять з детальних даних шляхом їх підсумовування по вимірах. Для швидкого доступу до найчастіше запрошуваних агрегованих даних вони повинні зберігатися в СД, а не обчислюватися при виконанні запитів.
Метадані необхідні для здобуття користувачем інформації про дані, що зберігаються в СД. Згідно з принципами Захмана, метадані повинні описувати об'єкти наочної області, представлені в СД, користувачів, що працюють з даними, місця зберігання даних, дії над даними, час обробки даних і причини модифікацій даних.
Найбільш потужним інформаційним потоком в СД є вхідний — потік перенесення даних з ОІД в СД. Процес перенесення, що включає етапи збору, перетворення і завантаження, називають ЕТL-процесом.
Найбільш важливим завданням при перенесенні даних є їх очищення. Основні проблеми очищення даних можна класифікувати по наступних рівнях: рівень елементу таблиці, рівень запису, рівень таблиці БД, рівень одиночної БД, рівень множини БД.
Очищення даних включає наступні етапи: виявлення проблем в даних, визначення правил очищення, тестування правил очищення, безпосереднє очищення даних. Після виправлення помилок окремих джерел очищені дані повинні замінити забруднені дані у вихідних ОДД.
Очищені дані зберігаються в СД і можуть використовуватися для аналізу і прийняття на їх основі рішень. За формування аналітичних запитів до даних і представлення результатів їх виконання в СППР відповідають підсистеми аналізу. Від вигляду аналізу також залежить і безпосередня реалізація структур зберігання даних в СД.
Розділ 4. Інтелектуальний аналіз даних