Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ІАД.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
307.2 Кб
Скачать

Виявлення проблем в даних. Для виявлення тих, що підлягають видаленню видів помилок і невідповідностей необхідний детальний аналіз даних. Поряд з ручною перевіркою слід використовувати аналітичні програми. Існує два взаємозв'язані методи аналізу: профайлінг даних і Data Mining.

Профайлінг даних орієнтований на грубий аналіз окремих атрибутів даних. При цьому відбувається отримання, наприклад, такої інформації, як тип, довжина, спектр значень, дискретні значення даних і їх частота, зміна, унікальність, наявність невизначених значень, типових строкових моделей (наприклад, для номерів телефонів) і ін.. що дозволяє забезпечити точне представлення різних аспектів якості атрибуту.

Data Mining допомагає знайти специфічні моделі у великих наборах даних, наприклад стосунки між декількома атрибутами. Саме на це направлені так звані описові моделі Data Mining, включаючи угрупування, узагальнення, пошук асоціацій і послідовностей. При цьому можуть бути отримані обмеження цілісності в атрибутах, наприклад, функціональні залежності або характерні для конкретних застосувань бізнес-правила, які можна використовувати для заповнення втрачених і виправлення недопустимих значень, а також для виявлення дублікатів записів в джерелах даних. Наприклад, правило об'єднання з високою вірогідністю може передбачити проблеми з якістю даних в елементах даних, що порушують це правило. Таким чином, 99% а вірогідність правила "разом = кількість х одиницю" демонструє невідповідність і потреба в детальнішому дослідженні для того, що залишився 1 % записів.

Визначення правил очищення даних. Залежно від числа джерел даних, ступінь їх неоднорідності і забрудненості, вони можуть вимагати досить обширного перетворення і очищення. Перші кроки по очищенню даних можуть скоректувати проблеми окремих джерел даних і підготувати дані для інтеграції. Подальші кроки мають бути направлені на інтеграцію даних і усунення проблем множинних джерел.

На цьому етапі необхідно виробити загальні правила перетворення, частина з яких має бути представлена у вигляді програмних засобів очищення.

Тестування правил очищення даних. Коректність і ефективність правил очищення даних повинні тестуватися і оцінюватися, наприклад, на копіях даних джерела. Це необхідно для з'ясування доцільності коректування правил з метою їх поліпшення або виправлення помилок.

Етапи визначення правил і їх тестування можуть виконуватися ітераційно кілька разів, наприклад, через те, що деякі помилки стають помітні лише після певних перетворень. Безпосереднє очищення даних. На цьому етапі виконуються перетворення відповідно до визначених раніше правил. Очищення виконується в два прийоми. Спочатку усуваються проблеми, пов'язані з окремими джерелами даних, а потім — проблеми безлічі БД.

Над окремими ОДД виконуються наступні процедури.

  • Розщеплювання атрибутів. Дана процедура витягує значення з атрибутів вільного формату для підвищення точності вистави і підтримки подальших етапів очищення, таких як зіставлення елементів даних і виключення дублікатів. Необхідні на цьому етапі перетворення перерозподіляють значення в полі для отримання можливості переміщення слів і витягують значення для розщеплених атрибутів.

  • Перевірка допустимості і виправлення. Ця процедура досліджує кожен елемент даних джерела на наявність помилок. Виявлені помилки автоматично виправляються (якщо це можливо). Перевірка на наявність орфографічних помилок виконується на основі перегляду словника. Словники географічних найменувань і поштових індексів допомагають коректувати адресні дані. Атрибутивні залежності (дата народження — вік, загальна вартість — ціна за шт., місто — регіональний телефонний код і т. д.) можуть використовуватися для виявлення проблем і заміни втрачених або виправлення невірних значень.

  • Стандартизація. Ця процедура перетворить дані в погоджений і уніфікований формат, що необхідне для їх подальшого узгодження і інтеграції. Наприклад, записи про дату і час мають бути оформлені в спеціальному форматі, імена і інші символьні дані повинні конвертуватися або в прописні, або в рядкові букви і так далі Текстові дані можуть бути стислі і уніфіковані за допомогою виявлення основи (шаблону), видалення префіксів, суфіксів і ввідних слів. Більш того, абревіатури і зашифровані схеми підлягають погодженій розшифровці за допомогою спеціального словника синонімів або вживання зумовлених правил конверсії.

Після того, як помилки окремих джерел видалені, очищені дані повинні замінити забруднені дані у вихідних ОДД. Це необхідно для підвищення якості даних в ОДД і виключеннях витрат на очищення при повторному використанні. Після завершення перетворень над даними з окремих джерел можна приступати до їх інтеграції. При цьому виконуються наступні процедури.

  • Зіставлення даних, що відносяться до одного елементу. Ця процедура усуває суперечність і дублювання даних з різних джерел, що відносяться до одного об'єкту наочної області. Для зіставлення записів з різних джерел використовуються ідентифікаційні атрибути або комбінація атрибутів. Такими атрибутами можуть виступати загальні первинні ключі або інші загальні унікальні атрибути. На жаль, без таких атрибутів процес зіставлення даних скрутний.

  • Злиття записів. Дана процедура об'єднує інтегровані записи, що відносяться до одного об'єкту. Об'єднання виконується, якщо інформація з різних записів доповнює або коректує одна іншу.

  • Виключення дублікатів. Дана процедура видаляє дублюючі записи. Вона виконується або над двома очищеними джерелами одночасно, або над окремим, вже інтегрованим набором даних. Виключення дублікатів вимагає, в першу чергу, виявлення (зіставлення) схожих записів, що відносяться до одного і тому ж об'єкту реального оточення.

Очищені дані зберігаються в СД і можуть використовуватися для аналізу і прийняття на їх основі рішень. За формування аналітичних запитів до даних і представлення результатів їх виконання в СППР відповідають підсистеми аналізу. Від вигляду аналізу також залежить і безпосередня реалізація структур зберігання даних в СД.

2.4. Концепція сховища даних і аналіз

Концепція СД не є закінченим архітектурним вирішенням СППР і тим більше не є готовим програмним продуктом. Мета концепції СД — визначити вимоги до даних, що поміщаються в СД, загальні принципи і етапи побудови СД, основні джерела даних, дати рекомендації по вирішенню потенційних проблем, що виникають при вивантаженні, очищенні, узгодженні, транспортуванні і завантаженні даних. Необхідно розуміти, що концепція СД:

  • це не концепція аналізу даних, швидше, це концепція підготовки даних для аналізу;

  • не зумовлює архітектуру цільової аналітичної системи. Концепція СД вказує на те, які процеси повинні виконуватися в системі, але не де конкретно і як вони виконуватимуться.

Таким чином, концепція СД визначає лише найзагальніші принципи побудови аналітичної системи і в першу чергу сконцентрована на властивостях і вимогах до даних, але не на способах організації і представлення даних в цільовій БД і режимах їх використання. Концепція СД описує побудову аналітичної системи, але не визначає характер її використання. Вона не вирішує жодну з наступних проблем:

  • вибір найбільш ефективного для аналізу способу організації даних;

  • організація доступу до даних;

  • використання технології аналізу.

Проблеми використання зібраних даних вирішують підсистеми аналізу. Як наголошувалося в Розділі 1, такі підсистеми використовують наступні технології:

  • регламентовані запити;

  • оперативний аналіз даних;

  • інтелектуальний аналіз даних.

Якщо регламентовані запити успішно застосовувалися ще задовго до появи концепції СД, то оперативний і інтелектуальний аналізи останнім часом все більше пов'язують з СД.

Висновки

З матеріалу, викладеного в даному розділі, можна зробити наступні висновки.

  • Концепція СД передбачає розділення структур зберігання даних для оперативної обробки і виконання аналітичних запитів. Це дозволяє в рамках однієї СППР об'єднати дві підсистеми, що задовольняють суперечливим вимогам.

  • Відповідно до визначення Інмона, СД— це предметно-орієнтований, інтегрований, немінливий, підтримуючий хронологію набір даних, організований для цілей підтримки ухвалення рішень.

  • Розрізняють два види СД: віртуальне і фізичне. У системах, що реалізовують концепцію віртуального СД, аналітичні запити адресуються безпосередньо до ОДД, а отримані результати інтегруються в оперативній пам'яті комп'ютера. В разі фізичного СД дані переносяться з різних ОДД в єдине сховище, до якого адресуються аналітичні запити.

  • Полегшеним варіантом СД є ВД, яка містить лише тематично об'єднані дані. ВД істотно менше за об'ємом, ніж СД, і для її реалізації не вимагається великих витрат. ВД може бути реалізована або самостійно, або в комбінації з СД.

  • СД включає: метадані, детальні, агреговані і архівні дані. Що переміщаються в СД дані утворюють інформаційні потоки: вхідний, узагальнюючий, зворотний, вихідний і потік метаданих.

  • Детальні дані розділяють на два класи: виміри і факти. Вимірами називаються набори даних, необхідні для опису подій. Фактами називаються дані, що відображають суть події.

  • Агреговані дані виходять з детальних даних шляхом їх підсумовування по вимірах. Для швидкого доступу до найчастіше запрошуваних агрегованих даних вони повинні зберігатися в СД, а не обчислюватися при виконанні запитів.

  • Метадані необхідні для здобуття користувачем інформації про дані, що зберігаються в СД. Згідно з принципами Захмана, метадані повинні описувати об'єкти наочної області, представлені в СД, користувачів, що працюють з даними, місця зберігання даних, дії над даними, час обробки даних і причини модифікацій даних.

  • Найбільш потужним інформаційним потоком в СД є вхідний — потік перенесення даних з ОІД в СД. Процес перенесення, що включає етапи збору, перетворення і завантаження, називають ЕТL-процесом.

  • Найбільш важливим завданням при перенесенні даних є їх очищення. Основні проблеми очищення даних можна класифікувати по наступних рівнях: рівень елементу таблиці, рівень запису, рівень таблиці БД, рівень одиночної БД, рівень множини БД.

  • Очищення даних включає наступні етапи: виявлення проблем в даних, визначення правил очищення, тестування правил очищення, безпосереднє очищення даних. Після виправлення помилок окремих джерел очищені дані повинні замінити забруднені дані у вихідних ОДД.

  • Очищені дані зберігаються в СД і можуть використовуватися для аналізу і прийняття на їх основі рішень. За формування аналітичних запитів до даних і представлення результатів їх виконання в СППР відповідають підсистеми аналізу. Від вигляду аналізу також залежить і безпосередня реалізація структур зберігання даних в СД.

Розділ 4. Інтелектуальний аналіз даних

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]