Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
DEK.doc
Скачиваний:
6
Добавлен:
10.09.2019
Размер:
1.85 Mб
Скачать

16. Вітрини даних

Ще одним важливим поняттям, що стосується СД, є вітрини даних – data marts.Ситуація, коли для аналізу необхідна вся інформація, що міститься в СД, виникає рідко. Вбільшості випадків підрозділи підприємства або організації використовують профільнуінформацію, що стосується тільки того напряму діяльності, який вони обслуговують. Якправило, об’єм такої тематичної інформації невеликий в порівнянні із загальним об’ємомсховища і цілком ефективно може обслуговуватися MOLAP-системою. Якщо виділитипрофільні дані, що найчастіше використовуються по певному напряму діяльності, в окремийнабір і організувати його зберігання в окремій багатовимірній БД, підключеній доцентралізованого СД, то це і буде вітрина даних.

Вітрина даних – це спеціалізоване, локальне, тематичне сховище, підключене доцентралізованого СД для обслуговування окремого підрозділу організації або певногонапряму його діяльності.Найчастіше для побудови вітрин даних використовується багатовимірна модель,оскільки для невеликих об’ємів даних вона забезпечує швидшу реакцію на запити, ніжреляційна, хоча в деяких випадках використовується і реляційна модель.

Використання вітрин даних має наступні переваги:

  • близькість до кінцевого користувача;

  • дані тематично орієнтовані на конкретного користувача;

  • відносно невеликий об’єм збережених даних, що не вимагає значних витрат на їхорганізацію і підтримку;

  • хороші можливості по розмежуванню прав доступу користувачів, оскільки коженкористувач працює тільки зі своєю вітриною і має доступ тільки до інформації, щовідноситься до певного напряму діяльності.

Використання вітрин даних є найефективнішим у великих організаціях з великоюкількістю незалежних підрозділів, кожен з яких вирішує власні аналітичні завдання. В цьомувипадку вітрини даних можуть використовуватися як самостійно, так і разом зцентралізованим СД. Проте, використання самостійних вітрин даних пов’язане з рядом такихпроблем, як багатократне дублювання даних в різних вітринах, що зрештою може привестидо суперечності даних.

17. Візуалізація даних в сппр

СУТНІСТЬ ВІЗУАЛІЗАЦІЇ.Однією з найважливіших складових аналітичних технологій є візуалізація –представлення даних у вигляді, що забезпечує найбільш ефективну роботу користувача.

Вибраний спосіб візуалізації винен максимально повно відображати поведінку даних,інформацію, що міститься в них, тенденції, закономірності тощо. При цьому вибір способувізуалізації залежить від характеру досліджуваних даних, завдання аналізу, а такожвподобань користувача.

Багато хто пов’язує візуалізацію тільки з процесом інтерпретації, оцінкою якості тадостовірності результатів аналізу. Проте, це далеко не так. Візуалізація необхідна на всіхетапах аналітичного процесу. Практично в процесі аналізу даних користувач безперервнопрацює з різними візуалізаторами.

18. Види візуалізаторів даних

ВІЗУАЛІЗАЦІЯ ДЖЕРЕЛ ДАНИХ.

В джерелі даних, перед їх завантаженням в аналітичну систему, аналітикові потрібновізуально оцінити наступне:

  • характер, тип і поведінку даних;

  • динамічний діапазон значень;

  • ступінь згладженості;

  • наявність чинників, що знижують якість даних: шумів, аномальних і пропущенихзначень.

Візуальний аналіз джерела даних дозволяє:

  • побачити чи відповідають дані очікуванням аналітиків;

  • оцінити ступінь придатності даних для аналізу;

  • висунути гіпотези про закономірності процесів, що описуються даними;

  • визначити, які види очищення і попередньої обробки необхідно застосувати доданих.

Окрім цього, візуалізація джерел даних дозволяє визначити метод завантаження данихв аналітичний додаток і параметри, які повинні бути при цьому використані. Наприклад, длякоректного завантаження даних з текстового файлу з розділювачами необхідно правильновизначити елемент-розділювач, формат дати і часу, розташування заголовків стовпців тощо.Неправильний вибір хоча б одного з цих параметрів призведе до некоректногозавантаження, що не дозволить провести аналітичну обробку.

ВІЗУАЛІЗАЦІЯ ЗАВАНТАЖЕНОЇ ВИБІРКИ.

Після завантаження даних з джерел в аналітичний додаток робота із завантаженоювибіркою також починається з візуального аналізу. Проте тепер цілі, завдання і методивізуального аналізу будуть дещо іншими, ніж в попередньому кроці. Після завантаженняданих з джерела, потрібно переконатися, що дані завантажилися правильно: не з’явилисяпропуски, збереглася структура рядків і стовпців. Спотворення даних при завантаженні можестатися через невідповідність типів, неправильних налаштувань параметрів завантаження.Інтерес представляє пошук фрагментів даних з деякими особливостями. Окрім цього,більшість аналітичних систем пропонують користувачеві можливість отримання статистичниххарактеристик: мінімального і максимального значень, дисперсії і середньоквадратичноговідхилення. За результатами візуального аналізу початкової вибірки робляться висновки продоцільність застосування тих чи інших методів очищення і трансформації даних.

ВІЗУАЛІЗАЦІЯ ДАНИХ В ПРОЦЕСІ ЇХ АНАЛІТИЧНОЇ ОБРОБКИ.

Складні аналітичні процедури є багатокроковими. Це означає, що в процесі аналізу доданих послідовно застосовується декілька алгоритмів або моделей. Наприклад, дані спочаткупіддаються попередній обробці з метою згладжування і нормалізації, потім до вибіркизастосовується нейромережу, до результатів нейромережевої обробки – кластеризацію і такдалі. При цьому вибірка, що формується на виході кожного алгоритму або моделі, можеподаватися на вхід наступного процесу обробки. Очевидно, що якщо дані обробки, щопоступили з попереднього етапу, виявляться некоректними, то подальша обробка втрачаєсенс. Тому дуже важливо в процесі аналітичної обробки передбачити візуалізацію проміжнихрезультатів з метою перевірки коректності моделей та алгоритмів, які були використанні.

До простих засобів візуалізації відносяться:

1. Таблиця – класичне представлення інформації в стовпцях та колонках. ВDeductor таблиця підтримує складну структуру, об’єднання по колонках,різноманітне форматування.

2. Статистика – надає інформацію про статистичні характеристикидосліджуваної вибірки. Як правило, вона представлена в табличній формі таведеться для кожного поля вибірки. Статистичні характеристики частодозволяють висувати гіпотези про поведінку даних та наявні закономірності,контролювати результати обробки даних на різних етапах аналітичного процесу.

3. Діаграма – як правило використовуються для візуалізації дискретного(скінченого) набору значень (в той же час, як графіки в основномувикористовують для відображення неприривних числовихзначень, хочапринципової різниці між першим (діаграмою) та другим (графіком) нема). Якправило, в діаграмах по горизонтальній осі Х відкладають категорії, а повертикальній Y – значення. Різновидами діаграми є: стовпчикова, лінійна, кругова та листкова.

4. Гістограма – є різновидом діаграми (зазвичай, стовпчиковою), яка відображаєчастоту появи тієї або іншої події в загальній сукупності всіх можливих подій.Наприклад, якщо вважати подією те, що досліджувана величина набуває деякогозначення або потрапляє в деякий діапазон значень, то кожен елемент гістограмипоказує, скільки разів дана подія відбувається. Гістограми широко використовуються в статистиці для визначення найбільш вірогідних значень,яких може набувати деяка величина, а також для виявлення законів розподілу,яким підкоряється випадкова величина.

5. OLAP-куб – фактично це крос-таблиця, яка служить для відображеннябагатовимірних процесів.

6. Загальні відомості – відображають загальну інформацію про виконану операцію– вузла (імпорту, обробки, експорту тощо). Загальні відомості є, наприклад,єдиним візуалізатором, який створюється при завантажені даних у сховище. Взагальних відомостях виводиться характеристика вузла, об’єкта та виконаноїоперації.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]