Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Щербачук.doc
Скачиваний:
6
Добавлен:
07.02.2016
Размер:
79.87 Кб
Скачать

Розділ 3 Розробка концепціЇ

Візуалізація тексту виявляє слова з високим рангом. Аналіз тексту на основі візуалізації припускає, що слова з більш високим рангом в ієрархії мають більш високу важливість. Для порівняння результати візуалізації двох текстів відображають поруч. Таке порівняння найбільш осмислено, якщо контексти обох текстів однакові або схожі. Наприклад, порівняння текстів, що описують стратегії двох компаній однієї галузі, виявило б схожі і різні риси в пріоритетах цих двох компаній.

Середа розробки складається з різних інструментів і бібліотек з відкритим вихідним кодом, які, при їх спільному використанні, полегшують створення хвилі слів і відеороликів. Сам програмний код додатку має відносно невелику довжину. Основні обов'язки по обробці зображень і відео, а також по підтримці інтерфейсу командного рядка беруть на себе інструменти та бібліотеки.

Інше розуміння поняття "візуалізація текстів" припускає зображення яких елементів тексту, або структур, витягнутих з тексту, для освітніх або аналітичних потреб. У цьому розумінні можна виділити кілька різних підходів.

Історично першою - так зване хмара тегів (tag cloud). Хмара тегів являє собою безліч ключових слів або словосполучень - тегів, витягнутих з тексту, зображених на площині. Розмір кожного тега залежить від частоти або будь-який інший частотної характеристики тега. Хмара тегів може мати будь-яку форму: дійсно хмари або, наприклад, зірочки.

Другий підхід до візуалізації текстів - це візуалізація елементів текстів і теоретико-множинних, алгебраїчних або статистичних відносин між ними. Як правило, в рамках цього підходу текст або колекція текстів представляється графом, в якому вершини - ключові слова або словосполучення чи поняття, виділені з текстів, з'єднані ребрами з якихось принципам. Наприклад, складається панорама тим - графом з трьох з'єднаних компонентів, кожна частка відповідає одному джерелу, вузли підписані ключовими словами або словосполученнями. У графі є два типи ребер: всередині однієї компоненти, відповідної одному джерелу, вузли з'єднані відповідно до взаємної зустрічності. Другий тип ребер з'єднує схожі вузли з різних джерел. Будується карта метро - візуалізація динамічних кластерів ключових слів і словосполучень.

Було розроблено безліч інструментів для візуалізації даних. Серед них є платні і безкоштовні, онлайн-додатки та завантажувані програми, прості користувальницькі, які не потребують спеціальних навичок, і складні, для роботи з якими потрібні навички програмування. На даний момент серед широкої популярністю користуються такі онлайн-сервіси, як infogr.am і plot.ly. Однак існує безліч інших, а також продовжують створюватися нові.

Розділ 4 Технологічні особливості візуалізації

Візуалізація даних - це подання даних у вигляді, який забезпечує найбільш ефективну роботу людину з їхнього вивчення. Візуалізація даних знаходить широке застосування в наукових і статистичних дослідженнях (зокрема, у прогнозуванні, інтелектуальному аналізі даних, бізнес-аналізі), у педагогічному дизайні для навчання і тестування, в новинних зведеннях і аналітичних оглядах. Візуалізація даних пов'язана з візуалізацією інформації, інфографікою, візуалізацією наукових даних, розвідницьким аналізом даних і статистичної графікою.

За мети надання даних візуалізація ділиться на презентаційну (англ. «Presentation», «explanation») і дослідницьку (англ. «Exploration»). Презентаційна візуалізація призначена для представлення даних деякої аудиторії (наприклад, в рамках наукової роботи, доповіді або аналітичного огляду в новинах). Дослідницька візуалізація призначена для аналізу та обробки набору даних, наприклад, з метою виявлення закономірностей в них.

Існують також гібридні презентаційно-дослідні форми візуалізації даних. У цьому випадку метою є все та ж презентація закладеної інформації, однак людині надається можливість детально вивчати показуваний набір даних за допомогою інтерактивних елементів, наприклад, накладаючи які-небудь обмеження на дані.

Підсистема візуалізації даних є важливою складовою частиною якісних систем інтелектуального аналізу даних, особливо орієнтованих на обробку великих обсягів інформації. У системах бізнес-аналітики візуалізація може використовуватися на всіх етапах процесу обробки даних:

Візуалізація вихідних даних. Цей етап корисний для оцінки ступеня відповідності очікуванням та придатності даних до аналізу, висування гіпотез про закономірності і необхідних процедурах первинної обробки.

  • Візуалізація вибірки, завантаженої в систему обробки.

  • Візуалізація результатів первинної обробки.

  • Візуалізація проміжних результатів.

  • Візуалізація остаточних результатів.

На відміну від звичайного графічного інтерфейсу, ці кошти забезпечують:

  • стислість (англ. concision) - здатність одночасного відображення великого числа різнотипних даних;

  • відносність (англ. relativity) і близькість (англ. proximity) - здатність демонструвати в результатах запиту кластери, відносні розміри груп, схожість і відмінність груп, що випадають значення (англ. outliers);

  • концентрацію і контекст (англ. focus with context) - взаємодія в деяким обраним об'єктом з можливістю перегляду його положення та зв'язків з контекстом;

  • масштабованість (англ. zoomability) - здатність легко і швидко переміщатися між мікро- і макропредставленіем;

  • орієнтацію на «права півкуля» - надання користувачу не тільки заздалегідь встановлених методів роботи з даними (забезпечують його навмисні і сплановані підходи до пошуку потрібної інформації), але й підтримка його інтуїтивних, імпровізаційних когнітивних процесів ідентифікації закономірностей.