- •Лекційні матеріали по курсу іітдпсу
- •Тема 1. Застосування сучасних технологій обробки податкової інформації
- •1.1. Сучасні технології обробки податкової звітності
- •1.1.1. Електронне оподаткування
- •1.1.2. Електронна звітність платників податків
- •1.2. Електронні сервіси для платників податків
- •1.2.1. Сервіси, що надаються платникам через портал дпс України
- •1.2.1. Сервіси, що надаються платникам на офіційному сайті дпс України
- •1.3. Впровадження електронного документообігу з використанням електронного цифрового підпису
- •1.3.1. Юридичні аспекти електронного документообігу та застосування електронного цифрового підпису
- •1.3.2. Використання електронного цифрового підпису при прийманні податкової звітності в електронному вигляді в державні податковій службі
- •1.4. Сучасна податкова інформатика на основі аналітичних інформаційних технологій і методів дейтамайнінгу
- •1.4.1. Вступ до сучасної податкової інформатики
- •1.4.2. Концепція сховища податкових даних
- •Переваги і недоліки різних видів архітектури сд
- •1.4.3. Характеристика методів дейтамайнінгу
- •1.5. Методи візуалізації аналітики ризикоорієнтованого адміністрування податків
- •1.5.1. Проблематика візуалізації аналітики
- •1.5.2. Характеристика методів візуалізації
- •Вихідні дані для гістограми податкових надходжень
- •Статистичні характеристики податкових надходжень
- •Суми надходжень за видами податків
- •1.5.3. Візуалізація оцінки якості аналітичних моделей
- •Класи уваги платників податків (пп)
- •Матриця класифікації пп
- •Обсяг надходжень податку на доходи фізичних осіб для зру в 2011 р.
- •Список рекомендованих та використаних джерел
1.5. Методи візуалізації аналітики ризикоорієнтованого адміністрування податків
1.5.1. Проблематика візуалізації аналітики
Основні поняття візуалізації. Не є таємницею, що однією з найважливіших складових аналітичних технологій є візуалізація — представлення даних у вигляді, який забезпечує найефективнішу роботу користувача. Спосіб візуалізації повинен максимально повно відображати поведінку даних, інформацію, яка міститься в них, тенденції, закономірності тощо. При цьому вибір способу візуалізації залежить від характеру досліджуваних даних і від завдання аналізу, а також від уподобань користувача та багатьох інших факторів.
Досить часто візуалізацію пов’язують тільки з інтерпретацією, оцінкою якості та достовірності результатів аналізу. Однак це принципово неправильно. Візуалізацію необхідно застосовувати на всіх етапах аналітичного процесу без винятку. На практиці в процесі аналізу даних користувачі безперервно працюють з різноманітними візуалізаторами.
Основні цілі і завдання візуалізації на різних етапах аналітичного процесу ілюструються на рис. 5.
Характеристика цілей і завдань візуалізації суттєво залежить від етапів аналітичного процесу. Процеси візуалізації використовуються на різних етапах аналітичного процесу для досягнення відповідних цілей і вирішення відповідних завдань залежно від етапів і особливостей цих аналітичних процесів (рис. 1), а саме: візуалізація джерел даних, їх завантаження та попередня обробка, візуалізація аналітики за моделями та окремими їх етапами за необхідності. Доцільно охарактеризувати поетапно зазначені особливості візуалізації детальніше.
Рис. 1. Етапи, цілі і завдання візуалізації даних
Характеристика засобів візуалізації джерел даних. Для переважної більшості джерел даних перед завантаженням відповідної інформації в аналітичну систему потрібно візуально оцінити їх характеристики:
властивості, тип і поведінку даних;
обсяг і динамічний діапазон значень;
ступінь згладжування;
вплив і наявність чинників, що знижують якість даних, таких як шуми, аномальні й пропущені значення.
За своєю суттю візуальний аналіз джерел даних дозволяє виконати такі завдання:
визначити відповідність даних очікуваним характеристикам;
оцінити ступінь придатності даних до аналітичної обробки;
сформулювати гіпотези про закономірності процесів, що описуються даними;
обрати методи очищення і попередньої обробки даних, які необхідно застосувати на наступних етапах візуалізації даних.
Додатково можна зазначити, що візуалізація джерел даних дозволяє визначити методи завантаження даних в аналітичні додатки і параметри, які при цьому повинні бути використані. Наприклад, для коректного завантаження даних з текстового файлу з роздільниками необхідно правильно визначити символ-роздільник, використовуваний формат дати і часу, розташування заголовків стовпців тощо. Неправильний вибір будь-якого з цих параметрів призведе до некоректного завантаження, що унеможливить виконання обробки даних в аналітичному додатку надалі.
Приклад. Для предметної області адміністрування податків особливо важливо правильно налаштувати параметри завантаження при імпорті великих масивів даних, таких як податкові декларації, тим більше при завантаженні по мережі. Якщо джерело має великий обсяг, то процес завантаження даних з нього в аналітичні додатки може виявитися дуже тривалим. А після довгого очікування може з’ясуватися, що дані були завантажені некоректно, оскільки в параметрах завантаження текстового файлу був неправильно вказаний символ-роздільник або виникли системні помилки при кодуванні атрибутів.
Характерно, що для більшості завдань візуалізації джерел даних можна використовувати додатки, в яких вони були створені (текстові редактори, СУБД, електронні таблиці (типу Excel) або, наприклад програмне забезпечення електронної податкової звітності «Бест-Звіт»). Крім того, більшість аналітичних програм містять власні засоби попереднього перегляду джерел даних та узагальнення вхідної інформації.
Процедури візуалізації даних, завантажених в аналітичні додатки. Після завантаження даних із джерел в аналітичні додатки робота з вибіркою також починається з візуального аналізу. Однак тепер цілі, завдання і методи візуального аналізу будуть дещо іншими порівняно з попереднім етапом.
Насамперед потрібно переконатися, що дані завантажилися правильно, тобто не з’явилися пропуски, збереглася структура рядків і стовпчиків тощо. Спотворення даних при завантаженні може відбуватися через невідповідність їх типів, неправильне налаштування параметрів завантаження у відповідних додатках.
За умов коректного завантаження даних, як правило, потрібно оцінити ступінь їх згладжування, наявність шумів і аномальних викидів. Інтерес представляє пошук фрагментів даних з певними особливостями. Крім того, більшість аналітичних систем пропонує користувачеві можливість отримання статистичних характеристик — мінімальні і максимальні значення, дисперсію і середньоквадратичні відхилення, різноманітні підсумкові атрибути.
Після оцінки результатів завантаження і відповідного візуального аналізу вихідної вибірки можна зробити висновки про доцільність застосування тих чи інших видів очищення і трансформації даних, побудувати методику та стратегію їх аналізу для наступних етапів аналітичної обробки.
Методи візуалізації даних у процесі їх аналітичної обробки. Реалізація складних аналітичних процедур найчастіше є багатокроковим процесом. Це означає, що в процесі аналізу до даних послідовно застосовуються декілька алгоритмів або моделей. Наприклад, спочатку дані дороблюються з метою згладжування і нормалізації, потім до результуючої вибірки застосовується та чи інша модель. При цьому вибірка, яка формується на виході кожного алгоритму чи моделі, може подаватися на вхід наступного етапу обробки. Очевидно, що якщо дані, які надійшли з попереднього етапу, виявляться некоректними, то подальша обробка втрачає сенс. Тому дуже важливо передбачити візуалізацію проміжних результатів аналізу з метою перевірки коректності використовуваних моделей і алгоритмів, а також відповідності поставленим завданням.
Методи візуалізації результатів аналізу. Після отримання кінцевих результатів аналітичної обробки на перший план виходить завдання їх інтерпретації та оцінки достовірності. На даному етапі не обійтися без візуалізації. Слід зауважити, що, навіть якщо в процесі аналізу було отримано достовірні і цінні результати, невдалий вибір засобів візуалізації не дозволить їх правильно інтерпретувати, побачити в них залежності і закономірності, які можуть допомогти в процесах підготовки та прийняття відповідних рішень.
