
- •Лекційні матеріали по курсу іітдпсу
- •Тема 1. Застосування сучасних технологій обробки податкової інформації
- •1.1. Сучасні технології обробки податкової звітності
- •1.1.1. Електронне оподаткування
- •1.1.2. Електронна звітність платників податків
- •1.2. Електронні сервіси для платників податків
- •1.2.1. Сервіси, що надаються платникам через портал дпс України
- •1.2.1. Сервіси, що надаються платникам на офіційному сайті дпс України
- •1.3. Впровадження електронного документообігу з використанням електронного цифрового підпису
- •1.3.1. Юридичні аспекти електронного документообігу та застосування електронного цифрового підпису
- •1.3.2. Використання електронного цифрового підпису при прийманні податкової звітності в електронному вигляді в державні податковій службі
- •1.4. Сучасна податкова інформатика на основі аналітичних інформаційних технологій і методів дейтамайнінгу
- •1.4.1. Вступ до сучасної податкової інформатики
- •1.4.2. Концепція сховища податкових даних
- •Переваги і недоліки різних видів архітектури сд
- •1.4.3. Характеристика методів дейтамайнінгу
- •1.5. Методи візуалізації аналітики ризикоорієнтованого адміністрування податків
- •1.5.1. Проблематика візуалізації аналітики
- •1.5.2. Характеристика методів візуалізації
- •Вихідні дані для гістограми податкових надходжень
- •Статистичні характеристики податкових надходжень
- •Суми надходжень за видами податків
- •1.5.3. Візуалізація оцінки якості аналітичних моделей
- •Класи уваги платників податків (пп)
- •Матриця класифікації пп
- •Обсяг надходжень податку на доходи фізичних осіб для зру в 2011 р.
- •Список рекомендованих та використаних джерел
1.5.3. Візуалізація оцінки якості аналітичних моделей
У процесі вирішення завдань в аналітичних застосуваннях доводиться створювати одну або декілька моделей. Вони можуть базуватися на машинному навчанні, як нейронні мережі, дерева рішень, самоорганізовані карти ознак тощо, або жорстко задаватись шляхом безпосереднього програмування перетворень, які дана модель виконуватиме. Незалежно від виду побудованої моделі, перш ніж застосовувати її на практиці, необхідно оцінити її якість, тобто визначити, наскільки правильно і точно вона вирішує поставлене завдання. Для аналізу якості моделі можна виділити дві складові:
адекватність — дозволяє оцінити точність моделі щодо опису досліджуваного об’єкта чи процесу;
коректність — оцінюється правильність моделі в процесі опрацювання можливих вхідних даних.
Практика свідчить, що досягти абсолютно точного опису моделлю реального процесу або об’єкта практично неможливо, оскільки в такому разі модель найчастіше виявляється дуже складною і важко реалізованою. Найчастіше знаходиться розумний компроміс між точністю та складністю. Задається допустима точність, наприклад 10%, яку повинна забезпечувати побудована модель. Тобто потрібно, щоб класифікаційна модель із 100 прикладів неправильно класифікувала не більше 10 випадків. Але навіть якщо сама по собі модель забезпечує достатній ступінь точності і адекватності, при представленні на її вхід некоректних вхідних даних вона може повести себе непередбачувано і видати незрозумілий результат.
У реальному моделюванні для зведення до мінімуму ймовірності виявлення некоректних або неіснуючих закономірностей при аналізі необхідно досліджувати якість функціонування тих чи інших моделей. Такі дослідження повинні проводитися як у процесі побудови моделі, так і після її завершення. Так, у процесі навчання нейронної мережі з метою створення класифікатора зазвичай потрібно кілька етапів навчання. Після кожного етапу контролюється точність моделі (наприклад, число неправильно розпізнаних прикладів або вихідна помилка), після чого коригуються конфігурація мережі, об’єм навчальної вибірки та параметри навчання. Цей процес відбуватиметься доти, поки модель не почне відповідати заданим вимогам (рис. 14) чи наперед визначеним критеріям якості.
Рис. 14. Багатокроковий ітераційний характер перевірки і корегування процесу моделювання
Після завершення процесу корегування моделі і після доведення її до необхідного рівня точності, перевіряється її стійкість до некоректних даних. Зокрема, виникає питання щодо адекватності отриманої моделі, коли нейронна мережа навчалася на даних, значення яких лежали в діапазоні, наприклад, від «20» до «80», і виникає питання щодо її поведінки при введенні вхідного значення «120». Коли при появі некоректних даних модель видає неправильні результати, це не завжди вимагає необхідності її зміни, оскільки інколи виявляється достатнім застосувати інші методи трансформації та очищення даних, що дозволить у кінцевому випадку забезпечити коректність вихідних даних і нормальні передумови функціонування моделі.
Спеціально для дослідження адекватності і коректності моделей досить часто до складу аналітичних програм включаються спеціальні візуалізатори, що забезпечують оцінку точності моделі та її можливі реакції на різні значення вхідних даних, у тому числі непередбачувані.
Поширена практика аналітичних застосувань свідчить, що найтиповіший набір візуалізаторів для оцінки якості моделей становить:
матриця класифікації;
діаграма розсіювання;
ретропрогноз;
контрольні графіки для оцінки навчання.
Стисла нижченаведена характеристика цих візуалізаторів представляє їх основні можливості та обмеження в контексті завдань оцінки якості аналітичних моделей.
Використання матриць класифікації. За основним призначенням матриця класифікації, або таблиця спряженості (confusion matrix), застосовується для оцінки якості класифікаційних моделей. Як відомо, завдання класифікації полягає у віднесенні пред’явленого об’єкта до одного з заздалегідь визначених класів на основі набору ознак даного об’єкта. Таким чином, вхідними даними для класифікаційної моделі є ознаки (атрибути) призначених для класифікації об’єктів, а на її виході повинна формуватися мітка класу, до якого належить об’єкт з певним набором ознак. При цьому вона повинна бути категоріального виду.
Процес розпізнавання побудовано таким чином, що для кожного прикладу класифікаційна модель формує на виході мітку класу, до якої належить об’єкт з набором ознак, зазначених у прикладі. Якщо мітку (проверить склонение слова в контксте предложения, скорее надо написать - мітка) класу, що сформовано моделлю, збігається з цільовою міткою класу із прикладу, то він (об’єкт) є правильно розпізнаним, в іншому випадку — він є неправильно розпізнаним цією моделлю.
Умовний приклад фрагмента класифікаційної вибірки представлено в табл. 4, де є чотири ознаки для платника податків — юридичної особи: Вік підприємства, Галузь діяльності, Спеціалізація підприємства і Наявність офшорних партнерів. На основі значень цих ознак модель повинна віднести кожного пред’явленого платника податків (ПП) до одного з трьох видів (класів) уваги — Сумлінний, Задовільний або Ненадійний (таке завдання класифікації відоме в сфері оподаткування для планування податкових перевірок і планування контрольних аудиторських заходів з боку податкової служби).
Таблиця 4