
- •Лекційні матеріали по курсу іітдпсу
- •Тема 1. Застосування сучасних технологій обробки податкової інформації
- •1.1. Сучасні технології обробки податкової звітності
- •1.1.1. Електронне оподаткування
- •1.1.2. Електронна звітність платників податків
- •1.2. Електронні сервіси для платників податків
- •1.2.1. Сервіси, що надаються платникам через портал дпс України
- •1.2.1. Сервіси, що надаються платникам на офіційному сайті дпс України
- •1.3. Впровадження електронного документообігу з використанням електронного цифрового підпису
- •1.3.1. Юридичні аспекти електронного документообігу та застосування електронного цифрового підпису
- •1.3.2. Використання електронного цифрового підпису при прийманні податкової звітності в електронному вигляді в державні податковій службі
- •1.4. Сучасна податкова інформатика на основі аналітичних інформаційних технологій і методів дейтамайнінгу
- •1.4.1. Вступ до сучасної податкової інформатики
- •1.4.2. Концепція сховища податкових даних
- •Переваги і недоліки різних видів архітектури сд
- •1.4.3. Характеристика методів дейтамайнінгу
- •1.5. Методи візуалізації аналітики ризикоорієнтованого адміністрування податків
- •1.5.1. Проблематика візуалізації аналітики
- •1.5.2. Характеристика методів візуалізації
- •Вихідні дані для гістограми податкових надходжень
- •Статистичні характеристики податкових надходжень
- •Суми надходжень за видами податків
- •1.5.3. Візуалізація оцінки якості аналітичних моделей
- •Класи уваги платників податків (пп)
- •Матриця класифікації пп
- •Обсяг надходжень податку на доходи фізичних осіб для зру в 2011 р.
- •Список рекомендованих та використаних джерел
1.4.2. Концепція сховища податкових даних
Концепція СД так чи інакше обговорювалася фахівцями в сфері інформаційних систем досить давно. Перші статті, присвячені саме СД, з’явилися ще у 1988 р., їх авторами були Девлін і Мерфі. У 1992 р. Уільман Г. Інмон докладно описав цю концепцію в своїй монографії «Побудова сховищ даних» і після цього розпочався бурхливий процес їх створення і впровадження.
В основі концепції СД лежить ідея розподілу даних, призначених для оперативної обробки і для вирішення завдань аналізу. Це дозволяє застосовувати структури даних, які задовольняють вимоги їх зберігання з урахуванням можливостей використання в багаточисельних OLTP-системах і аналітичних технологіях. Таке розмежування дозволяє оптимізувати як структури даних оперативного зберігання (оперативні БД, файли, електронні таблиці тощо) для виконання операцій введення, модифікації, видалення і типового пошуку, так і структури даних, що використовуються для аналізу (тобто для виконання довільних аналітичних запитів). У СППР ці два типи даних називаються відповідно оперативними джерелами даних (ОДД) та сховищем даних.
В одній із своїх публікацій У.Г. Інмон дав СД таке визначення:
-
Сховище даних — це предметно-орієнтований, інтегрований, безперервний набір даних, що підтримує хронологію у вигляді незмінюваного набору даних, який організований для цілей підтримки прийняття рішень.
Предметна орієнтація — є фундаментальною відмінністю СД від ОДД. Різні ОДД можуть містити дані, що описують одну й ту саму предметну область з різних точок зору (наприклад, з точки зору оперативного, економічного стратегічного аналізу податкових надходжень тощо). Рішення, прийняте на основі тільки однієї точки зору, може бути неефективним або навіть неправильним. СД дозволяють інтегрувати інформацію, що відображає різні точки зору на одну предметну область.
Інтеграція — ОДД, як правило, розробляються в різні періоди різними колективами розробників з власним інструментарієм. Це приводить до того, що дані, які відображають один і той самий об’єкт реального світу в різних системах, описують його по-різному. Обов’язкова інтеграція даних в СД дозволяє вирішити цю проблему через узгодження даних і приведення їх у відповідність із єдиними типовими форматами.
Підтримка хронології — дані в ОДД, необхідні для виконання над ними операцій у поточний момент часу, тому вони можуть і не мати прив’язки до часу. У свою чергу, для аналізу даних досить часто важливо мати можливість відстежувати хронологію змін показників предметної області упродовж різних інтервалів часу. Тому всі дані, що зберігаються в СД, повинні відповідати послідовним інтервалам часу.
Незмінюваність — вимоги до ОДД накладають обмеження на час зберігання в них даних. Ті дані, які не потрібні для оперативної обробки, як правило, видаляються з ОДД для зменшення займаних ресурсів. Для завдань аналітики, навпаки, потрібні дані за максимально тривалий період часу. Тому на відміну від ОДД дані в СД після завантаження зберігаються, а потім тільки читаються. Це дозволяє істотно підвищити швидкість доступу до даних як за рахунок можливої надмірності інформації, що зберігається, так і за рахунок виключення операцій модифікації. При реалізації в СППР концепції СД інформація з різних ОДД копіюється в єдине сховище. Зібрана в СД інформація приводиться у відповідність з єдиним форматом, узгоджується і узагальнюється, а всі аналітичні запити вже адресуються до СД.
Багаторічна практика побудови СД еволюціонувала від фізичних — до віртуальних СД, а також від універсальних і потужних підсистем багатовимірного аналізу (OLAP) і дейтамайнінгу (DM) — до концепції вітрин даних (ВД), які інколи називаються також кіосками даних. Кожна із зазначених ідеологій СД має свої переваги і недоліки (табл.1), що призвело у результаті до їх поєднання у вигляді змішаної архітектури єдиного фізичного сховища даних і множини ВД, які є спрощеними варіантами СД з тематично об’єднаною інформацією для певних предметних сфер аналітики.
Таблиця 1