- •Етапи аналізу даних. Класифікація типів змінних. Кількісні, ординальні та номінальні дані та робота з ними.
- •Методи візуалізації даних. Графічні методи експрес-аналізу даних.
- •Генетичний алгоритм. Генетичне програмування.
- •Методи, стадії, задачі Data Mining.
- •Однофакторний дисперсійний аналіз.
- •Ітераційний алгоритм обчислення головних компонент.
- •Дерева рішень. Методи опорних векторів, «найближчого сусіда», Байеса.
- •Правило розбиття
- •Зупинка навчання
- •Правило відсікання
- •Класифікація з учителем у випадку нормальних спостережень.
- •Асоціаційні правила. Послідовне відображення шаблонів даних.
Методи візуалізації даних. Графічні методи експрес-аналізу даних.
Якісна візуалізація даних є важливою частиною будь-якої аналітичної системи. У багатьох випадках експерту досить просто поглянути на дані, щоб зробити необхідні висновки. Але одні й ті ж дані можна відображати безліччю способів, і який з них буде найбільш прийнятний, залежить від розв'язуваної задачі. Тому користувачеві Deductor Studio пропонується багато механізмів візуалізації, з яких він може вибрати найбільш оптимальні. Візуалізувати дані в Deductor Studio можна на будь-якому етапі обробки. Система самостійно визначає, яким способом вона може це зробити, наприклад, якщо буде навчена нейронна мережа, то крім таблиць і діаграм можна переглянути граф нейромережі. Користувачеві необхідно вибрати потрібний варіант зі списку і налаштувати декілька параметрів. Можливі способи візуалізації даних:
Спосіб візуалізації |
Опис |
Табличні дані |
|
Таблиця |
Стандартне табличне подання з можливістю сортування, експорту та фільтрації даних. |
Статистика |
Статистичні показники вибірки по всіх полях, гістограми розподілу значень. |
Графіки |
|
Діаграма |
Графік зміни будь-якого числового показника з можливістю деталізації даних. Підтримується безліч способів відображення: лінійчаті й стовпчасті діаграми, області, точки та інше. |
Гістограма |
Графік розкиду показників. Гістограма призначена для візуальної оцінки розподілу даних. Розподіл даних робить значний вплив на процес побудови моделі. Вбудована можливість деталізації даних гістограми. |
Багатовимірна діаграма |
Дозволяє візуально оцінити залежності між різними полями, відображається у вигляді 3D-поверхні або топографічної діаграми. |
Діаграма розміщення |
Розміщення об'єктів в 2-х, 3-х мірному просторі. Додаткову інформативність забезпечують колір, розмір і форма об'єктів. |
OLAP аналіз |
|
Куб |
Багатовимірне представлення даних. Будь-які дані, що використовуються в програмі, можна подивитися у вигляді крос-таблиці і крос-діаграми. Користувачеві доступний весь набір механізмів маніпуляції багатовимірними даними - угруповання, фільтрація, сортування, довільне розміщення вимірювань, деталізація, вибір будь-якого способу агрегації, відображення в абсолютних числах і у відсотках. |
Очистка даних |
|
Дублікати і протиріччя |
Табличне відображення інформації після застосування обробника "Дублікати і протиріччя". Кольорове виділення виявлених дублікатів та протиріч з можливістю автоматичної фільтрації. |
Матриця кореляції |
Відображає коефіцієнти кореляції, розраховані за допомогою обробника "Кореляційний аналіз". Підтримується можливість експорту інформації в Excel, Word, HTML. |
Data Mining |
|
Граф нейромережі |
Візуальне відображення навченої нейромережі. Відображається структура нейронної мережі і значення ваг. |
Дерево рішень |
Відображення дерева рішень, отриманого за допомогою відповідного алгоритму. Є можливість подивитися детальну інформацію по будь-якому вузлу і фільтрувати потрапили в нього дані. |
Правила дерев рішень |
Відображає в текстовому вигляді правила, отримані за допомогою алгоритму побудови дерев рішень. Такого роду інформація легко інтерпретується людиною. Підтримуються різні способи фільтрації і сортування отриманих правил. |
Значимість атрибутів |
Відображення значущості атрибутів. Розраховується за допомогою алгоритму побудови дерева рішень. |
Карта Кохонена |
Відображення карт, побудованих за допомогою відповідного алгоритму. Широкі можливості налаштування - вибір кількості кластерів, фільтрація по вузлу / кластеру, вибір відображуваних полів. Потужний і гнучкий механізм відображення кластеризованих даних. |
ROC-аналіз |
ROC-крива (Receiver Operator Characteristic) - крива використовується для представлення результатів бінарної класифікації в машинному навчанні. ROC-крива покази-кість залежність кількості вірно класифікованих позитивних прикладів від кількості невірно класифікованих негативних прикладів. |
Коефіцієнти регресії |
Табличні коефіцієнти, розраховані за допомогою алгоритму лінійної регресії. Підтримується можливість експорту інформації в Excel, Word, HTML. |
Профілі кластерів |
Дозволяє наочно оцінити результати кластеризації, цей візуалізатор доступний лише для обробника "Кластеризація". Він відображає розбиття на кластери, значимість факторів, статистичні характеристики кожного кластера. |
Правила асоціацій |
Відображає в текстовому вигляді правила, отримані за допомогою алгоритму пошуку асоціативних зв'язків. Такого роду інформація легко інтерпретується людиною. Підтримуються різні способи фільтрації і сортування отриманих правил. |
Популярні набори |
Часто зустрічаються безлічі, виявлені за допомогою алгоритму пошуку асоціативних правил. |
Дерево правил |
Відображення дерева правил, отриманих за допомогою алгоритму пошуку асоціацій. Правила можуть бути згруповані як за умовою, так і по слідству. |
Що-якщо |
Таблиця і діаграма для моделей, побудованих за допомогою лінійної регресії, нейронної мережі, дерева рішень, самоорганізованих карт і асоціативних правил. Дозволяють "проганяти" через побудовану модель будь-які цікаві для користувача дані і оцінити вплив того чи іншого чинника на результат. Активно використовується для вирішення завдань оптимізації. У разі відображення асоціативних правил дозволяє ввести елементи, що входять до транзакцію і отримати всі можливі наслідки з введеного набору. |
Навчальний набір |
Вибірка, використовувана для побудови моделі. Кольором виділяються дані, що потрапили в навчальне і тестове безліч з можливістю фільтрації. Необхідна для розуміння, які записи і яким чином використовувалися при побудові моделі. |
Діаграма прогнозу |
Застосовується після використання методу обробки - прогнозування. Прогнозні значення виділяються на діаграмі кольором. |
Таблиця спряженості |
Призначена для оцінки результатів класифікації незалежно від використовуваної моделі. Таблиця спряженості відображає результати порівняння категоріальних значень вихідного вихідного стовпця і категоріальних значень розрахованого вихідного стовпця. Використовується для оцінки якості класифікації. Передбачені механізми аналізу відхилень. |
Діаграма розсіювання |
Графік відхилення прогнозованих за допомогою моделі значень від реальних. Може бути побудований тільки для безперервних величин і тільки після використання механізмів побудови моделі, наприклад, нейромережі або лінійної регресії. Використовується для візуальної оцінки якості побудованої моделі. Вбудоване автоматична побудова гістограми розподілу помилки. |
Загальні |
|
Відомості |
Текстовий опис параметрів імпорту / обробки / експорту / підключення. Підтримується можливість експорту інформації в HTML і текстовий файл. |
Експрес-аналіз - це швидка, оперативна перевірка, швидке надання послуг та інформації. Терміни проведення експрес-аналізу від 1 до 3 робочих днів (залежно від обсягу інформації). Головна мета експрес-аналізу - швидка діагностика стану справ на підприємстві з наданням детального звіту. У процесі перевірки аудиторами проводиться оцінка стану податкового та фінансового обліку як в цілому так і по окремих ділянках.
