- •Київ нухт 2012
- •1. Загальні відомості
- •2. Зміст навчальної дисципліни
- •Та види діяльності студентів
- •3. Запитання для підготовки до іспиту
- •4. Зміст і порядок виконання лабораторних робіт
- •5. Теми, завдання та приклади лабораторних робіт Лабораторна робота №1
- •Приклад виконання
- •Питання для самоперевірки
- •Лабораторна робота №2
- •Приклад виконання
- •Питання для самоперевірки
- •Лабораторна робота №3
- •Приклад виконання
- •Питання для самоперевірки
- •Лабораторна робота №4
- •Приклад виконання
- •1. Створення пакету завантаження до сховища даних з текстового файлу
- •2. Створення пакету завантаження до сховища даних з файлу Excel.
- •3. Створення пакету завантаження до сховища даних з бази даних Access.
- •Питання для самоперевірки
- •Лабораторна робота №5
- •Питання для самоперевірки
- •Лабораторна робота №6
- •Приклад виконання
- •Питання для самоперевірки
- •Лабораторна робота №7
- •Приклад виконання
- •Питання для самоперевірки
- •Лабораторна робота №8
- •Приклад виконання
- •Питання для самоперевірки
- •Рекомендована література
- •Додаток 1
- •Лабораторна робота № __
- •Методичні рекомендації до вивчення дисципліни та виконання лабораторних робіт
- •8.05010105 “Комп'ютерний еколого-економічний моніторинг”
Питання для самоперевірки
Які алгоритми інтелектуального аналізу даних ви знаєте?
В чому полягає суть алгоритми кластеризації та нейронних мереж?
Які етапи створення пакетів інтелектуальний аналіз даних?
Які стандартні моделі інтелектуальний аналіз даних є в Analysis Services?
Лабораторна робота №8
Тема: Розроблення і використання пакету інтелектуального аналізу даних засобами Analysis Services з використанням алгоритму дерева рішень.
Мета: Набути навичок розроблення і використання моделей інтелектуального аналізу даних засобами Analysis Services, використовуючи алгоритм дерева рішень.
Завдання: Побудувати модель Data Mining, застосовуючи алгоритм дерева рішень.
Приклад виконання
Інструкції до створення нового проекту Analysis Services, джерела даних та представлення даних наведені в прикладі лабораторної роботи №6. Створення моделі Data Mining на основі алгоритму дерева рішень аналогічне попередньому, за виключенням того, що на кроці з питанням Which data mining technique do you want to use? необхідно обрати Microsoft Decision Trees. Алгоритм Microsoft Decision Trees призначений для вирішення завдань класифікації і регресії, а також є одним із найпотужніших інструментів для прогнозування. В алгоритмі використовуються як дискретні, так і безперервні атрибути.
У процесі побудови моделі алгоритм ітеративно обчислює ступінь впливу кожного вхідного атрибута моделі на значення вихідного атрибута і використовує атрибут, що впливає на вихідну змінну найбільшою мірою для розбиття вузла дерева рішень. Вузол верхнього рівня описує розподіл значень вихідного атрибута по всій сукупності даних. Кожен наступний вузол описується розподілом вихідного атрибута при дотриманні умов на вхідні атрибути, відповідні цьому вузлу. Модель продовжує рости до тих пір, доки розбиття вузла на наступні вузли збільшує ймовірність того, що вихідний атрибут буде приймати якесь певне значення в порівнянні з усіма іншими значеннями, тобто розбивка збільшує якість прогнозу. Алгоритм здійснює пошук атрибутів та їх значень, розбиття по яким дозволяє з більшою ймовірністю правильно передбачити значення вихідного атрибута.
Варто зазначити, що доцільність даного алгоритму напряму залежить від кількості взаємопов’язаних полів у БД. Чим їх більше, тим ціннішим буде результат роботи алгоритму. Наявність пов’язаних дискретних полів збільшить вірогідність розщеплення гілок дерева, що позитивно відобразиться на якості моделі.
При використанні алгоритму побудови дерева рішень для нашої предметної області, можна побачити мережу залежностей (Dependency Network) між полями таблиці Замовлення_на_виробництво.
Рис. 55. Dependency Network для таблиці Замовлення_на_виробництво
На рисунку 55 видно, які фактори та в якій мірі впливають на прогнозоване рішення, тобто, які значення впливають на розмір штрафних санкцій.
У центрі схеми знаходиться сектор із прогнозованим полем Розмір штрафних санкцій. Сині сектори – це ті поля, які залежать від прогнозованого. Тобто, факт виконання замовлення та вчасність його виконання залежать від розміру штрафних санкцій. У фіолетових секторах знаходяться значення, що взаємопов’язані із прогнозованим сектором. Тобто терміновість виконання замовлення залежить від розміру штрафних санкцій так само, як і сам розмір штрафних санкцій залежить від терміновості. Розмір партії також залежить від розміру штрафу, а штраф залежить від розміру партії. Із полем Сума прогнозоване значення не має прямої залежності, тому цей сектор зафарбований у сірий колір.
Із наведених вище залежностей, витікає модель дерева рішень (рис. 56).
Рис. 56. Дерево прийняття рішень
Колір вузлів дерева показує, наскільки великими будуть штрафні санкції. Чим темніший колір, тим значення прогнозованого параметру більше. Так видно, що в першому поділі дерева, у гілці Розмір партії >=197 and <273 розміри штрафних санкцій будуть меншими, ніж у гілці Розмір партії <197 or >=273. Звернувшись до легенди моделі, можна побачити відсоткову вірогідність кожного параметру, що будує прогноз.
Отже, за побудованим деревом рішень, можна зробити висновок, що найменшими штрафними санкціями буде обтяжене підприємство тоді, коли розмір партії буде або менше 197, або більше 273 одиниць продукції та при терміновому виконанні замовлення.
