- •Методичні вказівки
- •Теоретична частина
- •Огляд методів класифікації та регресії.
- •Базові концепції методу побудови дерева рішень
- •Етапи побудови "дерева рішень"
- •Правила побудови «дерева рішень»
- •Алгоритми і методика побудови «дерева рішень»
- •Методика «розділяй і владарюй»
- •Алгоритм id3
- •1.5.3. Алгоритм cart
- •1.5.4. Алгоритм c4.5
- •Переваги використання «дерев рішень» та області їх застосування
- •Побудова дерев рішень засобами Deductor
- •Приклад побудови «дерева рішень»
- •Порядок виконання роботи
- •Доц. Ковівчак Ярослав Васильович
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
Міністерство
освіти і науки, молоді та спорту України
Національний
університет “Львівська політехніка”
Кафедра
автоматизованих систем управління
Методичні вказівки
до лабораторної роботи № 2
“Класифікація та регресія. Методи побудови дерева рішень”
з дисципліни
“Інтелектуальний аналіз даних”
для студентів базового напрямку підготовки по спеціальності
“Комп’ютерні науки” (шифр 0804)
Львів-2012
Методичні вказівки до лабораторної роботи №5 “Класифікація та регресія. Методи побудови дерева рішень” з дисципліни “Інтелектуальний аналіз даних” для студентів спеціальності - шифр 0804 “Комп’ютерні науки”/ Укл. доц. Ковівчак Я.В., Львів: Національний університет “Львівська політехніка”, 2012.
Методичні вказівки обговорено та схвалено на засіданні кафедри АСУ Протокол № ___________ від «___»___________2012 р.
Завідувач кафедрою АСУ ______________ Медиковський М. О.
Методичні вказівки обговорено та схвалено на засіданні методичної комісії базового напрямку підготовки
Протокол № ___________ від «___»___________2012 р.
Мета: Розглянути основні алгоритми побудови дерева рішень; визначити переваги та недоліки методу.
Завдання: Навчитись будувати дерева рішень для розв’язання задач.
Теоретична частина
Інтелектуальний аналіз даних - це процес аналізу даних з різних точок зору і узагальнення їх у корисну інформацію, яка може бути використана для збільшення доходів, скорочення витрат, або те й інше. Програмне забезпечення для інтелектуального аналізу даних є одним із аналітичних інструментів для аналізу даних.
Він дозволяє користувачам аналізувати дані за різними параметрами і з різних ракурсів, класифікувати їх, і узагальнювати виявлені відносини. Технічно, інтелектуальний аналіз даних є процесом пошуку кореляції або зразків серед десятків полів у великих реляційних базах даних.
Огляд методів класифікації та регресії.
Розглянемо основні види моделей, що використовуються для знаходження нового знання на основі даних інформаційного сховища. Метою інтелектуальних технології є знаходження нового знання, що користувач може надалі застосувати для поліпшення результатів своєї діяльності. Результат моделювання - це виявлені відношення в даних.
Можна виділити принаймні шість методів виявлення й аналізу знань:
класифікація,
регресія,
прогнозування часових послідовностей (рядів),
кластеризація,
асоціація,
послідовність.
Перші три використовуються головним чином для передбачення, у той час як останні зручні для опису існуючих закономірностей в даних.
Класифікація є найбільш розповсюдженою операцією інтелектуального аналізу даних. З її допомогою виявляються ознаки, що характеризують групу, до якої належить той чи інший об'єкт. Це робиться за допомогою аналізу вже класифікованих об'єктів і формулювання деякого набору правил. В багатьох видах бізнесу проблемою є втрата постійних клієнтів. У різних сферах (таких, як мобільний телефонний зв'язок, фармацевтичний бізнес чи діяльність, пов'язана із кредитними картками) її позначають різними термінами - "зміною моди", "виснаженням попиту" чи "купівельною зрадою", - але суть при цьому одна.
Класифікація допоможе вам виявити характеристики "хитливих" покупців і створити модель, здатну передбачати, хто саме схильний піти до іншого постачальника. Використовуючи її, можна визначити самі ефективні види знижок і інших вигідних пропозицій, що будуть найбільш діючими для тих чи інших типів покупців. Завдяки цьому можна втримати клієнтів, витративши рівно стільки грошей, скільки необхідно. Один раз визначений ефективний класифікатор використовується для класифікації нових записів у базі даних у вже існуючі класи й в цьому випадку він здобуває характер прогнозу.
Наприклад, класифікатор, що вміє ідентифікувати ризик віддачі позики, може бути використаний для прийняття рішення, чи великий ризик надання позики визначеному клієнту. Тобто класифікатор використовується для прогнозування ймовірності повернення позики.
Регресійний аналіз використовується в тому випадку, якщо відношення між змінними можуть бути виражені кількісно у виді деякої комбінації цих змінних. Отримана комбінація використовується для передбачення значення, що може приймати цільова (залежна) змінна, яка обчислюється на заданому наборі значень вхідних (незалежних) змінних. У найпростішому випадку для цього використовуються стандартні статистичні методи, такі як лінійна регресія. На жаль, більшість реальних моделей не вкладаються в рамки лінійної регресії. Наприклад, розміри продажів чи фондові ціни дуже складні для передбачення, оскільки можуть залежати від комплексу взаємин множин змінних. Таким чином, необхідні комплексні методи для передбачення майбутніх значень.
