- •Методичні вказівки
- •Теоретична частина
- •Огляд методів класифікації та регресії.
- •Базові концепції методу побудови дерева рішень
- •Етапи побудови "дерева рішень"
- •Правила побудови «дерева рішень»
- •Алгоритми і методика побудови «дерева рішень»
- •Методика «розділяй і владарюй»
- •Алгоритм id3
- •1.5.3. Алгоритм cart
- •1.5.4. Алгоритм c4.5
- •Переваги використання «дерев рішень» та області їх застосування
- •Побудова дерев рішень засобами Deductor
- •Приклад побудови «дерева рішень»
- •Порядок виконання роботи
- •Доц. Ковівчак Ярослав Васильович
1.5.4. Алгоритм c4.5
C4.5 - алгоритм для побудови дерев рішень, розроблений Джоном Квінланом (англ. John Ross Quinlan). C4.5 є вдосконаленою версією алгоритму ID3 того ж автора. Зокрема, в нову версію були додані відсікання гілок (англ. pruning), можливість роботи з числовими атрибутами, а також можливість побудови дерева з неповної навчальної вибірки, в якій відсутні значення деяких атрибутів.
Для того, щоб за допомогою C4.5 побудувати вирішальне дерево і застосовувати його, дані повинні задовольняти декільком умовам.
Інформація про об'єкти, які необхідно класифікувати, повинна бути представлена у вигляді кінцевого набору ознак (атрибутів), кожен з яких має дискретне або числове значення. Такий набір атрибутів назвемо прикладом. Для всіх прикладів кількість атрибутів і їх склад мають бути постійними.
Безліч класів, на які будуть розбиватися приклади, повинно мати кінцеве число елементів, а кожен приклад має однозначно ставитися до конкретного класу. Для випадків з нечіткою логікою, коли приклади належать до класу із певною ймовірністю, C4.5 непридатний.
У навчальній вибірці кількість прикладів повинна бути значно більше кількості класів, до того ж кожен приклад має бути заздалегідь асоційований зі своїм класом. З цієї причини C4.5 є варіантом машинного навчання з учителем.
Нехай
є - навчальна вибірка прикладів, а
- множина класів, що складається з
елементів. Для кожного прикладу з
відома його приналежність до якогось
із класів
.
Побудова
дерева рішень алгоритмом C4.5 принципово
не відрізняється від його побудови в
ID3. На першому кроці є корінь і асоційована
з ним множина
,
яку необхідно розбити на підмножини.
Для цього необхідно вибрати один з
атрибутів в якості перевірки. Обраний
атрибут
має
значень, що дає розбиття на підмножини.
Далі створюються
нащадків кореня, кожному з яких поставлено
у відповідність своя підмножина, отримана
при розбитті
.
Процедура вибору атрибута і розбиття
по ньому рекурсивно застосовується до
всіх
нащадків і зупиняється в двох випадках:
1) після чергового розгалуження в вершині опиняються приклади з одного класу (тоді вона стає листом, а клас, якому належать її приклади, буде рішенням аркуша),
2) вершина виявилася асоційованою з порожньою множиною (тоді вона стає листом, а в якості рішення вибирається клас, який найбільш часто зустрічається у безпосереднього предка цієї вершини).
Ідею алгоритму можна представити у графічному вигляді (рис 2). При наявності в об’єктів тільки двох змінних, то їх можна представити у вигляді точок двовимірного простору. Об’єкти різних класів відмічені знаками «+» і «-». З рисунку видно, що при розбитті множини на підмножини будується дерево, що покриває тільки об’єкти вибраного класу.
Рис. 2. Ідея алгоритму
Переваги використання «дерев рішень» та області їх застосування
Розглянувши основні проблеми, що виникають при побудові дерев, варто також перелічити деякі їх переваги:
швидкий процес навчання;
генерація правил в областях, де експертові важко формалізувати свої знання;
формулювання правил природною мовою;
інтуїтивно зрозуміла класифікаційна модель;
висока точність прогнозування в порівнянні з іншими методами (статистика, нейронні мережі);
В силу цих та багатьох інших причин, методологія дерев рішень є важливим інструментом у роботі кожного фахівця, що займається аналізом даних. Дерева рішень є зручним інструментом у системах підтримки прийняття рішень, інтелектуального аналізу даних (data mining), особливо в галузях, де високою є ціна помилки.
Дерева рішень успішно використовуються для вирішення практичних завдань у таких областях:
Банківська справа (оцінка кредитоспроможності клієнтів банку при видачі кредитів).
Промисловість (контроль за якістю продукції (виявлення дефектів), випробування без руйнувань, наприклад, перевірка якості зварювання, тощо).
Медицина (діагностика різних захворювань).
Молекулярна біологія (аналіз будови амінокислот).
