- •Методичні вказівки
- •Теоретична частина
- •Огляд методів класифікації та регресії.
- •Базові концепції методу побудови дерева рішень
- •Етапи побудови "дерева рішень"
- •Правила побудови «дерева рішень»
- •Алгоритми і методика побудови «дерева рішень»
- •Методика «розділяй і владарюй»
- •Алгоритм id3
- •1.5.3. Алгоритм cart
- •1.5.4. Алгоритм c4.5
- •Переваги використання «дерев рішень» та області їх застосування
- •Побудова дерев рішень засобами Deductor
- •Приклад побудови «дерева рішень»
- •Порядок виконання роботи
- •Доц. Ковівчак Ярослав Васильович
Алгоритм id3
ID3 будує дерево рішень з фіксованим набором прикладів. В результаті дерево використовується для класифікації майбутніх зразків. Наприклад має кілька атрибутів і належить до класу (наприклад, так чи ні). Листя дерева рішень містити ім'я класу, в той час як не-лист вузол є рішенням вузла. Рішення вузол є атрибутом тесту з кожної гілки (в іншій дерево рішень), що є можливим значенням атрибута. ID3 використовує інформацію посилення, щоб допомогти йому вирішити, який атрибут входить у вирішенні вузла. Перевага навчання дерева рішень є те, що програми, а не знання інженера, викликає знань від експерта.
Дж. Росс Quinlan спочатку розроблений ID3 в Університеті Сіднея. Він вперше представлений ID3 в 1975 році в книзі, Machine Learning. ID3 базується Концепція системи навчання (CLS) алгоритм. Основний алгоритм CLS над безліччю підготовки випадків C:
Крок 1: Якщо всі екземпляри в C позитивні, то створіть YES вузлів і зупинився.
Якщо всі екземпляри в C негативні, створити NO вузлів і зупинився.
В іншому випадку виберіть функцію, F зі значеннями v1, ..., Vn і створити рішення вузла.
Крок 2: Розділ підготовки випадках, C на підмножини, C1, C2, ..., Cn відповідно до значень В.
Крок 3: застосувати алгоритм рекурсивно для кожного з множин Ci.
Відзначимо, що тренер (експерт) вирішує, які маються для вибору.
ID3 покращує CLS, додавши евристичного вибору функції. ID3 пошуку по атрибутах підготовки випадках і екстракти атрибут, який відділяє кращих наведені приклади. Якщо атрибут прекрасно класифікує навчання встановлюється потім ID3 зупинках, в іншому випадку рекурсивно діє на N (де N = число можливих значень атрибутів) розподіляють підмножини, щоб отримати свої "кращі" атрибут. Алгоритм використовує жадібний пошук, тобто, він вибирає кращий атрибут і ніколи не оглядається назад, щоб переглянути раніше вибори.
ID3 отримує свої класи від фіксованого набору навчальних екземплярів. Інкрементний алгоритм змінює поточне визначення поняття, при необхідності, нового зразка. Класи, створені за ID3 є індуктивними, тобто, враховуючи невеликий набір навчальних випадках, конкретні класи, створені за ID3 будуть працювати для всіх майбутніх випадків. Розподіл невідомих повинно бути таким же, як тестів. Індукційна класи не можуть бути доведені, щоб працювати в будь-якому випадку, так як вони можуть класифікувати нескінченну кількість екземплярів. Зверніть увагу, що ID3 (або будь-якого індуктивного алгоритму) можуть неправильної класифікації даних.
Вибірка даних, використовуваних ID3 є певні вимоги, які є:
Атрибут Значення Опис - ті ж атрибути повинні описати кожен приклад і мають фіксоване число значень.
Визначених класів - атрибути Наприклад, мають бути вже визначені, тобто, вони не впізнали по ID3.
Дискретна класи - класи повинні бути чітко розмежовані. Безперервна класи розбиті на невизначений такі категорії, як металом "жорсткий, досить жорстка, гнучка, м'яка, досить м'які» є підозрюваного.
Достатня прикладів - з індуктивного узагальнення використовується (тобто не доказовою) має бути достатньо тестів, щоб відрізнити дійсний моделей від випадковостей.
Як ID3 вирішити, який атрибут краще? Статистичні властивості, називається приріст інформації, використовується. Посилення заходів наскільки добре даний атрибут відокремлює навчальних прикладів в цільові класи. З вищою інформації (відомостей, що становлять найбільш корисні для класифікації) вибраний. Для того щоб визначити коефіцієнт підсилення, ми спочатку запозичувати ідеї з теорії інформації називають ентропією. Ентропія вимірює кількість інформації в атрибуті.
