Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lab_2_Інтелектуальний аналіз даних.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
709.12 Кб
Скачать
    1. Алгоритми і методика побудови «дерева рішень»

На сьогоднішній день існує значна кількість алгоритмів, що реалізують побудову дерев рішень.

      1. Методика «розділяй і владарюй»

Методика ґрунтується на рекурсивному розбитті множини об’єктів із навчаючої вибірки на підмножини, які містять об’єкти, що відносяться до однакових класів.

Спершу вибирається незалежна змінна, яку поміщують в корінь дерева.

Із вершини будуються вітки, що відповідають всім можливим значенням вибраної незалежної змінної.

Множина об’єктів із навчальної вибірки розбивається на декілька підмножин у відповідність до значення вибраної незалежної змінної.

Таким чином, в кожній підмножині будуть знаходитись об’єкти. У яких значення вибраної незалежної змінної будуть однакові.

Відносно навчальної вибірки Т і множини класів С можливі три ситуації:

  • множина Т містить один або декілька об’єктів, що відносяться до одного класу Сr. Тоді дерево рішень для Т – це лист, який визначає (оприділяє) клас Сr;

  • множина Т не містить ні одного об’єкта (порожня множина). Тоді це знову ж таки – лист, і клас, який асоціюють з листом, вибирається із іншої множини, відмінної від Т, наприклад із множини, асоційованої з предком;

  • множина Т містить об’єкти, які відносяться до різних класів. В такому випадку потрібно розбити множину Т на деякі підмножини. Для цього вибирається одна із незалежних змінних хh, яка має два і більше відмінних одне від одного значень сh2, ch2, …, chn. Множина Т розбивається на підмножини Т1, Т2, …, Тn, де кожна підмножина Ті містить всі об’єкти, у яких значення вибраної залежної змінної дорівнює сhі. Далі процес продовжується рекурсивно для кожної підмножини до тих пір, поки значення залежної змінної у новоствореній підмножині не буде однаковим (коли об’єкти належать одному класу). В цьому випадку процес даної вітки дерева зупиняється.

При використанні даної методики побудова дерева рішень буде відбуватись зверху вниз. Більшість алгоритмів, які її використовують є «жадібними алгоритмами». Це означає, що якщо один раз змінна була вибрана і по ній відбулось розбиття, то алгоритм не може повернутись назад і вибрати іншу змінну, яка дала би краще розбиття.

Питання полягає в тому, що невідомо яку змінну треба вибрати для початкового розбиття. Від цього повністю залежить якість отриманого в майбутньому дерева.

Загальне правило для вибору змінної для розбиття: вибрана змінна повинна розбити множину так, щоб отримати в результаті підмножину, яка складатиметься з об’єктів, які належатимуть одному класу і будуть максимально приближені до цього, тобто щоб кількість об’єктів із інших класів ("домішок") в кожному з цих множин було мінімальним.  Іншою проблемою при побудові дерева є проблема зупинки його розбиття. Методи її вирішення:

1. Рання зупинка. Використання статистичних методів для оцінки доцільності подальшого розбиття. Заощаджує час побудови моделі, але будує менш точні моделі.

2. Обмеження глибини дерева. Потрібно зупинити подальшу побудову, якщо розбиття перевищує задане значення глибини дерева.

3. Розбиття не повинно бути тривіальним, тобто отримані в результаті розбиття вузли повинні містити не менше заданої кількості об'єктів.

4. Відсікання гілок (знизу вгору). Побудувати дерево, відсікти або замінити під деревом ті гілки, які призведуть до зростання кількості неправильно класифікованих об'єктів.

Побудувати всі можливі варіанти розбиття і вибрати найкращий є проблематично, якщо є багато незалежних змінних чи можливих класів.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]