Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МНа Экзамен Ответы_окончательно.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
950.78 Кб
Скачать
  1. Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);

Метод рассматривает каждый узел дерева, как кандидата на отсечение, которое состоит в удалении поддерева (для которого данный атрибут являлся корнем) и ставим туда лист, присваивая ему значение, которое наиболее часто встречалось в отсеченном поддереве. Узлы убираются только в случае, если дерево после отсечений такое же эффективное, как и до них. Это приводит к тому, что лист, поставленный в связи со случайной закономерностью в обучающей выборке скорее всего будет отсечен, потому что такие случайности вряд ли будут в проверочной выборке. Узлы отсекаются итерационно – всегда выбирается на отсечение тот узел, чье удаление наиболее увеличит аккуратность дерева на проверочной выборке. В результате этого метода получаем наименьшую версию самого точного поддерева.

Главный недостаток: когда данные ограничены, резервирование части данных под проверочную выборку уменьшает количество возможных обучающих примеров.

  1. Метод подальшого відсікання гілок (rule-post prunning);

Шаги:

1.Выводим дерево решений из обучающей выборки, пока оно не покрывает всю выборку, допускаем избыточную подгонку.

2.Конвертируем полученное дерево в эквивалентное множество правил, создавая по правилу для каждого пути из корня в лист.

3.Отсекаем каждое правило, чье удаление ведет к улучшению оценочной точности.

4.Сортируем отсеченные правила по их оценочной точности и рассматриваем их в этой последовательности при классификации последующих примеров.

Оценка точности правила проводится либо по проверочной выборке. Обратно дерево не

получаем. При классификации находится первое подходящее правило и остальные уже не рассматриваются.

Положительные моменты конвертации дерева в набор правил перед отсечением: конвертация удаляет различия между атрибутами, стоящими ближе к корню и атрибутами, стоящими ближе к листьям; удобства использования в программных системах, многие из которых имеют встроенные механизмы работы с правилами; конвертация позволяет получить различия в контекстах, в которых узел дерева решений используется.

  1. Надмірне підганяння (overfitting) в деревах рішень та методи боротьби з ним;

Гипотеза h приналд прост-ву гипотез Н является излишне подогнанной под обучающие данные, если существует альтернативная гипотеза h` из Н такая что ошибка h меньше, чем ошибка h` на обучающих примерах, но ошибка h` меньше h на всем распределении примеров.

Методы избежания излишней подгонки. Существует два подхода:

- мы прекращаем рост дерева перед достижением точки, когда оно отлично классифицирует обучающие примеры;

- строим полное дерево с излишней подгонкой, а затем отсекаем некоторые концы ветвей.

Второй подход показал себя на практике лучше, т.к. в первом сложно вычислить, когда точно следует прекратить рост дерева.

«Оптимальный» размер дерева может быть вычислен следующим образом:

-Измеряется точность дерева на обучающей выборке (классический вариант)

-Измеряется точность дерева на отдельной тестовой выборке

Использование принципа MDL (минимальной длины описания): минимизировать следующую сумму: размер дерева решений + размер ошибок этого дерева.

1-ый подход: прекращение роста дерева

1) Расщепление примеров по атрибуту дает принципиально различное число примеров по ветвям. В таком случае вместо атрибута ставится лист со значением целевой функции наиболее часто встречаемой у текущих примеров

2) ставим лист, если разница между примерами с различными классами является очень существенной

2-ой подход: метод отсечения уменьшающей ошибки

1) разделяем данные на обучающую выборку и выборку подтверждений;

2) do пока отсечение не ухудшает точность

- оцениваем влияние отсечения каждого возможного узла (плюс все узлы идущие ниже) на точность дерева на выборке для подтверждений;

- жадно удаляем тот узел, удаление которого максимально повышает точность.

В результате этого метода получаем наименьшую версию самого точного поддерева.

Метод последующего отсечения ветвей

конвертируем полученное дерево в эквивалентное множество правил

сокращаем каждое правило независимо от остальных с помощью удаления любого условия, которое ведет к улучшению точности правила. На отдельной валидационной выборке. Делается в цикле.

Сортируем сокращенные правила согласно их точности и используем в таком порядке при классификации новых примеров.

Обратно дерево не получаем. При классификации находится первое подходящее правило и остальные уже не рассматриваются.

П оложительные моменты конвертации дерева в набор правил перед отсечением: конвертация удаляет различия между атрибутами, стоящими ближе к корню и атрибутами, стоящими ближе к листьям; удобства использования в программных системах, многие из которых имеют встроенные механизмы работы с правилами

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]