Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Харьковский национальный университет радиоэлектроники

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

МНа Экзамен Ответы_окончательно.doc

Скачиваний:

Добавлен:

01.05.2025

Размер:

950.78 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 67 / 157 8 9 10 11 12 13 14 15 > Следующая >>>

Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);

Метод рассматривает каждый узел дерева, как кандидата на отсечение, которое состоит в удалении поддерева (для которого данный атрибут являлся корнем) и ставим туда лист, присваивая ему значение, которое наиболее часто встречалось в отсеченном поддереве. Узлы убираются только в случае, если дерево после отсечений такое же эффективное, как и до них. Это приводит к тому, что лист, поставленный в связи со случайной закономерностью в обучающей выборке скорее всего будет отсечен, потому что такие случайности вряд ли будут в проверочной выборке. Узлы отсекаются итерационно – всегда выбирается на отсечение тот узел, чье удаление наиболее увеличит аккуратность дерева на проверочной выборке. В результате этого метода получаем наименьшую версию самого точного поддерева.

Главный недостаток: когда данные ограничены, резервирование части данных под проверочную выборку уменьшает количество возможных обучающих примеров.

Метод подальшого відсікання гілок (rule-post prunning);

Шаги:

1.Выводим дерево решений из обучающей выборки, пока оно не покрывает всю выборку, допускаем избыточную подгонку.

2.Конвертируем полученное дерево в эквивалентное множество правил, создавая по правилу для каждого пути из корня в лист.

3.Отсекаем каждое правило, чье удаление ведет к улучшению оценочной точности.

4.Сортируем отсеченные правила по их оценочной точности и рассматриваем их в этой последовательности при классификации последующих примеров.

Оценка точности правила проводится либо по проверочной выборке. Обратно дерево не

получаем. При классификации находится первое подходящее правило и остальные уже не рассматриваются.

Положительные моменты конвертации дерева в набор правил перед отсечением: конвертация удаляет различия между атрибутами, стоящими ближе к корню и атрибутами, стоящими ближе к листьям; удобства использования в программных системах, многие из которых имеют встроенные механизмы работы с правилами; конвертация позволяет получить различия в контекстах, в которых узел дерева решений используется.

Надмірне підганяння (overfitting) в деревах рішень та методи боротьби з ним;

Гипотеза h приналд прост-ву гипотез Н является излишне подогнанной под обучающие данные, если существует альтернативная гипотеза h` из Н такая что ошибка h меньше, чем ошибка h` на обучающих примерах, но ошибка h` меньше h на всем распределении примеров.

Методы избежания излишней подгонки. Существует два подхода:

- мы прекращаем рост дерева перед достижением точки, когда оно отлично классифицирует обучающие примеры;

- строим полное дерево с излишней подгонкой, а затем отсекаем некоторые концы ветвей.

Второй подход показал себя на практике лучше, т.к. в первом сложно вычислить, когда точно следует прекратить рост дерева.

«Оптимальный» размер дерева может быть вычислен следующим образом:

-Измеряется точность дерева на обучающей выборке (классический вариант)

-Измеряется точность дерева на отдельной тестовой выборке

Использование принципа MDL (минимальной длины описания): минимизировать следующую сумму: размер дерева решений + размер ошибок этого дерева.

1-ый подход: прекращение роста дерева

1) Расщепление примеров по атрибуту дает принципиально различное число примеров по ветвям. В таком случае вместо атрибута ставится лист со значением целевой функции наиболее часто встречаемой у текущих примеров

2) ставим лист, если разница между примерами с различными классами является очень существенной

2-ой подход: метод отсечения уменьшающей ошибки

1) разделяем данные на обучающую выборку и выборку подтверждений;

2) do пока отсечение не ухудшает точность

- оцениваем влияние отсечения каждого возможного узла (плюс все узлы идущие ниже) на точность дерева на выборке для подтверждений;

- жадно удаляем тот узел, удаление которого максимально повышает точность.

В результате этого метода получаем наименьшую версию самого точного поддерева.

Метод последующего отсечения ветвей

конвертируем полученное дерево в эквивалентное множество правил

сокращаем каждое правило независимо от остальных с помощью удаления любого условия, которое ведет к улучшению точности правила. На отдельной валидационной выборке. Делается в цикле.

Сортируем сокращенные правила согласно их точности и используем в таком порядке при классификации новых примеров.

Обратно дерево не получаем. При классификации находится первое подходящее правило и остальные уже не рассматриваются.

П оложительные моменты конвертации дерева в набор правил перед отсечением: конвертация удаляет различия между атрибутами, стоящими ближе к корню и атрибутами, стоящими ближе к листьям; удобства использования в программных системах, многие из которых имеют встроенные механизмы работы с правилами

<<< < Предыдущая 1 2 3 4 5 67 / 157 8 9 10 11 12 13 14 15 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.20252.91 Mб4ММДО_конспект.doc
#
14.04.20156.23 Mб12ММДО_МУ по ЛБ(+).pdf
#
14.04.20151.2 Mб15ММДО_МУ по ПЗ(+).pdf
#
14.04.2015500.78 Кб15ММДО_РАБ ПРОГ(+).pdf
#
13.04.2015679.94 Кб21МНа ЛБ1.doc
#
01.05.2025950.78 Кб0МНа Экзамен Ответы_окончательно.doc
#
01.03.20251.17 Mб3МНВЧ.л.10.doc
#
01.03.20252 Mб7МНВЧ.л.11.doc
#
01.03.20251.47 Mб0МНВЧ.л.12.doc
#
20.11.20192.89 Mб3МНД_Мет_Лаб_Клієнт.doc
#
20.11.20191.62 Mб3МНД_Мет_Лаб_Сервер.doc

Метод відсікання гілок зі зменшенням помилки (reduced-error pruning);

Метод подальшого відсікання гілок (rule-post prunning);

Надмірне підганяння (overfitting) в деревах рішень та методи боротьби з ним;