11. Алгоритмы обучения деревьев решений. Алгоритм id3. Критерии разбиений.

Обучающий алгоритм является прямым, если он обеспечивает правильные классификации, которые классифицируют еще не встречающиеся примеры.

Обучение деревьев решений – обучение с учителем.

Состоит из следующих этапов:

1. Вид-разбиение.

2. Критерий расчленения.

3. Процедура сокращения ветвей – отсечение.

4. Тестирование и извлечение правил.

Для того, чтобы начать строить или обучать дерево решений необходимо:

1. Собрать множество примеров большого объема.

2. Разделить это множество на два непересекающихся – обучающее и проверочное.

3. применить сам алгоритм для построения текущего дерева решений.

4. определить какой процент примеров в тестовом множестве классифицируется деревом.

5. Если дерево не удовлетворяет, то повторять 2-4 для различных алгоритмов и эвристик.

Алгоритм ID3.

Один из наиболее ранних алгоритмов обучения деревьев решений , использующих рекурсивное разбиение подмножеств в узлах дерева по одному из выбранных атрибутов. Начинает работу с корня дерева, в котором содержатся все примеры обучающего множества. Для разделения в нем выбирается один из атрибутов, и для каждого принимаемого им значения строится ветвь, и создается дочерний узел, в который распределяются все содержащие его записи.

Пусть, например, атрибут принимает три значения:: A, B и C. Тогда при разбиении исходного множества алгоритм создаст три дочерних узла T1(A), T2(B) и T3(C), в первый из которых будут помещены все записи со значением A, во второй – B, а в третий – C. В случае конфликтов, решения принимаются большинством.

Процедура повторяется рекурсивно до тех пор, пока в узлах не останутся только примеры одного класса, после чего они будут объявлены листами и ветвление прекратится. Наиболее проблемным этапом здесь является выбор атрибута, по которому будет производиться разбиение. Классический алгоритм ID3 использует для этого критерий увеличения информации или уменьшения энтропии.

В общем, алгоритм ID3 следующий:

1. Взять все неиспользованные признаки и посчитать их энтропию относительно тестовых образцов.

2. Выбрать признак, для которого энтропия минимальна (а информационная выгода соответственно максимальна).

3. Сделать узел дерева, содержащий этот признак.

Если в качестве критерия используют значение энтропии, не используют эвристик усечения дерева.

Алгоритм допускает множественные листья.

Практическое применение классической реализации ID3 сталкивается с рядом проблем, характерных для моделей, основанных на обучении вообще и деревьев решений в частности. Основными из них являются переобучение и наличие пропусков в данных. Поэтому алгоритм был усовершенствован, в результате чего появилась его новая версия С4.5. Она позволяет работать с пропущенными значениями признаков, а также имеет меньшую склонность к переобучению.

Энтропия.

Предположим, что имеется множество А из n элементов, m из которых обладают некоторым свойством S. Тогда энтропия множества А по отношению к свойству S – это

H(A,S)=-(m/n)log₂(m/n)-(n-m/n)log₂(n-m/n).

Энтропия зависит от пропорции, в которой разделяется множество. Чем «ровнее» поделили, тем больше энтропия. По мере возрастания пропорции от 0 до ½ - энтропия увеличивается, а после – убывает.

Если свойство S не бинарное, а может принимать s различных значений, каждое из которых реализуется в mi случаях, то

H(A,S)=-∑(mi/n)log₂(mi/n).

Энтропия – это среднее количество битов, которые требуются, чтобы закодировать атрибут S у элемента множества A.

При выборе атрибута для классификации нужно выбирать его так, чтобы энтропия стала гораздо меньше, при этом энтропия будет разной на разных потомках и выбирать потомка надо с наилучшим вкладом.

Предположим, что множество А из n элементов классифицировано посредством атрибута Q, имеющего q возможных значений, тогда прирост информации (уменьшение энтропии) выделится как

Gain(A,Q)=H(A,S)-∑от 1 до q(|Ai|/A)H(Ai,S), где Ai – множество элементов А, на которых Q=qi.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 2911 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.11.2019121.31 Кб43Seryeznaya_shpora_po_Istorii.docx
#
01.03.2016354.13 Кб411SET Shumakov ISPR.docx
#
01.04.2025337.65 Кб10Sh2.docx
#
22.12.2018126.39 Кб50Shema_upr_f (2).docx
#
01.05.2025165.89 Кб5ShP.doc
#
27.09.2019807.77 Кб96shp.docx
#
01.05.2025682.67 Кб3shpargalka2.docx
#
28.09.2019620.54 Кб124Shpargalka_k_ekzamenu_po_khimii_2_semestr.doc
#
01.03.2025143.87 Кб3ShPOR.doc
#
14.04.201963.09 Кб27shpora-po-miket1.docx
#
01.03.2016577.54 Кб41shpora.doc