12. Алгоритм c4.5

Алгоритм C4.5 строит дерево решений с неограниченным количеством ветвей у узла. Данный алгоритм может работать только с дискретным зависимым атрибутом и поэтому может решать только задачи классификации. C4.5 считается одним из самых известных и широко используемых алгоритмов построения деревьев классификации.

Для работы алгоритма C4.5 необходимо соблюдение следующих требований:

Каждая запись набора данных должна быть ассоциирована с одним из предопределенных классов, т.е. один из атрибутов набора данных должен являться меткой класса.
Классы должны быть дискретными. Каждый пример должен однозначно относиться к одному из классов.
Количество классов должно быть значительно меньше количества записей в исследуемом наборе данных.

Алгоритм C4.5 медленно работает на сверхбольших и зашумленных наборах данных. Оба алгоритма являются робастными, т.е. устойчивыми к шумам и выбросам данных.

Алгоритмы построения деревьев решений различаются следующими характеристиками:

вид расщепления - бинарное (binary), множественное (multi-way)
критерии расщепления - энтропия, Gini, другие
возможность обработки пропущенных значений
процедура сокращения ветвей или отсечения
возможности извлечения правил из деревьев.

Процесс построения дерева будет происходить сверху вниз.

На первом шаге мы имеем пустое дерево (имеется только корень) и исходное множество T (ассоциированное с корнем). Требуется разбить исходное множество на подмножества. Это можно сделать, выбрав один из атрибутов в качестве проверки. Тогда в результате разбиения получаются n(по числу значений атрибута) подмножеств и, сответственно, создаются n потомков корня, каждому из которых поставлено в соответствие свое подмножество, полученное при разбиении множества T. Затем эта процедура рекурсивно применяется ко всем подмножествам (потомкам корня) и т.д.

Рассмотрим подробнее критерий выбора атрибута.

Пусть – количество примеров из некоторого множества S, относящихся к одному и тому же классу Cj. Тогда вероятность того, что случайно выбранный пример из множества S будет принадлежать к классу Cj (1ая формула)

(1)

Согласно теории информации, количество содержащейся в сообщении информации, зависит от ее вероятности (2ая формула).

Поскольку мы используем логарифм с двоичным основанием, то выражение (1) дает количественную оценку в битах.

Выражение

(2)

дает оценку среднего количества информации, необходимого для определения класса примера из множества T. В терминологии теории информации выражение (2) называется энтропией множества T.

Ту же оценку, но только уже после разбиения множества T по X, дает следующее выражение:

Тогда критерием для выбора атрибута будет являться следующая формула:

Критерий (4) считается для всех атрибутов. Выбирается атрибут, максимизирующий данное выражение. Этот атрибут будет являться проверкой в текущем узле дерева, а затем по этому атрибуту производится дальнейшее построение дерева. Т.е. в узле будет проверяться значение по этому атрибуту и дальнейшее движение по дереву будет производиться в зависимости от полученного ответа

Классификация новых примеров

Итак, мы имеем дерево решений и хотим использовать его для распознавания нового объекта. Обход дерева решений начинается с корня дерева. На каждом внутреннем узле проверяется значение объекта Y по атрибуту, который соответствует проверке в данном узле, и, в зависимости от полученного ответа, находится соответствующее ветвление, и по этой дуге двигаемся к узлу, находящему на уровень ниже и т.д. Обход дерева заканчивается как только встретится узел решения, который и дает название класса объекта Y.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 1112 / 2912 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.11.2019121.31 Кб43Seryeznaya_shpora_po_Istorii.docx
#
01.03.2016354.13 Кб411SET Shumakov ISPR.docx
#
01.04.2025337.65 Кб9Sh2.docx
#
22.12.2018126.39 Кб50Shema_upr_f (2).docx
#
01.05.2025165.89 Кб3ShP.doc
#
27.09.2019807.77 Кб95shp.docx
#
01.05.2025682.67 Кб3shpargalka2.docx
#
28.09.2019620.54 Кб123Shpargalka_k_ekzamenu_po_khimii_2_semestr.doc
#
01.03.2025143.87 Кб3ShPOR.doc
#
14.04.201963.09 Кб27shpora-po-miket1.docx
#
01.03.2016577.54 Кб41shpora.doc