Деревья решений

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Саратовский государственный университет им. Н.Г. Чернышевского

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Lections 2007.doc

Скачиваний:

Добавлен:

01.03.2025

Размер:

841.22 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1718 / 2418 19 20 21 22 23 24 > Следующая >>>

Деревья решений

Деревья решений и области их применения

Деревья решения являются одним из наиболее популярных подходов к решению задач интеллектуального анализа данных. Они создают иерархическую структуру классифицирующих правил типа «если..., то... », имеющую вид дерева. Для того чтобы решить, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Для бинарных деревьев вопросы имеют вид «значение параметра A больше x?». Если ответ положительный, осуществляется переход к правому узлу следующего уровня, если отрицательный — то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом.

Первые идеи создания деревьев решений восходят к работам Ховленда (Hoveland), Ханта (Hunt) конца 50-х годов XX века. Популярность подхода связана с наглядностью и понятностью. Но очень остро для деревьев решений стоит проблема значимости. Дело в том, что отдельным узлам на каждом новом построенном уровне дерева соответствует все меньшее и меньшее число записей данных — дерево дробит данные на большое количество частных случаев. Чем больше этих частных случаев, чем меньше обучающих примеров попадает в каждый такой частный случай, тем менее уверенной становится их классификация. Если построенное дерево слишком «кустистое» — состоит из неоправданно большого числа мелких веточек — оно не будет давать статистически обоснованных ответов. Как показывает практика, в большинстве систем, использующих деревья решений, эта проблема не находит удовлетворительного решения. Кроме того, деревья решений дают полезные результаты только в случае независимых признаков. В противном случае они лишь создают иллюзию логического вывода.

Рассмотрев основные проблемы, возникающие при построении деревьев, было бы несправедливо не упомянуть об их достоинствах:

быстрый процесс обучения;
генерация правил в областях, где эксперту трудно формализовать свои знания;
извлечение правил на естественном языке;
интуитивно понятная классификационная модель;
высокая точность прогноза, сопоставимая с другими методами (статистика, нейронные сети);
построение непараметрических моделей.

В силу этих и многих других причин, методология деревьев решений является важным инструментом в работе каждого специалиста, занимающегося анализом данных, вне зависимости от того, практик он или теоретик.

Деревья решений являются прекрасным инструментом в системах поддержки принятия решений, интеллектуального анализа данных (data mining). В состав многих пакетов, предназначенных для интеллектуального анализа данных, уже включены методы построения деревьев решений. В областях, где высока цена ошибки, они служат отличным подспорьем аналитика или руководителя.

Область применения деревьев решений в настоящее время широка, но все задачи, решаемые этим аппаратом, могут быть объединены в три класса.

Описание данных. Деревья решений позволяют хранить информацию

о данных в компактной форме, вместо них мы можем хранить дерево решений, которое содержит точное описание объектов.

Классификация. Деревья решений отлично справляются с задачами классификации, т.е. отнесения объектов к одному из заранее известных классов. Целевая переменная должна иметь дискретные значения.
Регрессия. Если целевая переменная имеет непрерывные значения, деревья решений позволяют установить зависимость целевой переменной от независимых (входных) переменных. Например, к этому классу относятся задачи численного прогнозирования (предсказания значений целевой переменной).

Деревья решений успешно применяются для решения практических задач в следующих областях.

Банковское дело. Оценка кредитоспособности клиентов банка при выдаче кредитов.
Промышленность. Контроль за качеством продукции (выявление дефектов), испытания без разрушений (например, проверка качества сварки) и т.д.
Медицина. Диагностика различных заболеваний.
Молекулярная биология. Анализ строения аминокислот.

Это далеко не полный список областей, где возможно использование деревьев решений. Не исследованы еще многие потенциальные области применения.

Структура дерева решений

Деревья решений — это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде «если ... то ... ». Наиболее близкая аналогия деревьев решений — дерево каталогов, отображаемое, например, проводником Windows. Каталоги в данном случае будут соответствовать узлам (условие «если»), а файлы — листьям (ветвь «то»).

Дерево решений можно определить как структуру, которая состоит из

узлов принятия решений, специфицирующих определенные тестовые процедуры, которые должны быть выполнены по отношению к одному из значений атрибутов; из узла принятия решений выходят ветви, количество которых соответствует количеству возможных исходов тестирующей процедуры.

Более формально дерево можно определить как конечное множество T, состоящее из одного или множества узлов, таких, что

имеется один специально обозначенный узел, называемый корнем данного дерева;
остальные узлы (исключая корень) содержатся в m ^ 1 попарно непере- секающихся множествах T_i,... , T_m, каждое из которых в свою очередь является деревом. Деревья T_i,... ,T_m называют поддеревьями данного корня.

Из данного определения следует, что каждый узел дерева является корнем некоторого поддерева, которое содержится в этом дереве. Число поддеревьев данного узла называется степенью этого узла. Узел с нулевой степенью называется листом. Уровень узла по отношению к дереву T определяется следующим образом: говорят, что корень имеет уровень 1, а другие узлы имеют уровень на единицу выше их уровня относительно содержащего их поддерева Tj этого корня.

Если в дереве существует относительный порядок поддеревьев T_i,... , T_m, то говорят, что дерево является упорядоченным; в случае, когда в упорядоченном дереве m ^ 2, имеет смысл называть Т₂ «вторым поддеревом» данного корня и т.д.; если два дерева, отличающиеся друг от друга только относительным порядком узлов поддеревьев, не считать различными, то в этом случае говорят, что дерево является ориентированным, поскольку здесь имеет значение только относительная ориентация узла, а не их порядок.

Стандартная терминология для структур типа дерева: каждый корень является отцом корней своих поддеревьев, последние являются братьями между собой и сыновьями своего отца. Корень же всего дерева не имеет отца.

Дерево решения представляет один из способов разбиения множества данных на классы или категории. Корень дерева неявно содержит все классифицируемые данные, а листья — определенные классы после выполнения классификации. Промежуточные узлы дерева представляют пункты принятия решения о выборе или выполнения тестирующих процедур с атрибутами элементов данных, которые служат для дальнейшего разделения данных в этом узле.

Можно рассматривать дерево решений и с другой точки зрения: промежуточные узлы дерева соответствуют атрибутам классифицируемых объектов, а дуги — возможным альтернативным значениям этих атрибутов.

Дерево решений, соответствующее обучающей выборке, содержащейся в табл. 9, представлено на рис. 9. На этом дереве промежуточные узлы представляют атрибуты «Кредитная история», «Доход», «Долг», «Поручительство». Листья дерева промаркированы одним из двух классов «Риск высокий» или «Риск низкий». Можно считать, что «Риск низкий» соответствует классу позитивных экземпляров концепта , а «Риск высокий» — классу негативных. Например, «Риск низкий» может приводить к действию «выдать кредит», а «Риск высокий» — к действию «кредит не выдавать».

Таблица 9

№	Кредитная история	Доход	Долг	Поручительство	Риск
1	Отсутствует	Средний	Высокий	^Да	Высокий
2	Отсутствует	Средний	Высокий	Нет	Высокий
3	Хорошая	Средний	Высокий	^Да	Низкий
4	Плохая	Выше среднего	Высокий	^Да	Низкий
5	Плохая	Ниже среднего	Низкий	^Да	Низкий
6	Плохая	Ниже среднего	Низкий	Нет	Высокий
7	Хорошая	Ниже среднего	Низкий	Нет	Низкий
8	Отсутствует	Выше среднего	Высокий	^Да	Высокий
9	Отсутствует	Ниже среднего	Низкий	^Да	Низкий
10	Плохая	Выше среднего	Низкий	^Да	Низкий
11	Отсутствует	Выше среднего	Низкий	Нет	Низкий
12	Хорошая	Выше среднего	Высокий	Нет	Низкий
13	Хорошая	Средний	Низкий	^Да	Низкий
14	Плохая	Выше среднего	Высокий	Нет	Высокий

Кредитная история

Рис. 9. Пример дерева решений

Алгоритм формирования дерева решения по обучающей выборке

Опишем метод построения деревьев решений, который впервые был предложен Р. Куинленом (R. Quinlan) в 1993. Этот метод используется в одном из лучших алгоритмов построения деревьев решений C4.5.

Прежде чем приступить к описанию алгоритма построения дерева решений, определим обязательные требования к структуре данных и непосредственно к самим данным, при выполнении которых алгоритм C4.5 будет работоспособен.

Описание атрибутов. Данные, необходимые для работы алгоритма, должны быть представлены в виде плоской таблицы. Вся информация об объектах (далее примеры) из предметной области должна описываться в виде конечного набора признаков (далее атрибуты). Каждый атрибут должен иметь дискретное или числовое значение. Сами атрибуты не должны меняться от примера к примеру, и количество атрибутов должно быть фиксированным для всех примеров.
Определенные классы. Каждый пример должен быть ассоциирован с конкретным классом, то есть один из атрибутов должен быть выбран в качестве метки класса.
Дискретные классы. Классы должны быть дискретными, то есть иметь конечное число значений. Каждый пример должен однозначно относиться к конкретному классу. Случаи, когда примеры принадлежат к классу с вероятностными оценками, исключаются. Количество классов должно быть значительно меньше количества примеров.

Алгоритм построения дерева

Пусть нам задано множество примеров Т, где каждый элемент этого множества описывается m атрибутами. Количество примеров в множестве T будем называть мощностью этого множества и будем обозначать |Т|. Пусть метка класса принимает следующие значения С\,... ,Ck.

Наша задача будет заключаться в построении иерархической классификационной модели в виде дерева из множества примеров T. Процесс построения дерева будет происходить сверху вниз. Сначала создается корень дерева, затем потомки корня и т.д. На первом шаге мы имеем пустое дерево (имеется только корень) и исходное множество Т (ассоциированное с корнем). Требуется разбить исходное множество на подмножества. Это можно сделать, выбрав один из атрибутов в качестве проверки. Тогда в результате разбиения получаются n (по числу значений атрибута) подмножеств и, соответственно, создаются n потомков корня, каждому из которых поставлено в соответствие свое подмножество, полученное при разбиении множества Т. Затем эта процедура рекурсивно применяется ко всем подмножествам (потомкам корня) и т.д.

Рассмотрим подробнее критерий выбора атрибута, по которому должно пойти ветвление. Очевидно, что в нашем распоряжении m (по числу атрибутов) возможных вариантов, из которых мы должны выбрать самый подходящий. Некоторые алгоритмы исключают повторное использование атрибута при построении дерева, но в нашем случае мы таких ограничений накладывать не будем. Любой из атрибутов можно использовать неограниченное количество раз при построении дерева.

Пусть мы имеем проверку X (в качестве проверки может быть выбран любой атрибут), которая принимает n значений Ai,..., A_n. Тогда разбиение Т по проверке X даст нам подмножества Т₁,... ,T_n при X, равном соответственно A_i,..., A_n. Единственная доступная нам информация — то, каким образом классы распределены в множестве Т и его подмножествах, получаемых при разбиении по X. Именно этим мы и воспользуемся при определении критерия.

Пусть freq(Cj, S) — количество примеров из некоторого множества S, относящихся к одному и тому же классу Cj. Тогда вероятность того, что случайно выбранный пример из множества S будет принадлежать к классу Cj,

будет равна

_р = freq⁽Cj^,S⁾

|s | .

Согласно теории информации, количество содержащейся в сообщении информации зависит от ее вероятности следующей зависимостью:

^log, р¹. ⁽⁴⁾

Поскольку мы используем логарифм с двоичным основанием, то выражение (4) дает количественную оценку в битах.

Выражение

(T ) = - £ «И! к*, (^frfS) (5)

дает оценку среднего количества информации, необходимого для определения класса примера из множества T. В терминологии теории информации выражение (5) называется энтропией множества T.

Ту же оценку, но только уже после разбиения множества T по X, дает следующее выражение:

ⁿ IT I

Ix (T) = £ IT!I(Ti). (6)

i=1 ¹¹

Тогда критерием для выбора атрибута будет являться следующая формула:

G(X) = I(T) - Ix(T). (7)

Критерий (7) считается для всех атрибутов. Выбирается атрибут, максимизирующий данное выражение. Этот атрибут будет являться проверкой в текущем узле дерева, а затем по этому атрибуту производится дальнейшее построение дерева. То есть в узле будет проверяться значение по этому атрибуту и дальнейшее движение по дереву будет производиться в зависимости от полученного ответа.

Такие же рассуждения можно применить к полученным подмножествам T₁,... ,T_n и продолжить рекурсивно процесс построения дерева, до тех пор, пока в узле не окажутся примеры из одного класса.

Одно важное замечание: если в процессе работы алгоритма получен узел, ассоциированный с пустым множеством (то есть ни один пример не попал в данный узел), то он помечается как лист, и в качестве решения листа выбирается наиболее часто встречающийся класс у непосредственного предка данного листа.

Здесь следует пояснить, почему критерий (7) должен максимизироваться. Из свойств энтропии нам известно, что максимально возможное значение энтропии достигается в том случае, когда все его сообщения равновероятны. В нашем случае, энтропия (6) достигает своего максимума, когда частота появления классов в примерах множества T равновероятна. Нам же необходимо выбрать такой атрибут, чтобы при разбиении по нему один из классов имел наибольшую вероятность появления. Это возможно в том случае, когда энтропия (6) будет иметь минимальное значение и, соответственно, критерий (7) достигнет своего максимума.

Рассмотрим отдельно как быть в случае с числовыми атрибутами. Понятно, что следует выбрать некий порог, с которым должны сравниваться все значения атрибута. Пусть числовой атрибут имеет конечное число значений. Обозначим их {v₁,..., v_n}. Предварительно отсортируем все значения. Тогда любое значение, лежащее между Vi и v_i+1, делит все примеры на два множества: те, которые лежат слева от этого значения {v1,... , v_i}, и те, что справа {vi+1,..., v_n}. В качестве порога можно выбрать среднее между значениями vi и vi+1:

vi + vi+1

THi =

Таким образом, мы существенно упростили задачу нахождения порога, и привели к рассмотрению всего n — 1 потенциальных пороговых значений TH1,... , TH_n—1. Формулы (5), (6) и (7) последовательно применяются ко всем потенциальным пороговым значениям и среди них выбирается то, которое дает максимальное значение по критерию (7). Далее это значение сравнивается со значениями критерия (7), подсчитанными для остальных атрибутов. Если выяснится, что среди всех атрибутов данный числовой атрибут имеет максимальное значение по критерию (7), то в качестве проверки выбирается именно он.

Следует отметить, что все числовые тесты являются бинарными, т.е. делят узел дерева на две ветви.

Классификация новых примеров

Итак, мы имеем дерево решений и хотим использовать его для распознавания нового объекта. Обход дерева решений начинается с корня дерева. На каждом внутреннем узле проверяется значение объекта Y по атрибуту, который соответствует проверке в данном узле, и, в зависимости от полученного ответа, находится соответствующее ветвление, и по этой дуге двигаемся к узлу, находящему на уровень ниже и т.д. Обход дерева заканчивается как только встретится узел решения, который и дает название класса объекта Y.

Пример построения дерева решения

В качестве короткой иллюстрации продемонстрируем, как применяется этот алгоритм для построения дерева решений для выборки, представленной в табл. 9.

Начинаем построения дерева решений с его корня. Выберем один из атрибутов в качестве проверки. По формуле (5) мы получаем

I(T) = 0, 940286.

Для проверки Х₁ по атрибуту «кредитная история», для проверки Х₂ по атрибуту «доход», для проверки Х₃ по атрибуту «долг», для проверки Х₄ по атрибуту «поручительство» по формуле (6) соответственно получаем

I_Xi (T) = 0, 729949, Ix₂ (T) = 0,911063, I_Xs (T) = 0, 78845, Ix₄ (T) = 0,892159.

По формуле (7) получаем

G(X1) = 0, 210337, G(X2) = 0,029222,G(X₃) = 0,151835, G(X₄) = 0,048127.

Таким образом, наибольший прирост информации дает разбиение по атрибуту «кредитная история».

Итак, корень дерева построен и выбран атрибут «кредитная история» в качестве проверки. Продолжаем построение дерева и вначале пойдем по ветке «отсутствует». Для удобства приведем отдельно таблицу примеров, у которых атрибут «кредитная история» принимает значение «отсутствует» (табл. 10).

Таблица 10

№	Доход	Долг	Поручительство	Риск
1	Средний	Высокий	Нет	Высокий
2	Средний	Высокий	^Да	Высокий
8	Выше среднего	Высокий	Нет	Высокий
9	Ниже среднего	Низкий	Нет	Низкий
11	Выше среднего	Низкий	^Да	Низкий

Определим атрибут, по которому необходимо разбить эту выборку. Для проверки X₁ по атрибуту «доход» по формуле (6) получаем Ix₁ (T) = 0,4. Для проверки X₂ по атрибуту «долг» по формуле (6) получаем Ix₂ (T) = 0. Для проверки X₃ по атрибуту «поручительство» по формуле (6) получаем 1_Хз(T) = 0,196777679. По формуле (7) получаем

G(X1) = 0, 570950594, G(X₂) = 0,970950594, G(X_:i) = 0, 774172916.

Таким образом, наибольший прирост информации дает разбиение по атрибуту «долг».

Теперь перейдем из корня дерева по ветке «хорошая». Приведем отдельно таблицу примеров, у которых атрибут «кредитная история» принимает значение «хорошая» (табл. 11).

Видно, что дальнейшая проверка по какому-либо атрибуту не нужна — все примеры принадлежат одному классу.

Наконец, переходим из корневого узла дерева по ветке «плохая». Примеры, у которых атрибут «кредитная история» принимает значение «плохая», приведены в табл. 12.

Обозначим X₁, X₂, X₃ — проверки соответственно по атрибутам «доход», «долг», «поручительство». Для выбора атрибута, по которому необходимо

Таблица 11

№	Доход	Долг	Поручительство	Риск
3	Средний	Высокий	Нет	Низкий
7	Ниже среднего	Низкий	^Да	Низкий
12	Выше среднего	Высокий	^Да	Низкий
13	Средний	Низкий	Нет	Низкий

Таблица 12

№	Доход	Долг	Поручительство	Риск
4	Выше среднего	Высокий	Нет	Низкий
5	Ниже среднего	Низкий	Нет	Низкий
6	Ниже среднего	Низкий	^Да	Высокий
10	Выше среднего	Низкий	Нет	Низкий
14	Выше среднего	Высокий	^Да	Высокий

произвести проверку, опять воспользуемся формулами (5), (6), (7). Тогда получаем

G(Xi) = 0,019973094, G(Xy = 0,631315773, G(Xs) = 0,970950594.

Таким образом, наибольший прирост информации дает разбиение по атрибуту «поручительство».

На этом построение дерева решений заканчивается, так как в получившихся узлах все примеры однозначно идентифицированы (принадлежат определенному классу). Построенное нами дерево приведено на рис. 9.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1718 / 2418 19 20 21 22 23 24 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.20251.15 Mб0lect6_M3 КНИ.doc
#
01.07.20252.67 Mб0lect7_M4 Утечки.doc
#
01.07.20251.21 Mб0lect9_Квантовые эффекты.doc
#
09.06.2015365.18 Кб15Lection02.pdf
#
09.06.2015277.39 Кб13Lection03.pdf
#
01.03.2025841.22 Кб3Lections 2007.doc
#
09.06.2015836.52 Кб35Lects.pdf
#
09.06.2015731.64 Кб28Lects_1.pdf
#
01.05.2025167.42 Кб1LEKC-3blanki.doc
#
01.05.2025187.39 Кб2LEKC-4_znakopechatayuschie.doc
#
13.11.2019814.59 Кб11lekcii_kurs_politicheskaya_psihologiya_chast_1.doc