Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ТПР. Всё в 1 файле / Прикладные Инст сист.pdf
Скачиваний:
299
Добавлен:
15.09.2014
Размер:
1.43 Mб
Скачать

Отметим, что в приведенной таблице узлы с номерами 3 и 5 идентифицируются как терминальные, так как в них не выполняется разбиение. Следует отметить также знак константы разбиения, например, – 67.75 для разбиения в узле 1. На древовидном графе условие разбиения записывается как LONGITUDЕ ≤ 67,75, а не в эквивалентной форме –67,75 + LONGITUDЕ ≤ 0. Это делается для экономии места на графике.

Решающее правило, представленное

деревом классификации на рис. 9.1.

формулируется следующим образом:

 

Если значение координаты LONGITUDЕ ≥ 67,75 или значение координаты LONGITUDЕ ≤ 62,5, то возникший ураган относится к классу, иначе ураган относится к классу TROP

Когда выполняется разбиение по одной переменной, предикторные переменные могут быть ранжированы в диапазоне 0–100, исходя из их потенциальной важности для оценки зависимой переменной – номера класса. В рассматриваемом примере долгота – очень важная характеристика, широта – относительно важная (рис. 9.2).

Ранжировка

100

80

60

40

20

0 LONGITUD LATITUDE

Предикторная переменная

Рис. 9.2. Ранжированная важность предикторных переменных (Зависимая переменная Class, шкала значений ранжировки от 0 = низкое до 100 = высокое

9.3. Вычислительные задачи древообразных классификаторов

В процессе построения дерева классификации необходимо решить следующие четыре основные задачи:

1)определение качества предсказания,

2)выбор разбиений,

3)определение правила прекращения разбиения,

4)нахождение дерева «правильного размера».

9.3.1. Определение качества предсказания

Пусть c j – штраф за ошибочную классификацию, когда верна гипотеза H j (j = 1, 2) о

том, что объект принадлежит классу с номером j. Функция потерь Q определяется следующим образом [15].

На практике ошибки первого и второго рода не всегда эквивалентны. Так возникает взвешенная ошибка классификации

Q = c1 π1 α + c2 π2 β,

49

где c j – штраф за ошибку, когда верна гипотеза H j (j = 1, 2). Вероятность δ ошибочной классификации может быть записана как

δ = Е ( yk ˆy ( xk ))2 /п.

(9.2)

Здесь y = j, когда верна гипотеза j = 1, 2;

ˆy (X) = j, когда принимаем гипотезу H j ,

Е(·) – математическое ожидание.

Пусть y и ˆy (Х) определяются как выше и пусть

 

 

0

 

0

qc

 

 

, если y ˆy

 

,c

= c1

(Х) = 1.

1

2

 

 

 

 

 

c2

 

1

Тогда по аналогии с (9.2) ошибка классификации равна

Q = E qc1,c2 (X).

Возьмем в качестве меры качества классификации из Rt классификатора At

Q ( Rt , At ) = E ( q At (X) | Х Rt ).

При этом чем Q меньше, тем классификация лучше.

В алгоритме разбиения CART оценки качества разбиения используется индекс Gini, являющийся показателем неопределенности в узле. Если набор данных Т содержит данные n классов, тогда индекс Gini определяется как:

n

Gini (Т) = 1 – pi2 ,

i=1

где pi – вероятность (относительная частота) класса i в T.

Если набор Т разбивается на две части Т1 и Т2 с числом объектов в каждом N1 и N2 соответственно, тогда показатель качества разбиения будет равен:

Ginisplit (Т) = NN1 Gini (Т1) + NN2 Gini (Т2).

Наилучшим считается то разбиение, для которого Ginisplit(T) минимально.

Обозначим N – число объектов в узле – предке, L, R – число объектов соответственно в левом и правом потомке, li и ri – число экземпляров i-го класса в левом/правом потомке. Тогда качество разбиения оценивается по следующей формуле:

~

1

n

1

n

Gsplit =

 

li2 +

 

ri2 max

L

R

 

i=1

i=1

 

 

 

~

В итоге, лучшим будет то разбиение, для которого величина Gsplit максимальна.

9.3.2. Выбор разбиений

Следующим шагом в построении дерева классификации является выбор предикторных переменных, которые используются для разбиения объектов в узле на два множества объектов, соответствующих левой и правой ветви (левому и правому дочерним узлам).

Разбиение начинается с корневого узла, далее образуются дочерние узлы до тех пор, пока не будет завершен процесс разбиения. Вектор предикторных (предсказывающих) переменных, подаваемый на вход дерева, может содержать как числовые (порядковые), так и категоризованные номинальные переменные. В каждом узле разбиение может производиться двумя способами:

1)по одной переменной или

2)по значению линейной функции предсказывающих переменных.

50

Если переменная числового типа, то в узле формируется правило вида xi c, где с – некоторый порог, который чаще всего выбирается как среднее арифметическое двух соседних упорядоченных значений переменной xi обучающей выборки. Если переменная категориального типа, то в узле формируется правило xi V(xi), где V(xi) – некоторое непустое подмножество множества значений переменной xi в обучающей выборке. Следовательно, для n значений числовой переменной необходимо сравнить n – 1 разбиение,

а для категориального (2n-1 – 1). На каждом шаге построения дерева последовательно сравниваются все возможные разбиения для всех переменных и выбирается переменная, обеспечивающая наилучшее разбиение.

Для каждого узла вычисляются Р–значения для проверки значимости связи номера класса с уровнями каждой предикторной переменной. Для категоризованных предикторов Р–значения вычисляются с помощью хи-квадрат теста независимости классов и уровней категоризованной переменной в рассматриваемом узле.

Для порядковых предикторов Р–значения вычисляются с помощью однофакторного дисперсионного анализа. В этом случае устанавливается зависимость номера класса и значениями порядкового предиктора в рассматриваемом узле. Если наименьшее вычисленное Р–значение меньше, чем заданный по умолчанию уровень значимости 0.05 для множественного сравнения Бонферрони или меньше пороговых значений, заданных пользователем, в качестве переменной для разбиения выбирается переменная с наименьшим Р–значением. Если Р–значения меньше порогового значения не найдены, то проверяется гипотеза о равенстве дисперсий с помощью робастного критерия Левена.

9.3.3. Определение правила прекращения разбиения

Используются три способа прекращения разбиения.

1.«Чистая» классификация. В древовидных классификаторах не устанавливаются пределы для числа разбиений. При «чистой» классификации разбиение прекращается, когда

вкаждом терминальном узле будут содержаться объекты только из одного класса. Такой способ на практике применяется редко, так как переменные, характеризующие реальные объекты, могут быть измерены с ошибками или «зашумлены».

2.Задание минимального числа объектов п. Разбиение прекращается, когда в каждом терминальном узле будут содержаться объекты только из одного класса или число объектов из других классов не будет превышать заданного значения п.

3.Задание доли объектов. Разбиение прекращается, когда в каждом терминальном узле будут содержаться объекты только из одного класса или число объектов из других классов не будет превышать заданной доли от объема класса.

9.3.4. Нахождение дерева «правильного размера»

Размер дерева определяется числом его узлов. Если дерево очень большое, записать решающее правило оказывается чрезвычайно сложно, оно становится громоздким и теряет выразительность и компактность. Поэтому возникает необходимость использовать для принятия решения дерево не слишком слож6ное, но не слишком проигрывающее в точности классификации. Для выбора дерева «правильного размера» из всех возможных деревьев можно использовать две стратегии.

Первая стратегия состоит в формировании дерева, размер которого определяется пользователем на основании знаний предыдущих исследований, ранее полученной диагностической информации, опыта, интуиции и т.д. Другая стратегия заключается в использовании специальных автоматических процедур отсечения дерева.

В первой стратегии размер формируемого дерева определяется пользователем с помощью правила прекращения разбиений. Для этой цели задается доля объектов в терминальном узле, которая позволит дереву расти до нужных размеров.

51