Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции по СППР / Лекция 6-7.doc
Скачиваний:
190
Добавлен:
23.03.2016
Размер:
2.2 Mб
Скачать

2. Деревья решений

Деревья решений - это способ представления правил в иерархической, последовательной структуре. На рис. 5.1 изображен пример дерева решений для данных, представленных в табл. 5.1.


Обычно каждый узел дерева включает проверку определенной независимой переменной. Иногда в узле дерева две независимые переменные сравниваются друг с другом или определяется некоторая функция от одной или нескольких переменных.

Если переменная, которая проверяется в узле, принимает категориальные значения, то каждому возможному значению соответствует ветвь, выходящая из узла дерева. Если значением переменной является число, то проверяется, больше или меньше это значение некоторой константы. Иногда область числовых значений разбивают на несколько интервалов. В этом случае выполняется проверка на попадание значения в один из интервалов.

Листья деревьев соответствуют значениям зависимой переменной, т.е. классам. Объект принадлежит определенному классу, если значения его независимых переменных удовлетворяют условиям, записанным в узлах дерева на пути от корня к листу, соответствующему этому классу.

3. Математические функции

Математическая функция выражает отношение зависимой переменной от независимых. В этом случае анализируемые объекты рассматриваются как точки в (n + 1)-мерном пространстве. Тогда переменные объекта ij= {x1, x2, ...,xh,...,xm,y}, рассматривают как координаты, а функция имеет следующий вид:

yi = w0 + w1 x1 +w2 x2 +…+wm xm

где w0, w1…- веса независимых переменных, в поиске которых и состоит задача нахождения классификационной функции.

Очевидно, что все переменные должны быть представлены в виде числовых параметров. Для преобразования логических и категориальных переменных к числовым используют разные способы.

Логические типы, как правило, кодируют цифрами 1 и 0. Истине ставят в соответствие значение 1, а ложь обозначают 0.

Значениями категориальных переменных являются имена возможных состояний изучаемого объекта. Разумеется, таких состояний может быть больше двух. Их имена должны быть перечислены и пронумерованы в списке. В системе каждое имя из списка может быть представлено своим номером. В итоге категориальная переменная преобразуется в числовую переменную. Например, значение переменной наблюдение = {солнце, облачность, дождь} можно заменить значениями {0, 1, 2}.

Другой способ представления исходно категориальной переменной в системе — это замена возможных значений набором двоичных признаков. В наборе столько двоичных признаков, сколько имен содержится в списке возможных состояний объекта. При анализе объекта значение 1 присваивается тому двоичному признаку, который соответствует состоянию объекта. Остальным присваивается значение 0. Например, для переменной наблюдения такими значениями будут: {001, 010, 100}.

Разные алгоритмы решения задачи классификации и регрессии строят и используют различные способы определения значения зависимой переменной.

3. Методы построения правил классификации

3.1. Алгоритм построения 1Rправил

Рассмотрим простейший алгоритм формирования элементарных правил для классификации объекта. Он строит правила по значению одной независимой переменной, поэтому в литературе его часто называют "1 -правило" (1-rule) или кратко lR-алгоритм.

Идея алгоритма очень проста. Для любого возможного значения каждой независимой переменной формируется правило, которое классифицирует объекты из обучающей выборки. При этом в заключительной части правила указывается значение зависимой переменной, которое наиболее часто встречается у объектов с выбранным значением независимой переменной. В этом случае ошибкой правила является количество объектов, имеющих то же значение рассматриваемой переменной, но не относящихся к выбранному классу.

Таким образом, для каждой переменной будет получен набор правил (для каждого значения). Оценив степень ошибки каждого набора, выбирается переменная, для которой построены правила с наименьшей ошибкой.

Для примера, представленного в табл. 1, в результате будут получены правила и их оценки, приведенные в табл. .2.

Таблица .2

Правило

Ошибка

Если (наблюдение = солнце) то (игра = нет)

2/5

Если (наблюдение = облачно) то (игра = да)

0/4

Если (наблюдение = дождь) то (игра = да)

2/5

Если (температура = жарко) то (игра = нет) *

2/4

Если (температура = норма) то (игра = да)

2/6

Если (температура = холодно) то (игра = да)

1/4

Если (влажность = высокая) то (игра = нет)

3/7

Если (влажность = норма) то (игра = да)

1/7

Если (ветер = нет) то (игра = да)

2/8

Если (ветер = есть) то (игра = нет) *

3/6

Если в обучающей выборке встречаются объекты с пропущенными значениями независимых переменных, то алгоритм 1R подсчитывает такие объекты для каждого возможного значения переменной.

Другой проблемой для рассматриваемого алгоритма являются численные значения переменных. Очевидно, что если переменная имеет вещественный тип, то количество возможных значений может быть бесконечно. Для решения этой проблемы всю область значений такой переменной разбивают на интервалы таким образом, чтобы каждый из них соответствовал определенному классу в обучающей выборке. В результате будет получен набор дискретных значений, с которыми может работать данный алгоритм.

Более серьезная проблема рассматриваемого алгоритма - это сверхчувствительность (overfitting). Дело в том, что алгоритм будет выбирать переменные, принимающие наибольшее количество возможных значений, т. к. для них ошибка будет наименьшей. Например, для переменной, являющейся ключом (т. е. для каждого объекта свое уникальное значение), ошибка будет равна нулю. Однако для таких переменных правила будут абсолютно бесполезны; поэтому при формировании обучающей выборки для данного алгоритма важно правильно выбрать набор независимых переменных.

В заключение необходимо отметить, что алгоритм 1R, несмотря на свою простоту, во многих случаях на практике оказывается достаточно эффективным. Это объясняется тем, что многие объекты действительно можно классифицировать лишь по одному атрибуту. Кроме того, немногочисленность формируемых правил позволяет легко понять и использовать полученные результаты.

Соседние файлы в папке Лекции по СППР