Деревья решений (decision trees)

Деревья решения являются одним из наиболее популярных подходов к решению задач Data Mining. Они создают иерархическую структуру классифицирующих правил типа «ЕСЛИ..., ТО...», имеющую вид дерева (это похоже на определитель видов из ботаники или зоологии). Для того чтобы решить, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид «значение параметра А больше х?». Если ответ положительный, осуществляется переход к правому узлу следующего уровня, если отрицательный — то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом.

Популярность подхода связана с наглядностью и понятностью. Но очень остро для деревьев решений стоит проблема значимости. Дело в том, что отдельным узлам на каждом новом построенном уровне дерева соответствует все меньшее и меньшее число записей данных — дерево дробит данные на большое количество частных случаев. Чем больше этих частных случаев, чем меньше обучающих примеров попадает в каждый такой частный случай, тем менее уверенной становится их классификация. Если построенное дерево слишком «кустистое» — состоит из неоправданно большого числа мелких веточек — оно не будет давать статистически обоснованных ответов. Как показывает практика, в большинстве систем, использующих деревья решений, эта проблема не находит удовлетворительного решения. Кроме того, общеизвестно, и это легко показать, что деревья решений дают полезные результаты только в случае независимых признаков. В противном случае они лишь создают иллюзию логического вывода.

Структуры, имеющие вид дерева, которые представляют множество решений. Эти решения генерируют правила для классификации множества данных. Специфические методы деревьев решений включают деревья классификации и регрессии (classification and Regression Trees (CRT) и chi Square Automatic Interaction Detection (x²— автоматическое взаимодействие обнаружения) CHAID. Например, предположим, что страховая компания хочет выявить, какие атрибуты из длинного списка наилучшим образом предсказывают высокий спрос. Алгоритм может определить, что наиболее значимый атрибут— это семейное состояние и разбить популяцию на два кластера: одинокие и состоящие в браке. Следующая по важности характеристика может быть возрастная группа, тип автомобиля и место жительства (рис. 10.9). Алгоритм может приписывать статистическую значимость каждому разветвлению для того, чтобы сделать предсказания более точными.

В конце процесса алгоритм открывает сегменты покупателей. Алгоритмы с деревом решений могут также быть использованы для классификации: например, рассмотрение атрибутов покупателей вновь образованной страховой компании для того, чтобы приписать их к группе риска.

Довольно много систем используют этот метод. Самыми распространенными являются See5/C5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIP1NA (University of Lyon, Франция), 1DIS (Information Discovery, США). Стоимость этих систем варьируется от 1 до 10 тыс. долл.

Рис.,10.9, Дерево решений, помогающее страховой компании предсказывать риск

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 199 10 11 12 13 14 15 16 17 18 19 > Следующая >>>

Соседние файлы в папке Романов В.П. Интеллектуальные информационные системы в экономике

#
02.05.2014478.21 Кб232ГЛАВА 1.doc
#
02.05.2014796.16 Кб190ГЛАВА 10.doc
#
02.05.2014270.85 Кб141ГЛАВА 11.doc
#
02.05.2014177.15 Кб140ГЛАВА 12.doc
#
02.05.2014491.01 Кб127ГЛАВА 2.doc
#
02.05.2014836.61 Кб142ГЛАВА 3.doc
#
02.05.20141.06 Mб127ГЛАВА 4.doc