2. Метода построениея дерева решений описание метода построения дерева решений

Деревья решений – один из метод автоматического анализа данных. Получаемая модель – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение.[12]

Деревья решений – это метод, который пригоден не только для решения задач классификации, но и для вычислений и поэтому довольно широко применяется в области финансов и бизнеса, где чаще встречаются задачи численного прогноза.[9]

В результате применения метода дерева решений к обучающей выборке данных создается иерархическая структура классифицирующих правил типа «ЕСЛИ... ТО...», имеющая вид дерева. Для того чтобы решить, к какому классу отнести некоторый объект или ситуацию, мы отвечаем на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы могут иметь вид «значение параметра A больше x?» для случая измеряемых переменных или вида «значение переменной В принадлежит подмножеству признаков С». Если ответ положительный, мы переходим к правому узлу следующего уровня, если отрицательный – то к левому узлу; затем снова отвечаем на вопрос, связанный с соответствующим узлом. Таким образом, мы, в конце концов, доходим до одного из оконечных узлов – листьев, где стоит указание, к какому классу (сочетанию признаков) надо отнести рассматриваемый объект. Этот метод хорош тем, что такое представление правил наглядно и его легко понять.

Сегодня наблюдается всплеск интереса к продуктам, применяющим деревья решений. В основном это объясняется тем, что многие коммерческие проблемы решаются ими быстрее, чем алгоритмами нейронных сетей. К тому же они более просты и понятны для пользователей. В то же время нельзя сказать, что деревья решений всегда действуют безотказно: для определенных типов данных они могут оказаться неприемлемыми. В частности, методы дерева решений не очень эффективны, если целевая переменная зависит линейным образом от входных переменных, так как в этом случае дерево должно иметь большое число листьев. Иногда возникают проблемы при обработке непрерывных величин, скажем данных о возрасте или объеме продаж. В этом случае их необходимо группировать и ранжировать. Однако выбранный для ранжирования метод способен случайно скрыть выявляемую закономерность. Например, если группа объединяет людей в возрасте от 25 до 34 лет, то тот факт, что на рубеже 30 лет некий параметр испытывает существенный разрыв, может оказаться скрытым. Этого недостатка не имеет продукт SAS Enterprise Miner в силу того, что реализованные в нем методы построения дерева решений могут автоматически выявлять границу (численный критерий) разделения данных на более однородные подгруппы.

Для деревьев решений очень остро стоит проблема значимости. Дело в том, что отдельным узлам на каждом новом построенном уровне дерева соответствует все меньшее и меньшее число записей данных – дерево может сегментировать данные на большое количество частных случаев. Чем больше этих частных случаев, чем меньше обучающих примеров попадает в каждый такой частный случай, тем менее надежной становится их классификация. Если построенное дерево слишком «кустистое» – состоит из неоправданно большого числа мелких веточек – оно не будет давать статистически обоснованных ответов. Как показывает практика, в большинстве систем, использующих деревья решений, эта проблема не находит удовлетворительного решения. Исключением из этого ряда является упомянутый выше SAS Enterprise Miner, включающий в себя широкий спектр диагностических инструментов, с помощью которых аналитик может выбрать статистически наиболее обоснованную модель из производимого множества деревьев решений и более того – сравнить полученную модель дерева с принципиально другими типами моделей (регрессионной и нейросетевой). [9]

<<< < Предыдущая 1 23 / 53 4 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
15.04.2019276.48 Кб18Технол.хар.бумаги.doc
#
01.05.2019363.52 Кб9технология методичка курсовая.doc
#
15.04.2019841.17 Кб8тиопп 2.docx
#
04.06.20151.02 Mб195ТИПИС.pdf
#
06.08.2019207.57 Кб7тут вроде все.docx
#
20.11.201929.48 Mб14УД_МУ к ЛР 5.doc
#
04.06.20152.33 Mб435Учебное пособие.doc
#
04.06.2015535.4 Кб11Учебный план.rtf
#
04.06.20154.07 Mб121Физика коллоквиум.pdf
#
20.12.20182.42 Mб9физика ответы.doc
#
19.11.2018483.33 Кб188Физика-коллоквиум О_о.doc