
5
.docxМИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
федеральное государственное автономное образовательное учреждение высшего образования
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
Кафедра 41
ПРЕПОДАВАТЕЛЬ
канд. техн. наук, |
|
|
|
В. С. Блюм |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
Контрольная работа
Интеллектуальный анализ данных. Метод деревьев принятия решений
по курсу: Интеллектуальные информационные системы
СТУДЕНТКА ГР. № |
Z0411 |
|
21.01.25 |
|
М. В. Карелина |
|
|
номер группы |
|
подпись, дата |
|
инициалы, фамилия |
Номер студенческого билета: 2020/3477
Санкт-Петербург
2025
Цель работы: разобрать применения метода принятия решений к заданному набору данных.
Ход работы:
Запустим программу RapidMiner.
Откроем во вкладке Repository папку Samples. В Samples откроем папку processes и затем откроем папку 01_Learner (Рис. 1).
Рисунок 1 – Папка 01_Learner
Затем в папке 01_Learner откроем файл 01_DecisionTree. Получим результат (Рис. 2).
Рисунок 2 – Результат
Нажмём кнопку Start и посмотрим результаты (Рис. 3).
Рисунок 3 – Выполнение процесса
Перейдём во вкладку Description (рисунок 4).
Рисунок 4 – Вкладка Description
Вернёмся в вид Design, нажмём на процесс Retrieve ЛКП и увидим список хранилищей (Рис. 5).
Рисунок 5 - Список хранилищей
Откроем Golf (Рис. 6).
Рисунок 6 - Golf
Откроем статистику (рисунок 7).
Рисунок 7 – Статистика
Далее для выполнения задания были загрудинные новые данные о статистике семейного положения и вредных привычках миллениалов и зеллениалов. (Рис. 8)
Рисунок 8 – Загрузка нового листа Excel
Добавим модификацию метода принятия решений ID3. Для этого нам понабилось удалить все числовые атрибуты с помощью SelectAttributes, а также установить метки используя SetRole (Рис. 9).
Рисунок 9 – Соединение с ID3
Запустим процесс (рисунок 10).
Рисунок 10 – ID3 (дерево решений)
Перейдём в Description (Рис. 11).
Рисунок 11 – Description
Контрольные вопросы
1. Что такое деревья решений?
Деревья решений представляют собой метод, который позволяет визуализировать правила и процесс принятия решений в виде иерархической структуры. В этом подходе каждому объекту или набору данных соответствует единственный узел, на основе которого принимается решение о классификации или регрессии. Дерево начинается с корневого узла и делится на подузлы, пока не будет достигнут конечный результат. Это наглядное представление не только облегчает понимание результатов моделирования, но и позволяет исследователям и специалистам в области данных легко интерпретировать процесс принятия решений.
2. Какие задачи решают деревья решений?
Метод деревьев решений используется для решения различных задач в области машинного обучения, в первую очередь, это задачи классификации, где объекты отнесены к заранее известным классам. Кроме того, деревья решений применяются для численного прогнозирования, которое заключается в предсказании значений целевой переменной на основе входных данных. Эти задачи могут включать в себя широкий спектр приложений, например, от медицинской диагностики и кредитного анализа до прогнозирования продаж, и исследования рынка. Метод также позволяет эффективно хранить данные в сжатом виде, упрощая обработку и анализ больших массивов данных.
3. Какие алгоритмы используются для построения деревьев решений?
Существует множество алгоритмов для создания деревьев решений, каждый из которых имеет свои особенности и области применения. Среди наиболее популярных алгоритмов можно выделить CART (Classification and Regression Trees), C4.5, NewId, ITrule, CHAID и CN2. Эти алгоритмы различаются подходами к разбиению данных, способом обработки пропусков и критериями остановки, что позволяет выбрать наиболее подходящий инструмент в зависимости от специфики задачи и свойства данных.
4. Как происходит разбиение узла в дереве решений?
Разбиение узлов в деревьях решений осуществляется по различным критериям, среди которых можно выделить теоретико-информационный и статический. Теоретико-информационный подход основывается на использовании концепции информации, такой как уменьшение неопределенности (энтропия) при разбиении, а статический — на статистических мерах, таких как дисперсия или среднее значение. Эти критерии помогают определить, насколько эффективно узел может выше разбиение увеличить предсказательную способность модели.
5. Каковы преимущества использования деревьев решений?
Деревья решений обладают рядом значительных преимуществ. Во-первых, они обеспечивают высокую точность прогнозов, что делает их надежным выбором для многих задач в различных отраслях. Во-вторых, процесс обучения деревьев решений быстр и не требует значительных вычислительных ресурсов. Третье, они могут генерировать правила в областях, где экспертам трудно формализовать свои знания, что особенно полезно в доменах, насыщенных неопределенностью. Более того, деревья решений позволяют извлекать правила на естественном языке, что делает результаты доступными для широкой аудитории. Наконец, они предлагают интуитивно понятную классификационную модель, что облегчает интерпретацию результатов даже для тех, кто не имеет глубоких знаний в статистике или машинном обучении.
Вывод
В ходе лабораторной работы было изучено основные понятия и принципы работы деревьев решений. Дерево решений представляет собой графическое отображение возможных решений, что делает процесс принятия решений более наглядным. Метод деревьев решений применяется для решения трех типов задач: классификации, регрессии и кластеризации. Для реализации деревьев решений существуют различные алгоритмы, включая ID3, C4.5 и CART.
Был проведен анализ данных с использованием метода деревьев решений, что дало возможность увидеть преимущества данного подхода, включая простоту интерпретации результатов, способность обрабатывать как числовые, так и категориальные данные, а также устойчивость к пропущенным значениям и выбросам.
Метод деревьев решений является мощным инструментом для интеллектуального анализа данных. Он предлагает простой и эффективный способ принятия решений, основанный на данных, и может быть применен в различных областях, таких как маркетинг и медицина. Однако, как и любой метод, он имеет свои ограничения и должен использоваться с осторожностью, принимая во внимание возможность переобучения и необходимость правильного подбора параметров. В целом, выполнение этой лабораторной работы позволило более глубоко понять и оценить применение метода деревьев решений в интеллектуальном анализе данных.