Добавил:
t.me Инфо для ГУАП студентов от меня: https://kafaka.notion.site/99e6d9b70ca74f7baef3daea17839e5a Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Z9411_КафкаРС_ИИС_ЛР5

.docx
Скачиваний:
7
Добавлен:
10.11.2024
Размер:
632.65 Кб
Скачать

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

федеральное государственное автономное образовательное учреждение высшего образования

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»

ИНСТИТУТ НЕПРЕРЫВНОГО И ДИСТАНЦИОННОГО ОБРАЗОВАНИЯ

КАФЕДРА 82

ОЦЕНКА

ПРЕПОДАВАТЕЛЬ

доцент

В. С. Блюм

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

ЛАБОРАТОРНАЯ РАБОТА №5

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ. МЕТОД ДЕРЕВЬЕВ ПРИНЯТИЯ РЕШЕНИЙ

по дисциплине: Интеллектуальные информационные системы

РАБОТУ ВЫПОЛНИЛ

СТУДЕНТ гр. №

Z9411

Р. С. Кафка

номер группы

подпись, дата

инициалы, фамилия

Студенческий билет №

2019/3603

Шифр ИНДО

Санкт-Петербург 2024

Цель работы: разобрать применения метода принятия решений к заданному набору данных.

Ход работы:

Запустим программу RapidMiner.

Откроем во вкладке Repository папку Samples. В Samples откроем папку processes и затем откроем папку 01_Learner (рисунок 1).

Рисунок 1 – Папка 01_Learner

Затем в папке 01_Learner откроем файл 01_DecisionTree (рисунок 2).

Рисунок 2 – Файл 01_DecisionTree

Получим результат (рисунок 3).

Рисунок 3 – Результат

Нажмём кнопку Start и посмотрим результаты (рисунок 4)

Рисунок 4 – Выполнение процесса

Перейдём во вкладку Description (рисунок 5).

Рисунок 5 – Вкладка Description

Вернёмся в вид Design, нажмём на процесс Retrieve ЛКП и увидим список хранилищей (рисунок 6).

Рисунок 6 - Список хранилищей

Откроем Golf (рисунок 7).

Рисунок 7 - Golf

Откроем статистику (рисунок 8).

Рисунок 8 - Статистика

Добавим модификацию метода принятия решений Decision Stump к Продаже игр.

Соединим out с tra и mod c res (рисунок 9).

Рисунок 9 – Соединение с Decision Stump

Запустим процесс (рисунок 10).

Рисунок 10 – Graph

На примере рисунка 11 видно, что благодаря такому представлению данных моего набора можно легко проследить до нижних уровней соотношение каждого элемента. Например, в промежуток с середины 2013 года по середину 2014 продажи игр на платформе PS4 превысило 17365 тысяч экземпляров (рисунок 11)

Рисунок 11 – ветвь построенное дерева

Перейдём в Description (рисунок 12).

Рисунок 22 – Description

Откроем Golf-Testset (рисунок 13).

Рисунок 33 – Testset

Перейдём в Статистику (рисунок 14).

Рисунок 44 – Статистика

Контрольные вопросы

  1. Что такое дерево решений?

Деревья решений – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение (рис.15).

Под правилом понимается логическая конструкция, представленная в виде "если ... то ...".

Рисунок 15 – Пример дерева решений

  1. Какие три типа задач решаются методом деревьев решений?

Область применения деревья решений в настоящее время широка, но все задачи, решаемые этим аппаратом могут быть объединены в следующие три класса:

  • Описание данных: Деревья решений позволяют хранить информацию о данных в компактной форме, вместо них мы можем хранить дерево решений, которое содержит точное описание объектов.

  • Классификация: Деревья решений отлично справляются с задачами классификации, т.е. отнесения объектов к одному из заранее известных классов. Целевая переменная должна иметь дискретные значения.

  • Регрессия: Если целевая переменная имеет непрерывные значения, деревья решений позволяют установить зависимость целевой переменной от независимых(входных) переменных. Например, к этому классу относятся задачи численного прогнозирования (предсказания значений целевой переменной).

  1. Какие существуют алгоритмы, реализующие деревья решений?

На сегодняшний день существует значительное число алгоритмов, реализующих деревья решений CART, C4.5, NewId, ITrule, CHAID, CN2 и т.д. Но наибольшее распространение и популярность получили следующие два:

CART (Classification and Regression Tree) – это алгоритм построения бинарного дерева решений – дихотомической классификационной модели. Каждый узел дерева при разбиении имеет только двух потомков. Как видно из названия алгоритма, решает задачи классификации и регрессии.

C4.5 – алгоритм построения дерева решений, количество потомков у узла не ограничено. Не умеет работать с непрерывным целевым полем, поэтому решает только задачи классификации.

Большинство из известных алгоритмов являются "жадными алгоритмами". Если один раз был выбран атрибут, и по нему было произведено разбиение на подмножества, то алгоритм не может вернуться назад и выбрать другой атрибут, который дал бы лучшее разбиение. И поэтому на этапе построения нельзя сказать даст ли выбранный атрибут, в конечном итоге, оптимальное разбиение.

  1. Какие критерии разбиения узлов дерева вам известны?

Теоретико-информационный критерий

Алгоритм C4.5, усовершенствованная версия алгоритма ID3 (Iterative Dichotomizer), использует теоретико-информационный подход. Для выбора наиболее подходящего атрибута, предлагается следующий критерий:

Gain(X) = Info(T) − Infoz(X) (1)

где Info(T) – энтропия множества T, а

Infoz(T) = * Info(Ti) , (2)

Множества T1, T2, ... Tn получены при разбиении исходного множества T по проверке X. Выбирается атрибут, дающий максимальное значение по критерию (1).

Впервые эта мера была предложена Р. Куинленом в разработанном им алгоритме ID3. Кроме вышеупомянутого алгоритма C4.5, есть еще целый класс алгоритмов, которые используют этот критерий выбора атрибута.

Статистический критерий

Алгоритм CART использует так называемый индекс Gini (в честь итальянского экономиста Corrado Gini), который оценивает "расстояние" между распределениями классов.

Gini(c) = 1− , (3)

Где c – текущий узел, а pj – вероятность класса в узле c.

CART был предложен Л.Брейманом (L.Breiman) и др.

  1. Преимущества использования деревьев решений?

  • быстрый процесс обучения;

  • генерация правил в областях, где эксперту трудно формализовать свои знания;

  • извлечение правил на естественном языке;

  • интуитивно понятная классификационная модель;

  • высокая точность прогноза, сопоставимая с другими методами (статистика, нейронные сети);

  • построение непараметрических моделей.

Вывод

В ходе лабораторной работы были изучены основные понятия и принципы работы деревьев решений. Дерево решений - это графическое представление возможных решений, которое делает процесс принятия решений более наглядным. Метод деревьев решений применяется для решения трех типов задач: классификации, регрессии и кластеризации. Существуют различные алгоритмы для реализации деревьев решений, включая ID3, C4.5 и CART. Критерии разбиения узлов включают энтропию, индекс Джини и ошибку классификации.

Был проведен анализ данных с использованием метода деревьев решений. Это позволило увидеть преимущества использования деревьев решений, включая простоту интерпретации результатов, способность обрабатывать как числовые, так и категориальные данные, а также устойчивость к пропущенным значениям и выбросам.

Метод деревьев решений является мощным инструментом для интеллектуального анализа данных. Он предлагает простой и эффективный способ принятия решений, основанный на данных, и может быть применен в широком диапазоне областей, от маркетинга до медицины. Однако, как и любой метод, он имеет свои ограничения и должен использоваться с осторожностью, учитывая возможность переобучения и необходимость правильного подбора параметров. В целом, выполнение этой лабораторной работы позволило глубже понять и ценить применение метода деревьев решений в интеллектуальном анализе данных.