Методичка по лабораторной работе №3 / ПримерОтчета
.doc
Министерство высшего и профессионального образования
Российской федерации
Уфимский государственный авиационный технический университет
Кафедра технической кибернетики
Отчет по лабораторной работе №3
по курсу «Системы искусственного интеллекта»
на тему «Изучение процесса построения деревьев решений»
Выполнили:
Проверила: Макарова Е.А.
Уфа 2005г
Лабораторная работа №3
«Изучение процесса построения деревьев решений»
Цель работы: изучение алгоритмов и методики построения деревьев решений в системах See5/C5 и ИС Deductor с целью выявления закономерностей типа «Если – То».
Исходные данные представлены в таблице 1.
Таблица 1
№ |
class |
educ |
Tech |
pay |
market |
culture |
1 |
1 |
1 |
1 |
1 |
0 |
1 |
2 |
1 |
1 |
0 |
1 |
1 |
1 |
3 |
1 |
1 |
1 |
0 |
0 |
1 |
4 |
1 |
0 |
1 |
1 |
1 |
1 |
5 |
1 |
1 |
0 |
1 |
1 |
0 |
6 |
1 |
1 |
1 |
1 |
0 |
0 |
7 |
2 |
0 |
0 |
1 |
0 |
0 |
8 |
2 |
0 |
1 |
1 |
0 |
1 |
9 |
2 |
0 |
0 |
0 |
0 |
0 |
10 |
2 |
0 |
1 |
0 |
0 |
1 |
11 |
2 |
1 |
1 |
0 |
0 |
1 |
12 |
2 |
1 |
0 |
0 |
0 |
1 |
Известны данные о состоянии малых предприятий:
educ – уровень образования работников (educ=1 – высокий; educ=0 – низкий);
tech – уровень используемых технологий (tech=1 – высокий; tech=0 – низкий);
pay – заработная плата (pay=1 – высокая; pay=0 – низкая);
market – доля рынка (market=1 – высокая; market=0 – низкая);
culture – организационная культура (culture=1 – высокая; culture=0 – низкая).
Задание:
1. Построить классифицирующее дерево решений в системах SEE5/C5 и ИС Deductor.
2. Выполнить процесс построения дерева решений на основе алгоритма CLS вручную.
Ход выполнения работы:
1. а) Результаты построения дерева в программе See5/C5 выглядят следующим образом.
На рисунке 1 представлено окно перекрестных ссылок с результатом классификации в виде дерева решений, где в левой половине нарисовано построенное дерево решений, а в правой – перечисляются объекты, попавшие на ту или иную ветвь дерева.
На рисунке 2 представлено окно результатов построения дерева решений с указанием ошибки классификации. Здесь дается следующая информация:
1) классифицирующей переменной служит class;
2) прочтенный файл данных содержит 12 объектов, каждый из которых описан 6 признаками;
3) дерево решений, где каждая строчка заканчивается указанием № класса и записью вида (z) – количество объектов в классе или (n/m) – количество объектов в классе/количество ошибочно попавших в класс объектов;
4) характеристики сконструированного классификатора – количество веток дерева и ошибка классификации;
5) таблица детального разбора результатов классификации – к 1-му классу правильно относится 6 объектов, ко 2-му классу правильно относятся 4 объекта, а 2 объекта ошибочно относятся к классу 1.
Дерево решений можно преобразовать в набор правил «Если – То», т.к. результаты в таком виде являются более простыми и понятными. На рисунке 3 представлено окно перекрестных ссылок для детального рассмотрения множества правил.
На основе построенного дерева можно охарактеризовать классы. К первому классу относятся предприятия с высокой долей рынка и высоким уровнем образования работников. Ко второму классу – с низкой долей рынка и низким уровнем образования работников.
б) Результаты построения дерева в программе ИС Deductor для той же обучающей выборки представлены на рисунке 4, где COL1 – class, COL2 – educ, COL3 – tech, COL4 – pay, COL5 – market, COL6 – culture. На рисунках 5-6 представлено окно «Свойства дерева».
По результатам построения дерева можно охарактеризовать классы следующим образом: 1 класс характеризуется высокой долей рынка и высоким уровнем образования работников, 2 класс характеризуется низким уровнем образования работников, низкой долей рынка и низкой заработной платой. По сравнению с предыдущим деревом полученное дерево решений более подробное.
2. Процесс построения дерева решений на основе алгоритма CLS представлен ниже.
Дано: x1 – educ, x2 – tech, x3 – pay, x4 – market, x5 – culture.
|
x1 |
x2 |
x3 |
x4 |
x5 |
|
1 |
1 |
1 |
1 |
0 |
1 |
1 класс |
2 |
1 |
0 |
1 |
1 |
1 |
|
3 |
1 |
1 |
0 |
0 |
1 |
|
4 |
0 |
1 |
1 |
1 |
1 |
|
5 |
1 |
0 |
1 |
1 |
0 |
|
6 |
1 |
1 |
1 |
0 |
0 |
|
7 |
0 |
0 |
1 |
0 |
0 |
2 класс |
8 |
0 |
1 |
1 |
0 |
1 |
|
9 |
0 |
0 |
0 |
0 |
0 |
|
10 |
0 |
1 |
0 |
0 |
1 |
|
11 |
1 |
1 |
0 |
0 |
1 |
|
12 |
1 |
0 |
0 |
0 |
1 |
Построение:
Шаг1: k11=5/6, k12=4/6, k13=5/6, k14=3/6, k15=4/6
k21=2/6, k22=3/6, k23=2/6, k24=0/6, k25=4/6
F=| k1j – k2j|→1
x1, x3, x4 – обладают одинаковой F=3/6 => выбираем x4.
x4=1 – окончательное решение: {2, 4, 5} – класс 1
Шаг2: x4=0
|
x1 |
x2 |
x3 |
x4 |
x5 |
1 |
1 |
1 |
1 |
0 |
1 |
3 |
1 |
1 |
0 |
0 |
1 |
6 |
1 |
1 |
1 |
0 |
0 |
7 |
0 |
0 |
1 |
0 |
0 |
8 |
0 |
1 |
1 |
0 |
1 |
9 |
0 |
0 |
0 |
0 |
0 |
10 |
0 |
1 |
0 |
0 |
1 |
11 |
1 |
1 |
0 |
0 |
1 |
12 |
1 |
0 |
0 |
0 |
1 |
k1j |
3/3 |
3/3 |
2/3 |
0/3 |
2/3 |
k2j |
2/6 |
3/6 |
2/6 |
0/6 |
4/6 |
x1=0: {7,8,9,10} – класс 2
Шаг3: x1=1
|
x1 |
x2 |
x3 |
x4 |
x5 |
1 |
1 |
1 |
1 |
0 |
1 |
3 |
1 |
1 |
0 |
0 |
1 |
6 |
1 |
1 |
1 |
0 |
0 |
11 |
1 |
1 |
0 |
0 |
1 |
12 |
1 |
0 |
0 |
0 |
1 |
k1j |
3/3 |
3/3 |
2/3 |
0/3 |
2/3 |
k2j |
2/2 |
1/2 |
0/2 |
0/2 |
2/2 |
Выбираем x3 => x3=1: {1,6} – класс 1
Шаг4: x3=0
|
x1 |
x2 |
x3 |
x4 |
x5 |
3 |
1 |
1 |
0 |
0 |
1 |
11 |
1 |
1 |
0 |
0 |
1 |
12 |
1 |
0 |
0 |
0 |
1 |
k1j |
1 |
1 |
0 |
0 |
1 |
k2j |
1 |
1/2 |
0 |
0 |
1 |
Выбираем x2 => x2=0: {12} – класс 2
Шаг5: x2=1
|
x1 |
x2 |
x3 |
x4 |
x5 |
3 |
1 |
1 |
0 |
0 |
1 |
11 |
1 |
1 |
0 |
0 |
1 |
Получили состояние неопределенности. Результаты в виде дерева решений представлены на рисунке 7.
Вывод: в ходе лабораторной работы были изучены алгоритмы и методики построения деревьев решений в системах See5/C5 и ИС Deductor. Также было построено дерево решений по алгоритму CLS. Результаты построений в основном совпадают, за исключением незначительных различий. В целом 1 класс предприятий характеризуется высокой долей рынка и высоким уровнем образования работников, а 2 класс – низким уровнем образования работников и низкой долей рынка.
Рисунок 1 – Дерево решений в окне перекрестных ссылок
Рисунок 2 – Результаты построения дерева решений с указанием ошибки классификации
Рисунок 3 – Детальный разбор полученных правил в окне перекрестных ссылок
Рисунок 4 – Дерево решений
Рисунок 5 – Окно «Свойства дерева» закладка «Параметры»
Рисунок 6 – Окно «Свойства дерева» закладка «Таблица сопряженности»
Рисунок 7 – Дерево решений по алгоритму CLS