Отчет по лабораторной работе №3
.doc
Министерство высшего и профессионального образования
Российской федерации
Уфимский государственный авиационный технический университет
Кафедра технической кибернетики
Отчет по лабораторной работе №3
по курсу «Системы искусственного интеллекта»
на тему «Изучение процесса построения деревьев решений»
Выполнили: Ст. гр. Т28-420
Проверила: Макарова Е.А.
Уфа 2005г
Лабораторная работа №3
«Изучение процесса построения деревьев решений»
Цель работы: изучение алгоритмов и методики построения деревьев решений в системах See5/C5 и ИС Deductor с целью выявления закономерностей типа «Если – То».
Исходные данные представлены в таблице 1.
Таблица 1
№ |
class |
educ (d) |
tech (t) |
pay (p) |
market (m) |
culture (c) |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
2 |
1 |
1 |
1 |
0 |
1 |
1 |
3 |
1 |
1 |
1 |
0 |
0 |
1 |
4 |
1 |
0 |
1 |
0 |
0 |
1 |
5 |
1 |
1 |
0 |
1 |
1 |
0 |
6 |
1 |
1 |
1 |
1 |
0 |
0 |
7 |
2 |
0 |
0 |
1 |
1 |
0 |
8 |
2 |
0 |
1 |
1 |
0 |
1 |
9 |
2 |
0 |
0 |
0 |
0 |
0 |
10 |
2 |
0 |
1 |
0 |
0 |
1 |
11 |
2 |
1 |
0 |
0 |
1 |
1 |
12 |
2 |
1 |
0 |
0 |
0 |
1 |
Известны данные о состоянии малых предприятий:
educ – уровень образования работников (educ=1 – высокий; educ=0 – низкий);
tech – уровень используемых технологий (tech=1 – высокий; tech=0 – низкий);
pay – заработная плата (pay=1 – высокая; pay=0 – низкая);
market – доля рынка (market=1 – высокая; market=0 – низкая);
culture – организационная культура (culture=1 – высокая; culture=0 – низкая).
Задание:
1. Построить классифицирующее дерево решений в системах SEE5/C5 и ИС Deductor.
2. Выполнить процесс построения дерева решений на основе алгоритма CLS вручную.
Ход выполнения работы:
1. а) Результаты построения дерева в программе See5/C5 выглядят следующим образом.
На рисунке 1 представлено окно перекрестных ссылок с результатом классификации в виде дерева решений, где в левой половине нарисовано построенное дерево решений, а в правой – перечисляются объекты, попавшие на ту или иную ветвь дерева.
На рисунке 2 представлено окно результатов построения дерева решений с указанием ошибки классификации. Здесь дается следующая информация:
1) классифицирующей переменной служит class;
2) прочтенный файл данных содержит 12 объектов, каждый из которых описан 6 признаками;
3) дерево решений, где каждая строчка заканчивается указанием № класса и записью вида (z) – количество объектов в классе или (n/m) – количество объектов в классе/количество ошибочно попавших в класс объектов;
4) характеристики сконструированного классификатора – количество веток дерева и ошибка классификации;
5) таблица детального разбора результатов классификации – к 1-му классу правильно относится 6 объектов, ко 2-му классу правильно относятся 4 объекта, а 2 объекта ошибочно относятся к классу 1.
Дерево решений можно преобразовать в набор правил «Если – То», т.к. результаты в таком виде являются более простыми и понятными. На рисунке 3 представлено окно перекрестных ссылок для детального рассмотрения множества правил.
На основе построенного дерева можно охарактеризовать классы. К первому классу относятся предприятия с высокой долей рынка и высоким уровнем образования работников. Ко второму классу – с низкой долей рынка и низким уровнем образования работников.
б) Результаты построения дерева в программе ИС Deductor для той же обучающей выборки представлены на рисунке 4, где COL1 – class, COL2 – educ, COL3 – tech, COL4 – pay, COL5 – market, COL6 – culture. На рисунках 5-6 представлено окно «Свойства дерева».
По результатам построения дерева можно охарактеризовать классы следующим образом: 1 класс характеризуется высокой долей рынка и высоким уровнем образования работников, 2 класс характеризуется низким уровнем образования работников, низкой долей рынка и низкой заработной платой. По сравнению с предыдущим деревом полученное дерево решений более подробное.
2. Процесс построения дерева решений на основе алгоритма CLS представлен ниже.
Дано: x1 – educ, x2 – tech, x3 – pay, x4 – market, x5 – culture.
|
d |
t |
p |
m |
c |
|
1 |
1 |
1 |
1 |
1 |
1 |
1 класс |
2 |
1 |
1 |
0 |
1 |
1 |
|
3 |
1 |
1 |
0 |
0 |
1 |
|
4 |
0 |
1 |
0 |
0 |
1 |
|
5 |
1 |
0 |
1 |
1 |
0 |
|
6 |
1 |
1 |
1 |
0 |
0 |
|
7 |
0 |
0 |
1 |
1 |
0 |
2 класс |
8 |
0 |
1 |
1 |
0 |
1 |
|
9 |
0 |
0 |
0 |
0 |
0 |
|
10 |
0 |
1 |
0 |
0 |
1 |
|
11 |
1 |
0 |
0 |
1 |
1 |
|
12 |
1 |
0 |
0 |
0 |
1 |
Построение:
Шаг1: k11=5/6, k12=5/6, k13=3/6, k14=3/6, k15=4/6
k21=2/6, k22=2/6, k23=2/6, k24=2/6, k25=4/6
F=| k1j – k2j|→1
d, t – обладают одинаковой F=3/6 => выбираем x4.
Шаг2: d=0
|
d |
t |
p |
m |
с |
4 |
0 |
1 |
0 |
0 |
1 |
7 |
0 |
0 |
1 |
1 |
0 |
8 |
0 |
1 |
1 |
0 |
1 |
9 |
0 |
0 |
0 |
0 |
0 |
10 |
0 |
1 |
0 |
0 |
1 |
k1j |
0 |
1 |
0 |
0 |
1/6 |
k2j |
0 |
2/3 |
2/4 |
1/4 |
2/3 |
Выбираем t => t=1: {4,8,10} – класс 1
t =0 : {7, 9} – класс 2
Шаг3: d=1
|
d |
t |
p |
m |
c |
1 |
1 |
1 |
1 |
1 |
1 |
2 |
1 |
1 |
0 |
1 |
1 |
3 |
1 |
1 |
0 |
0 |
1 |
5 |
1 |
0 |
1 |
1 |
0 |
6 |
1 |
1 |
1 |
0 |
0 |
11 |
1 |
0 |
0 |
1 |
1 |
12 |
1 |
0 |
0 |
0 |
1 |
K1j |
5/5 |
4/5 |
3/5 |
3/5 |
3/5 |
k2j |
2/2 |
0 |
0/2 |
1/2 |
2/2 |
Выбираем t
Шаг4: t=0
|
d |
t |
p |
m |
c |
5 |
1 |
0 |
1 |
1 |
0 |
11 |
1 |
0 |
0 |
1 |
1 |
12 |
1 |
0 |
0 |
0 |
1 |
k1j |
1/1 |
0/1 |
1/1 |
1/1 |
0/0 |
k2j |
2/2 |
0/2 |
0/2 |
1/2 |
2/2 |
Выбираем p => p=0: {11,12} – класс 2
P=1: {5} – класс 1
Шаг5: t=1
|
d |
t |
p |
m |
с |
1 |
1 |
1 |
1 |
1 |
1 |
2 |
1 |
1 |
0 |
1 |
1 |
3 |
1 |
1 |
0 |
0 |
1 |
6 |
1 |
1 |
1 |
0 |
0 |
k1j |
4/4 |
4/4 |
2/4 |
2/4 |
3/4 |
k2j |
0/0 |
0/0 |
0/0 |
0/0 |
0/0 |
Выбираем d => d=1: {1,2,3,6} – класс 1
d=0: {4,8,10}
Шаг6: d=0
|
d |
t |
p |
m |
с |
4 |
0 |
1 |
0 |
0 |
1 |
8 |
0 |
1 |
1 |
0 |
1 |
10 |
0 |
1 |
0 |
0 |
1 |
k1j |
0/1 |
1/1 |
0/1 |
0/1 |
1/1 |
k2j |
0/2 |
2/2 |
1/2 |
0/2 |
2/2 |
Выбираем p => p=0: {4,10} – класс 1
p=1: {8} – класс 2
Получили состояние неопределенности. Результаты в виде дерева решений представлены на рисунке 7.
Вывод: в ходе лабораторной работы были изучены алгоритмы и методики построения деревьев решений в системах See5/C5 и ИС Deductor. Также было построено дерево решений по алгоритму CLS. Результаты построений в основном совпадают, за исключением незначительных различий. В целом 1 класс предприятий характеризуется высокой долей рынка и высоким уровнем образования работников, а 2 класс – низким уровнем образования работников и низкой долей рынка.
Рисунок 1 – Дерево решений в окне перекрестных ссылок
Рисунок 2 – Результаты построения дерева решений с указанием ошибки классификации
Рисунок 3 – Окно «Свойства дерева» закладка «Параметры»
Рисунок 4 – Окно «Свойства дерева» закладка «Таблица сопряженности»
Рисунок 5 – Дерево решений по алгоритму CLS