- •Введение
- •1 Идентификация проблемной области
- •1.1 Постановка задачи
- •1.2 Назначение эс
- •1.3 Класс эс по решаемой задаче
- •2 Концептуализация предметной области
- •2.1 Извлечение знаний
- •2.1.1 Анализ методом главных компонент
- •2.1.2 Кластерный анализ
- •2.1.3 Кластерный анализ с помощью Карт Кохонена
- •2.1.4 Построение деревьев решений
- •2.2 Структурирование проблемной области
- •3 Формализация базы знании
- •3.1 Краткий обзор модели представления знаний
- •3.2 Обоснование выбора модели представления знаний
- •3.3 Таблицы решений
- •3.4 Сеть вывода
- •4 База знаний
- •Заключение
- •Приложение а – Исходная выборка исследуемых видеокарт
- •Приложение б – Принадлежность наблюдений к классам
2.1.4 Построение деревьев решений
Система See5/C5.0 предназначена для анализа больших баз данных, содержащих до сотни тысяч записей и до сотни числовых или номинальных полей. Результат работыSee5/C5.0 выражается в виде деревьев решении и множестваif-then-правил.
Задача See5/C5.0 состоит в предсказании диагностического класса какого-либо объекта по значениям его признаков. При этом,See5/C5.0 конструирует классификатор в виде дерева решений, которому, в свою очередь, может быть поставлено в соответствие некоторое множество логических правил.
Файл имен переменных для компонентного анализа vk.namesвыглядит следующим образом:
Class.
Class: 1, 2, 3.
Yrk: 250,260,270,300,350,370,400,420,450,500.
Kontr: 350,450,500,550,600,650,700,800.
Gor: 120,140,150,160,170.
VertV: continuous.
VertN: continuous.
time: continuous.
ves: continuous.
Potr: continuous.
Price: continuous.
Целевой признак Classпринимает три значения: 1 − первый класс, 2 − второй класс, 3 − третий класс. Затем описывается совокупность признаков:Yrk – яркость, Kontr – контрастность, Gor – горизонтальный угол обзора, VertV – вертикальный угол обзора (верхний),VertN – вертикальный угол обзора (нижний), time – время отклика,ves – вес, Potr – потребление энергии, Price - цена.
Файл данных vk.data, который имеет следующий вид:
1,260,450,160,80,80,16,5.0,42,7550
2,250,450,160,70,70,16,6.3,40,8000
3,300,700,160,80,80,8,6.0,40,5715
1,250,550,160,80,80,8,4.9,40,6768
1,250,500,160,80,80,8,4.9,40,6227
1,250,550,160,80,80,8,4.9,40,6768
1,250,600,160,80,80,8,4.2,30,6768
1,250,500,160,80,80,8,4.9,40,6738
1,250,550,160,80,80,8,4.9,38,6768
3,300,700,170,85,85,8,5.6,40,7580
3,300,700,170,85,85,8,5.6,42,7580
3,300,700,160,80,80,12,5.3,38,7731
1,250,500,160,80,80,8,5.3,36,7370
1,250,500,160,80,80,8,5.3,40,7520
3,300,700,170,85,85,8,4.1,40,6768
2,250,550,160,70,70,12,4.9,40,8513
2,300,550,160,70,70,12,6.1,38,8122
1,250,500,160,80,80,16,4.5,36,8355
2,300,450,160,70,70,16,4.0,42,8912
2,250,450,160,70,70,16,4.8,40,7952
1,250,500,160,80,80,12,4.3,38,6467
1,250,500,160,80,80,12,4.3,38,6136
2,250,450,120,70,70,16,5.0,40,8000
2,300,500,150,70,65,13,6.5,36,8000
2,350,350,160,60,60,14,3.5,38,8000
2,250,500,140,65,65,13,3.8,40,5866
3,300,600,160,80,80,12,5.2,42,8579
2,250,500,140,60,70,8,5.0,40,7640
3,300,500,160,80,80,8,6.0,40,8152
3,450,800,170,85,85,25,5.0,42,12780
2,250,500,140,60,70,8,6.0,42,7640
2,300,500,140,65,65,8,4.7,38,8964
3,300,650,160,80,80,8,4.7,40,8332
1,300,600,160,80,80,4,3.8,36,6557
1,300,500,160,80,80,8,3.8,38,6272
2,300,500,140,65,65,8,4.7,40,7971
2,500,600,140,65,65,8,4.2,42,8783
2,400,600,150,65,65,8,4.3,46,8272
2,400,500,150,67.5,67.5,4,4.8,38,9114
2,400,500,150,75,60,6,5.0,38,9385
2,400,500,150,70,65,8,4.8,40,8392
2,300,500,150,67.5,67.5,12,4.6,42,5986
2,300,500,150,67.5,67.5,8,4.6,36,6136
2,300,500,150,67.5,67.5,12,4.6,38,6227
2,300,500,150,67.5,67.5,12,4.3,40,6016
2,300,500,150,67.5,67.5,8,4.3,42,8152
2,370,350,160,60,60,8,6.0,36,7670
3,420,500,160,80,80,8,6.1,38,10468
2,270,600,140,62.5,62.5,8,6.0,40,8600
2,300,500,140,70,70,12,5.3,42,8600
На первом этапе обработки данных обычно используются параметры системы, установленные по умолчанию. Результаты построения начального дерева решений приведены в таблице 2.6
Таблица 2.6
Результаты построения начального дерева решений
See5 [Release 2.02a] Fri Apr 28 13:05:53 2006
Options:
Rule-based classifiers
Class specified by attribute `Class'
Read 50 cases (10 attributes) from lcd.data
Decision tree:
VertN <= 70: 2 (26)
VertN > 70:
:...Yrk in 270,350,370,400,500: 1 (0)
Yrk = 250: 1 (11)
Yrk = 260: 1 (1)
Yrk = 420: 3 (1)
Yrk = 450: 3 (1)
Yrk = 300:
:...ves <= 3.8: 1 (2)
ves > 3.8: 3 (8)
Rules:
Rule 1: (24/10, lift 2.1)
VertN > 70
-> class 1 [0.577]
Rule 2: (26, lift 1.9)
VertN <= 70
-> class 2 [0.964]
Rule 3: (8, lift 4.5)
Yrk = 300
VertN > 70
ves > 3.8
-> class 3 [0.900]
Rule 4: (1, lift 3.3)
Yrk = 420
-> class 3 [0.667]
Rule 5: (1, lift 3.3)
Yrk = 450
-> class 3 [0.667]
Default class: 2
Evaluation on training data (50 cases):
Decision Tree Rules
---------------- ----------------
Size Errors No Errors
7 0( 0.0%) << 5 0( 0.0%) <<
(a) (b) (c) <-classified as
---- ---- ----
14 (a): class 1
26 (b): class 2
10 (c): class 3
Time: 0.3 secs
Файл данных vk.dataсодержит 50 объектов, каждый из которых описан девятью признаками.
В следующих строках изображено построенное дерево решений. Его можно интерпретировать следующим образом: «Если Вертикальный угол обзора (нижний)меньше или равен 70 – то класс 2 (26 объектов), иначе, еслиЯркость равна 250, 260, 270, 350, 370, 400, 500 илиЯркостьравна 300 иВес меньше или равен 3.8 кг – то класс 1 (14 объектов), еслиЯркостьравна 420, 450 илиЯркостьравна 300 иВес больше 3.8 кг– то класс 3».
Каждая ветка дерева заканчивается указанием номера класса, к которому она принадлежит. Например, самая первая ветка заканчивается записью 2 (26). Это означает, что данной ветке соответствует 26 объектов из определенного 2 класса. Аналогично для дочерних веток.
В следующем разделе отчета приводятся характеристики сконструированного классификатора, оцениваемые по обучающей выборке. Здесь мы видим, что построенное дерево решений имеет 7 веток (Size= 7).
В завершающей части дается таблица с детальным разбором результатов классификации. Исходя из данных, можно сказать, что из класса 1 правильно классифицируются 14 объектов, в классе 2 правильно классифицируется 26 объекта, в классе 3 правильно классифицируются 10 объектов.
Количество сработавших правил равно 5, ошибок извлечения объектов не наблюдалось (0.0%).