Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курсовой проект - Интеллектуальный анализ рынка LCD мониторов.doc
Скачиваний:
44
Добавлен:
02.05.2014
Размер:
1.49 Mб
Скачать

2.1.4 Построение деревьев решений

Система See5/C5.0 предназначена для анализа больших баз данных, содержащих до сотни тысяч записей и до сотни числовых или номинальных полей. Результат работыSee5/C5.0 выражается в виде деревьев решении и мно­жестваif-then-правил.

Задача See5/C5.0 состоит в предсказании диагностического класса какого-либо объекта по значениям его признаков. При этом,See5/C5.0 конструирует классификатор в виде дерева решений, которому, в свою очередь, может быть по­ставлено в соответствие некоторое множество логических правил.

Файл имен переменных для компонентного анализа vk.namesвыглядит следующим образом:

Class.

Class: 1, 2, 3.

Yrk: 250,260,270,300,350,370,400,420,450,500.

Kontr: 350,450,500,550,600,650,700,800.

Gor: 120,140,150,160,170.

VertV: continuous.

VertN: continuous.

time: continuous.

ves: continuous.

Potr: continuous.

Price: continuous.

Целевой признак Classпринимает три значения: 1 − первый класс, 2 − второй класс, 3 − третий класс. Затем описывается совокупность признаков:Yrkяркость, Kontrконтрастность, Gorгоризонтальный угол обзора, VertVвертикальный угол обзора (верхний),VertNвертикальный угол обзора (нижний), time – время отклика,vesвес, Potrпотребление энергии, Price - цена.

Файл данных vk.data, который имеет следующий вид:

1,260,450,160,80,80,16,5.0,42,7550

2,250,450,160,70,70,16,6.3,40,8000

3,300,700,160,80,80,8,6.0,40,5715

1,250,550,160,80,80,8,4.9,40,6768

1,250,500,160,80,80,8,4.9,40,6227

1,250,550,160,80,80,8,4.9,40,6768

1,250,600,160,80,80,8,4.2,30,6768

1,250,500,160,80,80,8,4.9,40,6738

1,250,550,160,80,80,8,4.9,38,6768

3,300,700,170,85,85,8,5.6,40,7580

3,300,700,170,85,85,8,5.6,42,7580

3,300,700,160,80,80,12,5.3,38,7731

1,250,500,160,80,80,8,5.3,36,7370

1,250,500,160,80,80,8,5.3,40,7520

3,300,700,170,85,85,8,4.1,40,6768

2,250,550,160,70,70,12,4.9,40,8513

2,300,550,160,70,70,12,6.1,38,8122

1,250,500,160,80,80,16,4.5,36,8355

2,300,450,160,70,70,16,4.0,42,8912

2,250,450,160,70,70,16,4.8,40,7952

1,250,500,160,80,80,12,4.3,38,6467

1,250,500,160,80,80,12,4.3,38,6136

2,250,450,120,70,70,16,5.0,40,8000

2,300,500,150,70,65,13,6.5,36,8000

2,350,350,160,60,60,14,3.5,38,8000

2,250,500,140,65,65,13,3.8,40,5866

3,300,600,160,80,80,12,5.2,42,8579

2,250,500,140,60,70,8,5.0,40,7640

3,300,500,160,80,80,8,6.0,40,8152

3,450,800,170,85,85,25,5.0,42,12780

2,250,500,140,60,70,8,6.0,42,7640

2,300,500,140,65,65,8,4.7,38,8964

3,300,650,160,80,80,8,4.7,40,8332

1,300,600,160,80,80,4,3.8,36,6557

1,300,500,160,80,80,8,3.8,38,6272

2,300,500,140,65,65,8,4.7,40,7971

2,500,600,140,65,65,8,4.2,42,8783

2,400,600,150,65,65,8,4.3,46,8272

2,400,500,150,67.5,67.5,4,4.8,38,9114

2,400,500,150,75,60,6,5.0,38,9385

2,400,500,150,70,65,8,4.8,40,8392

2,300,500,150,67.5,67.5,12,4.6,42,5986

2,300,500,150,67.5,67.5,8,4.6,36,6136

2,300,500,150,67.5,67.5,12,4.6,38,6227

2,300,500,150,67.5,67.5,12,4.3,40,6016

2,300,500,150,67.5,67.5,8,4.3,42,8152

2,370,350,160,60,60,8,6.0,36,7670

3,420,500,160,80,80,8,6.1,38,10468

2,270,600,140,62.5,62.5,8,6.0,40,8600

2,300,500,140,70,70,12,5.3,42,8600

На первом этапе обработки данных обычно используются параметры систе­мы, установленные по умолчанию. Результаты построения начального дерева ре­шений приведены в таблице 2.6

Таблица 2.6

Результаты построения начального дерева ре­шений

See5 [Release 2.02a] Fri Apr 28 13:05:53 2006

Options:

Rule-based classifiers

Class specified by attribute `Class'

Read 50 cases (10 attributes) from lcd.data

Decision tree:

VertN <= 70: 2 (26)

VertN > 70:

:...Yrk in 270,350,370,400,500: 1 (0)

Yrk = 250: 1 (11)

Yrk = 260: 1 (1)

Yrk = 420: 3 (1)

Yrk = 450: 3 (1)

Yrk = 300:

:...ves <= 3.8: 1 (2)

ves > 3.8: 3 (8)

Rules:

Rule 1: (24/10, lift 2.1)

VertN > 70

-> class 1 [0.577]

Rule 2: (26, lift 1.9)

VertN <= 70

-> class 2 [0.964]

Rule 3: (8, lift 4.5)

Yrk = 300

VertN > 70

ves > 3.8

-> class 3 [0.900]

Rule 4: (1, lift 3.3)

Yrk = 420

-> class 3 [0.667]

Rule 5: (1, lift 3.3)

Yrk = 450

-> class 3 [0.667]

Default class: 2

Evaluation on training data (50 cases):

Decision Tree Rules

---------------- ----------------

Size Errors No Errors

7 0( 0.0%) << 5 0( 0.0%) <<

(a) (b) (c) <-classified as

---- ---- ----

14 (a): class 1

26 (b): class 2

10 (c): class 3

Time: 0.3 secs

Файл данных vk.dataсодержит 50 объектов, каждый из которых описан девятью признаками.

В следующих строках изображено построенное дерево решений. Его можно интерпретировать следующим образом: «Если Вертикальный угол обзора (нижний)меньше или равен 70 – то класс 2 (26 объектов), иначе, еслиЯркость равна 250, 260, 270, 350, 370, 400, 500 илиЯркостьравна 300 иВес меньше или равен 3.8 кг – то класс 1 (14 объектов), еслиЯркостьравна 420, 450 илиЯркостьравна 300 иВес больше 3.8 кг– то класс 3».

Каждая ветка дерева заканчивается указанием номера класса, к которому она принадлежит. Например, самая первая ветка заканчивается записью 2 (26). Это означает, что данной ветке соответствует 26 объектов из определенного 2 класса. Аналогично для дочерних веток.

В следующем разделе отчета приводятся характеристики сконструированного классификатора, оцениваемые по обучающей выборке. Здесь мы видим, что построенное дерево решений имеет 7 веток (Size= 7).

В завершающей части дается таблица с детальным разбором результатов классификации. Исходя из данных, можно сказать, что из класса 1 правильно классифицируются 14 объектов, в классе 2 правильно классифицируется 26 объекта, в классе 3 правильно классифицируются 10 объектов.

Количество сработавших правил равно 5, ошибок извлечения объектов не наблюдалось (0.0%).