Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курсовой проект - Интеллектуальный анализ рынка услуг платного хостинга.doc
Скачиваний:
24
Добавлен:
02.05.2014
Размер:
1.11 Mб
Скачать

2.1.4 Построение деревьев решений.

Система See5/C5.0 предназначена для анализа больших баз данных содержащих до сотни тысяч записей и до сотни числовых или номинальых полей. Результат работы See5/C5.0 выражается в виде деревьев решений и множества if – then – правил.

Задача See5/C5.0 состоит в предсказании диагностического класса какого-либо объекта по значениям его признаков. При это See5/C5.0 конструирует классификатор в виде дерева решений, которому, в свою очередь, может быть поставлено в соответствие некоторое множество логистических правил.

Файл имен переменных для компонентного анализа hosting.names выглядит следующий образом:

Class.

Class: 1,2,3

Pricemonth: continuous

Priceyear: continuous

Size: continuous

Traffic: continuous

Service: continuous

VirtualServer: continuous

ftp_account: continuous

Целевой признак Class принимает три значения: 1 – первый класс, 2 – второй класс, 3 – третий класс. Затем описывается совокупность признаков: Pricemonth –цена за месяц, Priceyear – цена за год, Size – выделяемый объем, Traffic – лимит трафика, Service–количество сервисов,VirtualServer–количество виртуальных серверов, ftp_account–количество ftp входов.

Создаем файл данных hosting.data, которые будет использоваться для работы See5 (Приложение Б).

На первом этапе обработки данных обычно используются параметры системы, установленные по умолчанию. Результаты построения начального дерева решений приведены в таблице 2.4

Таблица 2.4

Результаты построения дерева рещений

Дерево решений

Извлеченные правила

ftp_account > 50: 3(11/1)

ftp_account <= 50:

:...Size <= 1000: 1(36/2)

Size > 1000: 2 (3)

Rule 1: (36/2, lift 1.4)

Size <= 1000

ftp_account <= 50

-> class 1 [0.921]

Rule 2: (3, lift 6.7)

Size > 1000

ftp_account <= 50

-> class 2 [0.800]

Rule 3: (11/1, lift 4.2)

ftp_account > 50

-> class 3 [0.846]

Результаты классификации

Decision Tree

Size Errors

3 3 (6.0%)

(a) (b) (c)

---- ---- ----

34 (a): class1

2 3 1 (b): class2

10 (c): class3

Файл даннных mobile.dataсодержит 50 объектов, каждый из которых описан 8 признаками.

Дерево решений можно проинтерпретировать следующим образом: «Если количество ftpвходов больше 50, то класс 3 (11 объектов), иначе если количествоftpвходов меньше либо равно 50 и объем выделяемой памяти больше 1000 мб, то класс = 2 (3 объекта), иначе если количествоftpвходов меньше или равно 50 и объем выделяемой памяти меньше либо равен 1000 мб, то класс = 1(36 объектов).»

Каждая ветка дерева заканчивается указанием номера класса, к которому она принадлежит. Например, самая первая ветка заканчивается записью 3 (11/1). Это означает, что данной ветке соответствует 11 объектов из определенного 3 класса. Аналогично для дочерних веток.

Исходя из данных таблицы результата классификации, можно сказать, что из класса 1 правильно классифицируются 34 объекта, в классе 2 правильно классифицируется 3 объекта, в классе 3 правильно классифицируются 10 объектов.

Количество сработавших правил равно 3, наблюдались ошибки извлечения объектов(6.0%).