- •Введение
- •1 Идентификация проблемной области
- •2.1.2 Кластерный анализ с применением дендрограмм
- •2.1.3 Кластерный анализ с применением самоорганизующихся карт Кохонена.
- •2.1.4 Построение деревьев решений.
- •2.2 Структурирование проблемной области
- •3 Формализация базы знаний
- •3 1 Краткий обзор модели представления знаний
- •3.2 Обоснование выбора модели представления знаний
- •3.3 Таблицы решений
- •3.4 Сеть вывода
- •4 База знаний
- •Заключение
- •Приложение а – Исходная выборка исследуемых тарифов
- •Приложение б – Принадлежность наблюдений к классам
2.1.4 Построение деревьев решений.
Система See5/C5.0 предназначена для анализа больших баз данных содержащих до сотни тысяч записей и до сотни числовых или номинальых полей. Результат работы See5/C5.0 выражается в виде деревьев решений и множества if – then – правил.
Задача See5/C5.0 состоит в предсказании диагностического класса какого-либо объекта по значениям его признаков. При это See5/C5.0 конструирует классификатор в виде дерева решений, которому, в свою очередь, может быть поставлено в соответствие некоторое множество логистических правил.
Файл имен переменных для компонентного анализа hosting.names выглядит следующий образом:
Class.
Class: 1,2,3
Pricemonth: continuous
Priceyear: continuous
Size: continuous
Traffic: continuous
Service: continuous
VirtualServer: continuous
ftp_account: continuous
Целевой признак Class принимает три значения: 1 – первый класс, 2 – второй класс, 3 – третий класс. Затем описывается совокупность признаков: Pricemonth –цена за месяц, Priceyear – цена за год, Size – выделяемый объем, Traffic – лимит трафика, Service–количество сервисов,VirtualServer–количество виртуальных серверов, ftp_account–количество ftp входов.
Создаем файл данных hosting.data, которые будет использоваться для работы See5 (Приложение Б).
На первом этапе обработки данных обычно используются параметры системы, установленные по умолчанию. Результаты построения начального дерева решений приведены в таблице 2.4
Таблица 2.4
Результаты построения дерева рещений
Дерево решений |
Извлеченные правила |
ftp_account > 50: 3(11/1) ftp_account <= 50: :...Size <= 1000: 1(36/2) Size > 1000: 2 (3)
|
Rule 1: (36/2, lift 1.4) Size <= 1000 ftp_account <= 50 -> class 1 [0.921]
|
Rule 2: (3, lift 6.7) Size > 1000 ftp_account <= 50 -> class 2 [0.800]
| |
Rule 3: (11/1, lift 4.2) ftp_account > 50 -> class 3 [0.846]
| |
Результаты классификации | |
Decision Tree
Size Errors
3 3 (6.0%)
|
(a) (b) (c) ---- ---- ---- 34 (a): class1 2 3 1 (b): class2 10 (c): class3
|
Файл даннных mobile.dataсодержит 50 объектов, каждый из которых описан 8 признаками.
Дерево решений можно проинтерпретировать следующим образом: «Если количество ftpвходов больше 50, то класс 3 (11 объектов), иначе если количествоftpвходов меньше либо равно 50 и объем выделяемой памяти больше 1000 мб, то класс = 2 (3 объекта), иначе если количествоftpвходов меньше или равно 50 и объем выделяемой памяти меньше либо равен 1000 мб, то класс = 1(36 объектов).»
Каждая ветка дерева заканчивается указанием номера класса, к которому она принадлежит. Например, самая первая ветка заканчивается записью 3 (11/1). Это означает, что данной ветке соответствует 11 объектов из определенного 3 класса. Аналогично для дочерних веток.
Исходя из данных таблицы результата классификации, можно сказать, что из класса 1 правильно классифицируются 34 объекта, в классе 2 правильно классифицируется 3 объекта, в классе 3 правильно классифицируются 10 объектов.
Количество сработавших правил равно 3, наблюдались ошибки извлечения объектов(6.0%).