
- •Методичні вказівки
- •Содержание
- •Введение Справочные сведения
- •Лабораторная работа №1 Знакомство с программой интеллектуального анализа данных Weka
- •1.1 Цель работы
- •1.2 Основные теоретические сведения
- •1.2.1 Начало работы
- •1.2.2 Модуль Explorer
- •1.2.3 Загрузка и предварительная обработка данных (Preprocess)
- •1.2.4 Классификация (Classify)
- •1.2.5 Кластеризация (Cluster)
- •1.2.6 Ассоциативные правила (Associate)
- •1.2.7 Отбор признаков (Selecting attributes)
- •1.2.8 Визуализация (Visualizing)
- •2.3 Задание на лабораторную работу
- •3.1.1 Загрузить набор данных ‘weather.Nominal.Arff’ в weka и запустить алгоритм классификации Id3. Ответить на вопросы:
- •Література
1.2.4 Классификация (Classify)
Вверху вкладки «Classify» (Классификация) находится область выбора классификатора «Classifier». Выбор и настройка параметров классификатора подобна выбору фильтра предварительной обработки данных.
Результат применения выбранного классификатора будет протестирован согласно параметров, заданных в области «Test Options».
На панели «Test options» определяется метод тестирования полученного классификатора: на обучающей выборке (use training set), на тестовой выборке из отдельного файла (supplied test set), по блокам (cross-validation), с помощью разделения исходной выборки на обучение и контроль (percentage split). При выборе некоторых опций придётся указать параметры тестирования. Например, при выборе «cross-validation» надо указать, на сколько блоков (фолдов) разбивать выборку. К примеру, если указать 10 фолдов, то выборка будет разделена на 10 равных частей, затем 9 частей будет исользовано для обучения и 1 для тестированаия. Процесс будет повторен 10 раз, а результаты усреднены.
Очень полезная кнопка «More options», которая позволяет выбрать вид отчёта об обучении классификатора. Рассмотрим параметры, которые можно задать:
Output model. Выводится модель классификации на полной обучающей выборке, поэтому результаты могут быть просмотрены и визуализированы.
Output per-class stats. Точность/эффективность и истина/ложь статистики для каждого класса.
Output entropy evaluation measures. Оценка энтропии на критериях.
Output confusion matrix. Матрица неточностей предсказания классификатора.
Store predictions for visualization . Предсказания классификатора сгруппированы таким образом, чтобы их можно было визуализировать.
Output predictions . Предсказанные значения классов для тестовой выборки.
Output additional attributes . В случае если вместе с предсказанными значениями необходимо вывести дополнительные признаки. Например, если необходимо вывести ID признак для определения неправильно классифицированных объектов
Cost- sensitive evaluation. Ошибка классификации определяется с учетом матрицы ценности.
Random seed for xval/% Split. Данный параметр определяет случайных сид (seed), который используется при рандомизации данных перед их разделением.
Preserve order for % Split. Данный параметр отменяет рандомизацию данных перед их разделением на обучающую и тестовую выборку.
Output source code . Если классификатор может вывести построенную модель в виде исходного кода на языке Java, можно задать для нее имя класса.
В WEKA классификаторы спроектированы на предсказание единственного «класса», которые является целевым признаком в задаче классификации. Некоторые классификаторы могут быть обучены для предсказания номинальных классов (классификация), другие могут быть обучены только для предсказания числовых классов (задача регрессии). Кроме того, есть классификаторы, решающие оба типа задач. По умолчанию в качестве целевого берется последний признак в списке данных. При необходимости целевой признак можно изменить на панели «Test options».
Процесс обучения классификатора начинается нажатием на кнопку «Start». Пока классификатор занят обучением, маленькая птичка в строке статуса двигается. Процесс обучения можно остановить в любой момент нажатием кнопки «Stop».
Когда процесс обучения закончен, справа в области «Classifier output» появляется информация с результатами обучения и тестирования, а также заполняется область «Result list».
Текст в области «Classifier output» содержит информацию, разбитую на несколько секций:
Run information. Содержит параметры схемы обучения, имя отношения, экземпляры, признаки и параметры тестирования.
Classifier model (full training set). Текстовое представление модели классификации, полученной в ходе обучения.
Результаты выбранной стратегии обучения разбиты на следующие секции:
Summary. Статистическая информация, подводящая итог точности классификации для проверочных экземпляров.
Detailed Accuracy By Class. Более детальная информация по каждому классу.
Confusion Matrix. Показывает количество экземпляров, отнесенных к каждому классу. Элементы показывают количество тестовых экземпляров, чей истинный класс является строкой и чей предсказанный класс является колонкой..
После обучения нескольких классификаторов область «Result List» будет содержать несколько записей. Левый щелчок мышью на записи позволяет перемещаться между результатами анализа.
Правый щелчок на записи вызывает контекстное меню следующего содержания:
View in main window. Показать результаты в главном окне (равноценно левому щелчку).
View in separate window. Открывает независимое окно с результатами.
Save result buffer. Выводит диалоговое окно, позволяющее сохранить результаты в текстовом файле.
Load model. Загружает предварительно обученную модель из бинарного файла.
Save model. Сохраняет обученную модель в бинарный файл. Объект сохраняется в виде сериализированного ява объекта.
Re-evaluate model on current test set. Использует обученную модель для тестирования ее еффективности на наборе данных , загруженном при помощи пункта «Set» в панели «Test option».
Visualize classifier errors. Выводит окно с графиком, визуализирующим результаты классификации. Правильно классифицированные экземпляры обозначаются крестиками, а неправильно классифицированные - квадратиками.
Visualize tree or Visualize graph. Дает графическое представление структуры классификационной модели, если такое возможно (например, для деревьев решений и Байесовских сетей). Графическое представление возможно только для байесовских сетей. В графе для деревьев решений, щелчок правой кнопкой мыши на пустой области выводит контекстное меню. Щелкнув на узле дерева можно получить обучающие экземпляры.
Visualize margin curve. Generates a plot illustrating the prediction margin. The margin is defined as the difference between the probability predicted for the actual class and the highest probability predicted for the other classes. For example, boosting algorithms may achieve better performance on test data by increasing the margins on the training data.
Visualize threshold curve. Generates a plot illustrating the tradeoffs in prediction that are obtained by varying the threshold value between classes. For example, with the default threshold value of 0.5, the predicted probability of ‘positive’ must be greater than 0.5 for the instance to be predicted as ‘positive’. The plot can be used to visualize the precision/recall tradeoff, for ROC curve analysis (true positive rate vs false positive rate), and for other types of curves.
Visualize cost curve. Генерирует график, который дает явное представление об ожидаемых затратах, как описано в работе Drummond and Holte (2000).
Опции неактивны, если они не могут быть применены к данным результатам..
ROC-кривая (Receiver operating characteristic, операционная характеристика приёмника) – график, позволяющий оценить качество бинарной классификации, отображает зависимость доли верных положительных классификаций от доли ложных положительных классификаций при варьировании порога решающего правила. Также известна как кривая ошибок. Анализ классификаций с применением ROC-кривых называется ROC-анализом.
Количественную интерпретацию ROC даёт показатель AUC (area under ROC curve) – площадь, ограниченная ROC-кривой и осью доли ложных положительных классификаций. Чем выше показатель AUC, тем качественнее классификатор, при этом значение 0,5 демонстрирует непригодность выбранного метода классификации (соответствует случайному гаданию).