- •Методичні вказівки
- •Содержание
- •Введение
- •Знакомство с программой интеллектуального анализа данных weka и подготовка данных Цель работы
- •Основные теоретические сведения
- •Формат файлов данных arff
- •Предварительная обработка данных
- •Отбор атрибутов
- •Пропущенные значения
- •Нормализация данных
- •Дискретизация числовых атрибутов
- •Выборка (sampling)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Параметры настройки алгоритмов классификации
- •Методы оценки ошибок классификации
- •Критерии сравнения работы классификаторов
- •Интерпретация результатов классификации в weka (Classifier output)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Методы оценки качества прогнозирования
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Параметры настройки алгоритмов
- •Интерпретация результатов кластеризации в weka (Clusterer output)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Интерпретация результатов
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Содержание отчета
- •Литература
- •Приложение а. Интерфейс программы weka
- •Основное окно программы
- •Модуль Explorer
- •Загрузка и предварительная обработка данных (Preprocess)
- •Классификация (Classify)
- •Кластеризация (Cluster)
- •Ассоциативные правила (Associate)
- •Отбор атрибутов (Selecting attributes)
- •Визуализация (Visualizing)
- •Модуль Experimenter
- •Модуль Knowledge flow
- •Приложение б. Варианты индивидуальных заданий
- •Приложение в. Контрольная работа для заочников
Знакомство с программой интеллектуального анализа данных weka и подготовка данных Цель работы
Ознакомиться и получить навыки работы с библиотекой data mining алгоритмов WEKA. На практике изучить методы предварительной обработки данных для задач интеллектуального анализа данных.
Основные теоретические сведения
Основные возможности GUI интерфейса программы WEKA приведены в приложении А.
Программа позволяет загрузить и предобработать данные (Preprocess), решить задачу классификации или регрессии (Classify), кластеризации (Cluster), поиска ассоциативных правил (Associate), отбора атрибутов (Select Attributes) и визуализации (Visualize).
Данные для анализа в WEKA могут быть загружены из файла, из удаленного источника, из базы данных либо сгенерированы.
Формат файлов данных arff
Основной формат файлов данных, который используется в WEKA, – это ARFF (attribute relation file format). В каталоге data установленной программы можно посмотреть примеры arff-файлов.
ARFF-файл является ASCII текстовым файлом, который описывает список объектов с общими атрибутами. Структурно такой файл разделяется на две части: заголовок и данные.
В заголовке описывается имя данных и их метаданные (имена атрибутов и их типы). Например,
% комментарий
@RELATION myproblem
@ATTRIBUTE firstfeature REAL
@ATTRIBUTE class {A,B}
Во второй части представлены сами данные. Например,
@ DATA
1.1,А
Заголовок содержит информацию об имени файла и метаданные о представленных в нем данных. Имя описывается в следующем формате:
@relation <имя>
Именем может быть любая последовательность символов. Если имя содержит пробелы, то оно должно быть взято в кавычки. Например,
@relation weather
@relation ‘weather nominal’
Метаданные описывают атрибуты данных, представленных в файле. Информация о каждом атрибуте записывается в отдельной строке и включает имя атрибута и его тип. Очевидно, что все имена должны быть уникальными. Порядок их описания должен совпадать с порядком колонок в описании самих данных. Общий формат описания атрибута следующий:
@attribute <имя атрибута> <тип атрибута>
Например,
@attribute temperature real
Имя атрибута должно начинаться с символа @. В случае если в имени содержатся пробелы, оно должно быть взято в кавычки.
Поле <тип> может иметь одно из следующих значений:
real;
integer;
<категория>;
string;
date [<формат даты>].
Типы real и integer являются числовыми. Категориальные типы описываются перечнем категорий (возможных значений). Например:
@attribute outlook {sunny, overcast, rainy}
Данные представляются в ARFF формате в виде списка значений атрибутов объектов после тега @data. Каждая строка списка соответствует одному объекту, каждая колонка – атрибуту, описанному в заголовке. Часто в терминологии data mining такие строки называют векторами.
Данные могут содержать пропущенные (неизвестные) значения, которые представляются в файле символом «?». Например:
@data
4.4,?,1.5,?,Iris-setosa
Строковые данные, в случае если они содержат разделяющие символы, должны браться в кавычки. Например,
@relation LCCvsLCSH
@attribute LCC string
@attribute LCSH string
@data
AS262, 'Science - Soviet Union - History.'
При описании даты можно указать формат, в котором она записывается. Даты также должны браться в кавычки.
@relation Timestamps
@attribute timestamp DATE "yyyy-MM-dd HH:mm:ss"
@data
"2001-04-03 12:12:12"
