Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
LR_IAD_rus_2016.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
606.78 Кб
Скачать
  1. Знакомство с программой интеллектуального анализа данных weka и подготовка данных Цель работы

Ознакомиться и получить навыки работы с библиотекой data mining алгоритмов WEKA. На практике изучить методы предварительной обработки данных для задач интеллектуального анализа данных.

Основные теоретические сведения

Основные возможности GUI интерфейса программы WEKA приведены в приложении А.

Программа позволяет загрузить и предобработать данные (Preprocess), решить задачу классификации или регрессии (Classify), кластеризации (Cluster), поиска ассоциативных правил (Associate), отбора атрибутов (Select Attributes) и визуализации (Visualize).

Данные для анализа в WEKA могут быть загружены из файла, из удаленного источника, из базы данных либо сгенерированы.

Формат файлов данных arff

Основной формат файлов данных, который используется в WEKA, – это ARFF (attribute relation file format). В каталоге data установленной программы можно посмотреть примеры arff-файлов.

ARFF-файл является ASCII текстовым файлом, который описывает список объектов с общими атрибутами. Структурно такой файл разделяется на две части: заголовок и данные.

В заголовке описывается имя данных и их метаданные (имена атрибутов и их типы). Например,

% комментарий

@RELATION myproblem

@ATTRIBUTE firstfeature REAL

@ATTRIBUTE class {A,B}

Во второй части представлены сами данные. Например,

@ DATA

1.1,А

Заголовок содержит информацию об имени файла и метаданные о представленных в нем данных. Имя описывается в следующем формате:

@relation <имя>

Именем может быть любая последовательность символов. Если имя содержит пробелы, то оно должно быть взято в кавычки. Например,

@relation weather

@relation ‘weather nominal’

Метаданные описывают атрибуты данных, представленных в файле. Информация о каждом атрибуте записывается в отдельной строке и включает имя атрибута и его тип. Очевидно, что все имена должны быть уникальными. Порядок их описания должен совпадать с порядком колонок в описании самих данных. Общий формат описания атрибута следующий:

@attribute <имя атрибута> <тип атрибута>

Например,

@attribute temperature real

Имя атрибута должно начинаться с символа @. В случае если в имени содержатся пробелы, оно должно быть взято в кавычки.

Поле <тип> может иметь одно из следующих значений:

  • real;

  • integer;

  • <категория>;

  • string;

  • date [<формат даты>].

Типы real и integer являются числовыми. Категориальные типы описываются перечнем категорий (возможных значений). Например:

@attribute outlook {sunny, overcast, rainy}

Данные представляются в ARFF формате в виде списка значений атрибутов объектов после тега @data. Каждая строка списка соответствует одному объекту, каждая колонка – атрибуту, описанному в заголовке. Часто в терминологии data mining такие строки называют векторами.

Данные могут содержать пропущенные (неизвестные) значения, которые представляются в файле символом «?». Например:

@data

4.4,?,1.5,?,Iris-setosa

Строковые данные, в случае если они содержат разделяющие символы, должны браться в кавычки. Например,

@relation LCCvsLCSH

@attribute LCC string

@attribute LCSH string

@data

AS262, 'Science - Soviet Union - History.'

При описании даты можно указать формат, в котором она записывается. Даты также должны браться в кавычки.

@relation Timestamps

@attribute timestamp DATE "yyyy-MM-dd HH:mm:ss"

@data

"2001-04-03 12:12:12"

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]