Знакомство с программой интеллектуального анализа данных weka и подготовка данных Цель работы

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Казахский национальный технический университет им. К. И. Сатпаева

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

LR_IAD_rus_2016.docx

Скачиваний:

Добавлен:

01.07.2025

Размер:

606.78 Кб

Скачать

☆

<<< < Предыдущая 12 / 212 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 > Следующая >>>

Знакомство с программой интеллектуального анализа данных weka и подготовка данных Цель работы

Ознакомиться и получить навыки работы с библиотекой data mining алгоритмов WEKA. На практике изучить методы предварительной обработки данных для задач интеллектуального анализа данных.

Основные теоретические сведения

Основные возможности GUI интерфейса программы WEKA приведены в приложении А.

Программа позволяет загрузить и предобработать данные (Preprocess), решить задачу классификации или регрессии (Classify), кластеризации (Cluster), поиска ассоциативных правил (Associate), отбора атрибутов (Select Attributes) и визуализации (Visualize).

Данные для анализа в WEKA могут быть загружены из файла, из удаленного источника, из базы данных либо сгенерированы.

Формат файлов данных arff

Основной формат файлов данных, который используется в WEKA, – это ARFF (attribute relation file format). В каталоге data установленной программы можно посмотреть примеры arff-файлов.

ARFF-файл является ASCII текстовым файлом, который описывает список объектов с общими атрибутами. Структурно такой файл разделяется на две части: заголовок и данные.

В заголовке описывается имя данных и их метаданные (имена атрибутов и их типы). Например,

% комментарий

@RELATION myproblem

@ATTRIBUTE firstfeature REAL

@ATTRIBUTE class {A,B}

Во второй части представлены сами данные. Например,

@ DATA

1.1,А

Заголовок содержит информацию об имени файла и метаданные о представленных в нем данных. Имя описывается в следующем формате:

@relation <имя>

Именем может быть любая последовательность символов. Если имя содержит пробелы, то оно должно быть взято в кавычки. Например,

@relation weather

@relation ‘weather nominal’

Метаданные описывают атрибуты данных, представленных в файле. Информация о каждом атрибуте записывается в отдельной строке и включает имя атрибута и его тип. Очевидно, что все имена должны быть уникальными. Порядок их описания должен совпадать с порядком колонок в описании самих данных. Общий формат описания атрибута следующий:

@attribute <имя атрибута> <тип атрибута>

Например,

@attribute temperature real

Имя атрибута должно начинаться с символа @. В случае если в имени содержатся пробелы, оно должно быть взято в кавычки.

Поле <тип> может иметь одно из следующих значений:

real;
integer;
<категория>;
string;
date [<формат даты>].

Типы real и integer являются числовыми. Категориальные типы описываются перечнем категорий (возможных значений). Например:

@attribute outlook {sunny, overcast, rainy}

Данные представляются в ARFF формате в виде списка значений атрибутов объектов после тега @data. Каждая строка списка соответствует одному объекту, каждая колонка – атрибуту, описанному в заголовке. Часто в терминологии data mining такие строки называют векторами.

Данные могут содержать пропущенные (неизвестные) значения, которые представляются в файле символом «?». Например:

@data

4.4,?,1.5,?,Iris-setosa

Строковые данные, в случае если они содержат разделяющие символы, должны браться в кавычки. Например,

@relation LCCvsLCSH

@attribute LCC string

@attribute LCSH string

@data

AS262, 'Science - Soviet Union - History.'

При описании даты можно указать формат, в котором она записывается. Даты также должны браться в кавычки.

@relation Timestamps

@attribute timestamp DATE "yyyy-MM-dd HH:mm:ss"

@data

"2001-04-03 12:12:12"

<<< < Предыдущая 12 / 212 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025493.99 Кб0Lektsii_Ocnovy_Ekonomicheskoy_Teorii_1-8_R_O (1).docx
#
13.03.20151.52 Mб308lektsii_po_metod_issled_i_kontr_mater.doc
#
01.07.20253.05 Mб13Lektsionny_material.doc
#
01.07.202530.99 Кб0lektsiya 4.docx
#
13.03.2015107.01 Кб30lessons_darbuka.doc
#
01.07.2025606.78 Кб0LR_IAD_rus_2016.docx
#
01.07.2025104.69 Кб0Lukach_Struktura_oborotnikh_koshtiv_turistichno...docx
#
13.03.20153.42 Mб14M-u_KhOiVMS_rus.doc
#
01.05.20251.15 Mб0Macromedia Flash .docx
#
13.03.2015410.14 Кб77Mad bounce II.pdf
#
01.05.2025206.85 Кб0Malik Dastin.doc