- •Методичні вказівки
- •Содержание
- •Введение
- •Знакомство с программой интеллектуального анализа данных weka и подготовка данных Цель работы
- •Основные теоретические сведения
- •Формат файлов данных arff
- •Предварительная обработка данных
- •Отбор атрибутов
- •Пропущенные значения
- •Нормализация данных
- •Дискретизация числовых атрибутов
- •Выборка (sampling)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Параметры настройки алгоритмов классификации
- •Методы оценки ошибок классификации
- •Критерии сравнения работы классификаторов
- •Интерпретация результатов классификации в weka (Classifier output)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Методы оценки качества прогнозирования
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Параметры настройки алгоритмов
- •Интерпретация результатов кластеризации в weka (Clusterer output)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Интерпретация результатов
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Содержание отчета
- •Литература
- •Приложение а. Интерфейс программы weka
- •Основное окно программы
- •Модуль Explorer
- •Загрузка и предварительная обработка данных (Preprocess)
- •Классификация (Classify)
- •Кластеризация (Cluster)
- •Ассоциативные правила (Associate)
- •Отбор атрибутов (Selecting attributes)
- •Визуализация (Visualizing)
- •Модуль Experimenter
- •Модуль Knowledge flow
- •Приложение б. Варианты индивидуальных заданий
- •Приложение в. Контрольная работа для заочников
Пропущенные значения
При работе с данными, в которых есть пропущенные значения атрибутов для некоторых экземпляров, существуют следующие стратегии поведения:
1. Отбросить экземпляры с пропущенными значения. Такой подход применяется прежде всего для данных, у которых пропущено значении целевого атрибута (для задач классификации).
2. Заполнить пропущенные значения вручную.
3. Применить глобальную константу (например, “Unknown”).
4. Использовать некоторое статистически рассчитанное значение (среднее арифметическое, медиану, моду) по всей выборке.
5. Использовать статистическое значение, рассчитанное для экземпляров, относящихся к такому же классу, как и рассматриваемый экземпляр.
6. Использовать наиболее вероятное значение для атрибута. Это значение может быть рассчитано при помощи регрессии, дерева решений либо других математических подходов.
Нормализация данных
Единицы измерения, которые используются в некотором атрибуте, могут повлиять на результаты анализа. Так, например, преобразование единиц измерения из метров в дюймы для атрибута «высота» или преобразование из килограммов в фунты для атрибута «вес» могут привести к различным результатам. В общем случае, выражение некоторого атрибута в более мелких единицах измерения приведут к более широкому диапазону значений для этого атрибута, что может привести к большей значимости или же весу данного атрибута.
Чтобы избежать зависимости от выбора единиц измерения данные должны быть нормализованы или нормированы. Нормализация подразумевает преобразование данных таким образом, чтобы диапазон значений, принимаемых атрибутом, уменьшился либо стал равным общепринятым [-1;1] или [0;1].
При помощи нормализации данных делается попытка придать всем атрибута одинаковый вес. Нормализация наиболее полезна в задачах с применением нейронных сетей, задачах классификации или кластеризации, алгоритмы которых основаны на вычислении расстояний.
Существует множество методов нормализации данных. Рассмотрим некоторые из них.
Пусть у нас есть числовой атрибут А с измеренными значениями a1, a2, …, an.
Минимаксная нормализация. Пусть mina – минимальное значение данного атрибута, maxa – максимальное значение атрибута. Новый диапазон для атрибута [new_mina; new_maxa]. Тогда:
.
Нормализация
с нулевым средним.
Значения атрибута нормализуются при
помощи математического ожидания
и стандартного отклонения
атрибута:
.
Нормализация при помощи десятичной шкалы.
,
где j – наименьшее целое число, такое что max(|ai|)<1.
Дискретизация числовых атрибутов
Дискретизация числовых атрибутов является обязательной и необходимой в случае применения алгоритмов интеллектуального анализа, работающих только с категориальными атрибутами. Кроме того, алгоритмы, работающие с числовыми атрибутами часто дают лучшие результаты либо же работают быстрее, если значения атрибутов предварительно приведены к дискретной формы.
Методы дискретизации могут быть классифицированы по двум параметрам:
используется ли в них информация о классах: дискретизация с учителем или дискретизация без учителя;
в каком направлении происходит дискретизация:
сверху вниз (дискретизация начинается с одной или нескольких точек разделения, а далее полученные интервалы рекурсивно разбиваются; метод разбиения);
снизу вверх (изначально все значения атрибута рассматриваются как потенциальные точки разделения, после чего соседние значения рекурсивно объединяются, образуя интервалы; объединение).
