- •Методичні вказівки
- •Содержание
- •Введение
- •Знакомство с программой интеллектуального анализа данных weka и подготовка данных Цель работы
- •Основные теоретические сведения
- •Формат файлов данных arff
- •Предварительная обработка данных
- •Отбор атрибутов
- •Пропущенные значения
- •Нормализация данных
- •Дискретизация числовых атрибутов
- •Выборка (sampling)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Параметры настройки алгоритмов классификации
- •Методы оценки ошибок классификации
- •Критерии сравнения работы классификаторов
- •Интерпретация результатов классификации в weka (Classifier output)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Методы оценки качества прогнозирования
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Параметры настройки алгоритмов
- •Интерпретация результатов кластеризации в weka (Clusterer output)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Интерпретация результатов
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Содержание отчета
- •Литература
- •Приложение а. Интерфейс программы weka
- •Основное окно программы
- •Модуль Explorer
- •Загрузка и предварительная обработка данных (Preprocess)
- •Классификация (Classify)
- •Кластеризация (Cluster)
- •Ассоциативные правила (Associate)
- •Отбор атрибутов (Selecting attributes)
- •Визуализация (Visualizing)
- •Модуль Experimenter
- •Модуль Knowledge flow
- •Приложение б. Варианты индивидуальных заданий
- •Приложение в. Контрольная работа для заочников
Предварительная обработка данных
Данные обладают таким параметром как качество, которое включает следующие параметры: точность, полнота, непротиворечивость, своевременность, достоверность и интерпретируемость.
Для повышения качества данных и подготовки их к обработке методами интеллектуального анализа существует несколько технологий предварительной обработки данных.
К основным задачам предварительной обработки данных относятся следующие.
Задача очистки данных, которая используется для заполнения пропущенных значений, удаления шумов, удаления противоречивости, идентификации и удаления выбросов.
Задача интеграции данных их различных источников (баз данных, кубов данных, файлов) в одно согласованное хранилище. Данная задача подразумевает объединение данных и устранение несогласованностей, дубликатов, конфликтов.
Задача прореживания и сжатия данных используется для уменьшения размера данных с минимизацией потери информации. Данная задача включает снижение размерности данных (отбор атрибутов) и численное уменьшение (построение математических моделей для значений атрибутов).
Задача преобразования данных. К ней относятся нормализация, дискретизация, квантование, сглаживание, агрегация данных, отображение данных при помощи ядерных функций.
Также к предварительной обработке данных можно отнести преобразование задачи множественной классификации в бинарную.
Отбор атрибутов
В множестве практических ситуаций наборы данных содержат слишком много атрибутов, что увеличивает время обучения алгоритмов. При этом многие из атрибутов являются незначимыми или избыточными. Таким образом, данные должны быть предобработаны с целью отбора некоторого минимального подмножества атрибутов для обучения.
Для выбора хорошего подмножества атрибутов существует два подхода. Первый из них основан на независимой оценке статистических или каких-то других характеристиках набора данных. Он называется фильтрацией и происходит до начала непосредственного анализа данных.
Во втором подходе отбор атрибутов выполняется внутри методов интеллектуального анализа. Такой подход называется методом обертки (wrapper method), т.е. алгоритм обучения «обернут» в процедуру отбора атрибутов.
Сами методы интеллектуального анализа также могут быть использованы для отбора атрибутов.
К примеру, можно применить алгоритм построения деревьев решений к полному набору данных и затем оставить в наборе только те атрибуты, которые использованы в построенном дереве. Следует заметить, что данный отбор атрибутов не даст никакого эффекта при построении нового дерева, однако окажется полезен при использовании других методов анализа (например, метода ближайших соседей).
Другая возможность – это применить к данным алгоритм, который строит линейную модель (например, метод опорных векторов), и ранжировать атрибуты на основании величин коэффициентов модели. Атрибуты с наименьшими коэффициентами могут быть отброшены. Данную процедуру можно повторить несколько раз.
Кроме того для отбора атрибутов могут быть применены методы анализа, основанные на сравнении близости экземпляров выборки. Для сравнения берутся соседние экземпляры одинаковых и разных классов. Если у экземпляров одного класса значение определенного атрибута различно, то можно предположить, что данный атрибут является незначимым и его вес должен быть уменьшен. С другой стороны, если у экземпляров различных классов атрибут имеет различное значение, то данный атрибут значимый и его вес должен быть увеличен. После повтора данной процедуры несколько раз, происходит отбор атрибутов с наибольшими весами. К недостаткам данного метода можно отнести тот факт, что данный метод не сможет определить избыточные атрибуты, связанные тесной корреляционной связью.
Обычно поиск в пространстве атрибутов происходит в одном из двух направлений: сверху вниз (начиная с полного набора атрибутов и отбрасывая на каждом шагу наихудший из них) либо снизу вверх (начиная с пустого множества атрибутов и добавляя наилучший из оставшихся) (табл. 1.1).
Таблица 1.1 – Поиск в пространстве атрибутов
Прямой выбор (forward selection) |
Обратное исключение (backward elimination) |
Применение деревьев решений |
Начальное множество атрибутов {A1, A2, A3, A4, A5} |
||
{} => {A1} => {A1, A4} => {A1, A4, A5} |
{A1, A2, A3, A4, A5} =>{A1, A2, A4, A5} =>{A1, A4, A5}
|
|
|
|
=>{A1, A4, A5} |
В некоторых случаях для улучшения точности классификации и лучшего понимания атрибутов для решения поставленной задачи возможно построение нового атрибута на основе существующих. К примеру, можно ввести новый атрибут «Площадь» на основе существующих атрибутов «высота» и «ширина».
