- •Методичні вказівки
- •Содержание
- •Введение
- •Знакомство с программой интеллектуального анализа данных weka и подготовка данных Цель работы
- •Основные теоретические сведения
- •Формат файлов данных arff
- •Предварительная обработка данных
- •Отбор атрибутов
- •Пропущенные значения
- •Нормализация данных
- •Дискретизация числовых атрибутов
- •Выборка (sampling)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Параметры настройки алгоритмов классификации
- •Методы оценки ошибок классификации
- •Критерии сравнения работы классификаторов
- •Интерпретация результатов классификации в weka (Classifier output)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Методы оценки качества прогнозирования
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Параметры настройки алгоритмов
- •Интерпретация результатов кластеризации в weka (Clusterer output)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Интерпретация результатов
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Содержание отчета
- •Литература
- •Приложение а. Интерфейс программы weka
- •Основное окно программы
- •Модуль Explorer
- •Загрузка и предварительная обработка данных (Preprocess)
- •Классификация (Classify)
- •Кластеризация (Cluster)
- •Ассоциативные правила (Associate)
- •Отбор атрибутов (Selecting attributes)
- •Визуализация (Visualizing)
- •Модуль Experimenter
- •Модуль Knowledge flow
- •Приложение б. Варианты индивидуальных заданий
- •Приложение в. Контрольная работа для заочников
Приложение б. Варианты индивидуальных заданий
Выбрать из таблицы по номеру варианта (N) из журнала набор данных для исследования. Исследовать поставленную задачу, характеристики набора данных (атрибуты), при необходимости произвести предварительную обработку данных и уменьшить число объектов в выборке, выделить аномалии и выбросы, выбрать стратегию работы с объектами с пропусками, определить стратегию тестирования обученных алгоритмов. Для каждого из алгоритмов провести исследования их работы на поставленной задаче, изменяя параметры настройки алгоритма.
Таблица А.1 – Наборы данных для задачи классификации
1 |
adult.arff |
9 |
wine.arff |
2 |
bank-data.arff |
10 |
credit.arff |
3 |
breast-cancer.arff |
11 |
vote.arff |
4 |
breast-w.arff |
12 |
spambase.arff |
5 |
labor.arff |
13 |
zoo.arff |
6 |
postoperative.arff |
14 |
tic-tac-toe.arff |
7 |
heart-statlog.arff |
15 |
mushroom.arff |
8 |
diabetes.arff |
16 |
vehicle.arff |
Для решения задачи регрессии выбрать одну задачу по номеру варианта (N mod 7)+1. Вторая задача на собственный выбор.
Таблица А.2 – Наборы данных для задачи регрессии
1 |
cpu.arff’ |
5 |
housing.arff |
2 |
auto_mpg.arff |
6 |
bodyfat.arff |
3 |
winequality-red.csv |
7 |
fishcatch.arff |
4 |
autoprice.arff |
8 |
auto93.arff |
Приложение в. Контрольная работа для заочников
1) ЛР №1 задание пункт 10. Выбрать индивидуальное задание (набор данных) и в отчет вставить полное описание данных: какая задача решается, сколько экземпляров в выборке, сколько атрибутов, их типы и значения, какой атрибут показывает класс экземпляра, сколько в выборке объектов каждого класса и т.п.
Выборку в отчет вставлять НЕ нужно!
Если выборка не устраивает, можно выбрать другую выборку. Главное, чтобы не было одинаковых вариантов в группе.
2) ЛР №2. Решить задачу классификации для индивидуального набора данных.
Методы: 1R , покрывающий метод PRISM, наивная Баейесовая классификация, метод построения деревьев решений С4.5, метод опорных векторов, метод k ближайших соседей.
В отчете представить результаты по каждому из методов. Не скриншоты, а содержимое окна результатов.
Если модель очень большая, ее можно сократить. Для деревьев решений привести графическое представление дерева (текстовое представление не нужно!).
3) ЛР №4. Метод кластеризации K-средних применить для собственной выборки. При этом количество искомых кластеров равняется количеству классов. Соотнести найденные кластеры и классы.
4) Привести теоретические сведения по одному из методов классификации (перечень в пункте 2) и по методу К-средних. Основная идея методов.
5) При защите работы знать, что такое интеллектуальный анализ данных, основные решаемые задачи. Определение задач классификации, регрессии, кластеризации, поиска ассоциативных правил. Привести примеры.
