Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИАД_методичка.doc
Скачиваний:
70
Добавлен:
07.02.2016
Размер:
622.59 Кб
Скачать
      1. Визуализация (Visualizing)

Данная вкладка позволяет представить исходные данные в графическом виде.

При открытии вкладки визуализации данных отображается диаграмма разброса данных для всех признаков с цветовой кодировкой согласно выбранному классу. Размеры каждой из диаграмм могут быть изменены, могут быть изменены размеры точек. В данные может быть добавлен шум (jitter) для обнаружения слабых точек. Кроме того, каждый график может быть открыт в отдельном окне нажатием на него. Для применения внесенных изменений нужно нажать кнопку «Update».

На отдельном графике можно выбрать отдельные точки при помощи выпадающего списка «Select Instance». На графике можно оставить только выбранные точки, их же можно сохранить в новый файл.

    1. Задание на лабораторную работу

Ознакомиться и получить навыки работы с GUI интерфейсом библиотеки data miningалгоритмов WEKA. Изучить возможности, предоставляемые программой WEKA. Ответить на контрольные вопросы.

    1. Содержание отчета

        1. Тема и цель работы

        2. Задание к работе.

        3. Выводы, содержащие ответы на контрольные вопросы и отображающие результаты выполнения работы и их критический анализ.

    1. Контрольные вопросы

        1. Как загрузить Weka?

        2. Какое назначение модулей Explorer, Knowledge Flow, Experimenter, Command-Line Interface .

        3. Опишите формат arff файла.

        4. Нажмите кнопку Explorer в главном окне программы, загрузите набор данных weather или iris и ответьте на вопросы:

1. Сколько экземпляров в выборке?

2. Назовите имена признаков, их типы и значения.

3. Какой признак является целевым (классом)?

4. На гистограмме внизу справа какие признаки отложены на осях X иY? Как их изменить?

5. Как определить сколько экземпляров каждого класса представлены в выборке?

6. Что происходить по нажатию кнопки Visualize All?

7. Как просмотреть экземпляры в наборе данных? Как сохранить изменения?

        1. Каково назначение вкладок в Explorer Panel?

1. Preprocess panel (предварительная обработка данных)

2. Какие основные источники данных в Weka?

3. Вкладка Classify (Классификация)

4. Вкладка Cluster (Кластеризация)

5. Вкладка Associate (Ассоциативные правила)

6. Вкладка Select Attributes (выбор признаков)

7. Вкладка Visualize (Визуализация)

        1. Какие основные области на вкладке предварительной обработки?

1. Что подразумевается под фильтрацией в Weka?

2. Какая вкладка предназначена для фильтрации данных?

3. Какие два типа фильтров в Weka?

4. В чем различие между двумя типами фильтров? В чем различием между фильтрами признаков и фильтрами экземпляров?

        1. Загрузить набор данных weather.arff (описывает данные для принятия решения о проведении спортивного соревнования при заданных погодных условиях) и выполнить следующие задания:

1. Использовать unsupervised фильтр RemoveWithValues для удаления всех экземпляров у которых признак ‘humidity’ имеет значение ‘high’?

2. Вернуть данных в исходное состояние (отменить работу фильтра).

        1. Загрузить набор данных iris.arff и выполнить следующие задания:

1. Выбрать вкладку визуализации данных.

2. Какова цель визуализации?

3. Выбрать один из графиков и проэкспериментировать с кнопками.

Література

    1. Барсегян А.А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. – СПб.: БХВ-Петербург, 2007. – 384 с.

    2. Weka 3: Data Mining Software in Java http://www.cs.waikato.ac.nz/ml/weka/

    3. http://weka.wikispaces.com/

    4. http://www.machinelearning.ru/wiki/index.php?title=WEKA

    5. http://tunedit.org/repo/Data

    6. http://archive.ics.uci.edu/ml/ – UC Irvine Machine Learning Repository