Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Отчет №1.docx
Скачиваний:
52
Добавлен:
10.05.2018
Размер:
619.57 Кб
Скачать

Введение

Xelopes свободно распространяемая библиотека, обеспечивающая универсальную основу для стандартного доступа к алгоритмам data mining. Она была разработана немецкой компанией ProdSys в тесном сотрудничестве со специалистами российской фирмы ZSoft. Для удобной работы с библиотекой с ней поставляется GUI интерфейс GUI Xelopes, реализованный в виде отдельного приложения. Он позволяет выполнять следующие основные функции:

  • Загрузить данные представленные в виде текстового файла формата arff и просмотреть их в табличном виде;

  • Получить информацию об атрибутах данных (полях таблицы);

  • Получить статическую информацию об исходных данных;

  • Построить модель data mining;

  • Для ассоциативных правил, деревьев решений и дейтограмм визуализировать построенную модель;

  • Сохранить модель и применить ее в дальнейшем;

  • Реализовать алгоритм, строящий unsupervised модели;

  • Реализовать алгоритм, строящий supervised модели;

Задание 1. Знакомство с gui интерфейсом библиотеки data mining алгоритмов.

Установим Eclipse (среду разработки Java приложений), импортируем библиотеку Xelopes. Перед установкой и настройкой приложения установим JRE и JDK версии 1.6.0_07 для корректной работы библиотеки и eclipse.

Установим переменное окружение для JDK_HOME (рисунок 1).

Рис.1 Переменное окружение JAVA

Если значение переменной JAVA_HOME корректно сохранилось, то после экспорта приложения XelopesGuiLast (рисунок 2) у нас в папке «JRE System Library» должна быть указана соответствующая версия JAVA (рисунок 3).

Рис.2 Экспорт приложения в Workspace

Рис.3 Корректная версия Java для нашего XelopesGuiList

Следующим шагом мы запустим наше приложение с помощью Run History (рисунок 4).

Рис.4 Запуск приложения

При успешной компиляции мы увидим главное окно XelopesGuiList (рисунок 5).

Рис.5 XelopesGuiList

Интерфейс GUI Xelopes позволяет получить подробную информацию о атрибутах загруженных данных.

Откроем файл transact.artf в табличной форме (рисунок 6).

Рис.6 Открытый файл transact.artf

Откроем файл transact.artf c помощью Display Data Description для получения атрибутов (рисунок 7).

Рис.7 Получение атрибутов transact.artf

Откроем файл weather.artf в табличной форме (рисунок 8).

Рис.8 Получение атрибутов weather.artf

Откроем файл transact.artf и weather.artf c помощью Display Data Description для получения атрибутов (рисунок 9).

Рис.9 Получение атрибутов weather.artf

Рис.10 Категориальный атрибут transact.artf

В Xelopes различают два основных типа атрибутов: категориальный и числовой. В зависимости от типа меняется и информация об атрибуте. Для любого атрибута выводится его название и тип.

Для категориальных атрибутов (рисунок 9) отображается информация о принимаемых им значениях (категориях): количестве (Number of categories) и списке значений (Categories). Если количество категорий не ограничено, то будет отмечен флаг unbounded categories.

Для числовых атрибутов (рисунок 11) отображается информация о наибольшем (Upper) и наименьшем (Lower) значениях.

Рис.11 Информация о числовом атрибуте transact.artf

Кроме того, в зависимости от свойств атрибута могут быть установлены следующие флажки:

  • Cyclic – если значения атрибута циклические (т. е. может быть определено понятие расстояния)

  • Discrete – если значениями атрибута являются дискретные величины

  • Time – если атрибут представляет собой время.

Для получения статистической информации о данных необходимо нажать кнопку Display Descriptive Statistics на панели инструментов или выбрать пункт меню File | Statistics. В открывшемся диалоговом окне Statistics необходимо выполнить настройку отображаемой информации (рисунок 12).

Рис.11 Настройка получения статистической информации transact.artf

Необходимо настроить следующие параметры:

  • Тип отображаемой информации

  • Атрибуты, откладываемые по осям X и Y

  • Мерность отображаемой информации: в 2-х или 3-х мерном пространстве.

При выборе по оси Y количество и наименования, а по оси X выбрали цену, то у нас получится следующий график для transact.artf .

Рис.11 График для transact.artf

При выборе количества и прогноза по оси Y, а по оси X прогноз, то у нас получится следующий график для weather.artf (рисунок 12).

Рис.12 График для weather.artf

В результате применения методов data mining должна быть построена mining модель.

Для построения доступны следующие модели:

  • ассоциативные правила (Association Rules Mining Model);

  • деревья решений (Decision Tree Mining Model);

  • математическая зависимость, построенная методом SVM (Support Vector Machine Mining Model);

  • последовательности (Sequential Mining Model);

  • модель сиквенциального анализа (Customer Sequential Mining Model);

  • разделяемая кластерная модель (Partition Clustering Mining Model);

  • центрированная кластерная модель (CDBased Clustering Mining Model);

  • иерархическая кластерная модель (Hierarchical Clustering Mining Model).

Модель Decision Tree Mining Model weather.artf представлена на рисунке 13.

Рис.13 Decision Tree Mining Model weather.artf

Модель Decision Tree Mining Model transact.artf представлена на рисунке 14.

Рис.14 Decision Tree Mining Model transact.artf

Модель Hierarchical Clustering Mining Model transact.artf представлена на рисунке 15.

Рис.15 Hierarchical Clustering Mining Model transact.artf

Модель Hierarchical Clustering Mining Model weather.artf представлена на рисунке 16.

Рис.16 Hierarchical Clustering Mining Model weather.artf

Association Rules Mining Model weather.artf (рисунок 17).

Рис.17 Association Rules Mining Model weather.artf

Построенная модель Decision Tree Mining Model к данным из файла weather-nominal.arff (рисунок 18).

Рис18. Decision Tree Mining Model weather-nominal.arff

  1. Какую статистическую информацию можно получить средствами GUI Xelopes?

Можно получить следующие типы информации:

Количество объектов (Item Count)

Минимальные (Minimal) и максимальные (Maximal) значения

Предел (Range) значений

Сумма (Sum) значений

Среднее значение (Mean) др.

  1. Какие существуют типы атрибутов и их характеристики.

В Xelopes различают два основных типа атрибутов: категориальный и числовой. В зависимости от типа меняется и информация об атрибуте. Для любого атрибута выводится его название и тип.

Для категориальных атрибутов отображается информация о принимаемых им значениях (категориях): количестве (Number of categories) и списке значений (Categories). Если количество категорий не ограничено, то будет отмечен флаг unbounded categories.

Для числовых атрибутов отображается информация о наибольшем (Upper) и наименьшем (Lower) значениях. Кроме того, в зависимости от свойств атрибута могут быть установлены следующие флажки:

  • Cyclic – если значения атрибута циклические (т. е. может быть определено понятие расстояния)

  • Discrete – если значениями атрибута являются дискретные величины

  • Time – если атрибут представляет собой время.

  1. Какие mining модели можно построить средствами GUI Xelopes.

Для построения доступны следующие модели:

  • ассоциативные правила (Association Rules Mining Model);

  • деревья решений (Decision Tree Mining Model);

  • математическая зависимость, построенная методом SVM (Support Vector Machine Mining Model);

  • последовательности (Sequential Mining Model);

  • модель сиквенциального анализа (Customer Sequential Mining Model);

  • разделяемая кластерная модель (Partition Clustering Mining Model);

  • центрированная кластерная модель (CDBased Clustering Mining Model);

  • иерархическая кластерная модель (Hierarchical Clustering Mining Model).

  1. Какие существуют mining модели не реализованные в GUI Xelopes.

В данной версии GUI Xelopes визуализируются только три вида моделей:

  • Ассоциативные правила

  • Деревья решений

  • Иерархическая кластерная модель в виде дейтограмм.

Для остальных моделей при попытке визуализации происходит отображение модели в формате PMML. То есть для них действия Browse Model и View PMML Presentation будут иметь одинаковый результат.

  1. Какие действия можно выполнить с моделью.

Визуализировать модель (Browse Model)

Применить модель (Apply Model)

Показать модель в виде PMML (View PMML Presentation)

Записать модель в PMML формате (Save Model as PMML)

  1. Какие модели могут быть применены к другим данным и почему.

Модели строящиеся для задач классификации и регрессии используются для предсказательных целей на новых данных. Следовательно, они могут быть применены к другим данным.