Скачиваний:
50
Добавлен:
07.11.2020
Размер:
965.8 Кб
Скачать

ГУАП

КАФЕДРА № 82

ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ

ПРЕПОДАВАТЕЛЬ

доцент

В.С. Блюм

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №1

Начальное знакомство со средой RapidMiner и подготовка исходных данных

по курсу: ИНТЕЛЛЕКТУАЛЬНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ

РАБОТУ ВЫПОЛНИЛ

СТУДЕНТ ГР.

подпись, дата

инициалы, фамилия

Санкт-Петербург 20

Цель работы: получение начальных навыков работы с программным комплексом RapidMiner.

Ход работы:

При входе в программу сразу открывается дополнительное окно нового проекта. Тут я выбираю в вкладке Start режим Blank.

В папке Samples можно ознакомится в готовых наборах данных (рисунок 1).

Рисунок 1 - Пример доступного набора Products

Колонки в таблице (атрибуты) представляют из себя описание свойства объекта, которого мы рассматриваем. В данном случае – товара(продукта). Строки (экземпляры) – записи данных, определяющих само свойство.

Далеея открыл 3 набора Titanic (рисунок 2), Titanic Unlabeled (рисунок 3) и Titanic Training (рисунок 4).

Рисунок 2 - Набор Titanic

Рисунок 3 - Набор Titanic Unlabeled

Рисунок 4 - Набор Titanic Training

Первый (Titanic) совмещает в себе всю информацию о пассажирах. В Titanic Unlabeled нет атрибутов «выживший», имен людей. Тут является главным лишь отстальные характеристики. В Titanic Training столбец «выживший» определен как Label, для особого акцентирования именно на этом свойстве.

В режиме Statistics (рисунок 5) представлены статистические данные по каждому атрибуту. Минимальные, максимальные и средние значения. Ужатая диаграмма. Режим Visualizations (риснок 6) дает возможность выстроить практически любую возможную диаграмму для наглядности данных (тут я настроил отношение возраста и выживаемости)

Рисунок 5 - режим Statistics

Рисунок 6 - режим Visualizations

Теперь для создания своего набора я сделал свою папку(репозиторию) «1raz» (рисунок 7). Выделил её, затем нажал «Import Data», где выбрал уже готовый файл Excel c таблицей данных (рисунок 8).

Рисунок 7 - создание репозитория

Рисунок 8 - импортирование данных из Excel

Далее я настроил получаемый набор данных, проверил правильность автоматически подобранных типов данных (рисунок 9).

Рисунок 9 - настройка полученных данных

Готово. Данные из Excel перенесены в RapidMiner (рисунок 10).

Рисунок 10 - полученный набор

Статистические данные (рисунок 11). Здесь становится понятно, что к 2010г количество выпущенных игр достигло максимума и остановилось на этом уровне.

Рисунок 11 - статистический режим моего набора

В режиме визуализаций мне стало интересно посмотреть соотношение количества игр по жанрам.

Рисунок 12 - круглая диаграмма по жанру игр

Вывод: благодаря этой лабораторной работе, я начал знакомство с RapidMiner, ознакомился с составом доступных наборов данных и создал свой.

Контрольные вопросы

  1. Каково назначение пакета Rapid Miner?

Rapid Miner представляет собой мощную многопользовательскую платформу, которая служит для создания, передачи и обслуживания наукоемких данных. Платформа открыта и расширяема для поддержки всех потребностей научных данных, ускоряет создание полных аналитических рабочих процессов от подготовки данных для моделирования до развертывания бизнеса в единой среде, значительно повышая эффективность и сокращая время, необходимое для создания проектов в области данных.

  1. Какой тип лицензии на использования пакета Rapid Miner, каковы права и обязанности пользователя пакета?

Лицензия AGPL (свободная лицензия). Есть доступ к 10,000 колонок и ограничение в один логический процесс.

  1. Что хранится в папках вкладки Repository?

По умолчанию Rapid Miner поставляется с различными наборами образцов данных и процессами в каталоге Samples вашего хранилища. Когда этот раздел будет завершен, ваш локальный репозиторий будет включать новый набор данных и новые процессы. На панели «Репозиторий» вы также можете получить доступ к облачному репозиторию.

  1. Что такое атрибуты набора данных?

Атрибутами в RM являются колонки, которые харакеризуют рассматриваемый объект (сущность).

  1. Какой смысл параметра Name?

Поле Name есть ничто иное как идентификатор колонки (атрибута). Уникальный признак объекта, позволяющий отличать его от других объектов.

  1. Какой смысл параметра Type?

Это определенный тип атрибута. Служит для правильной задачи параметра.

  1. Какие типы данных могут быть использованы в Rapid Miner?

Название

Описание

Примеры

Integer

Целые числа

[17 – 91], [1 - 300]

Real

Дробные числа

[0.030 – 9.864], [0.167 – 80]

Nominal

Перечисляемый

[overcast, rain,sunny], [Iris-setosa, Iris-versicolor, Iris-virginica]

Numerical

Числовой

Для числовых целых значений

Binominal

Двухвариантный

[female, male], [no, yes]

Polynominal

Многовариантный

[ALZ-112, Adara's Rose, Adravil, Alprazaline, Ambrosia, Anabiotics, Anti-Ague, Antidote, Aqua Cure, Aquasol, Asëa Aranion, Athelas, Athsat, Axelavier, Azoth, …]

Date

Дата

Любая дата

Text

Текст

Любое время

  1. Какой смысл параметра Range?

Диапазон изменения или конкретные значения переменных поля. Для ограничения возможных значений.

  1. Какой смысл параметра Missing?

Это возможные потерянные значения переменных. Это поле не нулевое, оно просто не задано.

  1. Какой смысл параметра Role?

Идентификационный тег или функция атрибута. Роли сообщают RapidMiner об особом значении или обработке атрибута. RapidMiner имеет несколько предопределенных ролей и поддерживает возможность создавать свои собственные роли. Label  имеет первостепенное значение в определении цели для прогнозирования. Любой атрибут без назначенной роли называется обычным атрибутом.

Соседние файлы в предмете Интеллектуальные информационные системы