
Z9411_Чурилов_ИИС_ЛР2
.docxМИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
федеральное государственное автономное образовательное учреждение высшего образования
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
ИНСТИТУТ НЕПРЕРЫВНОГО И ДИСТАНЦИОННОГО ОБРАЗОВАНИЯ
КАФЕДРА 82 |
ОЦЕНКА
ПРЕПОДАВАТЕЛЬ
доцент |
|
|
|
В. С. Блюм |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ЛАБОРАТОРНАЯ РАБОТА №2
|
ПРЕОБРАЗОВАНИЕ ДАННЫХ
|
по дисциплине: Интеллектуальные информационные системы |
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ гр. № |
Z9411 |
|
|
|
А. С. Чурилов |
|
номер группы |
|
подпись, дата |
|
инициалы, фамилия |
Студенческий билет № |
2019/3684 |
|
|
|
Санкт-Петербург 2024
Цель работы: ознакомиться со структурой типов данных RapidMiner и возможностями стандартного преобразования типов данных с помощью встроенных в среду RapidMiner операторов.
Ход работы:
Ознакомимся со структурой типов данных RapidMiner и возможностями стандартного преобразования типов данных с помощью встроенных в среду RapidMiner операторов.
Создадим новый процесс для преобразования типа данных Числовые (numerical) в данные типа Текстовые (nominal).
Для выполнения преобразования выберем встроенный набор данных «Termination Data» (рисунок 1), и оператор Format.
Разработанный блок преобразования приведён на рисунке 2.
Вывод программы с преобразованным типом данных показан на рисунке 3.
Рисунок
1 –Termination Data
Рисунок
2 – Преобразование данных
Рисунок
3 – Строение данных
После этого выполним обратные преобразования и убедимся в корректности полученных результатов (рисунки 4, 5).
Рисунок
4 – Обратное преобразование данных
Рисунок
5 – Результат обратного преобразования
данных
Рисунок
6 – Таблица данных
Контрольные вопросы
Какие типы данных могут быть использованы в RapidMiner?
Следующие термины описывают типы данных, которые RapidMiner присваивает атрибутам. Определение типа данных определяет тип значений, разрешенных для атрибута. RapidMiner поддерживает естественное разделение чисел, текстов и дат. Numeric — это метка для чисел, nominal - для текстов или строк, а date_time - для дат.
Атрибут (attribute): Родительский из всех возможных типов ("любой тип").
Биноминальный (binominal): ровно два значения (например, true/false или yes/no).
Дата (date): Дата без времени (например, 23.12.2014).
date_time: как дата, так и время (например, 23.12.2014 17:59).
путь к файлу (file_path): Номинальный тип данных (используется редко), позволяющий проводить более детальное различие. Может использоваться для пометки столбца как "содержащего только пути к файлам".
целое число (integer): Целое число (например, 23, -5 или 11 024 768).
Номинальный (nominal): Все виды текстовых значений; включает полиномиальные и биномиальные значения.
Числовой (numeric): Все виды числовых значений; включает дату, время, целые и вещественные числа.
Polynominal: Множество различных строковых значений (например, красный, зеленый, синий, желтый).
Реальный (real): Дробное число (например, 11,23 или -0,0001).
Текст (text): Номинальный тип данных, который позволяет проводить более детальное различие (отличать от полиномиального).
Время (time): Время без даты (например, 17:59).
Какой смысл параметра Name?
Параметр Name обычно используется для указания имени оператора или параметра, которому должны быть присвоены определенные значения. Идентификатор колонки (атрибута). Уникальный признак объекта, позволяющий отличать его от других объектов.
Какой смысл параметра Type?
Параметр Type обычно используется для определения типа параметра, который может включать в себя реальные или целые числа, строки и коллекции строк в выпадающих списках.
Какой смысл параметра Range?
Параметр Range обычно используется для указания диапазона значений, которые может принимать другой параметр.
Какой смысл параметра Missing?
Параметр Missing обычно используется для обозначения пропущенных значений в данных. Пропущенные значения могут быть заменены на минимальное, максимальное или среднее значение этого атрибута.
Какой смысл параметра Role?
Параметр Role используется для изменения роли одного или нескольких атрибутов. Роль атрибута описывает, как другие операторы обрабатывают этот атрибут.
Какой смысл роли label?
Роль label очень важна в RapidMiner, она указывает, какой атрибут является предсказываемым классом при использовании любого оператора моделирования.
Какой смысл роли id?
Роль id обычно используется для обозначения уникальных идентификаторов, которые не должны использоваться в моделировании или других целях.
Какой смысл ролей prediction, cluster?
Роль prediction используется для обозначения предсказанных значений после применения модели к новым, неизвестным данным. Оператор “Explain Predictions” в RapidMiner использует эту роль для идентификации атрибутов, которые играют наибольшую роль при формировании предсказания.
Роль cluster обычно используется для обозначения принадлежности примера к определенному кластеру. Это особенно полезно при выполнении задач кластеризации, где целью является группировка схожих примеров вместе.
Какой смысл ролей weight, batch?
Роль weight обычно используется для обозначения весов примеров по отношению к метке. Оператор “Weights to Data” в RapidMiner использует эту роль для преобразования весов атрибутов в ExampleSet.
Роль batch обычно используется для контроля того, как наблюдения назначаются на различные партии в процессе кросс-валидации. Это особенно полезно при выполнении задач обучения с учителем, где данные разбиваются на подмножества (или “партии”) для обучения и тестирования модели.
Вывод
В ходе выполнения лабораторной работы мной был получен опыт работы с преобразованием данных в среде RapidMiner.
Я ознакомился со структурой типов данных RapidMiner и возможностями стандартного преобразования типов данных с помощью встроенных в среду RapidMiner операторов.
Были созданы процессы, преобразующие данные типа Числовые (numeric) в данные типа Текстовые (nominal). Также были выполнены обратные преобразования для проверки корректности результатов.