Скачиваний:
0
Добавлен:
12.04.2025
Размер:
976.94 Кб
Скачать

ГУАП

КАФЕДРА № 82

ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ

ПРЕПОДАВАТЕЛЬ

доцент, канд. техн. наук

А.Д. Державина

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №3

МЕТОДЫ ПОДГОТОВКИ ДАННЫХ ДЛЯ ОБРАБОТКИ И ЗАДАЧА РАНЖИРОВАНИЯ

по курсу: ИНТЕЛЛЕКТУАЛЬНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ

РАБОТУ ВЫПОЛНИЛ

СТУДЕНТ гр. №

4116

подпись, дата

инициалы, фамилия

Санкт-Петербург 2024

Цель работы: изучение методов подготовки данных для дальнейших исследований и приобретения навыков работы со встроенной обучающей системой и системой помощи.

Ход работы

Импортирован датасет, содержащий данные о заказах еды из разных ресторанов Нью-Йорка (Рисунок 1).

Рисунок 1 – Набор данных New_York_food

С помощью оператора SelectAttributes выбраны все атрибуты кроме столбцов с идентификатором заказчика и заказа, а также с временем приготовления еды (Рисунок 2-4).

Рисунок 2 – Процесс выбора атрибутов

Рисунок 3 – Настройки процесса выбора атрибутов

Рисунок 4 – Результат выполнения процесса

Далее добавлен оператор сортировки по столбцу с ценой в порядке возрастания (Рисунок 5-7).

Рисунок 5 – Процесс сортировки

Рисунок 6 – Настройка параметров оператора сортировки

Рисунок 7 – Результат процесса

Добавлен оператор фильтрации, чтобы рейтинг был отображен, а время доставки от 15 до 25 минут (Рисунок 8-9)

Рисунок 8 – Настройка оператора Filter_Examples

Рисунок 9 – Результат работы оператора фильтрации

Построена диаграмма рассеяния зависимости стоимости заказа от времени доставки (Рисунок 10).

Рисунок 10 – Диаграмма рассеяния

Можно сделать выводы, что стоимость заказа и время доставки не имеют четкой зависимости друг от друга. Значения рейтинга равномерно распределены по разным значениям стоимости и времени доставки.

К полученному набору данных применена операция ранжирования, сначала данные сортируются по возрастанию рейтинга, затем по возрастанию времени доставки заказа (Рисунок 11-12).

Рисунок 11 – Процесс ранжирования

Рисунок 12– Результат работы процесса

К полученному набору добавлена фильтрация, чтобы в датасете были только азиатские кухни (Рисунок 13-14).

Рисунок 13 – Фильтрация по кухням

Рисунок 14 – Результат работы оператора фильтрации

Рисунок 15– Диаграмма рассеяния

График показывает, что китайская и японская кухни имеют большее количество заказов. Для китайской и японской кухонь цена большинства заказов находится в диапазоне от 5 до 20. Также можно заметить, что время доставки не всегда напрямую связано с стоимостью заказа.

Вывод: в ходе выполнения лабораторной работы выполнена предобработка данных, использовались операторы выбора атрибутов, сортировки, фильтрации. Также выполнена визуализация полученного набора данных

Ответы на контрольные вопросы:

  1. Из каких разделов состоит пошаговое руководство по продукту?

Начало, подготовка данных, построение модели, сотрудничество и масштабирование, использование Hadoop.

  1. Как можно найти интересующий вас оператор RapidMiner?

В левом углу (вкладка Operators) главного окна через поисковую строку.

ПКМ внутри процесса > Insert Operators.

  1. Как можно узнать назначение входов и выходов оператора?

Навести курсор на название входа или выхода

  1. Как программируются операторы?

Подключение входов или выходов, настройка параметров оператора

  1. Каково назначение режима визуализации результатов?

Представить полученный набор данных в удобном для восприятия виде.

  1. Какие возможности графического представления данных?

Линейные графики, гистограммы, диаграммы рассеивания, круговые диаграммы, столбчатые диаграммы,

  1. Как реализована задача фильтрации в RapidMiner?

Filter Examples - фильтрует строки на основе условий.

Filter Examples Range – фильтрует на основе диапазона значений.

  1. Как реализована задача сортировки в RapidMiner?

Оператор Sort и настройка его параметров.

  1. Как можно удалить столбец данных?

Оператор Select Attributes

Оператор Remove Useless Attributes — оператор, который автоматически удаляет столбцы, не содержащие полезной информации.

  1. Как можно реализовать сортировку данных в таблице по нескольким параметрам?

С помощью нескольких операторов Sort или одного оператора с несколькими условиями сортировки.

Соседние файлы в предмете Интеллектуальные информационные системы